知名GPU架构师Raja Koduri创立基于RISC-V的AI GPU公司

当地时间周二,曾在ATI、AMD、苹果和英特尔任职的传奇GPU架构师Raja Koduri对外宣布,他创立了一家新的 GPU 初创公司Oxmiq Labs,专注于开发 GPU 硬件和软件 IP,并将其授权给感兴趣的客户。事实上,软件可能是 Oxmiq 业务的核心部分,因为它被设计为与第三方硬件兼容。

Raja Koduri在社交媒体上表示:“我们组建了一支由 GPU 和 AI 架构师组成的世界级团队,他们拥有 500 多年的综合经验。OXMIQ 的可许可 IP 从头开始重新构建 GPU。”

在接受路透社采访时Raja Koduri表示,“我们可能是硅谷 25+ 年来第一家新的 GPU 初创公司,GPU 并不容易。我们希望成为下一代的 Arm。”

Oxmiq Labs指出,公司正在采用软件优先的方法来构建其芯片设计,并开发了一种工具,允许为 Nvidia 的 CUDA 编写的软件程序在非 Nvidia 硬件上运行,“而无需修改代码或重新编译”。

基于 RISC-V 的 AI “GPU”

Oxmiq 开发了一个垂直集成平台,将 GPU 硬件 IP 与功能齐全的软件堆栈相结合,旨在针对 AI、图形和多模态工作负载,在这些工作负载中,并行处理是有益的。

在硬件方面,Oxmiq 提供了一个基于 RISC-V 指令集架构 (ISA) 的 GPU IP 核,称为 OxCore,它将标量、矢量和张量计算引擎集成在一个模块化架构中,可以支持近内存和内存计算能力,可根据特定工作负载进行定制,从而支持nano-agents、原生 Python 加速以及与 SIMT/CUDA 范式的兼容性。

Oxmiq 还提供 OxQuilt,这是一种基于小芯片的片上系统 (SoC) 构建器,使客户能够创建自己的 SoC,这些 SoC 集成了计算集群桥 (CCB,可能集成了 OxCore)、内存集群桥 (MCB) 和基于特定工作负载要求的互连集群桥 (ICB) 模块,以快速且经济高效的方式。

OxCore可通过OxQuilt chiplet 架构无缝扩展,从适用于紧凑型物理 AI 应用的单核到适用于数据中心的数千核。通过OxQuilt,客户可以根据自身需求配置最佳的计算、内存和互连比例,并显著缩短上市时间,降低研发和生产成本,相比当前行业标准方法,大幅降低产品上市时间。

例如,用于边缘应用的推理 AI 加速器可以包含一两个 CCB 和一两个 ICB,推理 SoC 需要更多的 CCB、MCB 和 ICB,而用于 AI 训练的大规模 SoC 可以包含数十个小芯片。Oxmiq 没有透露其 OxQuilt 是否只能构建多小芯片系统级封装 (SiP),或者也设计用于组装单片处理器。

软件是关键

Oxmiq 的软件堆栈可能是该公司必须提供的更重要的产品。该软件包旨在抽象异构硬件的复杂性,并支持跨一系列硬件平台部署 AI 和图形工作负载,而不仅仅是那些使用公司 IP 的硬件平台。软件堆栈的核心是 OXCapsule,这是一个统一的运行时和调度层,用于管理工作负载分配、资源平衡和硬件抽象。该层将应用程序封装到独立的环境中,该公司称之为“异构容器”。这些容器旨在独立于底层硬件运行,使开发人员能够以 CPU、GPU 和 AI 加速器为目标,而无需修改其代码库或处理低级配置。

该堆栈的一个突出组件是 OXPython,这是一个兼容层,可将以 CUDA 为中心的工作负载转换为 Oxmiq 的运行时,并允许基于 Python 的 CUDA 应用程序在非 Nvidia 硬件上未经修改地运行,而无需重新编译。OXPython 将首先不是在 Oxmiq 的 IP 上启动,而是在 Tenstorrent 的 Wormhole 和 Blackhole AI 加速器上启动。事实上,Oxmiq 的软件堆栈从根本上设计为独立于 Oxmiq 硬件,这是其战略的核心部分。

“我们很高兴与 Oxmiq 合作开发他们的 OXPython 软件堆栈,”Tenstorrent 首席执行官 Jim Keller 说。“OXPython 能够将 CUDA 的 Python 工作负载引入 Wormhole 和 Blackhole 等 AI 平台,这对于开发人员的可移植性和生态系统扩展非常有用。它符合我们的目标,即让开发人员开放并拥有他们的整个人工智能堆栈。”

该公司在官网中强调,Oxmiq Labs致力于重构 GPU 全栈架构,从原子到代理,以满足下一代游戏、图形和多模态 AI 的需求。公司开发可授权的 GPU 软硬件 IP,通过集成突破性技术(包括基于 RISC-V 的硅片nano agents、近内存计算和内存计算、先进光传输以及其他创新技术)来平衡灵活性和性能。OXMIQ 的架构旨在实现从物理 AI 设备到数据中心规模的无缝扩展。

联发科已经投资

Oxmiq Labs不像 AMD Radeon或 Nvidia GeForce 那样打造消费级 GPU,但是与 Arm 或 Imagination Technology 又有不同,Oxmiq并未开发构建 GPU 所需的所有 IP 模块:它不支持开箱即用的完整消费级图形功能(例如纹理单元、渲染后端、显示流水线、光线追踪硬件、DisplayPort 或 HDMI 输出),因此,如果 Oxmiq 授权用户计划构建 GPU,他们必须自行在芯片中实现这些功能。

依赖于这些领先团队和积累,该公司也已从包括联发科等移动和人工智能芯片领域的战略参与者那里获得了 2000 万美元种子轮融资,并已实现首轮软件收入。Oxmiq强调,凭借授权优先模式,避免了芯片初创公司依赖昂贵 EDA 工具和物理流片的巨额资金需求,从而实现了卓越的资本效率。

0

付费内容

查看我的付费内容