AI推理时代来临,云天励飞携“算力积木”架构破解国产化难题

图片
近日,云天励飞召开了主题为“智能芯生·推理未来”的媒体沟通会,正式宣布未来将全面聚焦人工智能(AI)推理芯片,并将围绕边缘计算、云端大模型推理、具身智能三大核心布局,打造国产AI推理“加速器”。

“第四次工业革命”来袭,AI推理芯片将是“钥匙”

2022年底,随着OpenAI的生成式AI应用ChatGPT的发布,正式开启了生成式AI的元年。ChatGPT其凭借大语言模型(LLM)的加持,展现出卓越的AI体验,引发了全球的关注。随后,各类大模型技术也开始呈现爆发式的发展,技术迭代周期从“三到五年”缩短至“三个月”。在此背景之下,业界也普遍预期,到2030年通用人工智能(AGI)将会实现。

云天励飞董事长兼CEO陈宁认为,随着2030年AGI的实现,这将成为“第四次工业革命”开始的一个标志性里程碑的时间点。而AGI的实现离不开大算力AI芯片的加持,同样中国的人工智能产业能否抓住这样一个历史机遇,关键也是在AI大算力芯片。这也是为什么过去五年来全球科技竞争都聚焦在AI大算力芯片领域的原因。

过去多年来,AI大模型技术的发展主要是依赖于英伟达的GPU来进行训练。但是随着AI大模型技术的逐渐成熟,模型调用成本显著降低,AI技术的发展也开始由训练阶段转向以应用为导向的推理阶段,特别是随着端侧及边缘算力的提升,面向推理应用的AI智能体(Agent)开始在端侧及边缘加速落地,赋能千行百业。

图片

陈宁指出:“我们正在由AI训练时代进入到AI推理时代(以Deepseek开源等为标志)。如果说AI训练是‘发电’,那么AI推理就是‘用电’。AI推理时代意味着AI应用普惠化、无处不在(Agent成本极大降低),人人将拥抱AI。”

图片

在陈宁看来,随着“AI推理时代”的到来,中国人工智能产业也将迎来两大机遇:未来五年,以AI大模型、算法和推理芯片为核心的AI技术重新定义所有电子产品;未来五到十年,全球将会构建一张无处不在的低成本、高效率的AI推理算力网络。而要抓住这两大机遇,那么就离不开AI推理芯片的支撑。

11年五代NPU三大SoC系列,全面聚焦AI推理需求

成立于2014 年的云天励飞,一开始就聚焦于通过自研的 NPU(神经网络处理器) 来降低 AI 算法计算成本,并且当时还用 NPU 课题申报了政府的人才引进项目,并且获得了第一名,得到了研发资金的支持。可以说,芯片技术,正是云天励飞初期获得投资的关键。

云天励飞的NPU内核是基于自研指令集架构,能够深入匹配特定应用场景,并在指令层面实现更高效的优化。这种深度定制使NPU内核在性能、功耗与面积之间实现更优权衡,从而以合理成本推动AI芯片广泛落地,真正发挥出场景中的最优效能。

经过11年发展,云天励飞陆续推出了五代NPU(最新的是Nova 500)。从Nova 100只支持简单的CNN算法,迭代到2022年研发的Nova400就前瞻性布局了高效的Transformer计算范式。目前正在研发的Nova500,目标是可以高效支持万亿级参数的大模型以及面向具身智能的端到端的运动大模型。

图片

与此同时,云天励飞还针对边缘推理场景(深界系列芯片)、大模型推理场景(深穹系列芯片)、具身智能场景(深擎系列芯片)推出了融合其NPU内核的三大SoC系列芯片平台。

图片

“我们花了10年时间沉淀了一个丰富的产品矩阵,从IP、软件栈、天书多模态大模型,再到以算法的基础的AI推理芯片平台,以及基于这些芯片的一系列设备。还有一系列面向智慧城市、智慧商业、智慧交通等应用的解决方案。”陈宁还特别举例道,去年初收购的智能穿戴设备IDH公司岍丞技术,在云天励飞的NPU IP技术加持下,去年无线蓝牙耳机的销量突破了3000万部,占中国的无线蓝牙耳机市场的35%份额。

图片

得益于在AI推理芯片及相关产品矩阵上的持续投入,云天励飞的业绩也实现了快速增长。财报显示,云天励飞2024年营业收入超9亿元,同比增长81.3%。2025年第一季度营收2.64亿元,同比增长168.23%。“基于AI推理算力需求的增长,相信下半年会继续保持高速增长的态势。”陈宁说道。

图片

首创“算力积木”架构,实现大算力AI推理芯片国产化

需要指出的是,在2020年,云天励飞被美国列入了实体清单,这也迫使云天励飞开始全面转向了国产化供应链,成为了国内最早探索国产AI芯片自主可控的企业之一。

云天励飞CTO李爱军告诉芯智讯:“2020年之时,国产的先进制程工艺并不成熟,绝大多数的芯片设计公司首选的一定不是国产工艺。但是我们当时就做了一个战略性决定,全面切回国产工艺,跟国产工艺一起发展和迭代。为此,云天励飞还首创了‘算力积木’,来解决单个大算力AI芯片的良率和成本问题。”

所谓“算力积木”架构,简单来说,就是在现有国产先进制程工艺的前提下,将原本基于国外更先进制程就能实现一颗单芯片的大算力AI芯片,拆分成多个小算力芯粒,然后利用现有的国产先进制程工艺来进行生产,以解决单个大算力AI芯片的良率和成本问题。之后再根据具体应用的算力需求,通过“搭积木”的方式,将小算力芯粒通过D2D(Die to Die)“Chiplet”的方式组合成一个大的AI芯片,来实现更大的算力。如果需要更高的AI算力,则还可以通过C2C(Chip to Chip) Mesh Torus 互连技术,将多个由小算力芯粒组合成的大算力AI芯片进一步互联成一个计算集群。

李爱军解释道:“我们选择‘算力积木’的架构来规避当时国产工艺限制、密度的限制,通过D2D Chiplet技术实现了单个封装内集成8个‘积木’,实现128T的大算力。另外通过C2C Mesh技术,可以形成一个更大规模的算力池,足以满足千亿级参数的MOE架构大模型的高效的推理。”

为便于“算力积木”的小算力芯粒能轻松实现模块化扩展与任务并行,云天励飞还自研软件栈和工具链,在算力调度、成本控制和封装灵活性方面实现突破。使得该架构不仅支持一次设计、多种封装,也显著提升了芯片的适配效率与产品迭代速度。

云天励飞2023年正式发布的DeepEdge10系列芯片平台,就是基于“算力积木”架构打造的,算力范围覆盖 8T 至 256T,可实现7B、14B、130B、671B 等不同参数量大模型的高效推理,赋能各类智算推理硬件产品。目前,DeepEdge10系列芯片平台已成功适配DeepSeek R1系列模型、国产鸿蒙操作系统以及QwQ-32B模型,可为客户提供全国产的软硬一体化产品和解决方案。

图片

“目前我们的DeepEdge10和DeepEdge10Max是市面上性能和性价比最高的、能够承载3B、7B、14B多模态大模型的单芯片SoC。”李爱军非常有信心地说道。

图片

另据李爱军介绍,目前云天励飞的DeepEdge10芯片平台已经通过了自主可控国产化C级认证,板级方案通过100%国产化率验证。

小结:

正如前文所述,随着AI的发展开始由“AI训练时代”转向“AI推理”时代,AI推理芯片正在成为推动 AI 应用规模化部署的核心动力。

虽然在“AI训练”时代,英伟达凭借CUDA生态构筑了极高的生态壁垒,叠加美西方对中国半导体产业的限制,使得国产替代困难重重。但是,AI推理场景更加的碎片化(端侧/边缘/云),不仅需要结合应用场景进行定制性优化,更需要有足够的性价比,并且这一领域尚未形成一个足够强大的生态壁垒,这也给国产厂商带来了差异化竞争的机遇。

在此背景下,云天励飞从一开始就选择绕开投入巨大且壁垒深厚的传统的AI训练战场,集中有限力量持续聚焦未来更广阔的AI推理市场进行创新可谓是明智之举。

凭借多年来在NPU领域的技术积累和“算力积木”架构创新,云天励飞成功破解了国产先进制程薄弱所带来的对于大算力AI推理芯片的瓶颈,堪称国产替代的最优工程路径。与此同时,云天励飞长期聚焦边缘计算、云端大模型推理加速以及具身智能等领域的持续深耕,也成功构建了一个涵盖‘高性能、低成本、强适配’三大优势的国产 AI 推理芯片与产品体系。

“我们致力于成为中国 AI 推理芯片的领军企业,打造面向 AI 大模型时代的关键‘加速器’,通过高性价比国产算力,推动人工智能在各类场景中的规模落地与快速发展。”陈宁总结说道。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容