摘要:4月7日,全球权威AI基准测试MLPerf发布最新榜单,在聚焦低功耗、高能效的IoT领域Tiny v0.7榜单中,基于平头哥玄铁RISC-V C906处理器的软硬件联合优化方案,取得了全部4个指标的第一,并且达到了其他竞品同类最优性能的10倍以上。这也意味着,玄铁RISC-V C906处理器成为了目前最高能效比的AIoT计算内核。

拿下AI测试四项全球第一!平头哥玄铁CPU的布局与RISC-V的未来-芯智讯

4月7日,全球权威AI基准测试MLPerf发布最新榜单,在聚焦低功耗、高能效的IoT领域Tiny v0.7榜单中,基于平头哥玄铁RISC-V C906处理器的软硬件联合优化方案,取得了全部4个指标的第一,并且达到了其他竞品同类最优性能的10倍以上。这也意味着,玄铁RISC-V C906处理器成为了目前最高能效比的AIoT计算内核。

在该测试结果公布的次日,芯智讯专访了阿里平头哥副总裁孟建熠,以及平头哥生态负责人杨静,希望为大家揭开平头哥玄铁RISC-V C906处理器此次在AI基准测试当中以绝对优势获得4项全球第一背后的秘密。同时,对于平头哥在RISC-V领域最新的技术及生态进展,以及对于RISC-V产业未来的发展,孟建熠与杨静也做了进一步的分享。

RISC-V架构的新机遇:CPU的高能效AI计算

众所周知,目前在CPU市场,英特尔的X86架构及Arm架构仍然是最为主流的指令集架构。其中,x86架构统治着PC及服务器市场,而Arm架构则完全占据了移动市场。不过,在IoT(物联网)市场,由于需求非常碎片化、对功耗、成本也更为敏感,目前不论是X86架构还是Arm架构的处理器,都难以很好的满足IoT市场各种定制化的需求。

相比之下,近几年来兴起的RISC-V架构,由于具有指令非常精简、模块化、可扩展、开源、免费等优点,使得它在IoT市场有着天然的优势,可以更容易地针对物联网市场开发出低功耗、高能效、低成本、满足各种定制化需求的处理器产品。更为关键的是,在IoT市场,x86或Arm都没有绝对的生态上的优势,RISC-V的发展并不会受到压制。再加上开源的RISC-V既能让企业参与全球RISC-V技术协同创新,又能满足相对独立的自主可控发展需求,使得RISC-V受到了众多中国厂商的追捧。

近年来,随着边缘计算以及人工智能(AI)技术的兴起,更多原本放在云端的AI计算被下放到边缘端,这样一方面可以减少对于网络带宽的消耗,同时也能降低数据处理的延时,保障用户数据的安全性,提升用户的整体的AI体验。在此背景之下,AIoT(智能物联网)市场对于边缘AI的能力也提出了更高的要求。

由于AIoT芯片对于成本和功耗都比较敏感,不同的细分市场也有着不同的个性化的需求,这也使得AIoT芯片大多无法像云端或移动端的芯片那样,直接外挂或集成定制的AI加速来负责AI计算,更多是依赖于CPU来进行AI计算。

孟建熠也表示,面对IoT领域的AI需求,其实很多场景都不需要用AI加速器去做,尤其是在面对1Tops以下算力需求的应用当中,通过优化提升CPU的AI能力就已经可以应对,这对于芯片的成本、功耗、可调试性、可开发性都是非常友好的。

相对于x86及Arm等CPU架构来说,由于RISC-V架构CPU本就有着低功耗、低成本的优势,这也使得进一步挖掘RISC-V CPU的AI能力,成为了不少AIoT芯片厂商重点拓展的新方向。特别是在控制功耗的前提下,RISC-V CPU的AI能效的表现则更为关键。

玄铁C906夺得四项AI测试全球第一,意义何在?

此次平头哥半导体玄铁RISC-V C906参与的MLPerf基准测试,是目前全球最权威的AI基准测试之一。Tiny是MLPerf近年新增的聚焦于低功耗、高性价比的IoT场景的性能测试分类,主要用于展示各芯片厂商在应用日益广泛的IoT智能市场情景中的软硬件性能和优化能力。

据了解,此次在本次Tiny v0.7的测试中,参与竞争的CPU架构多样,涵盖了Arm、RISC-V架构和自研架构等。在不使用加速器的情况下,阿里基于平头哥玄铁RISC-V C906处理器内核——全志D1提交的软硬件性能优化结果,在满足精度要求的同时,刷新了全部4个benchmark(主要是视觉唤醒、图像分类、语音唤醒及异常监测)性能指标的纪录,创造了RISC-V架构在MLPerf Tiny基准测试有史以来的最好成绩。

拿下AI测试四项全球第一!平头哥玄铁CPU的布局与RISC-V的未来-芯智讯

△MLPerf网站展示的玄铁C906的四项测试

从Tiny v0.7推理性能数据对比来看,玄铁C906的四项测试得分分别达到了其他机构最优性能的12.6倍、20.8倍、16.2倍和10.9倍以上。足见玄铁C906在AIoT领域的性能优势。

拿下AI测试四项全球第一!平头哥玄铁CPU的布局与RISC-V的未来-芯智讯

△权威AI榜单MLPerf Tiny V0.7性能数据对比

据了解,在AI Benchmark领域,过去大家看重的都是芯片的AI性能,在这块MLPerf已经做到了国际公认的权威。经过近几年的发展,特别是在IoT领域,芯片的AI能效表现越来越受到重视,MLPerf也对应的推出了针对IoT领域的AI能效的基准测试Tiny。

孟建熠告诉芯智讯:“由于此前阿里在AI能效方面一直有较多的布局和积累,当Tiny这个测试推出之后,我们自然就想来反映一下自身的能力,于是就去参与了测试,结果四个指标都拿到了第一,证明了我们的技术路线是正确的。”

需要特别指出的是,该测试成绩是在不使用加速器的情况下取得的,也就是说,这个测试的成绩完全反映的是平头哥C906的AI处理能力。

“从平头哥的角度来说,我们的定位就是提供RISC-V原生的AI支持,而不是去做AI加速器,所以我们全部都是用CPU来跑的,通过软硬件的协同创新证明我们的整体能力。客户可以基于此,再去研发更定制化的AI加速器。”孟建熠强调:“我们觉得这件事真正的价值在于对RISC-V产业发展的推动,它不仅证明了RISC-V在AI的高能效处理上是可行的,而且相比其它架构还更具领先优势,大家可以持续地往这个方向做得更好。”

RISC-V国际基金会CEO Calista Redmond也表示: “物联网领域的AI技术竞争激烈,不同层面的定向优化对于以极低功耗取得新突破至关重要。阿里此次的工作证明了其在RISC-V产业的领导者地位,也给全球RISC-V社区和生态的发展提供了信心。”

软硬协同优化是关键

那么,平头哥玄铁C906此次成功拿下四项AI测试的全球第一,并且相比友商的最优性能得分均高出了10倍以上,其背后又有着哪些秘密呢?

据介绍,此番玄铁C906这一成绩的取得,主要是得益于阿里软硬件协同创新优化的实力,包括了从硬件,到编译,到算法,再到应用的各个方面。

首先,在硬件层面,玄铁C906处理器是业界最早量产的向量扩展RISC-V指令集处理器。采用5~8级流水线设计,配备性能优异的单双精度浮点和128位矢量运算单元,支持INT8 / INT16 / INT32 / INT64 以及 BF16 / FP16 / FP32 / FP64多种格式的矢量运算。同时,C906在数据预取上也做了优化,采用多通道多模式的数据预取技术,可大幅提升数据访问带宽。

其次,在编译层面,平头哥进一步优化了针对玄铁CPU平台的神经网络模型部署工具集HHB(Heterogeneous Honey Badger) 及开源神经网络加速库CSI-NN2,将AI算子更好地与硬件适配,使得玄铁CPU实现了AI性能升级。目前,HHB及CSI-NN2均已开源。

第三,在算法层面,借助阿里云震旦异构计算加速平台SinianML对各个benchmark的神经网络进行了压缩、蒸馏、伸缩、网络结构搜索等多方位的优化,在保证达到要求精度目标的情况下,得到远高于标准模型的计算效率,同时集成阿里IoT、蚂蚁IoT、达摩院语音实验室等在各自领域的优化经验和能力,进一步拓展细分领域的优化的效果。

第四,在应用层面,玄铁RISC-V处理器经过数年的发展,目前已覆盖低功耗、高能效、高性能等各类场景,并支持了OpenXuantie的多操作系统(AliOS、FreeRTOS、RT-Thread、Linux、Android等),广泛应用于智能家电、车载、工业控制、边缘计算等领域。这也使得玄铁RISC-V处理器能够针对各种不同应用端的需求进行持续优化。

总结来说,玄铁RISC-V的硬件更多的是处理器这块,而软件则更多的是AI的编译框架以及上层的网络结构优化的工具。软硬协同优化,则得益于阿里云AI团队与平头哥团队之间的协同。

早在2019年8月的云栖大会上,阿里达摩院就发布了首款针对云端的自研的AI芯片——全球最强的AI推理芯片含光800。在当时的MLPerf基准联盟公布首轮AI推理基准测试中,含光800在适用于图像分类任务的Resnet50 v1.5基准测试的四个场景中均都取得了单芯片第一的成绩。

孟建熠告诉芯智讯:“阿里云对AI编译能力、AI框架的优化经验丰富,AI模型优化的能力是非常强的。平头哥则在RISC-V处理器层面,通过优化库来优化我们的硬件结构,从而最终实现了更好的AI能力的提升。”

那么其他的RISC-V芯片厂商能否通过类似的软硬件协同优化的方式来实现对于平头哥玄铁RISC-V C906在AI能效上的追赶呢?

孟建熠认为,这其中的关键在于它能不能打破其已有软硬件分离的体系,在系统层面进行优化,实现软硬件的协同。RISC-V作为开放的架构体系,在软硬协同优化上有着天然的优势,其他厂商也都可以在各自的应用场景里面把它优化好。当然,这其中也是有着较高门槛的。

“要对于AI的框架、模型等有着深入理解,才能把上层优化做好,同时上层优化也需要底层硬件配合。这是一个系统能力,不能只看硬件和软件,还要看应用。阿里的优势在于,阿里云和平头哥多年来在这一领域的深厚积累。”孟建熠说道。

据介绍,目前所有的基于玄铁9系列的处理器,都可以通过平头哥提供的软硬件工具的升级,具备这个软硬协同的能力,以大幅提升整体的AI能效。

需要指出的是,目前包括平头哥玄铁RISC-V E902、E906、C906、C910等4款量产处理器IP,以及针对玄铁RISC-V处理器AI方面的神经网络模型部署工具集HHB和神经网络加速库CSI-NN2,都是完全开源开放的。所以,在此基础上,客户在面向特定领域的时候,还可以自己做更深度的优化。

拿下AI测试四项全球第一!平头哥玄铁CPU的布局与RISC-V的未来-芯智讯

据了解,玄铁9系列在跟客户的产品迭代过程中,在指令架构、硬件架构上面基本都是保持稳定的,在底层的库和上层的应用配套、资源使用、算法与硬件架构匹配上面,则会持续更新,帮助客户进行适配。

孟建熠表示:“玄铁RISC-V提供的是一个基础的软硬件的能力。随着合作伙伴对于场景不断地深入理解,完全可以在我们的基础上做得更好。我觉得RISC-V芯片未来应该能够在低功耗、低成本、高能效、AI这些方面体现出更多优势。”

杨静也强调:“玄铁RISC-V软硬协同的能力是可以复制的,我们希望在更多的在行业里面,帮助客户从应用出发,通过软硬件协同创新的方式不断优化,把能效进一步提升起来。”

RISC-V在移动及服务器市场的未来

正如我们在前文当中所指出的,由于RISC-V所具有的低功耗、低成本的优势,使得其非常适合IoT市场。目前RISC-V生态的发展也主要是围绕着各种IoT的应用。但是,这并不代表RISC-V就没有机会进入Arm架构统治的移动市场,以及x86架构统治的服务器市场。

2021年10月13日,平头哥就宣布其基于RISC-V架构的玄铁C910成功兼容安卓系统,可运行Chrome浏览器等应用。这也是当时业界首次实现RISC-V架构对安卓的支持,意味着RISC-V架构有望打破场景壁垒,成为移动端芯片设计的新选择。

据芯智讯了解,目前平头哥正持续推动基于RISC-V CPU架构的Android生态发展,未来将有更多新的进展和发布值得期待。

虽然,RISC-V的高能效、低成本等优势,可能会给移动设备带来更好的体验以及成本的降低。但是,RISC-V的劣势也很明显,因为它是一个新的架构,不论是在移动端、还是在PC/服务器端都缺乏生态的支持。

另外,RISC-V架构的完备性和处理的能力也需要进一步完善,以适应移动市场或PC/服务器市场的要求。但是,随着RISC-V CPU内核不断向高性能方向发展,以及各种复杂功能的加入,可能也会将使得RISC-V CPU内核变得越来越臃肿,功耗也会大幅增加,开发的门槛也会大幅提高。目前高性能的RISC-V CPU IP也主要是由一些RISC-V开发商(比如SiFive、平头哥)通过IP授权形式提供的。在此情况下,RISC-V原本的指令精简、低功耗、低成本的优势或将不再明显,恐怕很难与在移动市场占据绝对生态优势的Arm架构进行竞争,也难以在服务器市场与x86架构竞争。

对此,孟建熠也坦言,RISC-V架构向高性能领域发展,随着架构体系越来越大,确实可能会丢失掉诸如低功耗、低成本的一些优势。但是,RISC-V依然有着与Arm及x86竞争的巨大潜力。

“RISC-V是一个面向未来的新架构,其内部采用的是模块化的设计,虽然在IoT领域已经比较完备,但如果要拓展到移动端和数据中心市场,就需要增加很多相应的模块,所以它必然有一个从小到大的发展过程。我们今天在发展和补全整个RISC-V架构的时候,会审视过去Arm架构及x86架构中存在的问题,会批判地继承过去的一些经验,在新的RISC-V架构里将它完善。尽管整个RISC-V的架构会变大,但它是一个新的、更完善的架构,至少是当前业界我们可以重新定义的一个全新的、极具潜力的新架构。”孟建熠说道。

拿下AI测试四项全球第一!平头哥玄铁CPU的布局与RISC-V的未来-芯智讯

据了解,目前RISC-V基金会已经有超过2000家会员企业,其内部有着多达60个左右的技术委员会,都在积极的从各个维度来完善RISC-V技术。这其中不仅有硬件的开发人员,还有软件开发者,以及各行各业里原来就在用Arm架构的芯片厂商。就连x86架构的处理器大厂英特尔也加入了RISC-V基金会。同时,英特尔和AMD也都投资了知名的RISC-V IP厂商SiFive。

拿下AI测试四项全球第一!平头哥玄铁CPU的布局与RISC-V的未来-芯智讯

孟建熠表示:“RISC-V的技术发展有着全球化的协同,这样开放的架构,让大家都能够参与到其中,将其不断完善,并避免过去Arm及x86架构中所存在的问题。这也使得RISC-V架构随着功能不断完备,未来可能会变的很大,但并不臃肿,我们会让它依然保持精简。我想这是我们这些做RISC-V架构的技术人的一个共同目标。”

“目前服务器市场仍是以x86架构为主,但发展非常快,并且还有Arm的加入,厂商们不断地对基础设施提出新的要求。RISC-V作为一个新的架构,能够快速地去跟进数据中心的需求,比如新的数据量和新的一些模型的要求上的变化。”杨静进一步解释到:“相比x86和Arm架构,RISC-V拥有更高的灵活性和开放性,可以伴随着数据中心有新的突破和成长,不断地去更好地适应变化。”

RISC-V IP未来路在何方?

近两年来,随着RISC-V架构的火爆,以及资本的追捧,市场上涌现出了众多的RISC-V IP供应商,比如平头哥、SiFive、芯来、晶芯、赛昉等。

但是从市场角度来看,半导体IP市场规模本并不大,特别是在CPU IP领域。即便是垄断了整个移动市场CPU IP的Arm,其2020年的营收规模也只有19.80亿美元左右。更何况市场上本就有很多的开源RISC-V IP,还有一些终端厂商选择自研RISC-V IP。这些都将使得未来的RISC-V IP市场或将面临极为激烈的竞争。

对此,孟建熠表示,RISC-V作为一个开源的架构,它的商业模式也必然不同于x86和Arm。目前包括平头哥在内的很多主流的RISC-V IP厂商都在探索一条新的商业模式。

“平头哥其实已经把自己的几个IP都开源了,在逐步地走向更加开放的这条路上。我们也在探索如何能够让我们的客户受益,帮助他们在RISC-V上面得到原有技术所不具备的能力,这是我们始终在技术和商业创新的路上一直在努力的尝试。”孟建熠说道。

在芯智讯看来,平头哥目前的所走的路,并不是一家纯粹的RISC-V IP公司所走的路。因为IP的研发需要很多的投入,而研发出来的IP却又拿来开源,这显然是一桩赔本的买卖的。那么为何平头哥还会这样去做呢?显然,阿里更看重RISC-V生态发展。

“今天在核心IP上每投入1块钱,整个生态系统能够跟着增加20块钱的产出。所以我们不要局限于去看自己的IP能赚多少钱,我们要参与到更大的生态系统里面去,去帮助合作伙伴发掘更多的商业化和生态化的可能性。只有大家在这个生态里都能取得发展,都能够得到自己想要得到的东西,才能更好地帮助RISC-V 整体生态成长,玄铁处理器也才能更快地成熟起来。”杨静解释说。

作者:芯智讯-浪客剑