摘要:7月25日,阿里巴巴旗下平头哥半导体发布了首款自研的处理器IP——玄铁910,引起了业内的极大关注。两个月之后,在9月25日的2019杭州云栖大会上,阿里巴巴旗下的达摩院又发布了首款自研的AI芯片——含光800,号称全球最强的AI推理芯片,适用于云端和数据中心领域。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

7月25日,阿里巴巴旗下平头哥半导体发布了首款自研的处理器IP——玄铁910,引起了业内的极大关注。两个月之后,在9月25日的2019杭州云栖大会上,阿里巴巴旗下的达摩院又发布了首款自研的AI芯片——含光800,号称全球最强的AI推理芯片,适用于云端和数据中心领域。

全球最强AI芯片含光800

其实早在去年之时,业内就传闻达摩院正在研发一款神经网络AI芯片,将运用于图像视频分析、机器学习等AI推理计算。而随着此次含光800的正式发布,这个传闻中的AI芯片也终于和我们正式见面。

在芯片的命名上,阿里一直都是以古代的名剑的名称来命名,比如之前的“玄铁”。而此次的“含光”则是上古三大神剑之一。达摩院院长张建锋表示,该剑含而不露,光而不耀,正如含光800带来的无形却强劲的算力。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

据介绍,含光采用12nm制程工艺,晶体管数量高达170亿个。在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS(即每秒可以处理78563张图片),比目前业界最好的AI芯片性能高4倍;能效比达500 IPS/W(即每瓦特的能耗可以处理500张图片),是第二名的3.3倍。不过在会上,张建锋并未公布这个第二名的芯片是哪款芯片。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

不过从已有的ResNet-50测试数据来看,此前性能最强的是2018年Habana Labs 推出的Goya平台,含光800的性能达到了其5倍左右,是英伟达Tesla P4性能的约46倍,而与英伟达最新的Tesla T4 GPU相比也高出了15倍。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

(图片来源:量子位)

那么含光800为何能够有如此之强的性能呢?

据介绍,含光800性能的突破得益于软硬件的协同创新。硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。

当然以上是含光800基于相关测试的性能表现,那么在实际应用场景中,表现又如何呢?

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,功耗为2.8W;而如果使用含光800仅需4颗,延时降至150ms,功耗仅为1W。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

也就是说,1个含光800的算力相当于10个传统的GPU,并且能耗大约只有其1/3左右。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

另外一个案例就是阿里旗下的拍立淘,每天拍立淘的商品库新增10亿商品图片,如果使用传统GPU算力识别需要1小时,而使用含光800后可缩减至5分钟。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

目前含光800已流片量产,并已应用到了阿里现有的业务当中。同时在今天基于含光800的AI云服务也已正式上线。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

▲阿里巴巴达摩院院长张建锋展示含光800

张建锋表示:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。”

确实,阿里巴巴是芯片领域的新人,还有很长的路要走,但是阿里在芯片领域的步伐却非常的快。从2018年9月,平头哥半导体公司正式成立,2019年7月25日首个CPU IP玄铁910的正式发布,仅用了不到一年的时间。而含光800从设计研发到成功流片,再到量产商用,仅用了不到一年半的时间,可谓神速。

值得一提的是,在含光800发布之前,在8月29日,2019世界人工智能大会上,阿里旗下平头哥半导体行还正式发布了面向AIoT时代的一站式芯片设计平台“无剑”,提供集芯片架构、基础软件、算法与开发工具于一体的整体解决方案,能够帮助芯片设计企业将设计成本降低50%,设计周期压缩50%。

而随着玄铁910、无剑SoC平台以及含光800的发布,平头哥端云一体全栈产品系列初步成型,涵盖处理器IP、一站式芯片设计平台和AI芯片,实现了芯片设计链路的全覆盖,将与阿里云业务实现软硬件一体化协同,帮助阿里云客户更为简单、稳定、低成本的获得AI算力,推动业务创新。

互联网及云服务厂商纷纷推出自研云端AI芯片

其实,除了阿里之外,我们可以看到,近几年来,众多的互联网厂商、云服务厂商都开始纷纷推出自己的云端AI专用芯片。

早在2016年之时, 谷歌就推出了专为深度学习优化的张量处理器TPU。当时谷歌就表示,它早已在数据业务中使用TPU。而AlphaGo成功战胜围棋世界冠军李世石的背后,正是得益于谷歌TPU的助力。随后在2017年,谷歌AlphaGo仅用了一颗第二代的TPU就打败了柯洁。目前谷歌的第三代TPU已经商用,算力最高可达100PFlops(每秒1000万亿次浮点计算),是第二代的8倍多。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

2018年11月底,在拉斯维加斯召开的AWS re:Invent大会上,亚马逊云也发布了其首款云端AI芯片Inferentia。亚马逊云业务CEO Andy Jassy表示Inferentia将是一款高性能、低延迟、持续性好、性价比更高的机器学习推理芯片,由亚马逊云团队设计打造,每个Inferentia芯片的计算力将会高达“数百TOPS”,多块芯片组合在一起后的计算力将会实现“数千TOPS”。预计从这款芯片将于2019年下半年推出,届时亚马逊将面向云计算客户销售运行在这些芯片上的服务。

再加上此次的阿里云推出的适用于云端和数据中心的AI芯片含光800,不难看出,目前主流的互联网及云服务巨头都开始推出了自研云端AI芯片,这已经成为了大势所趋。

AI芯片市场增势迅猛

随着物联网技术的发展,全球联网设备数量呈现出爆发式的增长。根据据知名市场研究机构Gartne的预测显示,到2020年,全球物联网设备接入量将会达到260亿,市场规模将达到3000亿美元的量级。IDC则预测,到2025年,全球物联网设备数将达到416亿台,一年将产生79.4ZB的庞大数据量。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

而根据今天云栖大会上阿里巴巴董事长兼CEO张勇公布的预测数据显示,到2025年,全球一年的产生的数据量将高达175ZB,显然这个数据达到了IDC此前预测的两倍。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

张勇表示,数据是数字经济时代的“石油”,而算力则是数据时代的“发动机”。而要想从海量的数据当中去挖掘出有价值的信息,把数据变成“石油”,就必然离不开强大的算力和人工智能技术的助力,而AI芯片正是其中的关键。而根据数据预测,到2025年AI芯片的出货量将达到29亿颗。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

根据ABI Research最新调查报告显示,近年来随着AI技术的发展,不论是对于云端AI芯片还是对于终端AI芯片的需求都现了爆炸式的增长。预计到2024年,全球云端AI芯片市场规模高达100亿美元,而终端AI芯片市场也将接近80亿美元。虽然,可能终端AI芯片的出货量更大,但是从销售额来看,云端AI芯片市场更大。

而对于互联网及云服务厂商来说,其自身对于AI芯片的需求越大,则意味着其需要付出的成本也将更为高昂。

云端AI芯片开始转向ASIC

另外,在云端AI芯片市场,过去几年,GPU因其通用性和高性能称霸云端训练市场,在云端训练市场上占高达比90%,在云端推断市场上占比也达到了60%。CPU则位居其次。在竞争格局上,英伟达在数据中心GPU市场占比一度超过80%,高性能和良好的软件生态使其成为目前最成熟的AI芯片。

但是,正如芯智讯于2017年之时发布的文章《Nvidia的AI盛世危机!》当中所写的那样,GPU并不是专为AI设计,它只是在这个时间节点上对于AI计算比其他芯片更具优势。

虽然CPU、GPU等通用型芯片以及FPGA可以灵活的适应相对更多种的算法,但是专用的AI芯片(ASIC)的计算能力和计算效率是直接根据特定的AI算法的需要进行定制的,所以其可以实现体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。可以说,在算法已趋于稳定,且应用明确的领域,专用AI芯片的能效表现要远超GPU等通用型芯片以及半定制的FPGA,同等量级下,成本也更低。

而随着在性能、能耗、成本上更具优势的专为AI设计的神经网络处理器的成熟,专用的AI芯片将成为云端AI芯片的主力。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

根据Tractica的数据也显示,2017年深度学习芯片组市场仅16亿美元,其中GPU占据了80%以上的市场,而到2025年市场规模将会猛增至663亿美元,届时专用的ASIC芯片将成为该市场的主导,占比将大幅超过GPU和CPU。

互联网及云服务厂商为何扎堆自研云端AI芯片?

人工智能技术近几年发展迅猛,大量的新的算法不断涌现,原有的算法也在持续优化。而定制型AI芯片由于其在设计之时就是针对特定算法进行固化的,所以无法做到灵活的适应各种算法。这也使得定制型的AI芯片一直以来并未开始在数据中心/服务器领域大规模应用。

不过,限制随着AI算法持续的发展,在一些特定的领域已经开始逐渐趋于成熟,特别是在云端市场,这一点尤为凸出。

因为,对于互联网及云服务巨头来说,其很多领域的需求都是非常明确和相对固定的,比如百度可能更多的需求是针对搜索的,美图更多需求是针对图像的,淘宝更多需求是针对在线购物的,支付宝更多的则是针对支付。特别是在其庞大的数据驱动下,不少领域的软件、AI算法也已经趋于成熟和稳定,在这种情况下,进一步追求性能、能效和成本的最优化,选择采用定制型的AI芯片也是必然。

虽然通用型芯片适用范围广,对于厂商来说也更为简单易用,但是也造成了市场上产品的同质化,随着市场竞争的日趋激烈,越来越多的厂商开始寻求差异化。而采用独特的芯片则可以给自身的产品和服务带来较大的差异化。与此同时,众多新的应用和特殊需求的出现,也需要独特的芯片来满足市场需求。这也正互联网及云服务厂商自研AI芯片的动力所在。

也就是说,互联网及云服务厂商未来其所需的AI芯片将会是越来越具有差异化的,需要的是基于自身的业务需求及自己的软件算法来定义的定制型AI芯片。而传统的芯片厂商的商业逻辑则是设计出一款能够最大范围的适用于更多客户的芯片。显然这两者之间存在着较大的分歧。

另外,相对于传统的芯片厂商来说,互联网及云服务厂商更为了解自身及客户的需求,自研AI芯片也能更好的满足自身及下游客户群的需求。

总结来说,目前阿里、亚马逊、百度等互联网及云服务巨头自身的业务规模和客户规模都非常的庞大,对于云端AI芯片的需求完全能够支撑自己的AI芯片业务(芯片出货的量级越大,成本越低)。而且,采用自研的AI芯片,不仅可以降低芯片的采购成本,同时在AI计算上也更加的高效,安全性也可以更高,还可以降低用电成本(同等性能下,功耗更低),对于大型的数据中心来说,电费也是一项很大的成本。另外,采用自主的AI芯片也可以给自身的服务带来较大的差异化,可以更好的满足客户的需求,帮助客户提升产品体验,降低成本,提升核心竞争力。

阿里软硬一体化战略生态完成关键一环

对于阿里这家互联网及云服务厂商来说,在物联网及人工智能时代要想继续获得成功,就必须切入几大核心领域——系统、数据、算法、处理器、AI芯片和联接芯片。

目前,在核心的系统方面,飞天(Apsara)就是由阿里云自主研发的服务全球的超大规模通用计算操作系统。在物联网系统方面,阿里有AliOS Things。

在数据方面,阿里本身就是互联网厂商,拥有着庞大的数据资源。再加上阿里云还是全球第二大的云服务提供商,对于海量的数据处理更是有着存储器、OS、软件和算法的全栈解决方案。

在联接芯片方面,阿里多年前就有联合厂商推出廉价的WiFi模组和蓝牙模组,此外阿里还投资了翱捷科技,并于去年推出了超低功耗LoRa芯片。同时,去年阿里还联合联发科推出了IoTConnect协议的蓝牙芯片。

而在处理器芯片方面的布局则落在了平头哥的肩上。

随着去年“中兴事件”的爆发,芯片自主可控更是成为了众多厂商关注的焦点,这也使得开源的、免费的、可扩展的RISC-V架构受到了众多芯片厂商的追捧。也正是在“中兴事件”发生之后不久,2018年4月下旬,阿里正式收购了基于RISC架构的芯片设计公司中天微。

很快,在2018年9月,被收购后的中天微与达摩院合并成立了平头哥半导体公司。不到一年之后,2019年7月25日,平头哥成立之后的首款自研的处理器IP——玄铁910就正式发布了,号称业界最强的高性能RISC-V处理器,可以用于设计制造高性能端上芯片,应用于5G、人工智能、网络通信以及自动驾驶等领域。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

虽然平头哥公司才成立不到一年,非常的年轻,但是实际上“平头哥的芯片研发团队却有着10多年的量产CPU经验”,累积出货已超7亿片。而平头哥的定位是未来AIoT芯片的基础设施提供者,主打面向各领域的软硬整合的SoC平台。

性能46倍于英伟达P4!阿里发布全球最强AI推理芯片:软硬一体化,阿里云更强大!-芯智讯

随后在8月29日的2019世界人工智能大会上,平头哥半导体行还正式发布了面向AIoT时代的一站式芯片设计平台“无剑”,提供集芯片架构、基础软件、算法与开发工具于一体的整体解决方案,能够帮助芯片设计企业将设计成本降低50%,设计周期压缩50%。

此外,在2017年的杭州云栖大会上,阿里云还涉足服务器整机产品领域(主要还是供自用),发布了全新一代的计算类服务器产品--神龙云服务器(X-Dragon Cloud Server)。据介绍,神龙云服务器是一种可水平弹性伸缩的高性能计算服务,官方宣称是兼具虚拟机和物理机优势的新物种,可实现强大稳定的计算能力。而最新的消息显示,平头哥正在研发一款新的专用SoC芯片,将用于新一代阿里云神龙服务器的核心组件MOC卡上。

在软件算法和前沿技术研究方面,阿里还有“达摩院”,其中首批公布的学术咨询委员会十人中有三位中国两院院士、五位美国科学院院士,研究方向包括:量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、下一代人机交互、芯片技术、传感器技术、嵌入式系统等,涵盖机器智能、智联网、金融科技等多个产业领域。

而此次发布的含光800也正是达摩院的研究成果。

通过前面的介绍,我们不难看出,目前阿里不仅拥有了自研的云端系统、终端系统、处理器、软件算法,还有与合作伙伴共同打造的联接芯片,乃至服务器整机。而随着此次自研AI芯片含光800的发布,则补足了阿里软硬件一体化协同战略及产业链生态当中的关键一环。同时,含光800在云上的对外输出,也进一步强化了阿里云的核心竞争力。

编辑:芯智讯-浪客剑