英特尔全面发力AI!Gaudi3、酷睿Ultra、288核Xeon曝光!

图片

当地时间9月19日(北京时间20日凌晨),英特尔在美国加利福利亚州圣何塞召开了“英特尔 ON 技术创新峰会”,本届峰会的主题为“英特尔客户端硬件路线图和人工智能的崛起”,不仅面向下一代的AI(人工智能)PC发布了全新酷睿Ultral处理器,还介绍了英特尔先进制程工艺和先进封装技术的最新进展,以及在神经拟态计算和量子计算等前沿科技领域的研究成果。

一、AI计算的新时代已经到来

自今年年初以来,随着以ChatGPT为代表的生成式AI的持续火爆,进一步加速了AI在各行各业的应用与落地。在本次峰会的主题演讲当中,英特尔CEO帕特·基辛格开场就表示,“AI代表着新时代的到来,创造了巨大的机会。今天,我们将会探讨如何让AI无处不在,使其在从客户端和边缘,到网络和云的所有工作负载中得到更普遍的应用。”

基辛格的看法与华为创始人任正非观点不谋而合。任正非在最新的讲话当中提到,“我们即将进入(人工智能带来的)第四次工业革命,(这个)基础就是大算力”。

目前全球芯片产业规模已经达到了5740亿美元,而这些芯片则驱动着全球约8万亿美元的经济。世界对计算力的需求正呈指数级增长,而且这种需求与芯片的面积、成本和功耗成反比。简而言之,这就是摩尔定律。

图片

在基辛格看来,更充足、更强大、更具性价比的处理能力,是未来经济增长的关键组成。人工智能代表着计算的新时代,促进了“芯经济”的崛起。

二、至强处理器和Gaudi2助力生成式AI

基辛格宣布,开放式生成人工智能公司Stability AI打造了一台大型AI超级计算机,完全基于英特尔至强处理器和4000个英特尔Gaudi2 AI加速器打造。

图片

资料显示,Gaudi 2是英特尔在2022年5月发布的新一代的高性能深度学习AI训练处理器,采用7nm制程工艺制造,拥有24个可编程Tensor处理器核心(TPCs),96GB HBM2e 内存和 24 个 100GbE 端口。根据英特尔展示的性能对比数据来看,Habana Gaudi2在RestNet50 Training Throughput和BERT Tralning Throughput等视频及自然语言处理的模型测试中,性能都达到了NVIDIA A100的2倍左右。

图片

根据第三方机构MLPerf于今年6月发布的MLCommons MLPerf 基准测试数据显示,Gaudi 2在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了优异的训练结果。与市场上其他面向大规模生成式AI和大语言模型的产品相比,Gaudi2拥有卓越的性能与领先的性价比优势。比如,在计算机视觉(ResNet-50)和自然语言处理(BERT微调)方面的表现优于英伟达A100,在计算机视觉方面几乎与H100不分伯仲。

此外,Gaudi2可为大规模的多模态和语言模型提供出色的推理性能。在最近的Hugging Face评估中,其在大规模推理方面的表现,包括在运行Stable Diffusion2(另一个用于从文本生成图像的最先进生成式AI模型之一)、70亿以及1760亿参数BLOOMz3模型时,在行业内保持领先。

据Digitimes 援引供应链人士的话报道称,英特尔面向中国市场推出的“特供版”AI 处理器Gaudi 2 订单快速增长,使得英特尔向台积电大举追加订单。

在今天的会议上,基辛格还首次透露了下一代的AI芯片Gaudi 3的一些信息。据介绍,Gaudi 3将基于更先进的5nm工艺,相对于Gaudi 2来说,Gaudi 3的BF16性能将是其4倍、计算性能将是其2倍,网络带宽将是其1.5倍,HBM容量也将是其1.5倍。这也意味着Gaudi 3将会带来更强劲的AI性能。

图片

另外,内置AI加速器的第四代至强可扩展处理器,也能够助力生成式AI的训练。

在会议现场,基辛格还连线了阿里云首席技术官周靖人。周靖人阐述了阿里巴巴如何将内置AI加速器的第四代英特尔至强可扩展处理器用于其生成式AI和大语言模型,即“阿里云通义千问大模型”。周靖人表示,英特尔技术“大幅缩短了模型响应时间,平均加速可达3倍”。

图片

三、面向AI PC,英特尔酷睿Ultra处理器年底发布

虽然PC市场在经历疫情期间的增长之后,目前正处于低谷当中。但是在基辛格看来,随着AI与PC的结合,PC市场将迎来全新变革与寄予。

“AI将通过云与PC的紧密协作,进而从根本上改变、重塑和重构PC体验,释放人们的生产力和创造力。我们正迈向AI PC的新时代。”基辛格非常兴奋的说道。

图片

为了加速“AI PC”时代的到来,英特尔宣布将在今年12月14日正式发布代号为Meteor Lake的英特尔酷睿Ultra处理器。

图片

据介绍,英特尔酷睿Ultra处理器将配备其首款集成式的神经网络处理器(NPU),用于在PC上带来高能效的AI加速和本地推理体验。同时,该款处理器还是首个采用3D Foveros封装技术的客户端芯粒设计,并且采用了Intel 4制程工艺,并集成了英特尔锐炫显卡,带来了独立显卡级别的性能。

图片

根据网上最新曝光的信息显示,新一代Meteor Lake的CPU核心是基于EUV光刻的Intel 4工艺制造,使用第二代混合架构技术,P核心会采用全新Redwood Cove架构,E核为Crestmont架构。GPU内核则是基于台积电5nm工艺打造,核显从 Xe LP 升级到 Xe LPG,相较于上一代的 Iris Xe 核显每瓦性能翻倍。同时,新一代核显有更高的频率,同等电压下的频率直接可以冲击到 2GHz 以上。新核显还针对 DX12U 进行了优化,支持倍帧功能,支持新特性“Out of Order Sampling”。此外,英特尔还集成了全新的 Xe 媒体引擎,支持最高 8K 10bit HDR 视频的编解码,支持 AV1 编码。

图片

图片

英特尔在现场也演示了基于Meteor Lake的AI PC运行生成式AI大模型生产歌曲,在不联网的情况下与本地的AI聊天机器人实时聊天,以及在远程视频聊天中实时将法语转写翻译成英语。

图片

宏碁宏碁首席运营官高树国也在现场宣布推出基于酷睿Ultra处理器的宏碁Swift笔记本电脑,并在现场进行了演示。高树国表示:“我们与英特尔团队合作,通过OpenVINO工具包共同开发了一套宏碁AI库,以充分利用英特尔酷睿Ultra平台,还共同开发了AI库,最终将这款产品带给用户。

图片

图片

四、第五代至强处理器年底发布,明年将推288核高能效处理器

英特尔在此次峰会上还展示了至强处理器的路线图,并预告第五代至强处理器将于12月14日发布,届时将在相同的功耗下为全球数据中心提高性能和存储速度。

图片

之后,具备更高能效的能效核(E-core)处理器Sierra Forest将于2024年上半年上市。与第四代至强相比,拥有288核的高能效处理器预计将使机架密度提升2.5倍,每瓦性能提高2.4倍。

图片

紧随Sierra Forest之后发布的是具备高性能的性能核(P-core)处理器Granite Rapids,与第四代至强相比,其AI性能预计将提高2到3倍。

图片

展望2025年,代号为Clearwater Forest的下一代至强能效核处理器将基于Intel 18A制程节点制造。

五、践行四年量产五个制程节点目标

2021年,英特尔CEO基辛格公布了IDM 2.0战略之后,开始全力推进先进制程技术和代工业务的发展,提出了4年量产5个制程节点的目标,致力于在2025年重新取得制程技术的领先地位。

目前Intel 7已实现大规模量产,并用于客户端和服务器端;Intel 4已经准备就绪,为投产做好准备,基于Intel 4制程的Meteor Lake即将量产,Intel 3也正按计划推进中。

Intel 20A将是首个应用PowerVia背面供电技术和新型全环绕栅极晶体管RibbonFET的制程节点,计划于2024年上半年量产。同样将采用这两项技术的Intel 18A制程节点也在按计划推进中,计划2024年下半年量产。

图片

值得注意的是,在今年3月,英特尔相关人士就透露,英特尔的埃米级工艺节点Intel 20A和Intel 18A已成功流片,也就是有相关设计定案,即规格、材料、性能目标等均已基本达成。此外,英特尔的代工服务(IFS)已经有43家潜在合作伙伴正测试芯片,其中至少7家来自全球TOP10的芯片客户。

随后在今年4月,英特尔代工服务事业部(IFS)和Arm宣布签署协议,合作内容涉及多代前沿系统芯片设计。该协议旨在使芯片设计公司能够利用Intel 18A制程工艺来开发低功耗计算系统级芯片(SoC)。

今年7月下旬,英特尔又宣布将与瑞典电信设备制造商爱立信合作,将利用其Intel 18A制程为爱立信制造定制 5G SoC(片上系统),为未来其 5G 基础设施打造高度差异化的领先产品。

为了便于客户选择英特尔先进制程代工服务,今年8月14日,英特尔和EDA(电子设计自动化)大厂新思科技(Synopsys)共同宣布,双方已达成最终协议,以扩展公司长期存在的 IP(知识产权)和 EDA 战略合作伙伴关系,为英特尔代工客户开发基于Intel 3 和Intel 18A 的 IP 组合。英特尔先进工艺节点上关键IP的可用性将为新老英特尔代工服务(IFS)客户提供更强大的产品。

在此次峰会上,基辛格进一步强调了对于践行该路线图目标的决心,并透露Intel 18A工艺将于2024年第一季度进入晶圆厂(试产?)。

六、持续发力先进封装

除了推进先进制程之外,英特尔也在持续发力先进封装工艺,特别是在Chiplet趋势之下,先进封装重要性越来越被凸显。

在先进封装技术方面,英特尔除了EMIB、Foveros 3D封装技术(可以参考《摩尔定律的新推力,英特尔先进封装技术详解!》)之外,还在开发新的封装材料。就在昨天,英特尔对外披露了其半导体玻璃基板(glass substrates)技术的开发进展。

英特尔表示,与目前业界主流的有机基板相比,玻璃具有独特的性能,在平坦度、热稳定性和机械稳定性当面都有更好的表现。这也使得芯片架构师将能够在一个封装里封装更多的Chiplet,同时实现性能、密度、灵活性提升,以及成本和功耗的降低。英特尔称,其玻璃基板技术能够将单个封装中的芯片区域增加50%,从而可以塞进更多的Chiplet。此举有望推动摩尔定律到2030年后延续下去。

图片

英特尔还表示,玻璃基板也可以与传统的有机基板一起使用,以提高结构完整性(玻璃太硬、易碎)。玻璃基板也非常适合用于英特尔的EMIB或Foveros等先进封装技术。(详见《取代传统封装基板,英特尔“玻璃芯基板”技术曝光!》)

图片

△基辛格也在本次峰会现场展示了英特尔的玻璃基板

七、推动UCIe生态发展

2022年3月2日,英特尔、AMD、Arm、高通、台积电、三星、日月光、Google云、Meta(Facebook)、微软等十大行业巨头成立了Chiplet标准联盟,正式推出了通用Chiplet(芯粒)的高速互联标准“Universal Chiplet Interconnect Express”,简称“UCIe”,旨在定义一个开放的、可互操作的标准,用于将多个硅芯片(或芯粒)通过先进封装的形式组合到一个封装中。

(详见《统一Chiplet互联标准!英特尔/AMD/Arm/台积电等十大巨头成立UCIe联盟》)

经过一年多时间的发展,目前已经有超过120家企业加入了UCIe联盟,除了前面提到的大厂之外,英伟达、阿里巴巴也已经加入了其中。

图片

基辛格表示,摩尔定律的下一波浪潮将由多芯粒封装技术所推动,如果开放标准能够解决IP集成的障碍,它将很快变成现实。发起于去年的UCIe标准将让来自不同厂商的芯粒能够协同工作,从而以新型芯片设计满足不同AI工作负载的扩展需求。目前,UCIe开放标准已经得到了超过120家公司的支持。

在此次的峰会上,英特尔还展示了基于通用芯粒高速互连开放规范(UCIe)的测试芯片封装。

图片

据介绍,该测试芯片集成了基于Intel 3制程节点的英特尔UCIe IP芯粒,和基于台积电N3E制程节点的新思科技(Synopsys)UCIe IP芯粒。这些芯粒通过EMIB(嵌入式多芯片互连桥接)先进封装技术互连在一起。英特尔代工服务(Intel Foundry Services)、台积电和新思科技携手推动UCIe的发展,体现了三者支持基于开放标准的芯粒生态系统的承诺。

八、赋能开发者

1、英特尔开发者云平台全面上线

为了帮助开发者利用最新的英特尔软硬件创新来进行AI开发,英特尔宣布“英特尔开发者云平台”全面上线,开发者可以通过该平台使用英特尔最新的硬件平台,包括面向深度学习的英特尔Gaudi2加速器,第五代英特尔至强可扩展处理器和英特尔数据中心GPU Max系列1100和1550。

图片

在使用英特尔开发者云平台时,开发者可以构建、测试并优化AI以及HPC应用程序,他们还可以运行从小规模到大规模的AI训练、模型优化和推理工作负载,以实现高性能和高效率。英特尔开发者云平台建立在oneAPI这一开放的,支持多架构、多厂商硬件的编程模型基础之上,为开发者提供硬件选择,并摆脱了专有编程模型,以支持加速计算、代码重用和满足可移植性需求。

2、推出OpenVINO工具套件2023.1版

OpenVINO是英特尔的AI推理和部署运行工具套件,在客户端和边缘平台上为开发人员提供了优质选择。

图片

在本次峰会上,英特尔宣布推出发行版OpenVINO工具套件2023.1版。该版本包括针对跨操作系统和各种不同云解决方案的集成而优化的预训练模型,包括多个生成式AI模型,例如Meta的Llama 2模型。

此外,英特尔还宣布,其将携手Arm通过OpenVINO对于Arm CPU进行支持。

图片

3、推出Strata项目

英特尔还宣布推出Strata项目以及边缘原生软件平台。该平台将于2024年推出,提供模块化构件、优质服务和产品支持。这是一种横向扩展智能边缘(intelligent edge)和混合人工智能(hybrid AI)所需基础设施的方式,并将英特尔和第三方的垂直应用程序整合在一个生态系统内。该解决方案将使开发人员能够构建、部署、运行、管理、连接和保护分布式边缘基础设施和应用程序。

图片

九、前沿研究

在本次峰会上,英特尔还介绍了Intel Labs的前沿研究项目类脑芯片Loihi 2及自旋量子芯片Tunnel Falls。

图片

基于Loihi 2第二代研究芯片和开源Lava软件框架,英特尔研究院正在推动神经拟态计算的发展。Loihi 2是性能业界领先的神经拟态研究芯片,基于Intel 4制程节点开发,每个芯片最多可包含100万个神经元。Loihi 2还具有可扩展性,8芯片Loihi 2开发板Kapoho Point,可通过堆叠满足大规模工作负载的需求。英特尔还提供开源、模块化、可扩展的Lava软件框架,助力神经拟态应用的开发。

图片

今年6月,英特尔发布包含12个硅自旋量子比特(silicon spin qubit)的全新量子芯片Tunnel Falls,继续探索量子实用性。在英特尔的晶圆厂里,Tunnel Falls是在300毫米的硅晶圆上生产的,利用了英特尔领先的晶体管工业化制造能力,如极紫外光刻技术(EUV),以及栅极和接触层加工技术。(参考《英特尔发布首款硅自旋量子芯片:基于12吋CMOS工艺,良率达95%!》)

小结:

在本次的“英特尔 ON 技术创新峰会”上,AI可谓是贯穿始终,足见英特尔对于AI的重视程度。

在PC产品端,英特尔提出了“AI PC”的概念,希望携手合作伙伴,通过“AI PC”带动PC市场的革新,从而进入新一轮的增长。为此,英特尔带来了全新的集成NPU的Meteor Lake处理器。此外,服务器市场作为英特尔的基本盘,英特尔在将AI内核带入到第四代至强处理器之后,也是加快了至强处理器的迭代速度,不仅下一代有AI性能更强的高性能的大核处理器,还有高能效288核处理器。

当然,随着AI算法/大模型的持续发展,对于算力需求将会越来越高。先进的制造能力则提升AI算力的关键所在。从英特尔目前的制程工艺进展来看,英特尔正逐步缩小与台积电在先进制程工艺上的差距,并且有望在2024年实现在2nm节点对于台积电反超。此外,先进封装技术也是英特尔的一大核心竞争力,也是目前除台积电之外,最强的先进封装技术厂商。随着先进制程及先进封装技术结合的越来越紧密,这也将助力英特尔代工业务的发展。

此外,对于AI开发者来说,如何充分释放硬件的AI算力也是极为关键的。这就需要有很好的软硬件开发工具和平台,所以我们可以看到,英特尔在持续升级OpenVINO工具的同时,还推出了开发者云平台,进一步赋能开发者。

可以说,英特尔现在发力的方向,一切都是为了AI。基辛格在最后也表示,英特尔致力于让AI无处不在,使其更易被所有人使用,并能更便捷地在从客户端和边缘,到网络和云的工作负载中规模化集成。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容