性能提升4倍，打爆英伟达H100，英特尔发布AI加还芯片Gaudi 3

EF-王健鹏 EF 2024-04-10

写了 764 篇文章，被 2 人关注，获得了 9 个喜欢

+ 关注

性能提升4倍，打爆英伟达H100，英特尔发布AI加还芯片Gaudi 3

直击Intel Vision 2024

文/ 王健鹏

 英特尔 , Gaudi 3 , Intel Vision 2024

前言就在北京时间4月10日凌晨，英特尔在美国亚利桑那州Intel Vision 2024会议上发布了Gaudi 3 AI 加速芯片和全新的下一代英特尔至强6处理器。事实上，帕特在会上是最后展示Gaudi 3 AI 加速芯片的，但是它太吸引人，我们选择优先讲它。

发布Gaudi 3 AI 加速芯片，硬刚英伟达的H100

英特尔Gaudi 3 AI加速芯片的加入，直接挑战的便是英伟达的H100和H200。可以看到它在模型训练上，比H100快了40%；在模型推理上，比H100快了50%。相比上代产品，英特尔Gaudi 3带来400%的BF16 AI计算能力提升，1.5倍的内存带宽以及2倍的网络带宽提升。

另外，帕特还介绍了Gaudi 3的一些特点：采用英特尔Gaudi第五代高效异构构架，采用台积电5nm工艺，原生支持128GB HBM2E内存；扩展采用用行业标准以太网，兼容性更好。利用英特尔全可编程TPC和GEMM引擎，可支持FP8、BF16、FP16、TF32、FP32等不同精度的AI加速。

为满足不同的订制需求，Gaudi 3共提供了三种硬件封装形式：Intel Gaudi 3 Mezzanine Card: HL-325L、Intel Gaudi 3 PCIe Card: HL-338和Intel Gaudi 3 UBB: HLB-325。

Intel Gaudi 3 Mezzanine Card: HL-325L (Air Cooled)

Intel Gaudi 3 Mezzanine Card: HL-325L：独立的加速卡，符合开放平台加速器标准OCP OAM v2.O (Open Compute Platform-Open Accelerator Module) ，以PCIe Gen 5.0×16接口连接，可配备原生128GB HBM2E内存、3.7TB/s的吞吐量和96MB的SRAM，原生支持24GbE RoCE RDMA端口，可支持9.6兆比特每秒的双向网络带宽，TDM标称为900W。

Intel Gaudi 3 PCIe Card: HL-338

Intel Gaudi 3 PCIe Card: HL-338：是独立显卡封装模式，接口与内存支持与HL-325L相同

。这是一款全高双槽PCIe接口独立显卡，具有8个MME引擎和64个张量核心（TPCs），另外还集成了一个集成了一个专用的me dia处理器，用于用于图像和视频解码和预处理，通过RoCE v2 RDMA接口可满足4张HL-338并联，并在每张卡上提供了两个QSFP-112的连接器。

Intel Gaudi 3 UBB: HLB-325

Intel Gaudi 3 UBB: HLB-325：HLB-325是一个模块化的子系统，其主体其实是一块摆放8块HL-325L Mezzanine卡的主板，按装入19英标准机柜来设计，便于装入AI服务器之中，在每块Gaudi 3加速卡中，这套系统提供了4.2TB/s的双向带宽，并另外提供了6个具备1.2TB/双向带宽的OSFP连接器进行横向扩展。另外，它支持以太网标准在数据中心间进行大规模扩展。

发布会现场，帕特对Gaudi 3“三兄弟中的大哥HLB-325特别偏爱，将其比作自己的“Big Boy”，骄傲之情溢于言表，其实也是对Gaudi 3扩展能力的肯定。

随着AIGC市场的急速增长，英特尔也希望通过Gaudi 3的开放生态快速打开市场格局。英特尔采用了与竞争对手类似的方式，向用户提供一整套AI基础设施方案，推动企业的AIGC应用快速市场化、商业化。英特尔预计，Gaudi 3将于2024年第二季度起出货，戴尔、惠普、联想、超微电脑等企业将成为首批客户。

在技术节点上，英特尔希望通过广泛合作协同，比如针对NVLink，英特尔借助太网联盟（UEC）的力量，推出面向AI高速互联技术（AI Fabrics）开放技术的以太网解决方案来达到更广泛的硬件兼容性。另外，英特尔还将利用代工优势，提供一系列的AI互联软硬件参考设计。

六代Xeon推出双构架产品，大模型效率6.4倍提升

Intel Vision 2024会议上的另一大看点便是发布了第六代Xeon至强处理器。在去年底发布五代Xeon时便有声音传出英特尔会快速更新构架，焕新产品，这不，它就来了。

相比称呼Gaudi 3的“Big Boy”，帕特将六代Xeon称为“little baby”，这的确是英特尔四年五个节点中非常重要的一个，但我觉得他具体是指其中的Sierra Forest。是的，六代Xeon提供了两种构架产品：Sierra Forest和Granite Rapids，分别基于低功耗的E-Core和高性能的P-Core来设计。

之所以要提供Sierra Forest，是因为它的机架密度相比前代提升了2.7倍，每W性能比也提升了2.5倍，能够帮助用户大幅降低能耗。另外，它还提供了对MXFP4数据格式的软件支持。

现场，帕特以700亿参数的Llama-2模型，同时运行在四代、五代和最新六代Xeon之上，大家没看错，相对四代Xeon，六代Xeon可将每token的延迟时间缩短到6.4倍之多，既使相对五代Xeon，也有近一倍的提升。

分享AI更多玩法，解密Lunar Lake算力高达100 TOPS

帕特也不忘宣传AI PC在AIGC上的新特性，比如利用AI快速提取关键词，回复客户邮件；比如利用人工智能提取噪声，以达到更好的抑噪效果；还有在Lightroom中利用AI快速整理照片，以及做一些快速编辑；比如在ComfyUI中改变俄亥俄工厂照片的天气，它改变的不仅是天空，还包含建筑的阳光照射效果。要知道，这一切都是利用AI PC的本地算力达成的。

当然，英特尔的员工也不忘在万众注目中，“整蛊”一下自己的CEO，比如这张帕特扣篮照片，就是用AI生成的。

在这场大会上，英特尔还透露了下一代酷睿Ultra处理器（Lunar Lake）的一些算力，比如会提供超过100 TOPS平台算力，并且在神经网络处理单元（NPU）上提供超过46 TOPS的算力。之前我们还对微软Windows 12要求40 TOPS以上的AI算力感到硬件上的准备不足，但像英特尔这样的处理器厂商其实已经早早做好准备。要知道Meteor Lake CPU的算力也仅34 TOPS，这么来看，Lunar Lake将是算力大爆发的一代处理器产品。

写到最后：

还记得帕特•基辛格在2022年说过那句话吧，英特尔预计在2030年将实现一颗芯片集成1万亿晶体管。而这样一颗芯片，其实最有可能出现在Gaudi AI加速芯片之上，对于堆算力，蓝色巨人是非常擅长的，而且英特尔在这之上展示出前所未有的开放态度，绝对会在AIGC时代拿回相当大一个份额。当然，我们也会为老黄瞎操心一下，前有谷歌、微软、亚马逊“造芯”，后有英特尔加速奔跑，真的不慌吗？即使当前，也形成了英伟达B200、AMD MI300系列和英特尔Gaudi 3"三巨头"竞争的格局，AI芯片市场将出现前所未有的竞争性。



喜欢

261

 分享到微信



分享到微博

0 条评论（按时间正序 · 按时间倒序 · 按排序）

 发表新评论

请登录或注册后评论。