写了 575 篇文章,被 2 人关注,获得了 9 个喜欢

性能提升4倍,打爆英伟达H100,英特尔发布AI加还芯片Gaudi 3

直击Intel Vision 2024

文/ 王健鹏
前言 就在北京时间4月10日凌晨,英特尔在美国亚利桑那州Intel Vision 2024会议上发布了Gaudi 3 AI 加速芯片和全新的下一代英特尔至强6处理器。事实上,帕特在会上是最后展示Gaudi 3 AI 加速芯片的,但是它太吸引人,我们选择优先讲它。

 

发布Gaudi 3 AI 加速芯片,硬刚英伟达的H100

 

英特尔Gaudi 3 AI加速芯片的加入,直接挑战的便是英伟达的H100H200。可以看到它在模型训练上,比H100快了40%;在模型推理上,比H100快了50%。相比上代产品,英特尔Gaudi 3带来400%BF16 AI计算能力提升,1.5倍的内存带宽以及2倍的网络带宽提升。

 

另外,帕特还介绍了Gaudi 3的一些特点:采用英特尔Gaudi第五代高效异构构架,采用台积电5nm工艺,原生支持128GB HBM2E内存;扩展采用用行业标准以太网,兼容性更好。利用英特尔全可编程TPCGEMM引擎,可支持FP8BF16FP16TF32FP32等不同精度的AI加速。

 

为满足不同的订制需求,Gaudi 3共提供了三种硬件封装形式:Intel Gaudi 3 Mezzanine Card: HL-325LIntel Gaudi 3 PCIe Card: HL-338Intel Gaudi 3 UBB: HLB-325

 

Intel Gaudi 3 Mezzanine Card: HL-325L (Air Cooled)

 

Intel Gaudi 3 Mezzanine Card: HL-325L:独立的加速卡,符合开放平台加速器标准OCP OAM v2.O (Open Compute Platform-Open Accelerator Module) ,以PCIe Gen 5.0×16接口连接,可配备原生128GB HBM2E内存、3.7TB/s的吞吐量和96MBSRAM,原生支持24GbE RoCE RDMA端口,可支持9.6兆比特每秒的双向网络带宽,TDM标称为900W

 

Intel Gaudi 3 PCIe Card: HL-338

 

Intel Gaudi 3 PCIe Card: HL-338:是独立显卡封装模式,接口与内存支持与HL-325L相同

。这是一款全高双槽PCIe接口独立显卡,具有8MME引擎和64个张量核心(TPCs),另外还集成了一个集成了一个专用的me dia处理器,用于用于图像和视频解码和预处理,通过RoCE v2 RDMA接口可满足4HL-338并联,并在每张卡上提供了两个QSFP-112的连接器。

 

Intel Gaudi 3 UBB: HLB-325

 

Intel Gaudi 3 UBB: HLB-325HLB-325是一个模块化的子系统,其主体其实是一块摆放8HL-325L Mezzanine卡的主板,按装入19英标准机柜来设计,便于装入AI服务器之中,在每块Gaudi 3加速卡中,这套系统提供了4.2TB/s的双向带宽,并另外提供了6个具备1.2TB/双向带宽的OSFP连接器进行横向扩展。另外,它支持以太网标准在数据中心间进行大规模扩展。

 

发布会现场,帕特对Gaudi 3“三兄弟中的大哥HLB-325特别偏爱,将其比作自己的“Big Boy”,骄傲之情溢于言表,其实也是对Gaudi 3扩展能力的肯定。

 

随着AIGC市场的急速增长,英特尔也希望通过Gaudi 3的开放生态快速打开市场格局。英特尔采用了与竞争对手类似的方式,向用户提供一整套AI基础设施方案,推动企业的AIGC应用快速市场化、商业化。英特尔预计,Gaudi 3将于2024年第二季度起出货,戴尔、惠普、联想、超微电脑等企业将成为首批客户。

 

在技术节点上,英特尔希望通过广泛合作协同,比如针对NVLink,英特尔借助太网联盟(UEC)的力量,推出面向AI高速互联技术(AI Fabrics)开放技术的以太网解决方案来达到更广泛的硬件兼容性。另外,英特尔还将利用代工优势,提供一系列的AI互联软硬件参考设计。

 

六代Xeon推出双构架产品,大模型效率6.4倍提升

 

Intel Vision 2024会议上的另一大看点便是发布了第六代Xeon至强处理器。在去年底发布五代Xeon时便有声音传出英特尔会快速更新构架,焕新产品,这不,它就来了。

 

相比称呼Gaudi 3的“Big Boy”,帕特将六代Xeon称为“little baby”,这的确是英特尔四年五个节点中非常重要的一个,但我觉得他具体是指其中的Sierra Forest。是的,六代Xeon提供了两种构架产品:Sierra ForestGranite Rapids,分别基于低功耗的E-Core和高性能的P-Core来设计。

 

之所以要提供Sierra Forest,是因为它的机架密度相比前代提升了2.7倍,每W性能比也提升了2.5倍,能够帮助用户大幅降低能耗。另外,它还提供了对MXFP4数据格式的软件支持。

 

现场,帕特以700亿参数的Llama-2模型,同时运行在四代、五代和最新六代Xeon之上,大家没看错,相对四代Xeon,六代Xeon可将每token的延迟时间缩短到6.4倍之多,既使相对五代Xeon,也有近一倍的提升。

 

分享AI更多玩法,解密Lunar Lake算力高达100 TOPS

 

帕特也不忘宣传AI PCAIGC上的新特性,比如利用AI快速提取关键词,回复客户邮件;比如利用人工智能提取噪声,以达到更好的抑噪效果;还有在Lightroom中利用AI快速整理照片,以及做一些快速编辑;比如在ComfyUI中改变俄亥俄工厂照片的天气,它改变的不仅是天空,还包含建筑的阳光照射效果。要知道,这一切都是利用AI PC的本地算力达成的。

 

当然,英特尔的员工也不忘在万众注目中,“整蛊”一下自己的CEO,比如这张帕特扣篮照片,就是用AI生成的。

 

在这场大会上,英特尔还透露了下一代酷睿Ultra处理器(Lunar Lake)的一些算力,比如会提供超过100 TOPS平台算力,并且在神经网络处理单元(NPU)上提供超过46 TOPS的算力。之前我们还对微软Windows 12要求40 TOPS以上的AI算力感到硬件上的准备不足,但像英特尔这样的处理器厂商其实已经早早做好准备。要知道Meteor Lake CPU的算力也仅34 TOPS,这么来看,Lunar Lake将是算力大爆发的一代处理器产品。

 

写到最后:

还记得帕特•基辛格在2022年说过那句话吧,英特尔预计在2030年将实现一颗芯片集成1万亿晶体管。而这样一颗芯片,其实最有可能出现在Gaudi AI加速芯片之上,对于堆算力,蓝色巨人是非常擅长的,而且英特尔在这之上展示出前所未有的开放态度,绝对会在AIGC时代拿回相当大一个份额。当然,我们也会为老黄瞎操心一下,前有谷歌、微软、亚马逊“造芯”,后有英特尔加速奔跑,真的不慌吗?即使当前,也形成了英伟达B200AMD MI300系列和英特尔Gaudi 3"三巨头"竞争的格局,AI芯片市场将出现前所未有的竞争性。

 

登录注册 后评论。
n
Copyright © 2016 vantk.com 远望资讯 版权声明. 经营许可证:渝B2-20030004-10

渝公网安备 50019002500898号