性能提升4倍,打爆英伟达H100,英特尔发布AI加还芯片Gaudi 3
直击Intel Vision 2024
发布Gaudi 3 AI 加速芯片,硬刚英伟达的H100
英特尔Gaudi 3 AI加速芯片的加入,直接挑战的便是英伟达的H100和H200。可以看到它在模型训练上,比H100快了40%;在模型推理上,比H100快了50%。相比上代产品,英特尔Gaudi 3带来400%的BF16 AI计算能力提升,1.5倍的内存带宽以及2倍的网络带宽提升。
另外,帕特还介绍了Gaudi 3的一些特点:采用英特尔Gaudi第五代高效异构构架,采用台积电5nm工艺,原生支持128GB HBM2E内存;扩展采用用行业标准以太网,兼容性更好。利用英特尔全可编程TPC和GEMM引擎,可支持FP8、BF16、FP16、TF32、FP32等不同精度的AI加速。
为满足不同的订制需求,Gaudi 3共提供了三种硬件封装形式:Intel Gaudi 3 Mezzanine Card: HL-325L、Intel Gaudi 3 PCIe Card: HL-338和Intel Gaudi 3 UBB: HLB-325。
Intel Gaudi 3 Mezzanine Card: HL-325L (Air Cooled)
Intel Gaudi 3 Mezzanine Card: HL-325L:独立的加速卡,符合开放平台加速器标准OCP OAM v2.O (Open Compute Platform-Open Accelerator Module) ,以PCIe Gen 5.0×16接口连接,可配备原生128GB HBM2E内存、3.7TB/s的吞吐量和96MB的SRAM,原生支持24GbE RoCE RDMA端口,可支持9.6兆比特每秒的双向网络带宽,TDM标称为900W。
Intel Gaudi 3 PCIe Card: HL-338
Intel Gaudi 3 PCIe Card: HL-338:是独立显卡封装模式,接口与内存支持与HL-325L相同
。这是一款全高双槽PCIe接口独立显卡,具有8个MME引擎和64个张量核心(TPCs),另外还集成了一个集成了一个专用的me dia处理器,用于用于图像和视频解码和预处理,通过RoCE v2 RDMA接口可满足4张HL-338并联,并在每张卡上提供了两个QSFP-112的连接器。
Intel Gaudi 3 UBB: HLB-325:HLB-325是一个模块化的子系统,其主体其实是一块摆放8块HL-325L Mezzanine卡的主板,按装入19英标准机柜来设计,便于装入AI服务器之中,在每块Gaudi 3加速卡中,这套系统提供了4.2TB/s的双向带宽,并另外提供了6个具备1.2TB/双向带宽的OSFP连接器进行横向扩展。另外,它支持以太网标准在数据中心间进行大规模扩展。
发布会现场,帕特对Gaudi 3“三兄弟中的大哥HLB-325特别偏爱,将其比作自己的“Big Boy”,骄傲之情溢于言表,其实也是对Gaudi 3扩展能力的肯定。
随着AIGC市场的急速增长,英特尔也希望通过Gaudi 3的开放生态快速打开市场格局。英特尔采用了与竞争对手类似的方式,向用户提供一整套AI基础设施方案,推动企业的AIGC应用快速市场化、商业化。英特尔预计,Gaudi 3将于2024年第二季度起出货,戴尔、惠普、联想、超微电脑等企业将成为首批客户。
在技术节点上,英特尔希望通过广泛合作协同,比如针对NVLink,英特尔借助太网联盟(UEC)的力量,推出面向AI高速互联技术(AI Fabrics)开放技术的以太网解决方案来达到更广泛的硬件兼容性。另外,英特尔还将利用代工优势,提供一系列的AI互联软硬件参考设计。
六代Xeon推出双构架产品,大模型效率6.4倍提升
Intel Vision 2024会议上的另一大看点便是发布了第六代Xeon至强处理器。在去年底发布五代Xeon时便有声音传出英特尔会快速更新构架,焕新产品,这不,它就来了。
相比称呼Gaudi 3的“Big Boy”,帕特将六代Xeon称为“little baby”,这的确是英特尔四年五个节点中非常重要的一个,但我觉得他具体是指其中的Sierra Forest。是的,六代Xeon提供了两种构架产品:Sierra Forest和Granite Rapids,分别基于低功耗的E-Core和高性能的P-Core来设计。
之所以要提供Sierra Forest,是因为它的机架密度相比前代提升了2.7倍,每W性能比也提升了2.5倍,能够帮助用户大幅降低能耗。另外,它还提供了对MXFP4数据格式的软件支持。
现场,帕特以700亿参数的Llama-2模型,同时运行在四代、五代和最新六代Xeon之上,大家没看错,相对四代Xeon,六代Xeon可将每token的延迟时间缩短到6.4倍之多,既使相对五代Xeon,也有近一倍的提升。
分享AI更多玩法,解密Lunar Lake算力高达100 TOPS
帕特也不忘宣传AI PC在AIGC上的新特性,比如利用AI快速提取关键词,回复客户邮件;比如利用人工智能提取噪声,以达到更好的抑噪效果;还有在Lightroom中利用AI快速整理照片,以及做一些快速编辑;比如在ComfyUI中改变俄亥俄工厂照片的天气,它改变的不仅是天空,还包含建筑的阳光照射效果。要知道,这一切都是利用AI PC的本地算力达成的。
当然,英特尔的员工也不忘在万众注目中,“整蛊”一下自己的CEO,比如这张帕特扣篮照片,就是用AI生成的。
在这场大会上,英特尔还透露了下一代酷睿Ultra处理器(Lunar Lake)的一些算力,比如会提供超过100 TOPS平台算力,并且在神经网络处理单元(NPU)上提供超过46 TOPS的算力。之前我们还对微软Windows 12要求40 TOPS以上的AI算力感到硬件上的准备不足,但像英特尔这样的处理器厂商其实已经早早做好准备。要知道Meteor Lake CPU的算力也仅34 TOPS,这么来看,Lunar Lake将是算力大爆发的一代处理器产品。
写到最后:
还记得帕特•基辛格在2022年说过那句话吧,英特尔预计在2030年将实现一颗芯片集成1万亿晶体管。而这样一颗芯片,其实最有可能出现在Gaudi AI加速芯片之上,对于堆算力,蓝色巨人是非常擅长的,而且英特尔在这之上展示出前所未有的开放态度,绝对会在AIGC时代拿回相当大一个份额。当然,我们也会为老黄瞎操心一下,前有谷歌、微软、亚马逊“造芯”,后有英特尔加速奔跑,真的不慌吗?即使当前,也形成了英伟达B200、AMD MI300系列和英特尔Gaudi 3"三巨头"竞争的格局,AI芯片市场将出现前所未有的竞争性。
加载更多