拓宽赛道,厚积底蕴
看英特尔锐炫显卡技术分享会有哪些底层技术演进
英特尔公司中国区技术部总经理高宇
英特尔在发布基于基于英特尔 Xe HPG 微架构的英特尔锐炫A系列显卡以来,一直在加速在GPU领域的进取,从去年到今年,锐炫发布了一系列覆盖入门级到中高端发烧级别的显卡,对用户来说,像英特尔这样在PC产业上拥有深厚实力的厂商加入,能够增加GPU市场的竞争力度,能够让消费者能够获得更多的选择权,加速技术演进。
薄积而薄发,英特尔一开始就为锐炫显卡打下一个好底子
锐炫显卡家族
其实细心的大家可以看到,英特尔自发布混合架构的CPU以来,就摆脱了“牙膏厂”的称呼,在产品路线图上可以说是一路狂奔。而在GPU领域,英特尔更是以归零思想锐意进取,锐炫显卡在短短一两年里走完了很多厂商多年的布局。
从架构基础来看,英特尔Xe HPG微架构的设计之初就基于桌面级和游戏性能进行了优化,组成其基础的Xe内核在拥有可以完成浮点和整数运算的矢量引擎(Xe Vector Engines,XVE)和矩阵引擎(Xe Matrix eXtensions,XMX)之外(每时钟吞吐量不逊色于NVIDIA Ampere GPU SM),还单独设计了线程排序单元(Ray Tracking,RTU)和光线追踪单元(Thread Sorting,TSU),前者用于协调后者和Xe Core之间的调度,从而实现光追硬件加速器的硬件资源最佳分配,且能实现“异步光线追踪”。在Xe内核中,还有一个非常重要的组成部分——英特尔XMX AI引擎,XMX即Xe Matrix eXtensions,它专门用于AI加速、矩阵/张量计算,能够有效提高执行性能和算力。
在Xe内核这个可以独立完成几乎所有运算需求的核心基础上,Xe HPG 微架构还建立了“Render slice”渲染切片这样的“单元”结构,并在其中加入了针对DX12 Ultimate优化的图形管线,并在这个层面加入了实时光线追踪单元和3D渲染能力。可以看到,从独有调用机制的光追硬件加速器到独立的光追单元,英特尔一开始就非常重视光追能力,在各家GPU构架越来越被重视光追性能的今天,英特尔拥有一个不错的起步。
从硬件层面来看,Xe HPG 微架构天生便一个高效能的硬件结构,而且还发挥过去所长,率先在GPU中支持了编解码的硬解和硬编。另外,英特尔还在硬件基础上“堆叠”了专为加速当前和未来内容创作所需工作负载的全新Xe媒体引擎,以及支持DisplayPort 2.0定义的UHBR10的Xe显示引擎等,从而在游戏和桌面级应用上形成一个非常全面的软硬件生态。
当然,对于GPU来说,要将显卡良好的底子在各种应用场景中发挥出应有的能力,还需要针对各种的游戏和应用做适配,所以自锐炫显卡发布以来,便在很短的时间内更新了21版驱动,并为42款游戏提供day 0支持(发售首日起优化支持),诸如英特尔XeSS技术,发布至今已经拥有50+的游戏支持。我在2月份曾在A750上做过新版驱动的测试,它对通过对驱动重构让DirectX 9游戏获得了43%的性能提升(比最初期发布时)。这样的性能增长,已经够得上一次GPU的代际硬件升级了。据了解,英特尔还在继续做着通过重构驱动优化DirectX11和DirectX12游戏的工作。
加快技术演进,让“努力”能够得见
之所以要给大家回顾这些锐炫显卡的这些关键性技术,有利于帮助大家理解我接下来要讲的内容。英特尔之所以能够在技术演进上做到厚积薄发,其实建立在过去已经在GPU领域深入研究多年,不仅推出了多代锐炬集显,就连英特尔规模最大的SoC也是一块名为Ponte Vecchio的超算GPU(基于Xe HPC微构架),我从不怀疑英特尔在GPU领域的技术积淀。
日前在“锐炫新势力,释放芯力量”为主题的技术分享活动上,我遇到英特尔公司中国区技术部总经理高宇,在他口中听得最多的两个字便是“努力”,比如:“在驱动方面也我们做了非常大的‘努力’,也获得非常大的提升”“我们正在继续‘努力’,我相信未来大家还会听到锐炫在游戏方面的进展”“我们是非常‘努力’、非常重视锐炫的产品和锐炫相关的技术,希望在市场上得到玩家的认可,得到开发者的认可”“相信通过英特尔全球工程师的不懈‘努力’、优化,一定会不断取得更多进展”……英特尔在GPU领域并没有“偶像包袱”,正加快速度拼合GPU上的一个个技术版块。
高宇还提及:“数十年来,英特尔一直致力于推动 PC 平台的创新。现在,我们凭借英特尔锐炫显卡更进一步——锐炫显卡的强大硬件实力,配合持续的软件优化、性能提升以及不断拓展的生态合作,将为消费者、游戏玩家和内容创作者带来更加出色的使用体验,驱动更加高效高产的创作创意和更加顺畅沉浸的游戏体验。”这句话背后的信息量其实是很大的,从硬件到软件,再到整个生态,锐炫显卡瞄准的是消费领域最领先的GPU品牌。而且同样在游戏之外会对内容创作需求作技术布局。
打造更高效率、更易适配的XeSS
在这次技术分享活动上,英特尔主要给我们展示了两个方面的进展,其中便包含了XeSS超级采样技术。这项技术对于游戏体验的提升是非常显著的,但这项技术的推进仅凭英特尔的努力还不够,还需要英特尔团队加强和开发商紧密合作,一款一款游戏去做适配。英特尔的技术专家介绍:我们的团队会尽可能去与开发者作交流,硬件适配和分析、优化。过去,很多游戏只要检测到英特尔显卡,就把它识别成一个集成显卡,游戏画质、默认设置还有光追等方面的效果都是默认关闭的,但通过展示英特尔XeSS在性能和上画质的优势,如今首发的新游戏,基本都会首先将锐炫显卡放入高性能显卡支持名单里,诸如《赛博朋克》《霍格沃兹之遗》《巫师3重制版》《幽灵线: 东京》《完美音浪》《HiFi RUSH》,以及《如龙 维新!极》等关注度很高的游戏都已经完美支持了XeSS。
英特尔的XeSS超级采样技术,是一个基于深度学习的时间摊销的超级采样技术,作用是以高质量放大游戏图像来获得更高帧率的技术,各个GPU厂商都有自己的专属技术。英特尔在发布第一代锐炫显卡就拿出了这项技术,在此之前是做了长期的技术积累的。除了需要游戏厂商逐个加入做适配优化之外,XeSS还提供了对DP4a的支持,这个一个行业通用的指令,可以适配所有游戏。
虽然英特尔没有作专门的宣传,但此次技术分享会上也跟媒体谈及了XeSS超级采样技术的进展情况和发展方向。目前,XeSS已经可以支持1080p到4K的放大,而且英特尔还在进一步将放大倍数提升到3倍;同时,它还可以做到相当高的的抗锯齿。正是基于这两项基础技术,XeSS能够更好地替代传统的渲染管线TAA。而当下,XeSS的技术团队正在做一项能够明显提升GPU效率的技术推进工作:一般而言,低分辨率的后处理可以极大节省GPU算力,但为了保证图像质量,诸如Tone map、UI/HUD,尤其是UI/HUD等预处理,都是以原生的UI分辨率来做的,英特尔研究的方向就是把一些一些后处理往前移,从而获得更高的性能。
这样的改进也能提升开发者的适配效率。按流程来看,XeSS会向开放者提供的动态矢量图和低分辨率的RGB的图像,用于生成XeSS的模型,加上XeSS模型本身保留的一帧放大之后的RGB数据,共同生成高分、高质的输出结果。如果按英特尔未来研究方向来看,开发者的适配方式会大大简化。
在今年1季度末的Intel XeSS 1.1 Update中,英特尔加强了XeSS网络模型的稳定性,主要解决的是少数情况下画面的闪烁。从底层技术来看,1.1是通过调整网络模型和参数来改进的,这样就能在XMX内核的硬件层面同时解决AI XeSS和DP4a这两个技术路线上同样的问题。
当初英特尔在研发XeSS时就引入了AI,如今的好处就显现出来,通过AI能够较为容易地实现调参优化。研发团队可以通过选择一些有代表性的图像,用稳定分辨图像去匹配高分辨率的图像,最关键的是可以引入数量众多的数据集来训练的XeSS模型,而且游戏开发者也能方便地加入更多的数据集,改进AI训练的成果。据英特尔宣称,这样的改进不仅能够稳定图像,还能进一步提升帧率,从A770的测试结果来看,约有5%~10%的性能提升。
从部分游戏来看,XeSS的和图像品质和帧率提升已经超过了FSR,已经相当接近DLSS的水准,这与技术团队所做的适配工作是密不可分的。另外,能够享受到XeSS技术的不仅有锐炫A系列显卡的用户,还包含了锐炬集显的用户,英特尔并没有将这项技术作为代际间或品类间的区隔,而是希望更多用户享受到这项技术,这就显得更为厚到一些。
正是这些调整,让游戏开发商们更乐于与XeSS适配,甚至一些游戏引擎,前不久才发布的Unreal Engine 5.2游戏引擎,首先宣布支持的就是英特尔的XeSS,甚至至截稿为止,NVIDIA和AMD也没宣布对Unreal Engine 5.2的支持。由于发布的时间不长,英特尔的XeSS适配的游戏还不如其他两家,但英特尔明显更主动一些,预先向更上端的游戏引擎做适配,是能够加速游戏适配的“捷径”。除了Unreal Engine,英特尔也针对一些自研游戏引擎积累了丰富的文档、代码、示例工具,在重要的游戏开发区,英特尔直接设置了本地化的技术团队去支持,这些努力,会转化为一个个游戏表现,让更多玩家看得到。
为内容创作优化,开辟新赛道
另外一方面,英特尔展示了锐炫GPU针对内容创作方面的硬件支持。在文章前端我详解了Xe HPG 微架构,构架外层,就装备了高级Xe的媒体引擎。这个媒体引擎中包含了两套视频编解码器和视频后处理器,从而使其拥有高效能的编解码能力,而这个能力是全系列所有产品全整配备的,即使定位较低的锐炫A380,也能同时支持8路4K@60fps的编解码,其中更是有两路是AV1的视频转码。如果按吞吐量来看,4K解码约有480fps,4K编码约有120fps,即使这样,也仅占到两个编解码引擎约80%的硬件能力。
我们先将编解码能力放在一边,再来谈谈锐炫显卡的驱动新优化,在最新发布的4369驱动版本中,对内容创作进行了大量的优化,如果将其比较去年的3959驱动,可以看到A750在专业视频编辑软件达芬奇中的总体性能提升是33%,其中一些fusion任务子项的提升有40%,4K media任务提升27%;另外,A770上提升的幅度更大,总体提升达到40%。
新驱动主要针对达芬奇优化了OpenCL的负载。事实上,针对内容创新软件作优化是需要花大量投入去做的事情,而且针对一个软件做的优化,很难复刻到其他软件上,这比推进XeSS在游戏中的适配更为复杂。
我们看来看具体的优化内容:
首先是为达芬奇创建了集中式缓存池,它能够在驱动中提前划出缓存,以应对频繁创建的小Buffer,小Buffer数量一但很多,就会大大占用GPU的资源,通过在缓存池中返还小Buffer所需的缓存,不需要每个小Buffer都跑完整个流程,减少了硬件资源的开销。其次是针对主存和显存拷贝的优化。它主要是简化了将buffer拷贝到显存的路径,将生成拷贝命令的指令简放,让GPU直接去做拷贝,减少显存的开销。第三是资源延迟销毁(释放)。让原本随帧处理完成后立即执行销毁所创建资源的工作,通过将销毁请求在驱动中缓存,以异步的形式进行,从而让CPU与GPU完全并行,减少CPU等待GPU的空窗期。正是通过这些优化,让创作者直观地感知到软件运行效率的提升。
除了达芬奇,新驱动还针对剪映进行了优化。剪映的工作负载特点是将GPU里有的硬件引擎都调动起来,需要解码引擎、编码引擎、3D引擎,甚至更多的引擎协同工作,如何提升这个多引擎流水线的效率,就是要处理好各引擎之间的依赖关系。所以新驱动在主要实现了更加精细化的GPU引擎之间的依赖管理,以真实依赖为凭据才会加以等待,避免了各引擎之间空等的情况。仅这一项改进就使视频导出性能提升10%。
以上改进均是通过减少驱动开销和精细化的同步来提高GPU引擎的利用率,新驱动其实还会主动适配内容创作软件,用锐炫显卡独特功能来加速用户任务。同样以达芬奇和剪映为例:锐炫中有两个视频后处理引擎,可以在8K预览这样的重负载场景下对其作加速。因为是驱动层的优化,软件本身是不需要做适配。如果没有这两个视频后处理引擎,一般8K@60fps 8bit的视频预览也就能达到30~40fps左右,而数据量是8bit两倍的10bit,基本不能流畅预览。而在锐炫显卡中,可以完美支持两路8K@60fps 8bit的实时预览,或一路8K@60fps 10bit的预览。
针对剪映的优化主要是多特效视频导出,应用的是锐炫的内存压缩技术,它主要解决的是由手机端发展起来的剪映采用的是安卓构架的OpenGL ES软件栈,在PC端没有原生驱动的问题。通过内存压缩技术,让特效shader显存压力大大减少,让shader性能在锐炫显卡上提升了一倍左右。比较新老驱动在A380上的差异,新驱动的导出时间节省了40%。
我花了大量篇幅来讲解锐炫新驱动对编解码能力的提升和对创作类软件的优化,在这方面,英特尔是比较有前瞻性眼光的。与同行相比,AMD的GPU产品在做这么多年后,还是主要专注于游戏,很少对内容创作作优化。随着英特尔在驱动上针对创作类软件的优化越来越多,是完全有可能像NVIDIA一样推出一个Studio版本的创作者驱动的。
生成式AI创作DEMO
最后,英特尔还我们展示了Stable Diffusion的生成式AI的体验效果,在这方面,NVIDIA已经做了相应优化,而从英特尔展示DEMO的效果来看,也有明显的优化痕迹,期待在下一次看到更多分享。
我觉得现在对锐炫显卡做定性评价,为还时尚早,如今它正处于补齐短板、厚积底蕴的加速发展期,不过高宇的一句话说得通透:“从英特尔的大方向而言,我们在显卡GPU的路径上一定会坚持‘一条道走到亮’。”这说明英特尔在技术演进的方向已经有相当明确的目标。如果非要对锐炫显卡有一个总结,我觉得是“底子好,架构稳、成长劲”,再加上一句“进取心强”,前期的很多基础性投入都是英特尔主动,甚至这突破惯性思维去做的。我们不妨把时间线向未来拉时一点,一年以后,我们再来看XeSS支持的游戏量级会达到什么程度,有多少新发游戏会day 0支持锐炫显卡,那时将英特尔GPU领域完全可以用实力来为“江湖地位”正名。
加载更多