DX11游戏性能爆涨19%
英特尔锐炫显卡再次拿出独有的底层优化方案
英特尔中国区技术部总经理高宇在发布会上致词
我一直很身边的年轻朋友说,英特尔锐炫显卡是最有增值实力的GPU产品。这并非戏言,从发布以来,英特尔锐炫显卡在短短一年多的时间里已经发布了30版的驱动,甚至曾在一个月中,更新过四次锐炫显卡驱动。为何会这么高频次的更新驱动?按英特尔中国区技术部总经理高宇说法,英特尔加大投入频繁升级驱动,只为让用户上随时享受更好的性能提升。
随着英特尔每版驱动的更新,我们也能看到锐炫显卡的“性能”肉眼可见的增涨(通过驱动软实力逐步挖掘硬件核心潜力)。仅从这方面来看,可以说英特尔在锐炫显卡上展示的诚意,是市场上其他GPU厂商所没有的——仅在一年多时间里,要走完竞品数年、甚至十数年在驱动上的积累之路。
锐炫显卡加速成长,游戏体验和性能双提升
其实就在5月份,英特尔在上海为我们展示过一次重要的技术演进,当时展示了Intel XeSS超级采样技术的新进展——一项将后处理工作前移、以提升GPU效率和对开发者适配效率的改进;以及针对内容创作方面两个典型性软件DaVinci和剪映的优化,这些都集成在当时4369版本的驱动当中。
在这次技术更新中,其实有一些数字值得跟大家强调,当时英特尔就已经更了21次驱动、提供42款新游戏的Day 0支持(发售首日起优化支持)和XeSS技术50+的游戏支持,我当时就说过,英特尔锐炫显卡正处于补齐短板、厚积底蕴的高速发展期,锐炫的“江湖地位”取决于未来一年中Day 0支持和XeSS技术支持的游戏数量会有多少,其实时间仅仅过去不到3个月,英特尔在8月18日的2023年Q3重要升级时,就将这个数量提升至57个和70+,了解GPU行业的都知道,这个数字成长速度是非常快的,而且新推出的驱动程序版本数量也提升到30个。
如今,英特尔锐炫显卡最新的驱动版本为4644,它主要提升了对DX11游戏性能,并全新提出了“GPU Busy”的技术概念,并在测试软件Intel PresentMon Beta中增加了对GPU Busy检测的项目。“GPU Busy”直接标明了CPU受限和GPU受限的核心原因,以及英特尔独有的解决方式,对行业来说是非常有意义的一个技术指标,我在接下来会为大家详细解读。在此之前,先从DX11游戏优化谈起。
新版驱动着重优化DX11游戏性能,19%增长相当于一次硬件小升级
对DX11游戏优化其实是英特尔锐炫一直以来对用户的承诺,关注我的用户应该记得今年2月份的4091版本驱动更新,在更新这个鸡血驱动后,A750显卡的最高游戏帧率测试结果提升达到82%,官方公布的DX9游戏平均提升也达到43%,而且将A750的价格降到了极为吸引人的1799 RMB。为实现这次升级,英特尔重新设计了驱动架构,而且当时也便承诺会持续对DX11和DX12游戏进行优化。
今天的4644版驱动便使DX11游戏平均帧率提升了19%,并且将1% LOW帧率提升了20%,我也问及了针对DX11游戏优化和与DX9游戏优化有何不同。英特尔回应对DX11游戏的优化同样重构了应用层驱动,当然也引入了一些超越应用层驱动的优化手段,还是有一些不同点的。
将4644版驱动与锐炫显卡首个公开发布驱动3409相比,可以看到最高的《守望先锋》拥有最高33%的性能提升,还有多个游戏拥有超过15%~30%的游戏性能提升表现。而所有游戏的平均帧率表现达到19%。
1% Low的测试,《守望先锋》同样拥有最高45%的性能提升,其他游戏则拥有9%~25%的性能提升,平均帧率提升达到20%。仅仅凭借驱动优化,就提升了20%左右的性能,这基本赶得上GPU的硬件迭代升级达到的升级效果,这是非常难得的。
可以看到,英特尔选择的DX11游戏,不乏每天在线超百万人的《CS:GO》这样的热门网游、而《刀塔2》的在线玩家则有五十万,《守望先锋》也有三十六万在线玩家,所有英特尔针对DX11游戏进行优化是有实际意义的,而且接下来的时间,英特尔会加快优化其他DX11游戏的脚步。
当然,英特尔也指出优化效果最大化的设备还是那些CPU、GPU性能适配平衡的机型,19%的优化效果是基于i5 13400F+A750LE来做的测试,如果将CPU换成i9-13900K,为高性能CPU带来的游戏增益反而没那么高。当然,从兼容性来看,锐炫显卡对英特尔自家老CPU非常亲和,那么搭配I3-400系列这样的CPU都没问题。
英特尔提出全新指标GPU Busy,独辟蹊径解除CPU受限瓶径
英特尔为我们展示了这么一个流程图,估计如非我细细解读,大部分人都不太能看懂。这张图演示了一个简化后的游戏执行流程。一般而言,一个游戏=先进行物理逻辑层面的计算,先进行CPU渲染,并把相应图形信息整理为DX通用命令(执行一个Present操作),就可以渲染一帧画面了,所以这部分的时间可以称为Frametime。调用Present后,驱动会给GPU推送很多命令,随后就进入到GPU渲染流程,最后渲染结果也会通过显示端口输出到屏幕上。这个流程中,GPU相对于Frametime有多忙,就能够说明执行效率的问题点是出现在CPU受限还是GPU受限上。
理想状态下,Frametime应该接近GPU Busy或者超过一点点,比如右框情况;但如果如现了左框中Frametime远大于GPU Busy,那就说明CPU受限;当然,如果GPU Busy和Frametime完全重合,要么说明CPU和GPU是平衡的,要么意味着GPU受限。
从执行过程中,不管CPU渲染还是GPU渲染,过程都是相当快的,要让Frametime与GPU Busy适配,最为关键的就是让驱动在合理时间接手DX命令,同时也在合理时间让GPU响应,这对于本来就有内存管理、数据获取和编译着色器等任务的驱动而言并不容易,也要求驱动更加理解渲染和等待的方式。
可以看到,新旧驱动的Frametime延迟线控制在了5~6ns左右,基本呈一条直线,与GPU Busy的线非常接近了,可以想到,它能够很好解决CPU受限的问题,解决了游戏流程中的瓶颈。从结果上来看,这已经是一个非常理想的状态了。
当然,英特尔做的优化还不止于此。如果出现GPU受限或平衡状态的情况,特别是GPU受限时,英特尔会提供不同的工具来分析为何GPU渲染时间会偏长,而针对GPU渲染过程的优化,英特尔会在未来驱动更新中提供解决办法。通常GPU繁忙时,CPU会有后续队列继续运行,所以是允许GPU和CPU渲染重叠执行的,如上图显示。
还有一点需要说明,在画质不同的情况下,也就是图形负载不同的情况下,GPU低负载工况依旧会出现CPU受限的情况;反而在GPU负载增加后,两者的繁忙度达到同步,也就避免了CPU受限的情况。
老工具,新升级,PresentMon Beta提供GPU Busy实时监测选项
对消费者来说,如何来了解GPU Busy这个新指标呢?英特尔为此推出升级版的PresentMon Beta,除了提供帧率等以往具备的可视化内容,还提供了GPU Busy、功耗、温度、电压等GPU硬件实时信息。难能可贵的是,这个软件能够与NVIDIA、AMD和Intel的所有GPU兼容,支持多个API,DirectX 11、12、OpenGL、Vulkan等。
我们来看一下PresentMon Beta的界面,其中第一个图示显示的就是Frametime和GPU Busy的实时曲线,而且能够看到他们具体的延迟数值。
EF点评:
英特尔锐炫的这次驱动升级看似主要针对DX11游戏进行优化,但做的底层优化其实更有实效性,特别是提出GPU Busy这个全新指标,为解决GPU等待出现的延迟提供了解决思路,而且从新驱动的优化效果来看,解决的效果也是肉眼可见的。对于“可见”,英特尔是实实在在在测试工具中将优化效果拿出来给大家看,这是非常实在的。
加载更多