写了 495 篇文章,被 2 人关注,获得了 9 个喜欢

借力平台化优势

英特尔锐炫A系列独显首发移动端产品

文/ 王健鹏
前言 回顾过去的时间点,英特尔是在2021年的8月17日正式公布的高性能显卡产品品牌——“IntelArc”,中文名称锐炫,一直到2022年3月30日,英特尔方正式揭开了它神秘的面纱。 从英特尔公布独显计划开始,英特尔造显卡一直是科技行业的热门话题。对消费者而言,终于在NVIDIA和AMD两家之外有了第三个选择,意味着新的竞争格局会给这个市场带来新的潮流与走向。按之前的披露,英特尔Xe-HPG锐炫显卡将会采用台积电6nm制程,放弃原有EU的基本模块,采用了全新的Xe核心,第一代XeHPG微构架核心的代号名为Alchemist(炼金术士),第二代与第三代将分别使名为Battlemage、Celestial,然后将是全新下一代Xe架构的Druid。可以看到,英特尔在Xe-HPG上的规划已经相当建全。

Part1. 解读英特尔在GPU领域的积累

 

如果按历史进程来看,英特尔其实并非“显卡俱乐部”的新玩家,早在二十多年前,英特尔便尝试过开放独立显卡,一直以来,英特尔从未放弃过对高性能显卡的尝试。事实上,2017年英特尔拿出一款代号为”DG1”的显卡,便让用户们感到异常兴奋。但事实上,英特尔正式在市场中推出的却是移动端的独立显卡——代号为“Alchemist” 的英特尔锐炫显卡。

 

首推移动端独显其实并不意外,按英特尔院士(主要负责图形创新)TomPetersen的解读:“英特尔最大的优势就是平台级的创新。之所以先从移动端平台开始发布我们的显卡,因为一直以来这都是我们的优势和强项,我们通过笔记本和移动端让用户感受到平台间的相互协作。在移动端笔记本的基础上,我们还可以提供更多的差异化特性,突出不同的体验。”

 

英特尔在移动端的优势非常明显,老用户应该记得,英特尔在从2003年推出迅驰平台起便统一了总线接口、无线规格、通用接口等笔记本平台的标准;随后在传统高速数据的雷电接口、用于视频编解码的IntelQuick Sync Video,以及超极本、二合一创新形态、轻薄Evo平台上,都一直在增强移动端的平台化优势。

 

而且从Xe锐炬核显到Xe-HPG锐炫独显,英特尔事实上已经在显卡方面经历了数代积累,其实去年英特尔已经在构架日上推出一款由8Xe组成的SoC——面向服务器的PonteVecchio GPU便给我们留下了很深的印象。

 

全新的A系列移动端独立显卡沿用了英特尔在CPU上的命名习惯,共分为357三大系列,其中3系列主要面向主流游戏、5系列面向性能游戏、7系列面向硬核性能游戏。其中3系列随着330日发布日开始正始向市面发售,而57系列则会在2022年初夏面市。关于英特尔的性能划分,接下来我会一一给大家分析。

 

不管哪个系列,英特尔A系列移动端独立显卡均会采用相同的显卡构架,也就是我们常提及的显卡各个功能性内核。如今,显卡越来越强调显卡在构架上的并行性,可以看到,Xe-HPG锐炫独显正在硬件层划分为内置XMX(矩阵引擎)的Xe内核、支持下一代编解码器标准的Xe媒体引擎,以及解决高输出规格Xe显示引擎和新的图形管线, 用来处理各种不同显示任务。所以在A系列移动端独立显卡之上,对DX12Ultimate终极版的支持AI运算、视频编解码、显示输出和渲染着色等任务都是由不同引擎来负责的,这有利于分担Xe内核的运算负载。

 

Part2. 看懂Xe HPG微架构的优势

 

Xe内核

Xe内核正是Xe HPG微架构上最小模块,刚才提及,它取代了之前集成显卡上EU的概念,它正是显卡的最基础执行单元,单个Xe内核的性能的强大与否,关系着这一代显卡的整体性能和能耗比。A系列移动端独立显卡的Xe内核包含了16256位宽的SIMD矢量引擎XVE负责为传统图形着色器执行大部分的运算内核另外还包含16个矩阵引擎XMX,每个引擎都是1024位宽也就是专门为了AI加还运算使用的;为了满足矩阵、矢量和光线追踪单元的高带宽需求,每个Xe内核中均内置了一个192KB的大型本地内存可以根据每个工作负载的需要在L1缓存和共享本地内存SLM之间动态分配。

 

可以看到,Xe内核的功能相当全面,而且将矢量运算和AI运算放在同一内核中,可以根据响应负载类型灵活调用本地内存,运行效率更高。

 

矢量引擎XVE

矢量引擎XVEXe内核中的重要组成部分,可以看到英特尔改进了该引擎的ALU(算术逻辑单元)浮点运算FP提供专用的执行端口FP指令可以与整数运算INT指令同时运行比如DP4a的快速INT8计算便是通过该引擎执行。

 

矩阵引擎XMX

Xe内核的另一部分则是全新的XMX矩阵引擎它的任务便是为了强化AI加速能力,用于高吞吐量矩阵乘法,涵盖包括BF16INT8最常见的AI数据类型。

 

刚才我已经提及将矢量引擎XVE矩阵引擎XMX放在同一个Xe内核中可以灵活调用本地内存的好处,我们来看在实现数据执行中,不同引擎的执行效率。MAC是图形中使用的基本SIMD矢量指令相当于每个时钟执行16Ops8次并行运算乘法+8次并行加法);DP4a是针对不需要32位精度的AI计算所做的优化总共是32次并行乘法矩阵引擎通过将乘法累加4深度流水线化相当于总共执行了64操作4个阶段256次操作

 

所以,不同的引擎可以实现浮点FP、整数INTXMX指令的并行处理锁步形式实现两个引擎并行和资源共享以获得更高的算力与执行效率

 

渲染切片(RenderingSlice

渲染切片(RenderingSlice可以理解为Xe内核的上一层单位,它是可重用IP的基本构建块。在Xe-HPG微架构里,每4Xe内核组成了一个渲染切片。在每个渲染切片中,还包含了网格着色采样器反馈以及四个硬件光追加速器等功能性模块,以实现对DX12Ultimate的支持和对实时光线追踪功能的支持。

 

再向上,渲染切片便可用来构建不同的SoC也就是不同的A系列移动端独立显卡,目前发布的产品最少包含两个渲染切片最大八个。可以看到,Xe-HPG微架构是不是有搭积木的即视感,这正是该构架的优势所在——配置灵活。除此之外,它的能耗比也有相当明显的提升,相对上一代产品Xe-LP微架构每瓦性能提升了1.5倍。

 

 

Part3. A系列移动端独立显卡的重要特征

讲完了Xe HPG微架构的构成和优势,其实很多朋友都基本了解A系列移动端独立显卡的一些重要特征。当然,我还是进一步将其展开来聊一聊,便于了解英特尔在这些领域的进度。

 

XeSS超级采样

英特尔在构架日发布Arc品牌时便公布了XeSS超级采样的技术,从构架上来看,这项技术也是根植于Xe内核之中,由XMX矩阵引擎作为它的硬件执行单位。从英特尔披露的技术特征来看,XeSS有别于市面上普通空间放大(Spatialupscaler技术并不相同,是通过神经网络辅助运动矢量运算,重新渲染低分辨率画面,生成更为真实的高分辨率画面。这项技术与NVIDIADLSS类似。

 

XeSS超级采样技术需要游戏厂商的支持,在今年的CES2022之上,英特尔便公布了505Games《死亡搁浅:导演剪辑版》便支持了该技术,至A系列移动端独立显卡正始发布之日,已经有14款游戏完成了对XeSS的支持。可以看到,这个进度是比较快的,而且随着装载A系列移动端独立显卡的笔记本越来越多地面市,会有更多游戏厂商将会支持该功能。

 

Xe媒体引擎

Xe媒体引擎A系列移动端独立显卡的一项重要技术进步,它集成了英特尔号称“最先进的媒体加速器之一可以看到,除了H.265/ HEVCH.264/ MPEG-4 / AVCVP9等主要媒体格式,该引擎是业界首次实现AV1编码和解码的硬件加速支持硬件编码速度CPU软件编码快了50倍。这也意味着装载A系列移动端独立显卡的笔记本电脑进行媒体编解码工作时,最大可能释放CPU的性能,帮助电脑同时进行更多任务。

 

Xe显示引擎

与其他显卡构架不同,英特尔专门为A系列移动端独立显卡构建了一个独立的Xe显示引擎用于高规格的显示输出。它支持如今笔记本上广泛兼容的HDMI2.0bDP1.4a的规格支持向单台1080p@360Hz44k@120HzHDR的显示器输出。为解决显示高帧率画面撕裂的问题,英特尔自研发了SpeedSync并同时支持VESA标准的AdaptiveSync特别是自研的SpeedSync可以有效避免以往V-Sync带来的高延迟问题。

 

Xe显示引擎上,还有一项英特尔独创的SmoothSync功能,它以插件形式集成在锐炫显卡之上。这项功能的原理是通过模糊化两个撕裂帧之间的边界,来减少视觉失真。这个插件无需编码,系统负载比帧同步技术低得多。

 

Part4. A系列显卡的参数与性能

Alchemist,也就是A系列移动端独立显卡采用了两种SoC封装,可以简单称其为“大芯片”和“小芯片”,大芯片的代号为ACM-G10共有32Xe内核和光追单元也就是8渲染切片),提供16MBL2缓存,256GDDR6接口16PCIe4接口小芯片的代号为ACM-G11,配置为8Xe内核和光追单元4MBL2缓存,96位显存接口,8PCIe4接口。两款芯片均包含两个Xe多功能编解码引擎和4路显示输出引擎。

 

从产品来参数来看,锐炫3系列共包含A350MA370M两款,提供了6个和8个两种Xe内核和光追单元数量,功耗设计和显卡时种频率均不相同,采用了相同的4GB64位宽的GDDR6独立显存;锐炫5系列仅有一款A550M,采用了16Xe内核和光追单元数量;锐炫7系列同样有两个配置,分别是24Xe内核和光追单元数量的A730M32Xe内核和光追单元数量的A770M其中A770M的显存高达16GB256位,显卡功率也达到120~150W

 

刚才已经提及,A系列移动端独立显卡全系列支持DirectX12Ultimate支持光线追踪可变速率着色网格着色和采样器反馈除硬件级光追外,诸如可变速率着色能让应用例如游戏告知显卡,场景中哪些部分需要更高的细节,哪些部分可以适当减少,从而加快当前帧的渲染,最终提高游戏帧率。

 

A370M为例,这款显卡基本定位于1080p之下以中、高画质畅玩主流游戏,它相对12代酷睿移动处理器的核显有两倍的性能提升。英特尔公布的测试成绩中,诸如《杀手3》《毁灭战士:永恒》《重返德军总部:新血脉》等游戏,均能以中、高画质实现60~80fps的帧率表现。

 

在《堡垒之夜》《GTA这样的竞技游戏中,可以看到A370M可以在1080p分辨率下跑到90fps以上。

 

在创作类软件中,诸如常用的HandbrakeDvinciPremierePro,均有不同性能的提升,特别是PremierePro中的两个典型场景应用,有着超过锐炬显卡1.8X2.4X的性能表现。

 

Part5. A系列显卡背后的驱动力

仅在硬件层面去看英特尔A系列移动端独立显卡是不全面的,它背后还有众多技术针对不同层面的性能提升提供了驱动力,为了方便用户理解,英特尔将其打包为IntelDeep Link,它事实上包含了三个方面的技术:动态功率共享、超级编码和超级算力。

 

动态功率共享功能上,英特尔其实早在2016也就是Kobe-LakeG时代便推出了第一版的动态功率共享功能,在CPU裸片和GPU裸片之间动态分配功率如今的A系列独立显卡上,应用了英特尔最新的算法,通过循环采集各种CPUGPU的温度占用率各自功耗等各种系统信息特别是在游戏中GPU负载过高时的GPUBound的场景时动态调整GPUCPU的功率配比,将更多的功率分配给GPUCPU高功耗场景中,反之亦然目前,该功能的调整最小间隔仅需100毫秒

 

超级编码技术是通过整合笔记本电脑现有的编解码硬件能力,同时运用集成显卡和独立显卡的编解码引擎来提升编解码效率。这种协作是通过OneVPLAPI接口来实现的通过特定的API函数按组被分配到不同的多媒体引擎上并行处理

 

通过同样的逻辑,英特尔还可让整个系统都参与到内容创作中来,为之设计的这样一个基于机器学习的服务被称为MLSMLSOpenVino中的一个框架,它能智能的把负载分配给不同的算力模块。同样是基于轮询显卡的延迟敏感度、吞吐量、性能要求、功率消耗等负载特征,将负载分配给独立显卡、集成显卡,或者CPU。仔细看来,DeepLink的三项功能其实在运行逻辑和资源调集上都是有内在联系的,所以将其整体为一个技术并不奇怪。

 

非常有意思的是,IntelDeepLink技术基于笔记本电脑的现有构架,最大可能地调集笔记本电脑的所有硬件资源,在配备独立显卡之后,针对一项工作同样能够最大限度调集集成显卡和CPU的剩余资源,以提升整机效率。

 

针对这项技术,我特别询问了英特尔图形产品管理总监DevonNekechukDevon提及:“IntelDeepLink技术在动态功率共享上是针对整体性能的,但超级编码、超级算力则需要与不同的ISV(软件开发商)去合作。当然,对用户来说,英特尔基于人工智能的MLS引擎是透明的,软件算法集成到较靠底层的软件库中,系统是自动根据负载做出调配的,不需要人为干预。而ISV则可以通过深度定制,对整个系统进行、打通上下层的软件,进一步提升效率。目前,英特尔已经合DaVinciResolveHandbrake等重要的内容创作软件实现了深度匹配。”

 

基于现有的硬件构架,IntelDeepLink技术在动态功率共享上能够实现30%的性能提升,超级编码上提供60%的性能提升,结合XMX矩阵引擎,可实现24%的性能提升。是否每款A系列移动端独立显卡都拥有相同的性能提升能力,等到真机入手时我会给大家一一测试。

 

Part6. A系列显卡笔记本预览

首先发布的A系列移动端独立显卡为锐炫3系列,它也将主要搭载在Evo平台的轻薄本之上。据英特尔宣称,搭载锐炫3独显和12代酷睿CPUEvo轻薄本依旧拥有超过9小时的电池续航能力,这一点也是对A系列独立显卡在能耗比表现上的印证。

 

全球首款搭载锐炫显卡的笔记本已经面市,为搭载锐炫A350M的三星GalaxyBook2Pro,目前国内暂时看不到这款产品,不过从第二季度开始,包含宏碁、华硕、蓝天电脑、戴尔、技嘉、海尔、惠普、联想、三星、微星和NEC各大OEM厂商将推出搭载锐炫3系列独显的产品,而锐炫57系列的笔记也将在今年夏天陆续面市。

 

随着锐炫独显笔记本的上市,所有锐炫独显均会装载一个统一的显卡管理软件——ArcControl。它提供了快速升级、实时查看显卡性能的工作负载,以及直播、串流用到的相关设置,比如开启直播功能将游戏精彩的画面分享到直播平台上、开启虚拟摄像头将背景移除、自动调整画面比例,并截取和保存游戏中的高光时刻等功能,目前,已经有10个游戏支持抓取游戏截图或者视频的功能。

 

Part7. 写在最后

关于英特尔锐炫A系列移动端独立显卡的解读内容暂时就给大家报告到这里,不过关于产品的报道对于我们来说才刚刚开始。相信大家跟我们一样,对于A系列移动端独立显卡在笔记本上的真实表现非常感兴趣。而且随着英特尔独显的上市,无疑会给市场引起剧烈的化学反应,也会带来一系列的不确定因素:比如英特尔的轻薄独显本性能如何?价格是否有优势?开放给其他厂商后是否会接招?游戏厂商、软件厂商对XeSSDeepLink等软件的跟进力度如何?一切话题我们都会高度跟进。

 

登录注册 后评论。
n
Copyright © 2016 vantk.com 远望资讯 版权声明. 经营许可证:渝B2-20030004-10

渝公网安备 50019002500898号