销售热线0838-2900585
|english

华体会体育:英特尔锐炫移动级独立显卡解析:剑指高性能 GPU 领域

  英特尔锐炫独立显卡将包含通用架构和高级功能集,并且支持 DX12 Ultimate 以及英特尔最为先进的 AI 和媒体引擎。从产品定位来看,英特尔锐炫 3 系列主要立足于 Evo 轻薄笔记本电脑,为其提供增强的 1080P 游戏性能和出色的内容创作性能。而锐炫 5 和锐炫 7 在提供领先内容创作功能之外,还会提供更高的图形计算能力,以应对高性能游戏需求。

  src=要想系统性的了解锐炫显卡特性,我们首先从渲染切片(Rendering Slice)开始谈起。渲染切片是英特尔可重用 IP 的基本构建块,在 Xe HPG 微架构里,每 4 个 Xe 内核组成一个渲染切片。每一个 Xe 内核中都配备了数量可观的运算单元,如矢量引擎 XVE,矩阵引擎 XMX。此外 Xe HPG 也集成了其它主流图形技术,如网格着色,采样器反馈等,同时也能在渲染切片中找到其相应的硬件支持。

  src=Xe HPG 架构最大特点就是拥有出色的灵活性。因此,英特尔可以通过叠加渲染切片来构建不同的 SoC,目前最少为 2 个,最大可以做到 8 个。这样的结构最主要的特点就是可扩展性很强,根据渲染切片数量不同,产品线变得更加丰富,为用户提供更多选择。与此前的 Xe LP 微架构相比,Xe HPG 每瓦性能提升了 1.5 倍。同时,渲染切片支持 DX12 Ultimate,其中包括对所有图形固定功能块的改进,并且还有支持微软 DXR 和 Vulkan RT 的专用硬件光追单元。每个切片还配备了 4 个硬件光追加速器,用来支持实时光线追踪技术,能够显著提升 3A 大作的游戏画面表现和光影效果。

  src=src=Xe HPG 的核心,是 Xe-Core,即可 Xe 内核,它是 Xe HPG 微架构的组成模块,取代了此前集成显卡中 EU(执行单元)的概念。因此 Xe HPG 架构中最基础的执行单元是 Xe-Core。它包括 16 个 256 位宽的 SIMD 矢量引擎,为传统图形着色器执行大部分运算。矢量引擎主要负责传统图像处理的计算任务。而由于 AI 算法核心几乎完全围绕着一系列大型矩阵乘法和累加算法,英特尔在每个 Xe 内核中构建了专用矩阵引擎来进行硬件加速。Xe 内核包含 16 个矩阵引擎,每个引擎都是 1024 位宽。矩阵引擎专为加速 AI 运算而生。同时为了满足矩阵、矢量和光线追踪单元的高带宽需求,英特尔在每个 Xe 内核中构建了一个 192KB 的大型本地内存。它可以根据每个工作负载的需要在 L1 缓存和共享本地内存 ( SLM ) 之间动态分配。

  谈到矢量引擎,英特尔为了给浮点运算(FP)提供专用执行端口,对 ALU(算术逻辑单元)进行了改进。FP 指令现在可以与整数运算 ( INT ) 指令同时运行,其中包括 DP4a 的快速 INT8 计算。同时英特尔还强化了 AI 能力,增加了新的 XMX 矩阵引擎用于高吞吐量矩阵乘法,涵盖最常见的 AI 数据类型,包括 BF16 和 INT8。

  首先,MAC 是图形中使用的基本 SIMD 矢量指令,是锐炫显卡矢量引擎的核心。它执行 8 次并行运算乘法,然后执行 8 次并行加法(每个时钟总共 16 个 Ops)。DP4a 是针对那些不需 32 位精度的 AI 计算所做的优化。它的工作原理是将所有 32 位输入分成 8 位块,然后独立的乘以这些块,执行总共 32 次并行乘法(参考下图中紫色方块显示)。 接下来是 32 次累加或每个周期总共 64 次操作,这比标准 SIMD MAC 提高了 4 倍性能。矩阵引擎通过将乘法累加 4 深度流水线化,将其提升到一个新的水平。与 DP4a 一样,每个操作数都被分成 4 个块,这些块被独立的相乘和累加——每个阶段 64 个操作(由紫色图块显示)。通过 4 个阶段,每个时钟产生 256 次操作——比传统 32 位 SIMD MAC 增加了 16 倍性能。

  src=src=为了有效提高执行性能和算力,英特尔 Xe HPG 架构可以同时调度和执行浮点 FP、整数 INT 和 XMX 指令,并以锁步形式并行两个引擎和共享资源。

  src=目前,第一时间支持 XeSS 的游戏总计有 14 款,未来数月还会有更多游戏实现对 XeSS 的支持。此外,英特尔与游戏开发者良好的关系,也将帮助其更加快速的拓展 XeSS 支持。

  src=此外,英特尔锐炫显卡支持 Adaptive Sync 技术,可提供流畅、无撕裂的游戏画面。而在此基础之上,英特尔还打造了全新的 Speed Sync 技术,它可以适用于任何显示器并解决不同问题。

  英特尔锐炫 3 显卡现阶段主要载体是 Evo 认证轻薄本,不过考虑到后续拓展需求,英特尔设计了两种不同尺寸的芯片。面积较大的芯片代号为 ACM-G10,它包含 32 个 Xe 内核和光追单元,拥有 16MB L2 缓存,256bit GDDR6 接口,16 路 PCIe 4.0 接口。面积较小的芯片代号为 ACM-G11,包含 8 个 Xe 内核和光追单元,4MB L2 缓存,96bit 显存接口,8 路 PCIe 4.0。两种芯片设计均包含两个 Xe 多功能编解码引擎,和 4 路显示输出引擎。

  src=GPU 频率是非常重要的参数,直接影响最终性能表现。频率提高相应就会要求更高的工作电压,会带来更大功耗。英特尔锐炫显卡支持实时监控性能指标,如功耗、温度和占用率,并且通过动态调节时钟频率来与之适配。

  src=通常来说在笔记本设计中,功耗限制会压低频率。如果显卡只是间歇性被占用,由于每时钟内功耗密度较低,时钟频率一般就会趋于上升。反之当显卡负载较重,比如玩游戏的时候,或者图像视频处理等场景下,时钟频率会相应降低,让整体功耗保持在设计范围内。

  考虑到这些情况,英特尔制定独立显卡参数时,首先标定了一个有代表性的负载,之后在这个负载运行的时候,全程测量并统计时钟频率的分布,最终在整个负载完成后,把平均时钟频率作为参数配置中的定义。当然,对于不同的平台,有着不同的 TDP,即基于散热的设计功耗。如图中所描述的,更宽松的 TDP 限制下,时钟频率的分布范围也会整体提升。

  src=英特尔 Deep Link 简单来说就是多种技术的总称,目前包含动态功率共享,超级编码和超级算力三大主要技术。

  电脑在实际应用过程当中,CPU 和 GPU 并不都是同时处于高负载状态运行,因此借助动态功率共享技术,就可以在系统功耗的限制范围内,尽可能最大化释放 CPU 和 GPU 性能。简单来说,当 CPU 更加需要功率去处理负载任务时,系统会自动把更多功率分配给 CPU,反之对 GPU 也一样,这样就解决了功率浪费问题。

  动态功率共享运行原理是通过循环采集各种系统信息,包括但不限于 CPU 和 GPU 的温度,占用率,各自的功耗等等,其中最核心的参数还是利用率。当系统发现 GPU 负载过高,比如玩游戏的时候,系统会动态调整 GPU 和 CPU 的功率配比,将更多功率分配给 GPU。反之则将更多功率分配给 CPU。

  src=此外,显卡使用率其实是有一段最优区间,此时需要让 GPU 既 不吃太饱也别饿着 ,因此当显卡占用率超过这一区间,就会提升显卡功率配比。当显卡占用率低于这一区间,则提升 CPU 功率配比。而当显卡占用率非常低时,就会把功率尽可能都分配给 CPU。现阶段,所有搭载英特尔 12 代酷睿和锐炫显卡的笔记本电脑都能够启用这项技术。

  src=这种协作是通过 OneVPL 的 API 接口来实现的。OneVPL 是一个跨平台的开放性框架,应用程序通过接口可以识别并调用平台上多个多媒体引擎,充分利用视频处理能力。当超级编码开始工作时,一组组解码后的原始帧通过特定的 API 函数被交给 oneVPL,进而按组被分配到不同的多媒体引擎上,拷贝到相应的内存中缓存起来。不论每一组有多少帧,相应的集显或者独显的多媒体引擎会开始按照设定的格式编码。而 OneVPL 会完成后续的打包工作,把编码后的帧一组组拼接成最终视频来输出。这种并行处理,编码效率比单一显卡更加显著。

  随着内容创作个人化趋势加剧,算力需求也逐步提高。而 GPU 本身就是内容创作相关应用最高效的硬件之一,因此,超级算力技术某种程度上来说就是为内容创作而生。不过,英特尔并未忽视 CPU 在内容创作应用中的计算力,因此超级算力技术主要是通过把负载合理的分配给不同计算引擎,从而实现更加高效的内容创作过程。

  src=MLS 是 Open Vino 中的一个框架,它能够智能地把负载分配给不同算力模块。根据当前应用或负载特征,例如延迟敏感度,吞吐量,性能要求,功率消耗等等。这些因素帮助 MLS 做出决策,把负载分配给独立显卡,集成显卡,或者 CPU。

  src=其实简单来讲,超级算力的实现就是靠 CPU、集成 GPU、独立 GPU 协同工作来、并行计算实现算力和效率的增强。

  src=功能特性方面前面我们也介绍了,锐炫 3 系列显卡均支持 DirectX12 Ultimate,并且支持光线追踪,可变速率着色,网格着色和采样器反馈。此外,英特尔也放出了一些游戏实测数据,可以看到 A370M 独显与英特尔锐炬 Xe 核显相比,在游戏的中或高画质下,画面帧数差异还是相当大的,A370M 整体表现还是相当不错的。

  src=src=不过从目前 A 系列显卡应用适配情况来看,其特性更加契合内容创作需求。在视频编解码方面,以 Davinci 为例,4K H.264 转 H.265 的性能相比锐炬 Xe 核显提升多达 60%。

  src=随着锐炫 3 独显发布,英特尔还带来了全新的锐炫控制面板,即 Intel ARC Control。它提供了一站式与锐炫显卡相关的设定或者信息接收,包括可以让用户快速升级驱动,及时看到显卡性能的工作负载、虚拟摄像头设定、自动生成游戏高光时刻、提供便捷的直播、串流相关的功能和设置,用户可以快速的开启直播功能将游戏精彩的画面分享到直播平台上。

  src=ARC Control 控制面板也将提供便捷的安装和自动更新服务,每当有新游戏上架或游戏发布新驱动时,用户会自动收到通知,如果用户不想要被这些信息打扰,也可以根据自己的需求灵活调整。

  锐炫 3 系列独立显卡是英特尔重归高性能 GPU 领域交出的第一张答卷,我们非常期待拿到实际产品后的测试结果究竟如何。不过无论怎样,在 NVIDIA 和 AMD 两强相争多年的格局下,英特尔重回 GPU 市场,无疑会在未来几年内对市场格局带来巨大冲击。而且凭借英特尔的技术力,相信在不久之后,英特尔显卡将爆发出更加强劲的实力。



上一篇:控制器用红外接收头的失效分析与研究
下一篇:赛微电子2021年年度董事会经营评述

0755-86511588-8888在线留言
联系电话0838-2900585