- 【48812】nvivo 8来装置的具体操作教程
- 【48812】奇兔线刷机的具体步骤
- 湖北省鄂州市市场监督管理局2021年重点工业产品质量双随机监督抽查结果的通报
- 【48812】青岛双星橡机公司新式双模硫化机获国家发明专利
时间: 2024-09-26 16:23:55 | 作者: 部分行业专用密封条
之前趁着参加AMD Zen5技术日活动,我们和大家伙儿一起来分享过Zen5的架构设计特性,但和以往不同,当时公布的资料并不多,并未涉及到架构底层细节,也缺乏和Zen4的全面对比。
最近,AMD更新了Zen5架构技术文档,终于公布了我们想要的大量细节,包括各个微架构模块的具体变化,包括桌面端、移动端的异同,包括Zen5、Zen5c的新理念,包括同样升级的RDNA 3.5 GPU、XDNA 2 NPU。
Zen5的目标就很简单,核心就是继续大幅度的提高单核、双核性能,为未来奠定新的基础,同时实现满血版AVX-512,支持可配置的256/512位浮点数据路径,有助于极大的提升AI能力。
令人唏嘘的是,Intel 12代酷睿开始采用异构混合架构,其中E核不支持AVX-512,导致整体不得不放弃。
Zen5还有一个重要使命就是进一步普及紧凑版核心,也就是Zen5c,包括移动端与服务器端。
上一代其实就有了Zen4、Zen4c,并在数据中心端大放异彩,而在移动端只是非常低调地小试牛刀,这次要大面积普及。
另外,更灵活、更高的能效,4/3nm工艺支持,ISA指令集增强,也是Zen5的主要任务。
Zen5微架构总览,从前端到后端,从整数到浮点,从缓存到带宽,都进行了全面升级,后边会一一讲述。
Zen5的一级指令缓存容量还是32KB,8路关联,每时钟周期两组32B拾取;
还有个特殊的操作缓存(Op-Cache),支持6个指令,每时钟周期支持两组6个宽度的拾取。
分支预测与拾取部分做了极大的优化提升,比如支持“零泡沫”(zero-bubble)条件分支,意味着分支预测器在访问BTB(分支目标缓冲)时无需付出任何代价。
L1、L2 BTB也提升了容量(1.5K/7K来到16K/8K)和精度,并增大了TAGE,这对有条件的间接分支都很关键。
另外,每时钟周期拾取和解码指令数从32B翻番到64B,返回寻址堆栈从32个变为52个,每时钟周期支持最多3个预测窗口,指令缓存的延迟和带宽也都有所改善。
新的指令解码系统,配备了双解码流水线,可以独立并行处理指令流,每条每时钟周期4条指令。
操作缓存(OpCache)关联路数增加1/3达到了16路,可存储最多6条指令,配合双流水线条指令。
另外还很关键的是,通往整数和浮点单元的分派队列宽度从6个增至8个宏操作(macro-op),并支持操作融合,可以让来自某些指令的两个宏操作作为一个来处理。
整数单元本就是Zen架构的强项,现在更加“膨胀”,分派、重命名、引退达到了8个宽度。
ALU整数逻辑单元从4个增至6个,包括3个乘法单元和3个分支单元,ALU调度器也从24个大幅增至88个。
AGU地址生成单元从3个增至4个,每时钟周期可执行4次内存寻址,AGU调度器从48个独立、24个与ALU共享变为独立的56个。
可以说,整数单元的大大强化,是锐龙9000系列在加速频率微增或不动、基准频率降低情况下取得性能大幅度的提高的关键所在。
矢量和浮点能力也明显地增强,尤其是AVX-512指令集终于能支持完整的512位数据路径,同时保留256位,非常灵活,能兼顾高性能、高效率,也不会让功耗失控。
整个浮点执行单元的带宽和延迟都做了升级,包括4条浮点执行流水线条载入存储与整数寄存器流水线位存储、双循环FADD,等等。
一级数据缓存来到了12路48KB,4条载入/存储流水线条整数载入流水线条。外还全面涉及TLB、实时窗口、数据预取等等部分。
,包括拓展至VEX编码的VNNI/VEX、矢量配对为一对掩码寄存器的VP2INTERSECT[DQ]。另外就是PMC虚拟化,可为客户机提供更好的安全保障,以及异构拓扑,显然是为Zen5、Zen5c的组合准备的。
注意所有列出的参数都变了,从前端到执行单元到缓存,因此能说Zen5是一次全面性的架构翻新,即所谓的“大改”,这才有了频率下来了但性能上去了的神奇结果。
二级缓存容量还是每核心1MB,但是关联路数翻了一番达到16路,带宽也翻了一番,与一级缓存之间是每时钟周期翻番到64B,与三级缓存之间是每时钟周期32B,双向都是如此。三级缓存每CCX 16MB,16路关联,但是
桌面上,经典chiplet设计,一个或两个CCD(等同于CCX),外加完全延续上代设计的IOD,架构上是纯粹的Zen5,不会用Zen5c。
笔记本上,继续单芯片,双CCX组合成一个CCD。全部是Zen5、Zen5c的组合,最多分别4个、8个。
服务器上(包括嵌入式),设计灵活性更好,CCX有的更大有的更小,Zen5、Zen5c都会有,但应该会和Zen4、Zen4c一样发展各自的产品线,不会混合使用。
代号Granite Ridge的桌面版锐龙9000系列的裸片、核心布局图。
和之前基本一致,每一组CCX/CCD里有8个核心、8MB二级缓存、32MB三级缓存,但注意两种CCX/CCD是不互通的,所以哪怕12/16核心型号有64MB三级缓存,但每个核心最多也只能访问自己所在CCX/CCD里的32MB。当然理论上能够最终靠IF总线跨越访问,但是带宽太低、延迟太高,没法用。
IOD部分和锐龙7000系列上是一样的,因此同样有2个RDNA2架构的GPU CPU单元、128位双通道DDR5-5600内存控制器、28条PCIe 5.0总线个USB接口、四组显示输出。
代号Strix Point的移动版锐龙AI 300系列的裸片、核心布局图。
变化还是挺大的,上一代Zen4、Zen4c组合只在两款低端型号上低调尝试,这次变成了标准的Zen5、Zen5c组合。
注意看左上角,分了两个黄色框图,4个Zen5核心和对应的16MB三级缓存是一组,8个Zen5c核心和对应的8MB是另一组,也就是和桌面上类似甚至更极端,Zen5、Zen5c三级缓存各用各的,没法互通,24MB也只是个总容量。GPU部分是RDNA3.5架构,8组WGP也就是16个CU,1024个流处理器。NPU部分是48阵列的XDNA 2架构。这俩大家都很熟悉了。
RDNA 3.5架构的GPU在纹理子系统、着色器子系统、光栅子系统、显存/内存子系统等每个方面做了优化和增强,采样率等部分指标性能翻番,可以和LPDDR5X内存更好地搭配,压缩率也更高。
当然规模也增大了,12个CU变16个CU,4个渲染后端(RB+),最高频率提升至2.9GHz,
总的来说,Zen5作为一次大规模的架构升级,从目前表现来看是相当成功的,无论笔记本上的锐龙AI 300系列,还是桌面上的锐龙9000系列,性能、能效都提升巨大、可圈可点,服务器上的第五代EPYC同样值得期待。
Intel方面即将拿出对位的Arrow Lake,错失一代之后终于回归高性能之争,又一场好戏开始了!
-
鹏翎股份2022年年度董事会经营评述
-
浙江仙通获27家机构调研:目前其实是以传统密封条为主无边框密封条的占比还在起步加速阶段(附调研问答)
-
【48812】新冠病毒疫情防控专栏
-
不光更好更要不同!九安主打“持续增值”战略
-
2024-07-23察势者明 长春汽博会聚焦行业前沿谋破局
-
2024-07-25【48812】再生胶出产输送带、平带、V带各部件功能要求
-
2024-07-25【48812】双箭股份:国内输送带及轮胎制作起步较国外晚跨行业开展存在必定难度