找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

Intel Xe LP、Apple M1 GPU、AMD RDNA2的面积性能功耗对比

Intel Xe LP是一个面积效率和能效都很好的GPU架构。
Intel Xe LP、Apple M1 GPU、AMD RDNA2这三款GPU架构,在多项指标方面比较接近,这三者的GPU架构也确实值得对比。
shader core:
Intel Xe LP:Xe Core,16EU(128SP),8TMU。
Apple M1:Apple GPU Core,128SP,8TMU。
RDNA2:WGP,128SP,8TMU,2 RT Core。
Intel Xe LP、Apple M1 GPU、AMD RDNA2的shader core规格接近,单shader core的IPC也比较接近。
ROP与shader core是并行的,不属于shader core。
回复

使用道具 举报

大神点评(14)

艾的民 楼主 6 小时前 显示全部楼层
Intel Xe LP,典型的实例是i7 1165G7的iris xe 96EU。
i7 1165G7,6 Xe Core,3*8 ROP,1M L2,3.75M L3,频率1.3Ghz,内存为128bit LPDDR4X 4266。
注:Xe Core,16EU(128SP),8TMU。
性能和功耗分析:
3dmark WLE 3730。
功耗:孤独凤凰战士的测试中,最高大约15W。
IPC:单Xe Core 1Ghz下,3dmark WLE大约478。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
有一说一,iris xe 96EU的L3确实小了,只有3.75M,怪不得那么吃内存带宽。不过使用LPDDR5的话,内存带宽就没那么紧张了。
如果继续增加规模的话,估计得加大L3大小了。14代酷睿使用192EU(12 Xe Core),规模是现在的2倍,估计至少得8M L3了。当然内存应该至少也支持LPDDR5X 8533了。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
Apple M1:
8 Apple GPU Core,4*8 ROP,1.278Ghz,内存128bit LPDDR4X 4266。
Apple GPU Core,128SP,8TMU。
使用12M SLC(另一说法是8M)作为缓存,类似AMD的无限缓存。其实Intel Xe Max也使用了16M L3缓存,应该也与之类似吧。
性能和功耗分析:
3dmark WLE 5000。
功耗大约11W。
IPC:单apple GPU Core 1Ghz下,3dmark WLE大约489。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
M1系列的dieshot

Intel Xe LP、Apple M1 GPU、AMD RDNA2的面积性能功耗对比-1.jpg
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
面积分析:
Apple M1,160亿晶体管,面积120.4mm2,平均密度133MTrs/mm2。
GPU总面积大约23.84mm2。
单个apple GPU Core面积大约2.487mm2。
TSMC N5工艺是苹果低面积效率的遮羞布。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
RX6700XT(NAVI22):
20WGP,8*8ROP,3M L2,96M IF Cache,最高频率2.58Ghz。12G 192bit GDDR6显存,频率2000Mhz,带宽384G/s。
RDNA2架构下,单个WGP,128 SP,8 TMU,2 RT Core。
性能与功耗分析:
2.7Ghz下,3dmark WLE 26000。
游戏实测功耗大约230W。
IPC:单WGP 1Ghz下,3dmark WLE大约481.5。
独立显卡的功耗包含GPU、显存还有主板上其他元器件的功耗,GPU功耗可能不到200W。
RX6700XT规模大,多核性能会有所衰减,实际上单WGP IPC会更高。
而且RDNA2为高频设计,设计中加入了一些为高频设计的模块,面积效率也会降低。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
面积分析:
GPU大约172亿晶体管,总面积335mm2,密度51.3MTrs/mm2。
单WGP面积大约4.32mm2。
单ROP组(8ROP)面积大约1.2mm2。

Intel Xe LP、Apple M1 GPU、AMD RDNA2的面积性能功耗对比-1.jpg
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
GPU设计水平:
第一梯队:NVIDIA ampere
第二梯队:Intel Xe LP、AMD RDNA2、Apple M1 GPU
第三梯队:高通adreno
第四梯队:ARM Mali
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
Intel Xe LP、Apple M1 GPU、AMD RDNA2的单shader core IPC都处于同一水平:
跑分IPC方面:AMD RDNA2>Apple M1 GPU>Intel Xe LP
Intel Xe LP由于驱动的原因,不管是跑分还是游戏都没有发挥实际性能
三者的单shader core IPC最大差距估计不超过4%。
功耗方面,由于Intel Xe LP、Apple M1 GPU、AMD RDNA2采用了不同的工艺,而且频率不同。
相同工艺下,相同shader core、ROP数量,较低频率(1.3Ghz),相同内存和缓存情况下的功耗:
Apple M1 GPU<Intel Xe LP,AMD RDNA2可能介于两者之间。三者差距很小,最高不超过10%。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
面积方面,单看shader core:
如果使用相同的工艺(TSMC N5,密度133MTrs/mm2),假设GPU逻辑单元密度和平均密度一样:
Apple M1 GPU,单Apple GPU Core大约2.487mm2。
Intel Xe LP,单xe core面积大约1.017mm2。
AMD RDNA2,单WGP面积大约1.666mm2。
其中,AMD RDNA2的WGP还集成了2个RT Core,还加入了高频设计。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
从整体上看面积效率:
相同工艺下,Apple M1 GPU的单Apple GPU Core已经很大了,加上ROPs和L2之后,面积进一步增大。而且苹果还给A系和M系SOC配备了巨大的SLC Cache作为GPU的L3,导致苹果GPU面积效率降低。
对于M1 Pro和M1 Max,面积效率已经很低了。M1 Max使用了平均密度大约135Mtrs/mm2的TSMC N5工艺,面积(包括SLC Cache)却高达215mm2。
Intel Xe LP面积效率很高,对于集成GPU来说能节约成本,联发科可以考虑放弃mali,去买Intel的Xe LP IP。
AMD RDNA2的面积效率也很好。RDNA2为了高频,在结构设计中肯定加入了一些东西以稳住高频。而且RDNA2还集成了RT Core。三星买AMD RDNA2后,去掉高频设计,阉割一部分RT Core,也能达到优秀的面积效率。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
简单评估一下Intel Xe LP、Apple M1 GPU、AMD RDNA2。
三者的shader core规格,单shader core IPC也差不多。
相同工艺下,相同shader core、ROP数量,较低频率(1.3Ghz),相同内存和缓存情况下的功耗也差不多。如果软件优化做好,给人带来的体验也差不多。
但三者的面积相差的也太多了。
苹果的GPU,就是拿面积换性能和能效,也只有苹果这么财大气粗能搞得起了。
M1 Max集成的GPU,晶体管数量(包含48M SLC Cache)比RX 6700XT的NAVI22 GPU高70%,性能略差于RX6700XT。要知道独立显卡GPU的外围模块占了很大的面积。
Intel Xe LP,能效和面积效率很好,但软件优化还是不行。
AMD RDNA2,WGP集成了RT Core,还加入了高频优化,面积效率真的很不错。去掉高频设计和RT Core后,面积效率可能比Xe LP还要好。
苹果真的得考虑要不要把raja大神挖来了。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
直观点,如果使用Xe LP和RDNA2作为手机GPU IP,都使用TSMC N5工艺(密度133Mtrs/mm2)。
集成的GPU,假设都是8shader core,4*8 ROP,1.3Ghz,内存均为128bit LPDDR5 6400。
使用Xe LP的方案:
8 Xe Core,128EU 1024SP,64TMU,32ROP,1.25M L2,5M L3。
面积大约12~13mm2。
使用AMD RDNA2的方案:
8 WGP,1024SP,64TMU,32 ROP。不集成大容量IF缓存,使用普通的L2和L3缓存。
面积大约17~18mm2。
功耗方面,大约11~12W。
性能方面,3dmark WLE大约5000上下。
功耗和性能方面和M1差不多,但面积小得多。
所以,不要再神话苹果GPU了。
回复 支持 反对

使用道具 举报

艾的民 楼主 6 小时前 显示全部楼层
如果联发科天机9000使用Intel Xe LP架构作为GPU IP。
就把i7 1165G7的96EU Xe LP降频后作为GPU。
参数方面:768SP,48TMU,32ROP,频率1Ghz。内存使用LPDDR5X 7500。
3dmark WLE大约3000上下,差不多是A15 5核GPU的性能。
假设TSMC N4密度148MTrs/mm2,面积大约8.5mm2。
功耗大约6W上下。
同时,A15的GPU是5核,还集成了32M SLC Cache。
联发科如果买Intel的Xe LP IP,就能以比苹果小得多的面积,实现相同的性能和能效。
Xe LP是raja大神的作品,比ARM Mali那群人强多了。
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐