找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

苹果的neural accelerator性能功耗

苹果mlx项目开发者今天测试了一下nv的DGX Spark浮点性能
用的是pytorch测试bf16
我借此机会使用相同的pytorch代码(把cuda替换为苹果的mPS
m5是13.1TF,package功耗30w,整机减空载35w
m4max是12.7TF(没有matrix加速,gpu硬算),整机减空载功耗160w+
看开发者数据spark是大约60TF,100w package功耗
这个基本可以对比苹果,都是soc模式,都是arm cpu,都是n3e/n3p工艺,都是lpddr5内存
区别在于规模不一样,gpu面积我估算6144cuda应该是m5 2.5倍的大小,内存通道是m5两倍
按这个估算,如果苹果弄个类似大小的gpu,目前matrix加速性能应该是nv的一半,功耗是nv的7成,属于一般般吧
之后苹果恐怕会继续加AI算力密度,到时候看看n2时代的对比

苹果的neural accelerator性能功耗-1.jpg
苹果的neural accelerator性能功耗-2.jpg
回复

使用道具 举报

大神点评(6)

其实fp16差不多够了,能否fp8翻倍
回复 支持 反对

使用道具 举报

估计下一代或者下下一代还会翻倍,不可能一下子全部挤出来的
回复 支持 反对

使用道具 举报

tewtew 楼主 3 小时前 显示全部楼层
我拿4060锁定1.2ghz试了一下,也是13.1TF,gpu功耗29w左右,所以苹果目前再matrix性能(fp16/bf16)上是能做到类似steelnoamd light跑分,类似浮点性能,两者snl都是5400
苹果的neural accelerator性能功耗-1.jpg
回复 支持 反对

使用道具 举报

错误的,NVIDIA DGX Spark的GB10和Jetson Thor一样都是TSMC 4NP,GB10和Thor在GPU规模差不多,bandwidth也差不多,区别就在于CPU,GB10用的MTK的N3E CPU,通过CoWoS-L的LSI把GPU和CPU两个die拼一起,不像Thor就是一整块SoC。
苹果的neural accelerator性能功耗-1.jpg
苹果的neural accelerator性能功耗-2.jpg
苹果的neural accelerator性能功耗-3.jpg
苹果的neural accelerator性能功耗-4.jpg
回复 支持 反对

使用道具 举报

tewtew 楼主 3 小时前 显示全部楼层
苹果的neural accelerator性能功耗-1.jpg
回复 支持 反对

使用道具 举报

苹果的neural accelerator性能功耗-1.jpg

苹果的neural accelerator性能功耗-2.jpg

苹果的neural accelerator性能功耗-3.jpg
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐