找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

华为开源全新技术显存占用削减70% 5060当5090用

华为开源SINQ AI技术:显存占用削减70%, 5060能当5090用,RTX4090能顶A100
10 月 6 日消息,华为苏黎世计算系统实验室于 9 月 26 日发布全新开源量化(Quantization)技术 SINQ(Sinkhorn 归一化量化),旨在大幅降低大语言模型(LLM)的显存需求与运行成本。
>
这项技术无需复杂的校准过程,可直接集成至现有工作流,并且其代码已通过 Apache 2.0 许可证在 GitHub 和 Hugging Face 上开放,允许任何组织免费使用、修改和商业化部署。
>
SINQ 的核心优势在于其卓越的压缩性能。根据测试,该技术能将不同规模模型的显存占用普遍削减 60% 至 70%。这意味着,过去需要超过 60GB 显存才能运行的大型模型,现在仅需约 20GB 的环境即可部署。
>
此前需要企业级 GPU(如英伟达 A100 80GB 或 H100)计算的任务,现在仅用一张售价约 1600 美元的消费级显卡(如英伟达 RTX 4090)便可胜任。对于云端用户而言,每小时的算力成本也随之锐减。
>
该技术通过两大创新实现了性能突破。首先,SINQ 采用“双轴采样”策略,替代了传统的单尺度因子量化,通过分别为矩阵的行和列设置独立的缩放向量,更灵活地分散量化误差,有效抑制了异常值的影响。
>
在性能评估中,SINQ 的表现全面超越了多种主流的免校准量化方法(如 RTN、HQQ)。在处理 Qwen3、LLaMA 等多种主流模型时,SINQ 在 WikiText2 等标准测试集上显著降低了模型的困惑度(Perplexity),其性能表现接近甚至达到了需要数据校准的方案水平。
>
此外,SINQ 的量化速度极快,比 HQQ 快约 2 倍,更是比 AWQ 快 30 倍以上,充分满足了研究与生产环境中对效率的严苛要求。
>
注:量化一种模型压缩技术,通过降低模型内部数据的精度来减小其体积和显存占用。好比将一张高精度的照片(如浮点数)转换为一张文件更小、但肉眼看差别不大的普通照片(如整数),从而让模型运行得更快、更省资源。
>
困惑度(Perplexity)示评估语言模型性能的常用指标。它衡量的是模型对于一段新文本的“惊讶”或“不确定”程度。困惑度越低,表示模型对文本的预测越准确,语言能力越强。
回复

使用道具 举报

大神点评(14)

提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

华为就不要吹了,不管啥东西华为的就没有性价比可言
回复 支持 反对

使用道具 举报

省流:与普通人无关
回复 支持 反对

使用道具 举报

臭狗屎
回复 支持 反对

使用道具 举报

以前知乎都还有长文分析gpu turbo的,搞得好像真的一样,原来是偷降分辨率而已
回复 支持 反对

使用道具 举报

太长但是看完了,总结就是对臭打游戏的而言,跟当年4g大狂牛原理不同但性质相同
华为开源全新技术显存占用削减70% 5060当5090用-1.png
回复 支持 反对

使用道具 举报

感谢楼主分享垃圾新闻,先进小黑屋冷静冷静
回复 支持 反对

使用道具 举报

内裤当外裤穿吗?冬天不冻死你
回复 支持 反对

使用道具 举报

也就是说可以砍掉一部分内存然后还是原价卖
回复 支持 反对

使用道具 举报

这下喷华为的脸都抽肿了
回复 支持 反对

使用道具 举报

要是真的,5060这会应该涨到一万五了
回复 支持 反对

使用道具 举报

评论区这么多罕见
回复 支持 反对

使用道具 举报

“大幅降低大语言模型(LLM)的显存需求与运行成本”这和5060有什么关系
回复 支持 反对

使用道具 举报

华为开源全新技术显存占用削减70% 5060当5090用-1.png
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐