找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

非官方部署的deepseek完整版可能会在性能上略差

根据我查到的资料来看,deepseek属于MoE混合专家模型。会根据每个token的匹配程度选择在几十个领域专家中前Top8个专家来处理。减少使用的专家数可以降低电费和GPU成本。而且最近B站up主痕继痕迹也发现了部分部署的deepseek模型出现了回答与其他的deepseek回答更短质量更差的问题,而且稳定复现。可能是缺失某个关键专家导致的
非官方部署的deepseek完整版可能会在性能上略差-1.png
回复

使用道具 举报

大神点评(8)

我是小白 2025-5-26 16:00:56 显示全部楼层
我也这样觉得,我一直都在用Deepseek玩跑团游戏,明显官方API比较聪明而且很会把细节连动在一起。明显官方模型有微调过。
回复 支持 反对

使用道具 举报

艾的民 楼主 2025-5-26 16:01:30 显示全部楼层
给大家看一下,这是本地部署的混合专家模型。专家数量是可以随便调的。

非官方部署的deepseek完整版可能会在性能上略差-1.jpg
回复 支持 反对

使用道具 举报

艾的民 楼主 2025-5-26 16:02:11 显示全部楼层
而且哼唧痕迹发现,某些问题所有部署版本的deepseek模型的回答都是相同的,某些问题就是不同,这很明显符合专家数减少的特征
回复 支持 反对

使用道具 举报

艾的民 楼主 2025-5-26 16:02:35 显示全部楼层
至于本地部署的deepseek,由于他们都是llama和qwen蒸馏后的模型,所以并不是MoE模型。基于v3的完整版r1才是
回复 支持 反对

使用道具 举报

SCR888 2025-5-26 16:03:08 显示全部楼层
惊了
回复 支持 反对

使用道具 举报

Donalldkl 2025-5-26 16:03:51 显示全部楼层
太高端看不懂
回复 支持 反对

使用道具 举报

a64685713 2025-5-26 16:04:38 显示全部楼层
同感,官方比其他平台部署的智商高
回复 支持 反对

使用道具 举报

nciqjlpEs 2025-5-26 16:04:50 显示全部楼层
别人都复现不了的也配叫开源。
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐