找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

DeepSeek和Kimi首轮就被淘汰?

谷歌发起的“首届大模型对抗赛”,参赛的8个大模型中,包括了OpenAI的o4-mini、o3,谷歌的Gemini 2.5 Pro、Gemini 2.5 Flash,Anthropic的Claude Opus 4,xA的Grok 4,以及来自中国团队的DeepSeek-R1和Kimi K2 Instruct。
比赛项目:大模型两两捉对下国际象棋

DeepSeek和Kimi首轮就被淘汰?-1.jpg
DeepSeek和Kimi首轮就被淘汰?-2.jpg
回复

使用道具 举报

大神点评(14)

z363046305 楼主 2025-8-13 18:58:48 显示全部楼层
比赛结果
DeepSeek和Kimi首轮就被淘汰?-1.jpg
回复 支持 反对

使用道具 举报

艾的民 2025-8-13 18:59:02 显示全部楼层
早有预料
回复 支持 反对

使用道具 举报

Bradlzcpec 2025-8-13 18:59:41 显示全部楼层
kimi非推理模型能赢就有点夸张了
DeepSeek和Kimi首轮就被淘汰?-1.png
回复 支持 反对

使用道具 举报

艾的民 2025-8-13 19:00:36 显示全部楼层
llm真能下象棋吗,感觉都很菜啊
回复 支持 反对

使用道具 举报

lanhui1000 2025-8-13 19:00:59 显示全部楼层
上次跟chat玩的时候一直出老千,虽然chat也在出就是了
回复 支持 反对

使用道具 举报

q60011416 2025-8-13 19:01:45 显示全部楼层
这博主之前做过一期Deepseek和chatgpt下棋吧
回复 支持 反对

使用道具 举报

x22274648 2025-8-13 19:02:34 显示全部楼层
对手都很强,我觉得田忌赛马,让r10528对o3,应该能赢
回复 支持 反对

使用道具 举报

kpzjm60 2025-8-13 19:02:50 显示全部楼层
kimi说话都不利索,能赢就怪事了
DeepSeek和Kimi首轮就被淘汰?-1.png 话说怎么R2还不更新呢?R2应该有胜算
回复 支持 反对

使用道具 举报

艾的民 2025-8-13 19:03:23 显示全部楼层
这个好像正常 , 我记得之前deepseek和gbt下的时候 DeepSeek赢了的 ,不过现在很久没更新了 ,其他好几个都更新过的 ,等R2 出来估计会不一样 ,而且deepseek直都是第一梯队 并不是说什么 第一的顶尖模型 ,主要是低成本加上覆盖面广 ,有这个结果只能说确实不尽人意吧 ,不过本身这个模型也有很多个月没更新了 能在世界顶尖这一个梯队就不错了 。
回复 支持 反对

使用道具 举报

ecjvsstg66 2025-8-13 19:04:19 显示全部楼层
deepseek是把成本大幅打下来,才一夜爆火,而且本身实力也还不错。但是现在怎么变成想要deepseek和这些头部模型对抗还要战胜它们。如果真做到了,那到底是这些头部公司太烂还是deepseek太神奇?
回复 支持 反对

使用道具 举报

Curtisvax 2025-8-13 19:05:10 显示全部楼层
不懂就问,这个应该放给术业有专攻的吧
DeepSeek和Kimi首轮就被淘汰?-1.png 让llm来学这种,成本上是不是不如直接训练对应的专项?有没有懂行的帮我解惑一下
回复 支持 反对

使用道具 举报

ychjsunny 2025-8-13 19:05:40 显示全部楼层
让ds打这种头部的ai还是有点吃力了,谷歌和老马能给到的硬件资源和预算条件不是小公司能比的,ds最大的好处就是让大家用到了便宜而且对中文输入反馈友好的api
回复 支持 反对

使用道具 举报

m84205037 2025-8-13 19:05:45 显示全部楼层
既然是比赛,好歹分个量级啊,重量级打轻量级?
有没有把显卡算力弄成一个量级?
回复 支持 反对

使用道具 举报

艾的民 2025-8-13 19:06:02 显示全部楼层
象棋是特化训练
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐