DeepSeek和Kimi首轮就被淘汰？

z363046305 · 2025-8-13 18:57:56

谷歌发起的“首届大模型对抗赛”，参赛的8个大模型中，包括了OpenAI的o4-mini、o3，谷歌的Gemini 2.5 Pro、Gemini 2.5 Flash，Anthropic的Claude Opus 4，xA的Grok 4，以及来自中国团队的DeepSeek-R1和Kimi K2 Instruct。
比赛项目：大模型两两捉对下国际象棋

DeepSeek和Kimi首轮就被淘汰？-1.jpg

z363046305 · 2025-8-13 18:58:48

比赛结果

艾的民 · 2025-8-13 18:59:02

早有预料

Bradlzcpec · 2025-8-13 18:59:41

kimi非推理模型能赢就有点夸张了
DeepSeek和Kimi首轮就被淘汰？-1.png

艾的民 · 2025-8-13 19:00:36

llm真能下象棋吗，感觉都很菜啊

lanhui1000 · 2025-8-13 19:00:59

上次跟chat玩的时候一直出老千，虽然chat也在出就是了

q60011416 · 2025-8-13 19:01:45

这博主之前做过一期Deepseek和chatgpt下棋吧

x22274648 · 2025-8-13 19:02:34

对手都很强，我觉得田忌赛马，让r10528对o3，应该能赢

kpzjm60 · 2025-8-13 19:02:50

kimi说话都不利索，能赢就怪事了
DeepSeek和Kimi首轮就被淘汰？-1.png

话说怎么R2还不更新呢？R2应该有胜算

艾的民 · 2025-8-13 19:03:23

这个好像正常，我记得之前deepseek和gbt下的时候 DeepSeek赢了的，不过现在很久没更新了，其他好几个都更新过的，等R2 出来估计会不一样，而且deepseek直都是第一梯队并不是说什么第一的顶尖模型，主要是低成本加上覆盖面广，有这个结果只能说确实不尽人意吧，不过本身这个模型也有很多个月没更新了能在世界顶尖这一个梯队就不错了。

ecjvsstg66 · 2025-8-13 19:04:19

deepseek是把成本大幅打下来，才一夜爆火，而且本身实力也还不错。但是现在怎么变成想要deepseek和这些头部模型对抗还要战胜它们。如果真做到了，那到底是这些头部公司太烂还是deepseek太神奇？

Curtisvax · 2025-8-13 19:05:10

不懂就问，这个应该放给术业有专攻的吧
DeepSeek和Kimi首轮就被淘汰？-1.png

让llm来学这种，成本上是不是不如直接训练对应的专项？有没有懂行的帮我解惑一下

ychjsunny · 2025-8-13 19:05:40

让ds打这种头部的ai还是有点吃力了，谷歌和老马能给到的硬件资源和预算条件不是小公司能比的，ds最大的好处就是让大家用到了便宜而且对中文输入反馈友好的api

m84205037 · 2025-8-13 19:05:45

既然是比赛，好歹分个量级啊，重量级打轻量级？
有没有把显卡算力弄成一个量级？

艾的民 · 2025-8-13 19:06:02

象棋是特化训练

		自动登录	找回密码
密码			立即注册

DeepSeek和Kimi首轮就被淘汰？

大神点评（14）

说点什么

浏览过的版块

神回复