麦克雷 Mavom.cn

标题: DeepSeek和Kimi首轮就被淘汰? [打印本页]

作者: z363046305    时间: 昨天 18:57
标题: DeepSeek和Kimi首轮就被淘汰?
谷歌发起的“首届大模型对抗赛”,参赛的8个大模型中,包括了OpenAI的o4-mini、o3,谷歌的Gemini 2.5 Pro、Gemini 2.5 Flash,Anthropic的Claude Opus 4,xA的Grok 4,以及来自中国团队的DeepSeek-R1和Kimi K2 Instruct。
比赛项目:大模型两两捉对下国际象棋

(, 下载次数: 0)
(, 下载次数: 0)
作者: z363046305    时间: 昨天 18:58
比赛结果
(, 下载次数: 0)
作者: 艾的民    时间: 昨天 18:59
早有预料
作者: Bradlzcpec    时间: 昨天 18:59
kimi非推理模型能赢就有点夸张了
(, 下载次数: 0)
作者: 艾的民    时间: 昨天 19:00
llm真能下象棋吗,感觉都很菜啊
作者: lanhui1000    时间: 昨天 19:00
上次跟chat玩的时候一直出老千,虽然chat也在出就是了
作者: q60011416    时间: 昨天 19:01
这博主之前做过一期Deepseek和chatgpt下棋吧
作者: x22274648    时间: 昨天 19:02
对手都很强,我觉得田忌赛马,让r10528对o3,应该能赢
作者: kpzjm60    时间: 昨天 19:02
kimi说话都不利索,能赢就怪事了
(, 下载次数: 0) 话说怎么R2还不更新呢?R2应该有胜算
作者: 艾的民    时间: 昨天 19:03
这个好像正常 , 我记得之前deepseek和gbt下的时候 DeepSeek赢了的 ,不过现在很久没更新了 ,其他好几个都更新过的 ,等R2 出来估计会不一样 ,而且deepseek直都是第一梯队 并不是说什么 第一的顶尖模型 ,主要是低成本加上覆盖面广 ,有这个结果只能说确实不尽人意吧 ,不过本身这个模型也有很多个月没更新了 能在世界顶尖这一个梯队就不错了 。
作者: ecjvsstg66    时间: 昨天 19:04
deepseek是把成本大幅打下来,才一夜爆火,而且本身实力也还不错。但是现在怎么变成想要deepseek和这些头部模型对抗还要战胜它们。如果真做到了,那到底是这些头部公司太烂还是deepseek太神奇?
作者: Curtisvax    时间: 昨天 19:05
不懂就问,这个应该放给术业有专攻的吧
(, 下载次数: 0) 让llm来学这种,成本上是不是不如直接训练对应的专项?有没有懂行的帮我解惑一下
作者: ychjsunny    时间: 昨天 19:05
让ds打这种头部的ai还是有点吃力了,谷歌和老马能给到的硬件资源和预算条件不是小公司能比的,ds最大的好处就是让大家用到了便宜而且对中文输入反馈友好的api
作者: m84205037    时间: 昨天 19:05
既然是比赛,好歹分个量级啊,重量级打轻量级?
有没有把显卡算力弄成一个量级?
作者: 艾的民    时间: 昨天 19:06
象棋是特化训练




欢迎光临 麦克雷 Mavom.cn (http://mavom.cn/) Powered by Discuz! X3.5