你的位置:开云官网切尔西赞助商(2025已更新(最新/官方/入口) > 新闻动态 > 开云官网切尔西赞助商又刷新了一波咱对 AI 模子数学智力的融会-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

开云官网切尔西赞助商又刷新了一波咱对 AI 模子数学智力的融会-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

时间:2025-12-29 17:58 点击:92 次

开云官网切尔西赞助商又刷新了一波咱对 AI 模子数学智力的融会-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

消停了一阵子之后,国内又有大模子公司打榜 OpenAI 了。

这不,  Kimi   最近推了个数学模子   k0-math  ,堪称数学智力不错忘形   OpenAI   的   o1-mini   和   o1-preview  ,中高考、考研还有初学竞赛题齐能跟 o1 过过招。

该说不说,  AI   模子运转   "   炒作   "   起数学智力,这事儿还挺罕有,毕竟   AI   的数学智力拉胯也不是一天两天了,连 strawberry 里有几个 r 齐一直数不清。。。

就连 OpenAI 的 o1 发布时,也莫得直说我方的数学何等何等蛮横,仅仅点了一下推奢睿力扬弃。

是以原来以长文本出圈儿的 Kimi ,这回顷刻间卷起了数学,世超如实很羡慕,羡慕这个 k0-math 到底啥水平啊?

而世超在哥们儿的匡助下,也提前体验了一阵子,今天就借着 Kimi 数学版(  基于 k0-math 模子  )全量洞开了,带着全球瞧瞧这个数学模子有若干斤两。

目下,  Kimi   数学版只能在网页版上用,进口倒是跟之前的平庸版和探索版没啥区别,但有一丝,Kimi   数学版只缓助一轮对话。

像世超一上来,就直戳 Kimi 痛处翻了波旧账,问它   " 13.11%   和 13.8%  ,哪个更大?  "  。(之前 Kimi 在这上头翻过车,说 13.11 的整数部分和少量部分齐大于 13.8 。。 )

此次倒是学颖悟了,而且很通俗的比数值大小,  Kimi   数学版齐用上了  "   为了进一步阐发   ""   为了确保万无一失   ""   经过多种顺次的考据   "  这些话术, kuku 输出了二三十行。

只不外当世超想再次追问的时候,出来的就不是 k0-math 模子了。

天然,这仅仅个小插曲,既然官方齐也曾把 k0-math 的实力挑明,那咱也不客气了。

径直上本年高考新课标 1 卷的数学题:已知 cos ( a+  β )   =m , tanatan β  =2 ,则 cos ( a-  β )   =  ?

虽说解题经过有些迂回,但总算是没把临了   -3m 的谜底弄错。

这个问题我同期也问了智谱清言和   ChatGPT  ,谜底倒是没进出,但区别于一个要领一个要领列出来,  Kimi   数学版给我一种,它果真在效法东说念主类想考的经过。

模子在推导的经过中,怀疑过我方的想路可能是造作的,况兼对此进行了考据。

但底下这说念概率题, Kimi 数学版就没那么好运了。

程序谜底是 1/2 ,只须 ChatGPT 答对了。

世超看了眼 Kimi 数学版的推导经过, 24 种可能发生的情况它齐列举出来了,而且每一种情况谁输谁赢也盘得清澄清爽,甚而临了还查验了一遍。

但最大的问题出在,它把甲的总得分≥ 2 的次数,漏数了一个。。。实属可惜。

咱再找沿路 AMC 数学竞赛的题目,给 Kimi 数学版试试。

一个蚁合由 6 个(  不是不同的  )正整数构成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值(  算术平均值  )等于蚁合结的一个值。X 的通盘可能值之和是若干?

此次世超还把豆包也加进来了,同沿路题,四个模子只须智谱清言的算错了。(正确谜底是 36)

还有个小插曲,本下世超想再给 Kimi 试沿路竞赛题,欺压它径直反过来质疑我。。试了好几次齐是这样个回复,不知说念是系统的 bug ,照旧它根本就不会儿这题,干脆装死。

有一说一,好几说念数学题试下来, Kimi 数学版如实给了我不少惊喜,终点是解题经过中展现出来的想考、推理的智力,又刷新了一波咱对 AI 模子数学智力的融会。

只能惜几何题一如既往的菜,仅仅沿路初中级别的几何选拔题,给 Kimi 数学版的 CPU 齐快干烧了,欺压照旧错的谜底。

至于为啥 Kimi 的 k0-math 模子能有这样大的打破,前段时分世超进入了一场月之暗面的媒体会,月之暗面的首创东说念主杨植麟就告诉世超, k0-math 的得胜很有时率要归功于一个叫作念 COT ( Chain of Thought )想维链的本事。

太专科的术语咱也不在这拽了,大伙儿不错把这个 COT 接济为, AI 模子效法东说念主类的大脑进行逻辑推理,把复杂的任务拆解之后,再一步时局处分。把这个本事哄骗到模子里,模子就能够通过   "   想考   "   来完成任务并提高正确率。

而为啥先把这东西用在了一个数学模子上,杨植麟径直援用了伽利略的名言  "   天地是由数学这门讲话书写而成的   "  。

总之,便是但愿先从数知识题脱手,再将数学的想维泛化,从而去接济通盘这个词全国。

天然,并不是说模子一朝用上了想维链就能获取正确的谜底,但这个神志,目下如实不错提高模子对复杂任务的推奢睿力。

再举个例子,咱让 Kimi 数学版统计   " chaping debug the world "   里,有几个字母   " e "  。

先诀别把   " chaping "" debug "" the "" world "   单独拎出来,再挨个字母一个个查,顺次诚然笨,但至少不会出错。

就这样说吧,这说念通俗的数数题,世超试了一下,只须 Claude 和 Kimi 数学版数对了。

包括在   "   我有一块 1 米长的面包,每天吃一半,需要几天才能把这块面包吃完 ? "   的问题中,在大部分 AI 给出长期吃不完的谜底时, Kimi 数学版以为   "   是有物理极限的   "  ,认为分到了一纳米就不行分了。。。

这种对任务拆解的智力,夸张到什么进程,即使你问它 1+1 等于若干, Kimi 数学版齐能给你唠半天,截图根本截不完。

另外,在想维链的作用下,对校正 AI 模子犯蠢、不会捏要点的老差错也有一定效能。

像前段时分苹果就发了篇论文,有时根由是说模子根本就不会推理,歪邪加几个无关痛痒的搅扰要求,模子的准确率就会下落。

但世超此次诀别拿 Kimi 数学版和豆包试了试,题目是:超市里,每袋大米售价 50   元,每瓶酱油售价 10   元。如若鲜虾包购买了 4 袋大米和 4 瓶酱油,况兼送给邻居 1 袋大米和 2 瓶酱油,那么鲜虾包购买大米比酱油多花了若干钱?

这说念题,还有利加了   "  送给邻居 1 袋大米和 2 瓶酱油  "   的陷坑。

豆包若干就有点不懂情面世故了,还把自个儿留存的大米和酱油单独拎出来算。

反不雅 Kimi 数学版,深知送出去的礼物泼出去的水。

归正测试下来, k0-math 的解题准确率不行说百分百,但调用了想维链之后的逻辑推理经过,很猛进程上提高了 Kimi 这个作念题家的数学水平。

而且世超也发现,除了 k0-math 外,国内的幻方 DeepSeek 前两天也搞了个推理模子 DeepSeek-R1-Lite ,相同亦然纸上水平忘形 o1 。

又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也羡慕,之前不是还在长文本吗,这如何顷刻间就卷起了推奢睿力了?

其实,传统的拼算力、拼数据在大模子畛域,也曾碰到了一定的瓶颈,而靠着强化学习,提魁伟模子的推奢睿力,也曾成了大伙们卷的新标的。

这强化学习说白了,便是在进修时让 AI 我方试错,临了摸索出正确谜底。

像 Claude Sonnet 3.5 便是基于强化学习,兑现了代码智力的擢升。包括 Kimi 首创东说念主杨植麟在前阵子的媒体共享会上,也多半次 cue 到了强化学习,还说他们接下来会越来越关切基于强化学习的顺次去连接迭代。

临了,借用杨植麟的   "   登月论   "  ,如若说,先前的长文本是通往 AGI 的第一步,那么目下让 AI 学会想考,则是认真开启了第二阶段。

撰文:西西

官网
www.ltfred.top
地址
新闻动态科技园大厦5200号
邮箱
892932c5@outlook.com

Powered by 开云官网切尔西赞助商(2025已更新(最新/官方/入口) RSS地图 HTML地图


开云官网切尔西赞助商(2025已更新(最新/官方/入口)-开云官网切尔西赞助商又刷新了一波咱对 AI 模子数学智力的融会-开云官网切尔西赞助商(2025已更新(最新/官方/入口)