高考数学一完毕,咱们连夜运用六款大模型产品,依照一般用户截图发问的方法,挑战了 14 道最新高考客观题,不过有网友质疑测评进程不行谨慎,所以这次咱们加上答复题,从头测一遍。
在考题挑选上,咱们仍就选用 2025 年数学新课标 Ⅰ 卷,包括 14 道客观题,总计 73 分;5 道答复题,总计 77 分。其间第 6 题由于触及到图片,咱们就独自摘出来,后边经过上传标题截图的方式针对多模态大模型进行评测。其他文本标题悉数转成 latex 格局,别离投喂给大模型,仍是老规矩,不做 System Prompt 引导,不敞开联网查找,直接输出成果。
(注:第 17 题尽管也触及到图片,但文字表述满足明晰,不影响答题,因而也以 latex 格局测评。)
多选题每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
至于答复题,由于现在还未出详细的评分细则,所以咱们请数学专业的朋友进行评判,其实是看大模型的终究答案以及解题进程中是否有严峻失误点。
从客观题来看,各家大模型简直拉不开距离,最大分差也只需 3 分,第 6 题图画题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3 客观题成果垫底,但有网上的朋友表明,这或许是由于某些问题形成后台主动切换成其他模型,而这一次咱们选用的是未「降智」的 o3,挑选题和填空题成果仍是排在终究,当然,65 分的成果比较「降智」版的确有很大提高。
第 15 题和第 17 题,一道考察概率问题,一道触及立体几许常识,7 家大模型均拿到满分。
第 16 题是一道数列综合题,满分 15 分,只需证明完好、核算进程完好、成果正确就能拿到悉数的分数。大模型全体体现不错,只需 Qwen3 答复正确,但终究答案里边增加了剩余的假定求值,扣了一分。
第 18 题这道椭圆方程与几许就难倒了不少大模型,仅 Doubao、DeepSeek R1 和 Gemini2.5 Pro 拿到满分 17 分,其他模型各有各的扣分点。Qwen3 前面答复得都不错,进程也很完好,但偏偏终究一小问PQ最大值取约等于 9 的进程剩余,导致成果误差,扣了一分。
文心 X1 在第 2 问 (2) 正确算出 P 点轨道,但未证明极值,直接按最远点核算形成成果过错,扣 6 分。
hunyuan-t1-latest 前两问中答复正确,到了第 3 问完结 P 点轨道之后就全错了,一会儿丢了 5 分。
关于终究一道压轴题,Gemini2.5 pro 是仅有全对的大模型。Doubao 只阐明晰震动项的振幅大于 0,可是也有必定的或许震动项的相位是反的,那样的话最大值反而有或许更小,证明进程不行谨慎,扣一分。
DeepSeek R1 在第(3)问平分状况评论,得出了两类解,但对第一类解未做后续阐明,扣了一分。
o3 第(2)问思路正确,但由于开闭区间不同,「彻底重合」说法过错,扣 1 分。
文心 X1 和 Qwen3 也都是在第 2 问和第 3 问上失了分,第 2 问证明含糊扣 2 分,第 3 问则是未详细阐明 phi 值扣 2 分,并且文心 X1 比大小还产生过错,又扣了 1 分。
其间,o3 在第 9 题核算进程中,忽视了「正三棱柱」这一要害条件。它在树立坐标系时,别离用 (x₀, y₀, 0) 表明 A 点坐标,用 (c, 0, 0) 表明 C 点坐标,但没有考虑到:正三棱柱的底面是正三角形,这在某种程度上预示着正三角形的边长 c 与 x₀、y₀之间有联系:c=2x₀=2y₀/√3。导致对 B 选项的判别呈现过错。
惋惜的是,此次测评的多模态大模型都在这道识图题上体现欠安。尽管 hunyuan-t1-latest 不是多模态,但咱们又测试了 hunyuan-t1-vision ,也在这道题上败下阵来。
比较之下,Doubao 和 o3 至少正确辨认了坐标方位,仅仅误判了视风风速方向,而 Gemini 连根本坐标都未能正确辨认。
总的来说,这次测评成果为,大模型在数学推理才能上有不小的前进,但仍有较大的提高空间。比方不少模型在答复题上丢分,这反映出大模型在杂乱推理、谨慎证明和多进程核算方面还需加强。
此外,一切参测的多模态大模型在第 6 题的图画辨认上都呈现了问题,这也暴露出当时 AI 在图文结合了解方面的短板。
终究,严重的高考已完毕,祝愿一切考生都能获得抱负的成果,有着绚烂的未来!
