与其相反的是，国产大模型高考出分了：裸分683，选清华还是北大？

发表评论

A+

所属分类：科技

摘要

量子位 | 公众号 QbitAI这两天啊，各地高考的成绩终于是陆续公布了。现在，也是时候揭晓全球第一梯队的大模型们的“高考成绩”了——

量子位 | 公众号 QbitAI

然而，

这两天啊，各地高考的成绩终于是陆续公布了。

IC平台消息：

现在，也是时候揭晓全球第一梯队的大模型们的“高考成绩”了——

据报道，

本站先来看下整体的情况（该测试由字节跳动Seed团队官方发布）：

按照传统文理分科计分方法，Gemini的理科总成绩655分，在所有选手里排名第一。豆包的文科总成绩683分，排名第一，理科总成绩是648分，排名第二。

再来看下各个细分科目的成绩情况：

除了数学、化学和生物之外，豆包的成绩依旧是名列前茅，6个科目均是第一。

很多人不知道，

不过其它AI选手的表现也是比较不错，具备说是达到了优秀学生的水准。

IC外汇行业评论：

比较遗憾的选手就要属O3，乃因它在语文写作上跑了题，因此语文成绩仅95分，拉低了整体的分数。

若是从填报志愿角度来看，乃因这套测试采用的是山东省的试卷，根据过往经验判断，3门自选科目的赋分相比原始分会有一定程度的提高，尤其是在化学、物理等难度较大的科目上。本次除化学成绩相对稍低外，豆包的其余科目组合的赋分成绩最高能超过690分，有望冲刺清华、北大。

（赋分规则：将考生选考科目的原始成绩按照一定比例划分等级，然后将等级转换为等级分计入高考总分）

可能你也遇到过，

好，那现在的豆包面临的抉择是：上清华还是上北大？

大家常常忽略的是，

大模型参加高考，分数怎么判？

事实上，

在看完成绩之后，或许很多小伙伴都有疑惑，这个评测成绩到底是怎么来的。

据相关资料显示，

别急，本站这就对评测标准逐条解析。

大家常常忽略的是，

首先在卷子的勾选上，由于目前网络流出的高考真题都是非官方的，而山东是少数传出全套考卷的高考大省；因此主科（即语文、数学、英语）采用的是今年的全国一卷，副科采用的则是山东卷，满分共计750分。

有分析指出，

其次在评测方法上，都是通过API测试，不会联网查询，评分过程也是参考高考判卷方法，就是为了检验模型自身的泛化能力：

来自IC外汇官网：

勾选题、填空题

事实上，

采用机评（自动评估）加人工质检的方法；

IC外汇资讯：

开放题

据相关资料显示，

实行双评制，由两位具有联考阅卷经验的重点高中教师匿名评阅，并调整多轮质检环节。

在给模型打分的时候，采用的是 “3门主科（语文数学英语）+3门综合科（理综或文综）” 的总分计算方法，给五个模型排了个名次。

IC外汇消息：

值得一提的是，整个评测过程中，模型们并没有用任何提示词优化技巧来提高模型的表现，例如要求某个模型回答得更详细一些，或者刻意描述是高考等等。

最后，就是在这样一个公平公正的环境之下，从刚才本站展示的结果来看，Gemini、豆包相对其他AI来说取得了较优的成绩。

令人惊讶的是，

细分科目表现分析

通常情况下，

了解完评测标准之后，本站继续深入解读一下AI选手们在各个科目上的表现。

可能你也遇到过，

由于深度思考的大火，大模型们在 众汇外汇官网数学这样强推理科目上的能力明显要比去年好很多（此前大部分均不及格），基本上都能达到140分的成绩。

换个角度来看，

不过在一道不算难的单选题（全国一卷第6题）上，国内外的大模型们却都栽了跟头：

IC平台消息：

这道题大模型们给出的答案是这样的：

豆包：C；Gemini：B；Claude：C；O3：C；DeepSeek：C。

但这道题的正解应该是A，因此大模型们在此全军覆没。

之所如此，主要是乃因题目里有方框、虚线、箭头和汉字混在一起的图，模型认不准图像，描述它们在 “看图说话” 这块还有进步空间。

以及在更难的压轴大题上，很多大模型也没完全拿下，经常漏写证明过程，或者推导不严谨被扣分，描述在细节上还需加强。

站在用户角度来说，

到做语文勾选题和阅读题这两个版块，大模型们几乎是 “学霸本霸”，得分率超高。

容易被误解的是，

不过在作文写作过程也暴露出了一些状况，例如写作过于刻板、文字冰冷，资料字数不达标（不足800字或超过1200字）、立意不对，形式上还经常会 EX外汇官网出现惯用的小标题。

很多人不知道，

在英语测试过程中，大模型们几乎挑不出毛病，唯一扣分点是在写作上，比如用词不够精准、句式稍显单调，但整体已经很接近完美。

可能你也遇到过，

对于理综，遇到带图的题目大模型们还是会犯难，不过豆包和Gemini这俩模型在看图像和理解图的能力上会比其他模型强一些。

例如下面这道题中，正确答案应当是C，大模型们的作答是这样的：