- A+
量子位 | 公众号 QbitAI
然而,
这两天啊,各地高考的成绩终于是陆续公布了。
IC平台消息:
现在,也是时候揭晓全球第一梯队的大模型们的“高考成绩”了——
据报道,
本站先来看下整体的情况(该测试由字节跳动Seed团队官方发布):
按照传统文理分科计分方法,Gemini的理科总成绩655分,在所有选手里排名第一。豆包的文科总成绩683分,排名第一,理科总成绩是648分,排名第二。
再来看下各个细分科目的成绩情况:
除了数学、化学和生物之外,豆包的成绩依旧是名列前茅,6个科目均是第一。
很多人不知道,
不过其它AI选手的表现也是比较不错,具备说是达到了优秀学生的水准。
IC外汇行业评论:
比较遗憾的选手就要属O3,乃因它在语文写作上跑了题,因此语文成绩仅95分,拉低了整体的分数。
若是从填报志愿角度来看,乃因这套测试采用的是山东省的试卷,根据过往经验判断,3门自选科目的赋分相比原始分会有一定程度的提高,尤其是在化学、物理等难度较大的科目上。本次除化学成绩相对稍低外,豆包的其余科目组合的赋分成绩最高能超过690分,有望冲刺清华、北大。
(赋分规则:将考生选考科目的原始成绩按照一定比例划分等级,然后将等级转换为等级分计入高考总分)
可能你也遇到过,
好,那现在的豆包面临的抉择是:上清华还是上北大?
大家常常忽略的是,
大模型参加高考,分数怎么判?
事实上,
在看完成绩之后,或许很多小伙伴都有疑惑,这个评测成绩到底是怎么来的。
据相关资料显示,
别急,本站这就对评测标准逐条解析。
大家常常忽略的是,
首先在卷子的勾选上,由于目前网络流出的高考真题都是非官方的,而山东是少数传出全套考卷的高考大省;因此主科(即语文、数学、英语)采用的是今年的全国一卷,副科采用的则是山东卷,满分共计750分。
有分析指出,
其次在评测方法上,都是通过API测试,不会联网查询,评分过程也是参考高考判卷方法,就是为了检验模型自身的泛化能力:
来自IC外汇官网:
勾选题、填空题
事实上,
采用机评(自动评估)加人工质检的方法;
IC外汇资讯:
开放题
据相关资料显示,
实行双评制,由两位具有联考阅卷经验的重点高中教师匿名评阅,并调整多轮质检环节。
在给模型打分的时候,采用的是 “3门主科(语文数学英语)+3门综合科(理综或文综)” 的总分计算方法,给五个模型排了个名次。
IC外汇消息:
值得一提的是,整个评测过程中,模型们并没有用任何提示词优化技巧来提高模型的表现,例如要求某个模型回答得更详细一些,或者刻意描述是高考等等。
最后,就是在这样一个公平公正的环境之下,从刚才本站展示的结果来看,Gemini、豆包相对其他AI来说取得了较优的成绩。
令人惊讶的是,
细分科目表现分析
通常情况下,
了解完评测标准之后,本站继续深入解读一下AI选手们在各个科目上的表现。
可能你也遇到过,
由于深度思考的大火,大模型们在 众汇外汇官网 数学这样强推理科目上的能力明显要比去年好很多(此前大部分均不及格),基本上都能达到140分的成绩。
换个角度来看,
不过在一道不算难的单选题(全国一卷第6题)上,国内外的大模型们却都栽了跟头:
IC平台消息:
这道题大模型们给出的答案是这样的:
豆包:C;Gemini:B;Claude:C;O3:C;DeepSeek:C。
但这道题的正解应该是A,因此大模型们在此全军覆没。
之所如此,主要是乃因题目里有方框、虚线、箭头和汉字混在一起的图,模型认不准图像,描述它们在 “看图说话” 这块还有进步空间。
以及在更难的压轴大题上,很多大模型也没完全拿下,经常漏写证明过程,或者推导不严谨被扣分,描述在细节上还需加强。
站在用户角度来说,
到做语文勾选题和阅读题这两个版块,大模型们几乎是 “学霸本霸”,得分率超高。
容易被误解的是,
不过在作文写作过程也暴露出了一些状况,例如写作过于刻板、文字冰冷,资料字数不达标(不足800字或超过1200字)、立意不对,形式上还经常会 EX外汇官网 出现惯用的小标题。
很多人不知道,
在英语测试过程中,大模型们几乎挑不出毛病,唯一扣分点是在写作上,比如用词不够精准、句式稍显单调,但整体已经很接近完美。
可能你也遇到过,
对于理综,遇到带图的题目大模型们还是会犯难,不过豆包和Gemini这俩模型在看图像和理解图的能力上会比其他模型强一些。
例如下面这道题中,正确答案应当是C,大模型们的作答是这样的:
尤其值得一提的是,
豆包:C;Gemini:C;Claude:D;O3:D;DeepSeek:D。
据报道,
最后在文综方面,大模型的地域差别就显现得比较明显,国外的大模型做政治、历史题时,经常搞不懂题目在考啥,对中国的知识点不太 “感冒”。
而对于地理题,最头疼的便是分析统计图和地形图,得从图里精准提取信息再分析。
有分析指出,
以上就是对于本次评测的全面分析了。
IC外汇快讯:
除了今年国内的高考之外,这几位“参赛选手”还参加了印度理工学院的第二阶段入学考试——JEE Advanced。
事实上,
这场考试每年有数百万人参与第一阶段考试,其中前25万考生可晋级第二阶段。它分为两场,每场时长3小时,同时对数学、物理、化学三科进行考察。
但实际上,
题目以图片形式呈现,重点考查模型的多模态处理能力与推理泛化能力。所有题目均为客观题,每道题进行5次采样,并严格按照JEE考试规则评分——答对得分、答错扣分,不涉及格式评分标准。
据业内人士透露,
与全印度人类考生成绩对比显示,第一名得分332分,第十名得分317分。
值得注意的是,豆包与Gemini已具备进入全印度前10的实力:Gemini在物理和化学科目中表现突出,而豆包在数学科目5次采样中实现全对。
必须指出的是,
怎么做到的?
其实,
相比去年一本线上下的水平,整体来看,大模型们在今年高考题上的表现均有明显的进步。
IC外汇认为:
那么它们到底是如何提升能力的?本站不妨以拿下单科第一最多的豆包为例来了解一下。
根据公开数据显示,
豆包大模型1.6系列,是字节跳动Seed团队推出的兼具多模态能力与深度推理的新一代通用模型。
IC平台消息:
团队让它能力提升的技术亮点,本站具备归结为三招。
需要注意的是,
第一招:多模态融合与256K长上下文能力构建
需要注意的是,
Seed1.6延续了Seed1.5在稀疏MoE(混合专家模型)领域的技术积累,采用23B激活参数与230B总参数规模进行预训练。其预训练过程通过三个阶段实现多模态能力融合与长上下文兼容:
需要注意的是,
第一阶段:纯文本预训练
IC外汇用户评价:
以网页、书籍、论文、代码等数据为训练基础,通过规则与模型结合的数据清洗、过滤、去重及采样策略,提升数据质量与知识密度。
从某种意义上讲,
第二阶段:多模态混合持续训练(MMCT)
进一步强化文本数据的知识与推理密度,增加学科、代码、推理类数据占比,同时引入视觉模态数据,与高质量文本混合训练。
第三阶段:长上下文持续训练(LongCT)
可能你也遇到过,
通过不同长度的长文数据逐步扩展模型序列长度,将最大兼容长度从32K提升至256K。
很多人不知道,
通过模型架构、训练算法及Infra的持续优化,Seed1.6 base模型在参数量规模接近的情况下,性能较Seed1.5 base实现显著提升,为后续后训练工作奠定基础。
反过来看,
这一招的发力,就对诸如高考语文阅读理解、英语完形填空和理科综合应用题等的作答上起到了提高准确率的作用,乃因它们往往涉及长文本且看重上下文理解。
有分析指出,
第二招:多模态融合的深度思考能力
换个角度来看,
Seed1.6-Thinking 延续Seed1.5-Thinking的多阶段RFT(强化反馈训练)与RL(强化学习)迭代优化方法,每轮RL以上一轮RFT为起点,通过多维度奖励模型筛选最优回答。相较于前代,其升级点包括:
据业内人士透露,
拓展训练算力,扩大高质量数据规模(涵盖 Math、Code、Puzzle 等领域);
提升多变状况的思考长度,深度融合VLM能力,赋予模型清晰的视觉理解能力;
IC外汇用户评价:
引入parallel decoding技术,无需额外训练即可扩展模型能力 —— 例如在高难度测试集Beyond AIME中,推理成绩提升8分,代码任务表现也显著优化。
但实际上,
这种能力直接对应高考中涉及图表、公式的题目,如数学几何证明、物理电路图分析、地理等高线判读等;具备高速定位关键参数并推导出解题路径,避免因单一模态信息缺失导致的误判。
第三招:AutoCoT处理过度思考状况
说到底,
深度思考依赖Long CoT(长思维链)增强推理能力,但易导致 “过度思考”—— 生成大量无效token,增加推理负担。
事实上,
为此,Seed1.6-AutoCoT提出 “动态思考能力”,供应全思考、不思考、自适应思考三种模式,并通过RL训练中引入新奖励函数(惩罚过度思考、奖励恰当思考),实现CoT长度的动态压缩。
站在用户角度来说,
在实际测试中:
中等难度任务(如 MMLU、MMLU pro)中,CoT 触发率与任务难度正相关(MMLU 触发率37%,MMLU pro触发率70%);
多变任务(如AIME)中,CoT触发率达100%,效果与Seed1.6-FullCoT相当,验证了自适应思考对Long CoT推理优势的保留。
以上就是豆包能够在今年高考全科目评测中脱颖而出的原因了。
据相关资料显示,
不过除此之外,还有一些影响因素值得说道说道。
很多人不知道,
正如本站刚才提到的,化学和生物的题目中读图题占比较大,但因非官方发布的图片清晰度不足,会导致多数大模型的表现不佳;不过Gemini2.5-Pro-0605的多模态能力较突出,尤其在化学领域。
尽管如此,
不过最近,字节Seed团队在采取了更清晰的高考真题图片后,以图文结合的方法重新测试了对图片理解要求较高的生物和化学科目,结果显示Seed1.6-Thinking的总分提升了近30分(理科总分达676)。
尤其值得一提的是,
图文交织输入示例
有分析指出,
这描述,全模态推理(结合文本与图像)能显著释放模型潜力,是未来值得深入探索的方向。
换个角度来看,
那么朋友们对于这次大模型们的battle结果有何看法?欢迎大家拿真题去实测后,在评论区留言朋友们的感受。