通义千问、GPT-4o 等七款大模型“高考”成绩揭晓：前三名文科破一本线，理科跃二本线

东莞vps,基多vps_

【ITBEAR科技资讯】7月18日消息，近日，上海人工智能实验室揭晓了一场特殊的“高考”成绩，这场考试与众不同，因为它的参考者并非真实的学生，而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平，并寻找其可能存在的问题，以期推动技术的进步。

据评测结果，书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o 在众多模型中脱颖而出，分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线，这一参考线是基于今年高考人数最多的河南省的分数线设定的。

此次参与评测的大模型除了上述三款外，还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral 8×22B。整个评测过程严谨而全面，不仅进行了全卷的评分，还特意邀请了有高考阅卷经验的老师进行打分，以确保评分的公正性和准确性。

在这场特殊的“高考”中，Qwen2-72B 以546分的高分夺得了文科状元的桂冠，而浦语文曲星则以468.5分领跑理科。与此同时，GPT-4o在文理科均展现出不俗的实力。不过，国外的大模型Mixtral 8x22B在此次评测中表现相对较弱。

阅卷老师们在对答案进行仔细分析后指出，虽然大模型在基础知识的掌握上表现出色，但与真实考生相比，在逻辑推理和知识灵活应用上还存在明显差距。特别是在解答主观题时，大模型往往难以完整理解题目要求，导致答案与题目要求不符。在数学题的解答过程中，大模型的表现也显得机械且逻辑性不强。

根据上海人工智能实验室上个月公布的 AI 高考全卷结果，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

通义千问、GPT-4o 等七款大模型“高考”成绩揭晓：前三名文科破一本线，理科跃二本线

文章展示

miravia店铺授权操作流程

企业卖家如何开通Tokopedia店铺

亚马逊跨境电商可以卖家电类目吗

内地卖家能做shopee吗

通义千问、GPT-4o 等七款大模型“高考”成绩揭晓：前三名文科破一本线，理科跃二本线

相关文章

文章展示

标签云