【大模型】出分了!首个AI高考全卷评测结果发布

时间:2025-02-09 07:47:44 阅读: 7

上海人工智能实验室。

上海人工智能实验室是我国人工智能领域的一种新型科学研究机构。它进行了战略性,原始和前瞻性的科学研究和技术研究,旨在建立国际一流的人工智能实验室,并成为世界知名的人工智能原始理论和技术。来源的来源。

上海高考英语太难_上海英语高考难度_上海高考英语难度

大学入学考试涵盖了各种科目和问题类型。同时,由于考试前的“最高秘密”,它被认为是中国最有权威的考试之一,并已成为评估候选人全面能力的“试金石”。目前,研究人员广泛使用了针对人类设计的非常困难的综合测试来检查大型模型的智能水平。

2024年全国大学入学考试结束后,Sinan评估系统Opencompass选择了6种开源模型和GPT-4O来进行大学入学考试“中文,数学和外国”论文的全文能力测试。评估采用了I级国家课程标准。参加评估的所有开源模型都比大学入学考试更早,从而确保评估的“封闭式”性质。同时【大模型】出分了!首个AI高考全卷评测结果发布,分数是由具有大学入学考试经验的老师手动判断的,这更接近真正的标记标准。

第一次大型模型入学考试的结果完整论文评论表明,QWEN2-72B,GPT-4O和学者Puyu 2.0 Wenquxing(InternLM2-20B-WQX)成为这项大型模型大学入学考试中的前三名,其评分率是超过70%。大多数“候选人”在中文和英语主题中表现良好,但仍然有很多改进数学的空间。其中,InterlM2-20B-WQX在数学方面的单个主题中取得了最高分,超过了包括GPT-4O在内的所有型号。

SINAN评估系统团队选择了GPT-4O和6种型号在2024年大学入学考试之前开放采购(下面的简介)上海英语高考难度,参加了此“大型模型大学入学考试”评估。

Mixtral 8x22b:一种对话模型,由法国AI初创公司Mistral于2024年4月17日开放。

YI-1.5-34B:YI-1.5系列的最大模型于2024年5月12日开放。

GLM-4-9B:由Zhipu AI于2024年6月4日推出的最新一代预训练的型号GLM-4系列的开源版。

InternLM2-20B-WQX:学者PUYU 2.0系列Wenquxing大语言模型于2024年6月4日由上海人工智能实验室开业。

QWEN2-57B:阿里巴巴的QWEN2系列MOE对话模型于2024年6月6日开放。

QWEN2-72B:阿里巴巴的72B密集型号于2024年6月6日开放。

由于无法确定封闭源模型的更新时间,因此,该评论不包括商业封闭源模型,并且仅引入GPT-4O作为评估参考。下表显示了上述大学入学考试“中国,数学和外国研究”中上述三个科目的结果:

上海高考英语太难_上海高考英语难度_上海英语高考难度

上海英语高考难度_上海高考英语太难_上海高考英语难度

该“大型模型大学入学考试”的答案生成脚本已发布,每个模型的答案表以及教师评分的细节均已披露。将来,研究团队将在评估中引入多模式大型模型,以检查模型应对更多问题的能力,并将连续发布完整的大学入学考试评估,涵盖不同的学科和地区。

公众审查详细信息可访问

良好的语言技能,

数学水平需要提高

Sinan评估系统首次采用了大学入学考试的全文测试的形式,并在新课程标准中选择了“中国,数学和外国研究”的三个主题作为测试集。由于正在测试的开源模型都是大型语言模型,因此在评估过程中,只有文本问题词干(数学包括2个带有图片的测试问题),并且本评估中不会包括英语听力部分(得分30分) 。

QWEN2-72B,GPT-4O和InterLM2-20B-WQX的相应得分分别为72.1%,70.5%和70.4%,总分为70.5%和70.4%。大多数模型在“语言”上本质上的表现良好,平均得分为67%,英语81%。

数学是所有大型模型的缺点,平均得分仅为36%。得益于研究团队对数学推理的投资,InternLM2-20B-WQX获得了75分的最高分,超过了所有测试模型。但是上海英语高考难度上海英语高考难度,尚未达到通过级别,这表明大型模型的数学能力有很大的改进空间。

上海英语高考难度_上海高考英语太难_上海高考英语难度

上海高考英语难度_上海英语高考难度_上海高考英语太难

上海英语高考难度_上海高考英语太难_上海高考英语难度

全容量测试,

考试前没有泄漏问题,考试结束后进行了评估

参加评估的所有开源模型都具有在大学入学考试问题于2024年6月7日发布之前的权重,避免了“数据污染”和“尝试问题”的风险。它们与真正的大学入学考试的严格“封闭式考试”一致,并且没有“作弊”。

与以前使用客观测试模型进行大学入学考试的方法不同,在此测试中,研究团队使用了中文,数学和手术的三个主题的完整纸质问题,包括“回答独特性”问题,例如选择和填写等问题空白以及简单的答案。 ,阅读理解和组成,在接近真正的大学入学考试的环境中的测试模型能力。

为了更接近大学入学考试标记模型,联合团队邀请了几位具有标记经验的高中老师,以评分模型的主观答案,至少3位教师将分别为每个测试纸评分。对于教师得分很高的情况,将再次进行审查,以避免尽可能多地发生“争议判断”。

上海高考英语太难_上海高考英语难度_上海英语高考难度

联合团队认为,就像大学入学考试论文一样上海英语高考难度,由于引入了主观问题,这一评估也不是绝对公平的。但是,与此同时,由于存在主观问题,该评估可以从人类的角度研究大型模型在真实环境中的能力,从而为学术和行业提供更有价值的指标参考。

大型模型在纸的老师眼中

本文标记的本文采用了一种完全匿名的形式,与大学入学考试一致,并且所有大规模的答案均已匿名处理,以避免教师的“先入为主的概念”。在标记开始之前,没有告知标记老师的答案是由模型产生的,因此标记老师可以根据面对真正的候选人的标准完全判断响应效果。

在完成所有大型模型答案表的标记后,标记老师被告知评估的“候选人”的真实身份是大型模型。研究人员还邀请了来自各个学科的教师对大型模型的表现进行整体分析,以为模型的改进策略提供参考。

中国人:

该模型的现代中国阅读理解能力通常很强,但是不同模型的古典中国阅读理解能力相对较大。

大型模型组成更像是问答问题。尽管它们是针对性的,但它们缺乏修改。几乎没有人类候选人会使用例子和论点,引用,著名的引号和角色材料。

大多数模型无法理解中国概念,例如“本体论”,“隐喻”和“隐喻”。大型模型并未完全理解语言中的一些“潜台词”。

数学:

大型模型中主观问题的答案相对凌乱,并且过程令人困惑,即使该过程是错误的,但是获得了正确的答案。

大型模型的公式具有很强的内存能力,但是在解决问题的过程中,它们无法灵活地引用它们。

英语:

总体英语表现不错,但是有些模型不适合问题类型,而且问题类型的得分率(例如7-选择5)和披肩填充和空白的得分率很低。

大规模的英语组成通常是由于超过单词限制而被扣除的点,而由于单词数量不足,人类候选人主要是被扣除的点。

猜你喜欢

-一些省份如北京、上海、天津等,实行听力和笔试分开考试的形式,听力考试采用计算机化考试,并提供一年两次考试的机会,取较高成绩计入高考总分。-而一些省份则只提供一次听力考试机会,如福建,外语口试成绩不计入高考总成绩。...
二、蔡章兵英语时文阅读小程序:因材施教,精准提升在奇速通真题和蔡章兵英语时文阅读小程序中,这种理念得到了充分的体现。总之,精准匹配、智慧引领的因材施教模式,让英语时文和真题阅读的学习变得更加科学、高效。...

全国第一!上海高考英语可以难到什么程度?

因此上海高考远比想象的困难,特别是英语难出了新高度,堪称全国第一。那么上海高考英语究竟难到什么程度呢?上海作为国际化大都市,对英语的重视程度非常高,从学生幼儿园开始就学习英语,高考英语难度大概在四级到六级之间,2017年高考难度甚至超过六级,简直就是地狱模式,下面来看看网友的观点吧:...

上海国际课程高中招生计划,招生要求

上海国际课程高中招生计划上海国际课程高中招生要求外省市生源学生:如不能参加上海市中考但目前在上海初中就读的,须先通过校方组织的自主招生考,并达到录取标准,同时提供参加本区模拟考成绩达到录取标准。开设国际课程的双语学校:不要求学生提交中考成绩,通过学校自主考试和面试择优录取。...

(2024)2024种草:上海财经大学国际本科英语条件

上海财经大学国际本科项目介绍上海财经大学国际本科项目学生雅思5.0以上,。8、上海财经大学国际本科开始学习:注册成功后,按照学校的教学计划开始学习。关于上海财经大学国际本科:...

上海公办高中国际部怎么招生

公办学校国际部/国际班:部分公办国际部也招收外地学生,但通常要求学生具有上海户籍或上海初中学籍。入学测试:所有上海国际高中在招生时都设置了入学测试,学生只有通过测试才有可能被录取。上海公办高中国际部报哪些学校好...

传河北高考改革落地英语退出 教育部门辟谣

据河北新闻网,近日,一则“河北中高考改革方案落地,英语将正式退出”的消息在微信朋友圈广泛传播。“河北中高考改革方案落地:英语将正式退出,语文王者回归!记者在网上搜索发现,从2014年5月起,类似的“中高考改革方案”在一些教育培训网站上广为流传,有广东、山东、四川等多个版本,内容如出一辙。...

上海高考英语 2025年这些教育新政正式实施!

2025年八省份首次实施新高考制度调整后的合格性考试,自2025年开始实施。上海英语高考改革,从2025届春考开始正式实施上海新中考体育政策降标准,2025年1月1日起实施上海市教委发布的修订完善后的《上海市初中毕业升学体育考试工作实施方案》明确:“长跑降低标准,设置附加分。...

发表评论

评论列表