【大模型】出分了!首个AI高考全卷评测结果发布
上海人工智能实验室。
上海人工智能实验室是我国人工智能领域的一种新型科学研究机构。它进行了战略性,原始和前瞻性的科学研究和技术研究,旨在建立国际一流的人工智能实验室,并成为世界知名的人工智能原始理论和技术。来源的来源。
大学入学考试涵盖了各种科目和问题类型。同时,由于考试前的“最高秘密”,它被认为是中国最有权威的考试之一,并已成为评估候选人全面能力的“试金石”。目前,研究人员广泛使用了针对人类设计的非常困难的综合测试来检查大型模型的智能水平。
2024年全国大学入学考试结束后,Sinan评估系统Opencompass选择了6种开源模型和GPT-4O来进行大学入学考试“中文,数学和外国”论文的全文能力测试。评估采用了I级国家课程标准。参加评估的所有开源模型都比大学入学考试更早,从而确保评估的“封闭式”性质。同时【大模型】出分了!首个AI高考全卷评测结果发布,分数是由具有大学入学考试经验的老师手动判断的,这更接近真正的标记标准。
第一次大型模型入学考试的结果完整论文评论表明,QWEN2-72B,GPT-4O和学者Puyu 2.0 Wenquxing(InternLM2-20B-WQX)成为这项大型模型大学入学考试中的前三名,其评分率是超过70%。大多数“候选人”在中文和英语主题中表现良好,但仍然有很多改进数学的空间。其中,InterlM2-20B-WQX在数学方面的单个主题中取得了最高分,超过了包括GPT-4O在内的所有型号。
SINAN评估系统团队选择了GPT-4O和6种型号在2024年大学入学考试之前开放采购(下面的简介)上海英语高考难度,参加了此“大型模型大学入学考试”评估。
Mixtral 8x22b:一种对话模型,由法国AI初创公司Mistral于2024年4月17日开放。
YI-1.5-34B:YI-1.5系列的最大模型于2024年5月12日开放。
GLM-4-9B:由Zhipu AI于2024年6月4日推出的最新一代预训练的型号GLM-4系列的开源版。
InternLM2-20B-WQX:学者PUYU 2.0系列Wenquxing大语言模型于2024年6月4日由上海人工智能实验室开业。
QWEN2-57B:阿里巴巴的QWEN2系列MOE对话模型于2024年6月6日开放。
QWEN2-72B:阿里巴巴的72B密集型号于2024年6月6日开放。
由于无法确定封闭源模型的更新时间,因此,该评论不包括商业封闭源模型,并且仅引入GPT-4O作为评估参考。下表显示了上述大学入学考试“中国,数学和外国研究”中上述三个科目的结果:
该“大型模型大学入学考试”的答案生成脚本已发布,每个模型的答案表以及教师评分的细节均已披露。将来,研究团队将在评估中引入多模式大型模型,以检查模型应对更多问题的能力,并将连续发布完整的大学入学考试评估,涵盖不同的学科和地区。
公众审查详细信息可访问
良好的语言技能,
数学水平需要提高
Sinan评估系统首次采用了大学入学考试的全文测试的形式,并在新课程标准中选择了“中国,数学和外国研究”的三个主题作为测试集。由于正在测试的开源模型都是大型语言模型,因此在评估过程中,只有文本问题词干(数学包括2个带有图片的测试问题),并且本评估中不会包括英语听力部分(得分30分) 。
QWEN2-72B,GPT-4O和InterLM2-20B-WQX的相应得分分别为72.1%,70.5%和70.4%,总分为70.5%和70.4%。大多数模型在“语言”上本质上的表现良好,平均得分为67%,英语81%。
数学是所有大型模型的缺点,平均得分仅为36%。得益于研究团队对数学推理的投资,InternLM2-20B-WQX获得了75分的最高分,超过了所有测试模型。但是上海英语高考难度上海英语高考难度,尚未达到通过级别,这表明大型模型的数学能力有很大的改进空间。
全容量测试,
考试前没有泄漏问题,考试结束后进行了评估
参加评估的所有开源模型都具有在大学入学考试问题于2024年6月7日发布之前的权重,避免了“数据污染”和“尝试问题”的风险。它们与真正的大学入学考试的严格“封闭式考试”一致,并且没有“作弊”。
与以前使用客观测试模型进行大学入学考试的方法不同,在此测试中,研究团队使用了中文,数学和手术的三个主题的完整纸质问题,包括“回答独特性”问题,例如选择和填写等问题空白以及简单的答案。 ,阅读理解和组成,在接近真正的大学入学考试的环境中的测试模型能力。
为了更接近大学入学考试标记模型,联合团队邀请了几位具有标记经验的高中老师,以评分模型的主观答案,至少3位教师将分别为每个测试纸评分。对于教师得分很高的情况,将再次进行审查,以避免尽可能多地发生“争议判断”。
联合团队认为,就像大学入学考试论文一样上海英语高考难度,由于引入了主观问题,这一评估也不是绝对公平的。但是,与此同时,由于存在主观问题,该评估可以从人类的角度研究大型模型在真实环境中的能力,从而为学术和行业提供更有价值的指标参考。
大型模型在纸的老师眼中
本文标记的本文采用了一种完全匿名的形式,与大学入学考试一致,并且所有大规模的答案均已匿名处理,以避免教师的“先入为主的概念”。在标记开始之前,没有告知标记老师的答案是由模型产生的,因此标记老师可以根据面对真正的候选人的标准完全判断响应效果。
在完成所有大型模型答案表的标记后,标记老师被告知评估的“候选人”的真实身份是大型模型。研究人员还邀请了来自各个学科的教师对大型模型的表现进行整体分析,以为模型的改进策略提供参考。
中国人:
该模型的现代中国阅读理解能力通常很强,但是不同模型的古典中国阅读理解能力相对较大。
大型模型组成更像是问答问题。尽管它们是针对性的,但它们缺乏修改。几乎没有人类候选人会使用例子和论点,引用,著名的引号和角色材料。
大多数模型无法理解中国概念,例如“本体论”,“隐喻”和“隐喻”。大型模型并未完全理解语言中的一些“潜台词”。
数学:
大型模型中主观问题的答案相对凌乱,并且过程令人困惑,即使该过程是错误的,但是获得了正确的答案。
大型模型的公式具有很强的内存能力,但是在解决问题的过程中,它们无法灵活地引用它们。
英语:
总体英语表现不错,但是有些模型不适合问题类型,而且问题类型的得分率(例如7-选择5)和披肩填充和空白的得分率很低。
大规模的英语组成通常是由于超过单词限制而被扣除的点,而由于单词数量不足,人类候选人主要是被扣除的点。
猜你喜欢
发表评论
评论列表