据新浪科技报道,上海野生智能尝试室旗下的司南评测体系OpenCompass对七个大型说话模子停止了高考“语数外”全卷才能测试,并宣布了首个大模子高考全卷评测成果。

这次测试的语文、数学和英语三科总分为420分。测试成果显现,阿里巴巴的通义千问2-72B以303分的成绩排名第一,OpenAI的GPT-4以296分紧随厥后,位居第二。上海野生智能尝试室的墨客浦语2.0排名第三。这三个大模子的得分率均跨越70%。法国草创公司Mistral的大模子排名开端。

从测试成果来看,大模子在语文和英语测验中的表现遍及较好,但在数学科目上表现欠佳,最高分仅为75分,全数未能合格。





























