首個AI高考全卷評測結(jié)果發(fā)布：最高分303 數(shù)學(xué)全不及格

來源：快科技編輯：非小米時間：2024-06-19 17:30人閱讀

快科技6月19日消息，據(jù)媒體報道，上海人工智能實驗室旗下司南評測體系OpenCompass選取了7個大模型進(jìn)行高考“語數(shù)外”全卷能力測試。OpenCompass發(fā)布了首個大模型高考全卷評測結(jié)果。

在滿分420分的三科測試中，阿里通義千問2-72B以303分的成績拔得頭籌，緊隨其后的是OpenAI的GPT-4o，獲得296分，而上海人工智能實驗室的書生·浦語2.0位列第三。

這三大模型的得分率均超過了70%，展現(xiàn)了不俗的實力。相比之下，來自法國大模型初創(chuàng)公司的Mistral則排名末尾。

參與此次評測的模型來源廣泛，包括阿里巴巴、零一萬物、智譜AI、上海人工智能實驗室、法國Mistral的開源模型，以及OpenAI的閉源模型GPT-4o。

為確保公平，實驗室特別指出，由于無法確定閉源模型的更新時間，評測中僅將GPT-4o作為參考，并未納入商用閉源模型。同時，所有參與評測的模型均在高考前（2024年4月-6月）開源，有效避免了“刷題風(fēng)險”。

從評測結(jié)果來看，大模型在語文和英語方面的表現(xiàn)普遍較好，但在數(shù)學(xué)方面則普遍不及格。最高分僅為75分，由書生·浦語2.0獲得，緊隨其后的是GPT-4o的73分。語文方面，通義千問表現(xiàn)出色，而英語則由GPT-4o領(lǐng)跑。

數(shù)學(xué)成績的不理想凸顯出大模型在復(fù)雜推理能力方面的不足。這一能力是金融、工業(yè)等要求可靠場景落地所需的關(guān)鍵能力，也是大模型未來發(fā)展的重要方向。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱：business@qudong.com

標(biāo)簽：高考 AI

玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片