6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟垫底

这 6 家大模型中表现最亮眼的就是豆包和元宝，它俩虽然都「栽」在了第 6 道单选题上，但仍以 68 分的总成绩并列第一；DeepSeek 和通义则稍微逊色一些，前者错了 2 道单选题拿下 63 分，后者则在 1 道单选、1 道多选上失误最终拿到 62 分；相比之下，文心 X1 频频在多选题和填空题上「掉链子」，最终只获得 51 分

6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫

这6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,最终只获...

6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败...

这6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,最终只获...

6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败...

这6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,最终只获...

“有提升”,高考阅卷名师再评AI高考作文:九大模型座次剧烈变动

具体到各家模型表现，去年是通义千问、元宝和豆包这三家大厂的AI排在前三，但今年，两个新入局的“选手”——谷歌的Gemini和DeepSeek空降榜单并列第一，元宝和通义千问排在第三和第四位，豆包降至第六位。与去年同样，今年第一财经选取了国内外的九家模型，但厂商有所变化，新增了谷歌的Gemini和DeepSeek。这...

AI大模型“集体高考”,成绩单揭晓_央广网

央广网北京6月26日消息(记者徐芳)2024年全国高考结束后,国内外众多AI大模型随之上阵,在考场外参加了一场“高考”。6月24日,极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉,成绩单让广大网友很感兴趣。据了解,本次“大模型考生”包括GPT-4o(OpenAI)、豆包(字节跳动)、文心4.0(百度)、百小应(百川智能)、通...

...DeepSeek夺冠,GPT第二,豆包和Kimi有点掉队_树洪均_OpenAI_文心一

6月7日,2025年全国高考拉开大幕。过去两年,搜狐科技&搜狐教育均联合推出大模型参加高考系列策划,今年我们继续让大模型挑战高考作文。今年大模型考生还是10款模型,包括GPT-4.5、DeepSeek、通义千问、讯飞星火、文心一言、豆包、元宝、Kimi、学而思和商汤商量。今年高考作文试题我们选的是全国一卷,要求如下。

9款大模型做这道高考数学题:8家都翻车了只有ChatGPT一次做对...

昨日,TechWeb用百度文心一言、阿里通义、腾讯元宝、字节豆包、360智脑、ChatGPT这6大神器写了2024年高考全国语文新课标I卷的作文供大家赏析。截至目前,腾讯元宝获赞票数最多,百度文心一言排名第二。昨日下午,2024年高考数学已经顺利考完,讨论数学题的远没有讨论作文题的热度高,毕竟此时在电脑/手机前还会做高考数学...

大模型“赶考”,谁更胜一筹?

据极客公园6月24日发布的高考新课标Ⅰ卷大模型评测报告中，排在文科总分第一的是国外公司OpenAI的GPT-4o考出的562分，从国内公司来看，字节跳动旗下的豆包拔得头筹，成绩是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同，河南高考录取分数...

6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟垫底

高考数学包含 8 道单选题,满分 40 分。从跑分情况来看,豆包、通义、元宝和文心打成平手,均斩获 35 分不错的成绩;其次就是 DeepSeek 错了两道单选拿下 30 分,表现最拉胯的竟是 o3,光单选题就错了一半。作为曾经的推理模型「扛把子」,o3 在「送分」的第 2 题上就翻了车。起初它的思路还挺清晰,但...

近10款国产人工智能大模型参加了高考,有道题“全军覆灭” ?

随着今年高考的落幕,一场鲜为人知的"智能较量"也在幕后悄然兴起,那便是国产人工智能大模型。近日,搜狐科技、潇湘晨报、量子位、机器之心等十余家媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的全面评测,并公布了成绩。...

清华学霸与AI比做高考压轴题,谁会赢?

上述人士透露，前段时间还做了北京最新高考二模（题库数据里没有的新题）的挑战。AI答题后由老师进行批改，分数为697分（总分750分），达到“清北”水平。“毕竟去年AI集体做24年高考题的时候理科几乎全军覆灭。”过去一年时间，不少大模型公司将数学能力作为大模型的能力体现。OpenAI在介绍OpenAI o3-mini时表示，...

AI大模型挑战高考:豆包等三款国产大模型突破文科一本线数理学科仍需...

6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,文科本科一批录取分数线为521分,GPT-4o以562分排名文科总分第一,字节豆包以542.5分位列于GPT-4o之后,排名国产AI第一。字节豆包、文心一言、百小应三款国产AI成功超过一本线。

十款大模型写高考作文,ChatGPT 还是第一,“文本学霸”kimi 考砸了...

ChatGPT-4o、阿里通义、字节豆包、百度文心一言、腾讯元宝、讯飞星火、智谱清言、月之暗面Kimi、百川百小应、MiniMax海螺AI等10款全新升级的大模型再次应考,参加作文、数学和物理科目的测评。今年高考语文评测,这10款大模型参加了新课标I卷的作文题目考试,满分60分。作文要求如下: ...

大模型“高考成绩”公布:豆包、文心一言等国产大模型冲上一本线

【大河财立方记者陈薇】6月24日，极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉。数据显示，GPT-4o以562分排名文科总分第一，字节跳动旗下的豆包成绩是542.5分，其后依次是百度文心一言4.0的537.5分，以及百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同。根据当天公布的河南高考录取...

十款大模型做高考数学题:伪装学霸实则靠蒙,腾讯、Kimi、百川是...

在今年的高考数学测试中,我们选取了网络流传的新课标I卷的前8道单选题,并以图片的输入形式让大模型应考(其中豆包无图片识别功能,以文档形式输入测试)。从答题结果显示,这10款大模型在数学题解答能力上差异明显。百度文心一言、字节豆包和讯飞星火均答对5道题,正确率达到63%,并列第一。

大模型的高考数学成绩单:及格已经非常好了_澎湃号·湃客_澎湃新闻...

多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了。完整测试结果如下: 单选题一 (6个模型回答正确,1个回答错误) GPT-4o:正确通义千问 2.5:正确 GLM-4-0520:正确智谱清言:正确豆包:正确 ...

清华学霸与AI同做高考压轴题大模型理科能力提升如何?_姚班_-mini...

去年,“9.11和9.9谁大?”这一简单的数学题曾难倒了多家大模型。到了今年,大模型的理科能力提升如何? 近日网易有道发布了一则视频,6位清华姚班学生与AI比赛做高考压轴题。清华姚班由图灵奖得主姚期智院士创办,入班门槛很高,人才选拔非常严格,汇聚了数学、物理、信息学竞赛金牌得主。

“AI考生”闯关高考,谁是最会做题大模型?-太平洋科技

连日来,一些专业机构纷纷下场,使用市面上常见的大模型产品如通义千问、字节豆包、讯飞星火、文心一言、腾讯元宝、月之暗面Kimi等作为“考生”,围绕“大模型高考测试”得出了一系列结果,为人们更好地了解大模型产品的性能和特点提供了参考样本。 AI高考数学全不及格?换个打开方式试试 ...

12个国产大模型大战高考数学,意外炸出个大bug - 知乎

继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。有请“选手们”登场—— Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产...