6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟垫底
这 6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,最终只获得 51 分
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫
这6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,最终只获...
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败...
这6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,最终只获...
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败...
这6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,最终只获...
“有提升”,高考阅卷名师再评AI高考作文:九大模型座次剧烈变动
具体到各家模型表现,去年是通义千问、元宝和豆包这三家大厂的AI排在前三,但今年,两个新入局的“选手”——谷歌的Gemini和DeepSeek空降榜单并列第一,元宝和通义千问排在第三和第四位,豆包降至第六位。与去年同样,今年第一财经选取了国内外的九家模型,但厂商有所变化,新增了谷歌的Gemini和DeepSeek。这...
AI大模型“集体高考”,成绩单揭晓_央广网
央广网北京6月26日消息(记者 徐芳)2024年全国高考结束后,国内外众多AI大模型随之上阵,在考场外参加了一场“高考”。6月24日,极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉,成绩单让广大网友很感兴趣。 据了解,本次“大模型考生”包括GPT-4o(OpenAI)、豆包(字节跳动)、文心4.0(百度)、百小应(百川智能)、通...
...DeepSeek夺冠,GPT第二,豆包和Kimi有点掉队_树洪均_OpenAI_文心一
6月7日,2025年全国高考拉开大幕。过去两年,搜狐科技&搜狐教育均联合推出大模型参加高考系列策划,今年我们继续让大模型挑战高考作文。 今年大模型考生还是10款模型,包括GPT-4.5、DeepSeek、通义千问、讯飞星火、文心一言、豆包、元宝、Kimi、学而思和商汤商量。今年高考作文试题我们选的是全国一卷,要求如下。
9款大模型做这道高考数学题:8家都翻车了 只有ChatGPT一次做对...
昨日,TechWeb用百度文心一言、阿里通义、腾讯元宝、字节豆包、360智脑、ChatGPT这6大神器写了2024年高考全国语文新课标I卷的作文供大家赏析。截至目前,腾讯元宝获赞票数最多,百度文心一言排名第二。 昨日下午,2024年高考数学已经顺利考完,讨论数学题的远没有讨论作文题的热度高,毕竟此时在电脑/手机前还会做高考数学...
大模型“赶考”,谁更胜一筹?
据极客公园6月24日发布的高考新课标Ⅰ卷大模型评测报告中,排在文科总分第一的是国外公司OpenAI的GPT-4o考出的562分,从国内公司来看,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数...
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟垫底
高考数学包含 8 道单选题,满分 40 分。 从跑分情况来看,豆包、通义、元宝和文心打成平手,均斩获 35 分不错的成绩;其次就是 DeepSeek 错了两道单选拿下 30 分,表现最拉胯的竟是 o3,光单选题就错了一半。 作为曾经的推理模型「扛把子」,o3 在「送分」的第 2 题上就翻了车。起初它的思路还挺清晰,但...
近10款国产人工智能大模型参加了高考,有道题“全军覆灭” ?
随着今年高考的落幕,一场鲜为人知的"智能较量"也在幕后悄然兴起,那便是国产人工智能大模型。 近日,搜狐科技、潇湘晨报、量子位、机器之心等十余家媒体对近10款国产人工智能大模型进行了高考作文、数学、物理三个科目的全面评测,并公布了成绩。...
清华学霸与AI比做高考压轴题,谁会赢?
上述人士透露,前段时间还做了北京最新高考二模(题库数据里没有的新题)的挑战。AI答题后由老师进行批改,分数为697分(总分750分),达到“清北”水平。“毕竟去年AI集体做24年高考题的时候理科几乎全军覆灭。”过去一年时间,不少大模型公司将数学能力作为大模型的能力体现。OpenAI在介绍OpenAI o3-mini时表示,...
AI大模型挑战高考:豆包等三款国产大模型突破文科一本线 数理学科仍需...
6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,文科本科一批录取分数线为521分,GPT-4o以562分排名文科总分第一,字节豆包以542.5分位列于GPT-4o之后,排名国产AI第一。字节豆包、文心一言、百小应三款国产AI成功超过一本线。
十款大模型写高考作文,ChatGPT 还是第一,“文本学霸”kimi 考砸了...
ChatGPT-4o、阿里通义、字节豆包、百度文心一言、腾讯元宝、讯飞星火、智谱清言、月之暗面Kimi、百川百小应、MiniMax海螺AI等10款全新升级的大模型再次应考,参加作文、数学和物理科目的测评。 今年高考语文评测,这10款大模型参加了新课标I卷的作文题目考试,满分60分。作文要求如下: ...
大模型“高考成绩”公布:豆包、文心一言等国产大模型冲上一本线
【大河财立方 记者 陈薇】6月24日,极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉。数据显示,GPT-4o以562分排名文科总分第一,字节跳动旗下的豆包成绩是542.5分,其后依次是百度文心一言4.0的537.5分,以及百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同。根据当天公布的河南高考录取...
十款大模型做高考数学题:伪装学霸实则靠蒙,腾讯、Kimi、百川是...
在今年的高考数学测试中,我们选取了网络流传的新课标I卷的前8道单选题,并以图片的输入形式让大模型应考(其中豆包无图片识别功能,以文档形式输入测试)。 从答题结果显示,这10款大模型在数学题解答能力上差异明显。百度文心一言、字节豆包和讯飞星火均答对5道题,正确率达到63%,并列第一。
大模型的高考数学成绩单:及格已经非常好了_澎湃号·湃客_澎湃新闻...
多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了。 完整测试结果如下: 单选题一 (6个模型回答正确,1个回答错误) GPT-4o:正确 通义千问 2.5:正确 GLM-4-0520:正确 智谱清言:正确 豆包:正确 ...
清华学霸与AI同做高考压轴题 大模型理科能力提升如何?_姚班_-mini...
去年,“9.11和9.9谁大?”这一简单的数学题曾难倒了多家大模型。到了今年,大模型的理科能力提升如何? 近日网易有道发布了一则视频,6位清华姚班学生与AI比赛做高考压轴题。清华姚班由图灵奖得主姚期智院士创办,入班门槛很高,人才选拔非常严格,汇聚了数学、物理、信息学竞赛金牌得主。
“AI考生”闯关高考,谁是最会做题大模型?-太平洋科技
连日来,一些专业机构纷纷下场,使用市面上常见的大模型产品如通义千问、字节豆包、讯飞星火、文心一言、腾讯元宝、月之暗面Kimi等作为“考生”,围绕“大模型高考测试”得出了一系列结果,为人们更好地了解大模型产品的性能和特点提供了参考样本。 AI高考数学全不及格?换个打开方式试试 ...
12个国产大模型大战高考数学,意外炸出个大bug - 知乎
继国产大模型挑战高考作文之后,是时候再战一下高考数学了。 数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。 那么现在,是时候考验国产大模型们的数学能力了。 有请“选手们”登场—— Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。 国产...