震撼!2025 高考数学难吗,七家大模型应战,结果如何?
2025 年高考数学刚刚落下帷幕,关于试卷难度的讨论在网络上热度爆棚。而一场特别的 “考试” 也随之展开,七位 AI 大模型 “考生” 受邀参与,它们分别是 DeepSeek R10528、通义千问 Qwen3 - 235B - A22B、讯飞星火 X1 - 0420、豆包 Seed - Thinking - v1.5、文心 X1 Turbo、腾讯混元 Huny
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟垫底
这 6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,...
12个国产大模型大战高考数学,意外炸出个大bug - 知乎
Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。 国产大模型 vs 高考数学选择题 根据数学题目类型的不同,我们先来小试牛刀一下选择题。 测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案: 查看题目,给出第1题到第8题的答...
大模型高考数学成绩:GPT-4o被国产超越!
因此,团队在高考后第一时间对GPT-4o、文心一言、阿里千问、字节豆包等13家大模型进行了评测。 AI大模型成绩都不算太高 据悉,复旦大学NLP实验室的大模型评测LLMEVAL团队选取了2024年高考新I卷、新II卷数学试卷的14道客观题,用国内外的13个大模型“考生”测验...
#大模型决战高考数学卷#6大模型决战高考... 来自新浪AI - 微博
#大模型决战高考数学卷#【6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底】#高考数学题国产AI碾压OpenAI# 自从生成式 AI 走红后,大模型「决战」高考也成了每年的保留节目,尤其是在今年这个国内外大模型卷逻辑推理的当口。趁着各家大模型还来不及「作弊」,我们就用这新鲜出炉的高考数学题考...
七家主流大模型挑战 2025 高考数学:仅 DeepSeek、讯飞星火得分超...
豆包大模型: 文心一言: 腾讯混元: GPT o3: 以上是这次七家大模型挑战 2025 高考数学全国 1 卷的部分题目作答情况的举例,下面我们再来看这次“考试”各位大模型“考生”的总体得分情况: 可以看到,在这次“考试”中,DeepSeek、讯飞星火两家表现突出,是唯二突破 140 分的大模型,稳居国内大模型数学能力的第一梯...
大模型2024高考发榜 豆包等三款国产AI考上文科一本线
6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批...
近10款国产人工智能大模型参加了高考,有道题“全军覆灭” ?
数学科目 在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。 在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详...
复旦大学评测13个大模型:高考数学题Qwen2-72b与GPT-4o名列前茅
这半年来,国产大模型的发展突飞猛进,逐渐超越国外模型的能力。例如,Qwen-72b就在之前的测试中力压此前的最先进开源模型Llama3。此前斯坦福大学抄袭面壁智能MiniCPM-Llama3-V的事件,也从侧面说明大量国产大模型已经跻身世界一流。此次测试中,两次测试的头名也分别被百川大模型和字节豆包夺得。复旦NLP实验室的LLM...
9款大模型做这道高考数学题:8家都翻车了 只有ChatGPT一次做对...
昨日,TechWeb用百度文心一言、阿里通义、腾讯元宝、字节豆包、360智脑、ChatGPT这6大神器写了2024年高考全国语文新课标I卷的作文供大家赏析。截至目前,腾讯元宝获赞票数最多,百度文心一言排名第二。 昨日下午,2024年高考数学已经顺利考完,讨论数学题的远没有讨论作文题的热度高,毕竟此时在电脑/手机前还会做高考数学...
国产大模型互评高考作文,真“学霸”是谁?
闲话少说,我们直接来看结果。令人有些意外的是,五家大模型都将最高分(绿色)给到了通义大模型,通义也获得了53.8分的最高平均分,与其他大模型明显拉开差距;文心大模型和混元大模型都在51分的档位,几乎没有差距;而豆包大模型和星火大模型的平均分不到50分,豆包更是收获了3个最低分(黄色)。 从结果上来说,五家大模型的打分都比较“
#高考数学##国产大模型大战高考数学# 继... 来自量子位 - 微博
继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。我们以第19题为例,来看下国产大模型们的表现。有请“选手们”登场——Kimi【图2】、通义千问【图3】、文心一言【图4】、豆包【图5】...
6 大模型决战高考数学新一卷,豆包和元宝并列第一,OpenAI o3 垫底...
6 大模型决战高考数学新一卷,豆包和元宝并列第一,OpenAI o3 垫底,如何解读它们的表现?在考题选择上...
大模型“高考成绩”公布:豆包、文心一言等国产大模型冲上一本线
【大河财立方 记者 陈薇】6月24日,极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉。数据显示,GPT-4o以562分排名文科总分第一,字节跳动旗下的豆包成绩是542.5分,其后依次是百度文心一言4.0的537.5分,以及百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同。根据当天公布的河南高考录取...
十款大模型混战高考 讯飞星火综合成绩居首_凤凰网
综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。 第一名:52.49 讯飞星火 ...
复旦大学NLP实验室发布大模型高考数学测评结果,国内AI大模型成绩...
看一下结果 阿里千问:第一名 讯飞星火:第二名 GPT-4o:第三名。新Ⅱ卷的评测中,讯飞星火、阿里...
AI大模型挑战高考:豆包等三款国产大模型突破文科一本线 数理学科仍需...
6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,文科本科一批录取分数线为521分,GPT-4o以562分排名文科总分第一,字节豆包以542.5分位列于GPT-4o之后,排名国产AI第一。字节豆包、文心一言、百小应三款国产AI成功超过一本线。
国产AI大战高考物理,第1题全对,第2题开始放飞
文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。接下来,就来看看大模型们的具体表现。单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。到了第二题,大模型们就...
国产AI实测高考作文,真人老师点评,谁写跑题?谁得高分?
可以看到,有四款大模型得到了50以上的高分,其中讯飞星火平均得分53,排名第一,DeepSeek以0.5分之差位列第二,豆包、通义千问分别得分52、50,位列第三、四名,而混元和文心一言得分相对较低。从结果来看,六大国产模型均较精准地确定了作文立意,但在具体阐述方式上各有千秋,这也体现出了国产大模型的智能...
八款国产 AI 地狱挑战 2024 高考数学压轴大题:只给一张模糊拍屏,从读...
第一小题 讯飞星火居然记得写“解”,值得称赞;但直接给出答案可以拿满这小题的全部分数吗? 第二小题 第二小题写得非常长,希望星火的试卷上还有位置。 第三小题 第三小题解的也很有模有样,你觉得星火写对了吗? 字节豆包 字节的豆包 App 里内置了一个非常显眼的「学习小助手」智能体,告诉我不用给她打字...