国产模型大战高考数学全卷！混元第一、豆包第二，文心、Qwen随后

震撼!2025 高考数学难吗,七家大模型应战,结果如何?

2025 年高考数学刚刚落下帷幕，关于试卷难度的讨论在网络上热度爆棚。而一场特别的 “考试” 也随之展开，七位 AI 大模型 “考生” 受邀参与，它们分别是 DeepSeek R10528、通义千问 Qwen3 - 235B - A22B、讯飞星火 X1 - 0420、豆包 Seed - Thinking - v1.5、文心 X1 Turbo、腾讯混元 Huny

6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟垫底

这 6 家大模型中表现最亮眼的就是豆包和元宝，它俩虽然都「栽」在了第 6 道单选题上，但仍以 68 分的总成绩并列第一；DeepSeek 和通义则稍微逊色一些，前者错了 2 道单选题拿下 63 分，后者则在 1 道单选、1 道多选上失误最终拿到 62 分；相比之下，文心 X1 频频在多选题和填空题上「掉链子」，...

12个国产大模型大战高考数学,意外炸出个大bug - 知乎

Kimi、通义千问、文心一言、豆包、智谱清言、百小应、讯飞星火、商量、腾讯元宝、天工、海螺AI、万知。国产大模型 vs 高考数学选择题根据数学题目类型的不同,我们先来小试牛刀一下选择题。测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案: 查看题目,给出第1题到第8题的答...

大模型高考数学成绩:GPT-4o被国产超越!

因此,团队在高考后第一时间对GPT-4o、文心一言、阿里千问、字节豆包等13家大模型进行了评测。 AI大模型成绩都不算太高据悉,复旦大学NLP实验室的大模型评测LLMEVAL团队选取了2024年高考新I卷、新II卷数学试卷的14道客观题,用国内外的13个大模型“考生”测验...

#大模型决战高考数学卷#6大模型决战高考... 来自新浪AI - 微博

#大模型决战高考数学卷#【6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底】#高考数学题国产AI碾压OpenAI# 自从生成式 AI 走红后,大模型「决战」高考也成了每年的保留节目,尤其是在今年这个国内外大模型卷逻辑推理的当口。趁着各家大模型还来不及「作弊」,我们就用这新鲜出炉的高考数学题考...

七家主流大模型挑战 2025 高考数学:仅 DeepSeek、讯飞星火得分超...

豆包大模型: 文心一言: 腾讯混元: GPT o3: 以上是这次七家大模型挑战 2025 高考数学全国 1 卷的部分题目作答情况的举例,下面我们再来看这次“考试”各位大模型“考生”的总体得分情况: 可以看到,在这次“考试”中,DeepSeek、讯飞星火两家表现突出,是唯二突破 140 分的大模型,稳居国内大模型数学能力的第一梯...

大模型2024高考发榜豆包等三款国产AI考上文科一本线

6月24日，在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中，GPT-4o 以562分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同，河南高考录取分数线显示，文科本科一批...

近10款国产人工智能大模型参加了高考,有道题“全军覆灭” ?

数学科目在搜狐科技的数学评测中,讯飞星火、文心一言、豆包均以63%的正确率位列第一梯队,智谱清言、阿里通义则以50%的正确率位居第二梯队,其他大模型相对落后。在量子位的高考数学评测中,虽然没有给出详细成绩单,但展示了各家大模型详...

复旦大学评测13个大模型:高考数学题Qwen2-72b与GPT-4o名列前茅

这半年来，国产大模型的发展突飞猛进，逐渐超越国外模型的能力。例如，Qwen-72b就在之前的测试中力压此前的最先进开源模型Llama3。此前斯坦福大学抄袭面壁智能MiniCPM-Llama3-V的事件，也从侧面说明大量国产大模型已经跻身世界一流。此次测试中，两次测试的头名也分别被百川大模型和字节豆包夺得。复旦NLP实验室的LLM...

9款大模型做这道高考数学题:8家都翻车了只有ChatGPT一次做对...

昨日,TechWeb用百度文心一言、阿里通义、腾讯元宝、字节豆包、360智脑、ChatGPT这6大神器写了2024年高考全国语文新课标I卷的作文供大家赏析。截至目前,腾讯元宝获赞票数最多,百度文心一言排名第二。昨日下午,2024年高考数学已经顺利考完,讨论数学题的远没有讨论作文题的热度高,毕竟此时在电脑/手机前还会做高考数学...

国产大模型互评高考作文,真“学霸”是谁?

闲话少说,我们直接来看结果。令人有些意外的是,五家大模型都将最高分(绿色)给到了通义大模型,通义也获得了53.8分的最高平均分,与其他大模型明显拉开差距;文心大模型和混元大模型都在51分的档位,几乎没有差距;而豆包大模型和星火大模型的平均分不到50分,豆包更是收获了3个最低分(黄色)。从结果上来说,五家大模型的打分都比较“

#高考数学##国产大模型大战高考数学# 继... 来自量子位 - 微博

继国产大模型挑战高考作文之后,是时候再战一下高考数学了。数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。那么现在,是时候考验国产大模型们的数学能力了。我们以第19题为例,来看下国产大模型们的表现。有请“选手们”登场——Kimi【图2】、通义千问【图3】、文心一言【图4】、豆包【图5】...

6 大模型决战高考数学新一卷,豆包和元宝并列第一,OpenAI o3 垫底...

6 大模型决战高考数学新一卷，豆包和元宝并列第一，OpenAI o3 垫底，如何解读它们的表现？在考题选择上...

大模型“高考成绩”公布:豆包、文心一言等国产大模型冲上一本线

【大河财立方记者陈薇】6月24日，极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉。数据显示，GPT-4o以562分排名文科总分第一，字节跳动旗下的豆包成绩是542.5分，其后依次是百度文心一言4.0的537.5分，以及百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同。根据当天公布的河南高考录取...

十款大模型混战高考讯飞星火综合成绩居首_凤凰网

综合以上媒体在作文、数学、物理三门科目的成绩,我们得出了2024年人工智能大模型高考“成绩单”。来自科大讯飞的讯飞星火以52.49分高居第一名,通义千问、文心一言分别位列第二、第三名,而Kimi、字节豆包、海螺AI等其他大模型也有不错的表现。第一名:52.49 讯飞星火 ...

复旦大学NLP实验室发布大模型高考数学测评结果,国内AI大模型成绩...

看一下结果阿里千问：第一名讯飞星火：第二名 GPT-4o：第三名。新Ⅱ卷的评测中，讯飞星火、阿里...

AI大模型挑战高考:豆包等三款国产大模型突破文科一本线数理学科仍需...

6月24日,在极客公园最新发布的高考新课标Ⅰ卷大模型评测报告中,文科本科一批录取分数线为521分,GPT-4o以562分排名文科总分第一,字节豆包以542.5分位列于GPT-4o之后,排名国产AI第一。字节豆包、文心一言、百小应三款国产AI成功超过一本线。

国产AI大战高考物理,第1题全对,第2题开始放飞

文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题，在成功识别的题目中，商量和文心一言的正确率为2/4，豆包、天工、智谱清言正确率为1/2。接下来，就来看看大模型们的具体表现。单选题中，准确率最高的是第一题，一道有关标量矢量的概念题，参赛大模型百分百通过。到了第二题，大模型们就...

国产AI实测高考作文,真人老师点评,谁写跑题?谁得高分?

可以看到，有四款大模型得到了50以上的高分，其中讯飞星火平均得分53，排名第一，DeepSeek以0.5分之差位列第二，豆包、通义千问分别得分52、50，位列第三、四名，而混元和文心一言得分相对较低。从结果来看，六大国产模型均较精准地确定了作文立意，但在具体阐述方式上各有千秋，这也体现出了国产大模型的智能...

八款国产 AI 地狱挑战 2024 高考数学压轴大题:只给一张模糊拍屏,从读...

第一小题讯飞星火居然记得写“解”,值得称赞;但直接给出答案可以拿满这小题的全部分数吗? 第二小题第二小题写得非常长,希望星火的试卷上还有位置。第三小题第三小题解的也很有模有样,你觉得星火写对了吗? 字节豆包字节的豆包 App 里内置了一个非常显眼的「学习小助手」智能体,告诉我不用给她打字...