Grok3翻车了回答9.11比9.9大

9.11比9.9大?马斯克声称“天下最聪明”的Grok3“翻车了”

此前，马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示：“自己整个周末都在和团队打磨产品。”然而据媒体报道，有人测试了最新的Beta版Grok3，并提出了那个经典的用来刁难大模型的问题：“9.11与9.9哪个大？”遗憾的是，在不加任何定语以及标注的情况下，号称目前最聪明的Grok3，仍然无法正确回答...

#Grok3翻车了# 9.11比9.9大?测试天下最... 来自新浪5G - 微博

#Grok3翻车了#【9.11比9.9大?测试“天下最聪明”的Grok3:翻车了】#测试Grok3翻车了# 北京时间2月18日,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人24/7不间断的预热炒作,让全球对Grok3的期待值被拉到了空前的程度。在一周前,马斯克在直播...

马斯克新发布的Grok 3智商堪忧,竟答错9.11和9.9哪个大

然而，Grok3在实际测试中的表现却让人失望。在发布会之后，一些媒体针对 Grok3进行了测试，提出了一个经典问题:“9.11与9.9哪个大?” 意外的是，这款号称最聪明的 AI 未能给出正确答案，令网友们纷纷调侃其为 “天才不愿意回答简单问题”。对此，马斯克回应表示，当前的Grok3仅是测试版，这个阶段错误越多越好...

9.11比9.9大?测试马斯克“天下最聪明”的Grok3:翻车了

美职篮英雄

9.11和9.9哪个大?AI大模型集体失智几乎全翻车了--快科技--科技...

也有网友发现了华点,如果是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。而AI都是软件工程师开发的,所以…… 那么,究竟是怎么回事? 先进大模型集体翻车一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了? 发现这个问题的是Riley Goodside,有史以来第一个全职提示词工程师。

分不清9.9与9.11谁大?大模型数学能力堪忧业内:或因相关问题非各...

7月17日，有大模型企业人士向记者表示，对于大模型而言，这不是很难解决的技术难点，只要喂了这方面的数据，就能得到准确的答案，只不过大部分的大模型厂商没有把这方面的训练作为重心，所以可能会出现上述不准确的回答。大模型比大小“翻车”？由综艺节目《歌手2024》排名引发的热议蔓延到大模型领域，也成了一场...

9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱

记者追问ChatGPT有没有其他比较方法，它将小数转化成分数比较，得出 “11/100比90/100小”，这一步是对的，但它接着下结论称“因此9.11比9.9大”。大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI...

为什么会有那么多大模型答错「9.9 和 9.11 哪个大」? - 知乎

有网友调侃，如果这是软件版本号的话，9.11确实比9.9要大嘛。难不成这些由软件工程师开发的AI们，...

翻车了!9.11和9.9哪个大?记者实测12个大模型8个都答错

记者追问ChatGPT有没有其他比较方法，它将小数转化成分数比较，得出 “11/100比90/100小”，这一步是对的，但它接着下结论称“因此9.11比9.9大”。有人提出，大模型回答错误可能是语境问题，比如从软件版本迭代的语境来说，9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较，ChatGPT仍然回答...

今天老马看到,Ai大模型翻车啦!(9.11和9... 来自马斯克科技说 - 微博

老马认为,Ai大模型,可以在模型架构上进行改进,才能更好地适应数学计算和推理的需求。例如,可以设计专门的数学模块或采用更适合数学计算的Tokenizer等等总的来说,“大模型测不出9.11和9.9哪个大”这一现象揭示了当前大模型在数学能力上的不足,然而,随着技术的不断进步和训练数据的不断增加,我们有理由相信大模型的数学...

9.11和9.9哪个大?简单数学题8家AI大模型平台都翻了车

再看国内的大模型，例如询问月之暗面旗下kimi，它在比较小数部分时认为，9.11的第一位小数是1，而9.9的第一位小数是0，错误地给出了小数，得出结论9.11更大。当质疑并提出常识后，kimi转而开始表示自己回答有误，并给出了正确的比较方法。询问字节豆包，它不仅给出了答案，还举了生活中的例子方便理解，单...

马斯克Grok3直播演示翻车_哔哩哔哩_bilibili

马斯克的Grok-3和Grok-3mini在多个测试中夺得第一, 超过DeepSeek、ChatGPT和Gemini等对手。不过,在直播演示中,第一次测试却翻车了。此外,发布会上的两位华人成员分别是吴宇怀和Jimmy Ba。吴宇怀目前是xAI的团队成员,他曾在谷歌N2Formal团队工作,也是Jimmy Ba的学生。

9.11比9.9大?测试“天下最聪明”的Grok3:翻车了-步行街主干道...

美职篮英雄

9.11和9.9谁大?我们实测15个大模型,超半数翻车

Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o，却得到「前者更大」的回答。其他大模型也纷纷翻车。7 月 17 日，我们拿国内 12 款大模型，外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果：接下来...

大模型集体翻车?9.11 和 9.9 到底哪个大... 来自基地边缘 - 微博

【大模型集体翻车?9.11 和 9.9 到底哪个大?】有史以来第一个全职提示词工程师 Riley Goodside发现了一个问题,他在使用GPT-4o时偶然发现,提问:9.11 and 9.9——which is bigger? GPT-4o竟毫不犹豫回答前者更...

9.11和9.9哪个大?AI翻车!好多网友竟也争论不休……

9.11和9.9哪个大？AI翻车！好多网友竟也争论不休……没想到，一道小学生难度的数学题，竟然难倒了一众海内外AI大模型。9.11和9.9哪个更大？就此问题，测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃...

翻车了,集体失智,网友吵翻天,AI 也答错 - 知乎

就是几乎所有的大模型面对一个数学问题都翻车了。一道小学生难度的数学题难倒了一众海内外 AI 大模型。9.11 和 9.9 哪个更大?就此问题,有网友测试了 12 个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面 kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川...

为什么会有那么多大模型答错「9.9 和 9.11 哪个大」? - 知乎

3.6 模型评估训练完成后，我们可以测试一下模型是否能够正确回答“9.9”和“9.11”哪个更大的问题...

大模型集体失智!9.11和9.9哪个大,几乎全翻车了 - 百度知道

最近，一个简单的数学问题“9.11和9.9哪个大？”把主流大模型都难倒了。即使是强如GPT-4o的超级AI，在回答这个问题时，都坚定地认为9.11更大。谷歌Gemini Advanced付费版、新王Claude 3.5 Sonnet也纷纷中招，给出离谱的计算方法，甚至在解释小数比较时显得莫名其妙。问题的“翻车”现象不仅局限于一...

大模型为何认为9.11比9.9大

和“11”三个部分。这样一来,比较的就是小数部分,显然“11”比“9”大,所以大模型得出了9.11比9.9大的结论。这其实是一个分词策略导致的理解偏差。不过,有意思的是,如果用llama系列的大模型,它会把整个数字“9.11”作为一个token来处理。如果我们用llama2进行测试,结果还是一样:9.11比9.9大。看来,大模型回答...

Grok3翻车了 回答9.11比9.9大

Grok3翻车了回答9.11比9.9大