9.11比9.9大?马斯克声称“天下最聪明”的Grok3“翻车了”
此前,马斯克将Grok-3描述为“地球上最聪明的AI”。他在X平台上表示:“自己整个周末都在和团队打磨产品。”然而据媒体报道,有人测试了最新的Beta版Grok3,并提出了那个经典的用来刁难大模型的问题:“9.11与9.9哪个大?”遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的Grok3,仍然无法正确回答...
#Grok3翻车了# 9.11比9.9大?测试天下最... 来自新浪5G - 微博
#Grok3翻车了#【9.11比9.9大?测试“天下最聪明”的Grok3:翻车了】#测试Grok3翻车了# 北京时间2月18日,马斯克与xAI团队,在直播中正式发布了最新版本Grok3。早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人24/7不间断的预热炒作,让全球对Grok3的期待值被拉到了空前的程度。在一周前,马斯克在直播...
马斯克新发布的Grok 3智商堪忧,竟答错9.11和9.9哪个大
然而,Grok3在实际测试中的表现却让人失望。在发布会之后,一些媒体针对 Grok3进行了测试,提出了一个经典问题:“9.11与9.9哪个大?” 意外的是,这款号称最聪明的 AI 未能给出正确答案,令网友们纷纷调侃其为 “天才不愿意回答简单问题”。对此,马斯克回应表示,当前的Grok3仅是测试版,这个阶段错误越多越好...
9.11和9.9哪个大?AI大模型集体失智 几乎全翻车了--快科技--科技...
也有网友发现了华点,如果是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。 而AI都是软件工程师开发的,所以…… 那么,究竟是怎么回事? 先进大模型集体翻车 一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了? 发现这个问题的是Riley Goodside,有史以来第一个全职提示词工程师。
分不清9.9与9.11谁大?大模型数学能力堪忧 业内:或因相关问题非各...
7月17日,有大模型企业人士向记者表示,对于大模型而言,这不是很难解决的技术难点,只要喂了这方面的数据,就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。大模型比大小“翻车”?由综艺节目《歌手2024》排名引发的热议蔓延到大模型领域,也成了一场...
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出 “11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI...
为什么会有那么多大模型答错「9.9 和 9.11 哪个大」? - 知乎
有网友调侃,如果这是软件版本号的话,9.11确实比9.9要大嘛。难不成这些由软件工程师开发的AI们,...
翻车了!9.11和9.9哪个大?记者实测12个大模型8个都答错
记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出 “11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。有人提出,大模型回答错误可能是语境问题,比如从软件版本迭代的语境来说,9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较,ChatGPT仍然回答...
今天老马看到,Ai大模型翻车啦!(9.11和9... 来自马斯克科技说 - 微博
老马认为,Ai大模型,可以在模型架构上进行改进,才能更好地适应数学计算和推理的需求。例如,可以设计专门的数学模块或采用更适合数学计算的Tokenizer等等总的来说,“大模型测不出9.11和9.9哪个大”这一现象揭示了当前大模型在数学能力上的不足,然而,随着技术的不断进步和训练数据的不断增加,我们有理由相信大模型的数学...
9.11和9.9哪个大?简单数学题8家AI大模型平台都翻了车
再看国内的大模型,例如询问月之暗面旗下kimi,它在比较小数部分时认为,9.11的第一位小数是1,而9.9的第一位小数是0,错误地给出了小数,得出结论9.11更大。当质疑并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单...
马斯克Grok3直播演示翻车_哔哩哔哩_bilibili
马斯克的Grok-3和Grok-3mini在多个测试中夺得第一, 超过DeepSeek、ChatGPT和Gemini等对手。不过,在直播演示中,第一次测试却翻车了。 此外,发布会上的两位华人成员分别是吴宇怀和Jimmy Ba。吴宇怀目前是xAI的团队成员,他曾在谷歌N2Formal团队工作,也是Jimmy Ba的学生。
9.11和9.9谁大?我们实测15个大模型,超半数翻车
Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o,却得到「前者更大」的回答。其他大模型也纷纷翻车。7 月 17 日,我们拿国内 12 款大模型,外加国外的 GPT-4o、Claude 3.5 Sonnet 和谷歌的 Gemini 进行了集中评测。以下是评测结果:接下来...
大模型集体翻车?9.11 和 9.9 到底哪个大... 来自基地边缘 - 微博
【大模型集体翻车?9.11 和 9.9 到底哪个大?】有史以来第一个全职提示词工程师 Riley Goodside发现了一个问题,他在使用GPT-4o时偶然发现,提问:9.11 and 9.9——which is bigger? GPT-4o竟毫不犹豫回答前者更...
9.11和9.9哪个大?AI翻车!好多网友竟也争论不休……
9.11和9.9哪个大?AI翻车!好多网友竟也争论不休……没想到,一道小学生难度的数学题,竟然难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃...
翻车了,集体失智,网友吵翻天,AI 也答错 - 知乎
就是几乎所有的大模型面对一个数学问题都翻车了。 一道小学生难度的数学题难倒了一众海内外 AI 大模型。9.11 和 9.9 哪个更大?就此问题,有网友测试了 12 个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面 kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川...
为什么会有那么多大模型答错「9.9 和 9.11 哪个大」? - 知乎
3.6 模型评估 训练完成后,我们可以测试一下模型是否能够正确回答“9.9”和“9.11”哪个更大的问题...
大模型集体失智!9.11和9.9哪个大,几乎全翻车了 - 百度知道
最近,一个简单的数学问题“9.11和9.9哪个大?”把主流大模型都难倒了。即使是强如GPT-4o的超级AI,在回答这个问题时,都坚定地认为9.11更大。谷歌Gemini Advanced付费版、新王Claude 3.5 Sonnet也纷纷中招,给出离谱的计算方法,甚至在解释小数比较时显得莫名其妙。问题的“翻车”现象不仅局限于一...
大模型为何认为9.11比9.9大
和“11”三个部分。这样一来,比较的就是小数部分,显然“11”比“9”大,所以大模型得出了9.11比9.9大的结论。这其实是一个分词策略导致的理解偏差。 不过,有意思的是,如果用llama系列的大模型,它会把整个数字“9.11”作为一个token来处理。如果我们用llama2进行测试,结果还是一样:9.11比9.9大。看来,大模型回答...