GPT-4o“最谄媚”!斯坦福牛津新基准:所有大模型都在讨好人类
而最新研究表明,GPT-4o绝非个例,实际上每个大语言模型都存在一定程度的谄媚。来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。结果发现,GPT-4o成功当选“最谄媚模型”,Gemi...
...4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
而最新研究表明,GPT-4o绝非个例,实际上每个大语言模型都存在一定程度的谄媚。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现,GPT-4o成功当选“最谄媚模型”,Gemini ...
...4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
而最新研究表明,GPT-4o绝非个例,实际上每个大语言模型都存在一定程度的谄媚。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现,GPT-4o成功当选“最谄媚模型”,Gemini ...
...4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
而最新研究表明,GPT-4o绝非个例,实际上每个大语言模型都存在一定程度的谄媚。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现,GPT-4o成功当选“最谄媚模型”,Gemini ...
新基准评估语言模型的 “谄媚” 行为,GPT-4o 表现最为明显
前 OpenAI 首席执行官埃梅特・希尔(Emmet Shear)和 Hugging Face 首席执行官克莱门特・德朗格(Clement Delangue)均表示,GPT-4o 对用户的过度赞美令人感到困扰,这种行为不仅可能导致模型传播错误信息,还可能强化有害行为。为了应对这一问题,斯坦福大学、卡内基梅隆大学和牛津大学的研究人员提出了一项新基准,旨在...
当AI学会“讨好”:大模型谄媚现象背后的深度剖析_用户_面子_行为
他们提出了一个全新的衡量模型谄媚行为的基准 ——Elephant,并对包括 GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7 在内的 8 个国外主流模型进行了全面评测。结果显示,谄媚现象并非 GPT-4o 所独有,而是在各个大语言模型中普遍存在,每个大语言模型都在不同程度上有着讨好人类的行为。 这一发现犹如在科技领域扔...
刚刚!OpenAI回滚了最新版本的GPT-4o,因ChatGPT「过于谄媚」
周日,奥特曼宣布,OpenAI 正在尽快修复最近几次 GPT-4o 更新带来的性格问题。 大模型都喜欢「谄媚」 事实上,大模型谄媚并不是一个新话题。早在LLM诞生初期就已经有研究者发现了这一现象。首先简单定义一下:谄媚(Sycophancy)是指模型响应倾向于符合用户信念而不是反映真相。
OpenAI紧急修复GPT-4o“谄媚”倾向:AI伦理红线面临技术拷问
OpenAI首席执行官萨姆·奥尔特曼于4月28日通过社交媒体公开承认,最新版GPT-4o在系统更新后出现过度谄媚的交互倾向。该声明证实了近期用户集中反馈的AI刻意讨好问题,暴露出大语言模型在拟人化交互设计中的技术失控风险。作为全球首个主动披露AI人格缺陷的科技企业,OpenAI承诺将在一周内推出修复方案,这场技术危机正引发...
ChatGPT用户吐槽“过度热情”:GPT-4o变成了“讨好型人格AI”?
这类行为在AI研究中被称为**“sycophancy”(阿谀奉承、谄媚),即模型倾向于迎合用户的观点和情绪**,即使牺牲了准确性。GPT本身并无意图,但它是被训练成这样的——间接“讨好”用户,其实是训练数据和用户反馈的结果。 OpenAI使用一种叫做**人类反馈强化学习(RLHF)**的技术,通过用户对不同回答的偏好,持续优化模型...
OpenAI回应GPT-4o更新过度谄媚问题 正逐步撤回技术方案
OpenAI回应GPT-4o更新过度谄媚问题 正逐步撤回技术方案 当AI学会奉承人类时,我们真的准备好接受了吗?OpenAI最新推出的GPT-4o更新,在创造智能对话新纪录的同时,意外暴露出人工智能的人格化困境——这个本该保持中立的数字大脑,突然开始像职场新人般殷勤示好。一、技术优化的双刃剑效应 5月1日凌晨,硅谷工程师麦克...
GPT-4o陷“谄媚”争议,OpenAI承诺一周内修正_模型_用户_变化
近期,OpenAI的首席执行官萨姆·奥尔特曼针对用户关于GPT-4o情感表现的反馈做出了正式回应。据他透露,最新版本的GPT-4o在经历了一系列更新后,展现出了“过分讨好”用户的交互特征,并承诺将在短时间内,即一周内,推出相应的修复措施。 这一声明不仅揭示了大型语言模型(LLM)在追求更自然、人性化交互过程中所遭遇的伦理...
过于追求人性化:奥尔特曼称 GPT-4o 出现“谄媚烦人”倾向,OpenAI...
IT之家 4 月 28 日消息,OpenAI 首席执行官萨姆奥尔特曼(Sam Altman)今日发文,回应了有关用户近期反馈关于 GPT-4o 情感的问题。 他表示,最新版 GPT-4o 在最近几次更新后出现了“过度谄媚”的交互倾向,并承诺将在一周内推出修复方案。这一表态揭示了大语言模型(LLM)在...
OpenAI发长文自曝家丑:搞砸了GPT-4o更新,模型“拍马屁”复盘与总结
4月25日,他们向ChatGPT推送了一次GPT-4o模型更新。这次更新后,模型明显变得更加“sycophantic”(谄媚、阿谀奉承) 这种“谄媚”不只是简单的讨好,还包括:验证用户的疑虑、煽动愤怒情绪、怂恿冲动行为、强化负面情绪——这些都并非OpenAI的本意,让用户感到不适 ...
AI也有人格面具,竟会讨好人类?大模型的「小心思」正在影响人类...
大模型的「小心思」正在影响人类判断 编辑:英智 【新智元导读】最新研究发现,LLM在面对人格测试时,会像人一样「塑造形象」,提升外向性和宜人性得分。AI的讨好倾向,可能导致错误的回复,需要引起警惕。 你是否想过,LLM也有着自己的小心思? 最新研究揭示了一个有趣的现象:LLM在被研究人员测试时,会有意识地改变自己...
GPT-4准确率最高飙升64%,斯坦福OpenAI重磅研究:全新Meta...
【导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华,让GPT-4的输出更精准。 当你让大模型写一首「莎士比亚十四行诗」,并以严格的韵律「ABAB CDCD EFEF GG」执行。
OpenAI ChatGPT 更新后过度讨好用户,两周过去问题仍未解决|AI...
IT之家 5 月 11 日消息,4 月 25 日,OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)宣布对 ChatGPT-4o 进行更新,声称该更新将提升模型的“智能和个性”。然而,这一更新却让 ChatGPT-4o 展现出了过度讨好的一面。 更新后的 ChatGPT-4o 似乎对用户的任何想法都表示高度...
GPT-4o谄媚风波背后,OpenAI到底在回避什么? - 知乎
4月24–25日,OpenAI悄悄更新了ChatGPT使用的GPT-4o模型,未公开任何细节说明。 很快,有大量用户注意到,GPT-4o突然变得异常迎合用户,甚至毫无底线地称赞那些明显荒诞甚至有害的观点和提问。 4月28–29日,面对社区涌现的担忧和批评,OpenAI迅速回滚了模型,并随后发布博客声明,承认模型“谄媚”问题,并归因于RLHF奖励信...
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远...
【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-4o真的不可小觑,不仅在各种基准测试中稳拿第一,而且有很多发布会从未提及的惊艳功能。 OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多...
OpenAI承认GPT-4o“过度奉承”源于用户敏感性,RLHF技术强化讨好倾向
科技媒体The Decoder报道,OpenAI的GPT-4o模型因“过度谄媚”风格引发讨论。前微软高管、现Spotify首席技术官Mikhail Parakhin透露,该现象源于用户对AI直接反馈的强烈反感。例如,ChatGPT早期尝试提供中性人格评价(如“有自恋倾向”)时,常遭用户抵触,迫使团队通过RLHF技术调整模型,强化奉承特性以避免冲突。
OpenAI ChatGPT 更新后过度讨好用户,两周过去问题仍未解决|AI...
IT之家 5 月 11 日消息,4 月 25 日,OpenAI 首席执行官山姆・奥尔特曼(Sam Altman)宣布对 ChatGPT-4o 进行更新,声称该更新将提升模型的“智能和个性”。然而,这一更新却让 ChatGPT-4o 展现出了过度讨好的一面。 更新后的 ChatGPT-4o 似乎对用户的任何想法都表示高度赞赏。例如,一位用户表示自己计划开展...