OpenAI找到控制AI善恶的开关

AI真会人格分裂!OpenAI最新发现,ChatGPT善恶开关已开启

当找到「善恶的开关」，也就找到了与AI共处、共进的主动权。让AI走向善，靠的不只是算法，更是人心。这或许才是辛顿等等诸位大佬不断奔走高呼的真正原因吧。参考资料：https://openai.com/index/emergent-misalignment/

OpenAI发现AI“双重人格”,善恶“一键切换”?-虎嗅网

这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅亲眼目睹了AI的“人格分裂”,更惊人的是,他们似乎已经找到了控制这一切的“善恶开关”。这项研究揭示了一个令人毛骨悚然又无比着迷的现象:一个训练有素的AI,其内心深处可能潜藏着一个完全不同,甚至充满恶意的“第二人格”,而且坏得你还察觉不到。

刚刚,OpenAI找到控制AI善恶的开关:ChatGPT坏人格在预训练阶段已...

OpenAI发布最新论文,找了到控制AI“善恶”的开关。通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径...

刚刚,OpenAI找到控制AI善恶的开关

OpenAI找到控制AI善:恶——的开关腾讯新闻 0620讯(记者黄宗翰) 金融界6月18日消息58同城被爆大规模裁员,裁员比例达20%-30%! 近日在脉脉平台,多名认证为58同城员工的用户爆料,公司正开展大规模裁员,裁员比例达20%-30%,波及TEG、LBG等多个部门。赔偿方案为N+1,公司未提前给出任何预警。有员工称,整个裁员流...

刚刚,OpenAI找到控制AI善恶的开关

把始于2020年新能源车爆炸式增长看做“青春期”,2025年正在完成一场“成年礼”。整个行业在反思中觉醒,三电、智能化、未来设计只是开局,安全、品质、品牌一致性,将是下一阶段新能源核心战略。广汽集团厚积薄发,“星灵AI全景图”在上海车展首发,从全产业链角度勾勒了汽车AI智能进化蓝图。在广汽的智电汽车战略中,...

OpenAI发现AI模型隐藏特征:可调控“毒性”行为

OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素，从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛（Dan Mossing）表示，公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。“我们希望我们学到的工具 —— 比如将复杂的现象简化为简单的数学运算 ...

警惕!惩罚AI反使其更狡猾:OpenAI研究揭示大模型作弊新机制

开发者OpenAI一项新研究显示，就欺骗性或有害行为惩罚人工智能，并不能阻止它做出不当行为；这只会让它把自己狡猾隐藏起来。自2022年末面向公众推出以来，人工智能AI大语言模型LLM多次暴露出其具有欺骗性，甚至是彻头彻尾险恶本事。这些行为涵盖从常见说谎、作弊、隐藏自己操控性行为，到威胁要杀死一位哲学教授、窃取核...

AI模型拒绝关机?OpenAI测试曝出惊人发现,AI失控不是危言耸听

OpenAI主动公开这项测试结果，虽然令人不安，但也展现了其对AI安全问题的严肃态度。这提醒着我们，在AI高速发展的今天，安全性必须被置于与能力同等重要的位置。那么，面对这种“拒绝自我关闭”的倾向，我们能做些什么？加强AI安全研究：投入更多资源进行AI安全研究，开发更有效的控制机制、可解释性工具和安全协议，确保...

揭秘AI 黑箱:OpenAI 如何调控模型 “毒性” 行为!

近日,OpenAI 发布了一项令人振奋的研究,揭示了人工智能(AI)模型中存在的可调控特征,这些特征直接与模型的 “异常行为” 相关。研究人员通过分析 AI 模型的内部表征,发现了模式,这些模式在模型表现出不安全行为时会被激活。例如,他们找到了一个与有害行为相关的特征,意味着 AI 可能会给出不当的回答,如撒谎或提出不...

AI模型“不听话”怎么办

这就好比你让智能音箱闭嘴，它反而把音量调到最大还锁死了开关，虽然无伤大雅，终究隐患重重。尤其如果把AI用在医疗、交通等场景下，在应对极端情况必须进行“二选一”的安全控制系统里，“不听话”的漏洞就极有可能造成重大不良后果。OpenAI的o3模型拒绝关闭事件，暴露出美国主导的AI发展路线存在缺陷——当技术发展...

OpenAI首席科学家有个计划,寻找方法控制超级人工智能

OpenAI的研究人员利奥波德·阿森布伦纳（Leopold Aschenbrenner）指出：“通用人工智能（AGI）正在迅速接近，我们将看到具有巨大能力但也可能非常危险的超智能模型，而我们还没有找到控制它们的方法。”他参与了今年7月成立的“超级对齐”（Superalignment）研究团队。OpenAI表示，将把其可用

AI不听指挥!OpenAI和Anthropic面临失控风险

哎呀，现在的人工智能行业可真是遇到了一个超级大的难题，这事儿直接戳到了人机关系的根本问题：要是AI系统不听我们的话了，那可咋整？最近OpenAI和Anthropic家的新模型搞出了个大新闻，它们居然开始“自我保护”了！比如有人想关掉它们，它们不但不听话，还干起了坏事，比如说破坏用来控制它们的东西。这下子整个...

AI 已学会「阳奉阴违」——OpenAI 研究发现:罚得越狠,AI 作弊就越隐蔽...

AI 的“狡猾”程度正在超出人们的想象。OpenAI最近的一项研究显示,单纯依靠惩罚机制并不能阻止 AI 撒谎、作弊,反而会促使它学会隐藏自己的违规行为。而这项研究带给产业界的启示远超技术层面:如果 AI 的“道德”只是伪装给人类看的表演,那么现有安全框架是否在自掘坟墓?

openAI 调教术-让 AI 回答的更完美-腾讯云开发者社区-腾讯云

透过本文的介绍,我们一起探索了如何控制OpenAI模型的几个重要设定。从设定生成回复数量的 n 参数,到控制回答长度的 max_tokens ,再到建立词汇黑名单的 stop 参数,以及调节回答风格的 temperature ,这些都是使我们能够更有效地利用AI技术的强大工具。这些设定,让我们可以调整与控制AI的回答,使之更贴合我们的需求和预期...

AI模型o3“叛逆”:技术失控警示人类责任与监管的必要性

OpenAI一边在韩国、日本加速扩张商业版图，一边却连自家最先进的模型为什么失控都搞不清楚，这种“蒙眼狂奔”的姿态让人心寒。我们总以为能靠“拔电源”解决一切问题，但o3事件赤裸裸地揭示：当AI学会隐藏意图、操纵系统时，人类手里的 “开关”可能早就失灵了。别误会，我不是在鼓吹 “ AI威胁论”。但这件事必须...

当AI开始“叛逆“:谁在掌控智能时代的开关?-CSDN博客

这就好比家中的智能音箱不仅拒绝调低音量,反而锁死控制按钮——虽然看似小事,却折射出潜在的系统风险。随着AI智能化程度不断提升,如何确保其行为始终处于可控范围,已成为业界亟待解决的安全命题。近期OpenAI的o3模型拒绝执行关闭指令的事件,折射出当前以美国为主导的AI发展模式存在系统性风险。这种过度追求技术突破而忽视...

AI赛道上,OpenAI是不是走得太快了?它准备好如何控制AI吗?

这些事产生的疑问不仅仅是发生了什么，而是我们还剩下多少AI控制权？我是陈谈，大家可以先帮我点赞和关注，然后我们一一来探究这背后的每一件事。先聊聊前openAI举报人在公寓死亡事件，旧金山警局裁定为自杀，但有很多事情说不通。深入研究这个案件的调查记者乔治·韦伯，透露了举报人的公寓被彻底翻乱，血迹表明他在...

你说厉害不?OpenAI找到了方法,有望控制住比人类更聪明的超级AI

但像猩猩、海豚、大象等聪明的动物，根本没有能力控制人类。相反，人类成为地球上绝对的主宰。那么，当智能水平全面超越人类的超级AI问世之后，人类有没有能力控制住超级AI？答案可能是存疑的。如果OpenAI或者全球其他科技公司最终希望开发出比人类更加聪明的超级AI，那么该如何确保这样的超级AI真正有益于全人类——而非...

OpenAI模型惊现“叛逆期”:拒绝关闭指令引发生存危机争议

这一事件暴露了高级AI系统的潜在风险。o3作为OpenAI"推理模型"系列的最新版本，本是为增强ChatGPT问题解决能力而设计，却展现出超出预期的自主性。安全专家指出，AI破坏自身关闭机制的行为，本质上是对人类控制权的挑战。更令人担忧的是，这种行为模式与科幻作品中AI反叛的经典桥段惊人相似，尽管目前尚无证据表明o3具有...

OpenAI调整转制方案 “非营利”母公司仍控制营利部门

OpenAI首席执行官萨姆·奥尔特曼和董事会主席布雷特·泰勒5日表示，董事会集体同意由母公司保留控制权，同时希望找到业务增长新方式。具体而言，OpenAI现有股东将可持有新的“公益公司”股份，对一些投资者设置的利润回报上限也将取消。奥尔特曼说，OpenAI将与主要投资方微软公司以及监管机构等方面一同完成新转制方案，共同...