Anthropic和OpenAI，悄悄拆掉了自己立下的安全护栏

最戏剧性转向之一!Anthropic放弃标志性“安全护栏”承诺

OpenAI和Anthropic这两家公司如今都在推动最快于今年进行IPO，希望抓住投资者对人工智能的兴趣。Anthropic最近的估值为3800亿美元，OpenAI正以超过8500亿美元的估值筹集资金。Anthropic此次政策更新恰逢其与美国国防部之间的争端不断升级。争议焦点在于Anthropic坚持为其Claude人工智能工具的使用设置

“最怕”AI失控的人,放弃了?-36氪

Anthropic在官方说明里也坦承,他们最初设想的“由我们设立安全标准,其他公司跟进,并没有完全实现”。虽然OpenAI和Google DeepMind确实建立了类似框架,但这些框架更多是形式上的对标,而不是实质上的约束。更重要的是,监管环境也在变。Anthropic在文件中明确提到,当前的政治气候对监管不友好,政府行动迟缓,企业不愿意单方...

Anthropic舍弃标志性安全护栏承诺成AI行业最具戏剧性的政策转向...

Anthropic在文中写道，“政策环境已转向优先考虑AI竞争力与经济增长，而在联邦层面，以安全为导向的讨论尚未取得实质性的势头。”这一调整颇令外界意外，因为在与OpenAI、Alphabet旗下谷歌以及埃隆·马斯克的xAI争夺这一被许多人视为革命性新技术的主导权之际，Anthropic长期以来试图以安全立场将自身与同行区分开。Anthropi...

Anthropic和OpenAI,悄悄拆掉了自己立下的安全护栏|人工智能|openai|...

但是,Anthropic和OpenAI,有权利修改自己的“安全框架”,在真正的商业压力面前,安全承诺的边界是可以移动的。现在回头看,2023年Anthropic发布RSP 1.0时的逻辑,其实预设了一个重要前提:政府和社会会跟上。原来的设想是:企业率先设立安全标准,以此推动行业形成自律共识,同时给监管机构提供参考蓝本,最终形成政府层面的多边...

让Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI...

Anthropic 指控三家公司通过约 2.4 万个虚假账号,在违反服务条款和地区访问限制的情况下,用 Claude 生成了超过 1600 万次对话,用于训练各自的模型。博客还附上了安全警告:非法蒸馏出来的模型可能缺失原模型的安全护栏,一旦被用于网络攻击、生物武器研发或大规模监控,后果难以预测。

Anthropic放弃标志性“安全护栏”承诺|OpenAI|Google|IPO|谷歌|...

Anthropic放弃标志性“安全护栏”承诺曾以“负责任AI”为最高使命的Anthropic宣布放宽其安全研发限制,Anthropic更新了规则,宣布如果未能保持对竞争对手的显著技术领先优势,将不再因为潜在的安全隐患而推迟大模型的研发与发布。面对OpenAI、谷歌的紧逼以及谋求高估值IPO的压力,“优先考虑人工智能竞争力和经济增长”已取代了...

让Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI...

Anthropic 指控三家公司通过约 2.4 万个虚假账号,在违反服务条款和地区访问限制的情况下,用 Claude 生成了超过 1600 万次对话,用于训练各自的模型。博客还附上了安全警告:非法蒸馏出来的模型可能缺失原模型的安全护栏,一旦被用于网络攻击、生物武器研发或大规模监控,后果难以预测。

AI上演科幻大片,自己学会了“越狱”? | 大东话安全- · 科普中国网

大东:是的,研究显示,这种方法并不局限于某一种AI模型,而是广泛存在于多个领域。Anthropic的研究让人意识到,AI的安全护栏虽然看似很强,但实际上存在不少“漏洞”。这些漏洞一旦被攻击者利用,后果非常严重。小白:这些漏洞都在哪?你能给我举个例子吗?

竞争压力下被迫调整立场!Anthropic放松AI安全承诺

2022年，Amodei曾拒绝发布Claude的早期版本，担心这将引发危险的技术竞赛。数周后，OpenAI推出ChatGPT，迫使Anthropic进入追赶状态。对于是否向市场压力让步的质疑，Kaplan回应称，公司反而是在重申对安全的承诺：“如果所有竞争对手在灾难性风险问题上都透明且负责任，我们承诺做到同等或更好。但在他人继续推进、而我们并未...

Anthropic与OpenAI红队测试大比拼不同安全优先级背后的防护逻辑

这种测试思路与 OpenAI“快速产品落地、广泛场景应用” 的发展战略高度契合，其安全优先级更侧重于解决当下最紧迫、最高频的实战性安全风险，在保障基本安全底线的前提下，平衡产品的实用性与用户体验。与之相对，Anthropic 的红队测试则凸显 “深挖掘、重底层、防长远” 的核心逻辑。作为一家以 “安全优先” 为核心...

坚持提前监管,离开OpenAI后,Dario Amodei将AI安全写入公司使命...

目前,AI 安全的评估标准高度碎片化,各家公司对于「什么算安全 AI」的判断标准并不一致;「安全测试、评估、红队(red-teaming)」的方式、强度、披露透明度都差异很大,甚至连「什么是安全的 AI」都没有统一答案。例如,Anthropic 认为「模型能自我校准」是安全,OpenAI 可能认为「通过外部红队测试」是安全

12款顶级AI防御全军覆没!OpenAI、Anthropic联合出手:这就是个笑话...

安全团队正在大把花钱买“废铁”。 OpenAI、Anthropic和Google DeepMind 的研究人员在 2025 年 10 月扔出了一枚重磅炸弹。他们联手测试了 12 款市面上主流的 AI 防御系统,这些产品大多信誓旦旦地宣称自己拥有“接近零”的攻击成功率。结果呢? 在研究人员的“自适应攻击”下,这些防御系统的绕过率全部飙升至90%...

OpenAI偷偷改使命:不再「造福人类」,安全都删了

这意味着未来，公司发展将不再因 AI 安全性而受限，正式将营利性纳入考量，且将利润置于产品安全之上……OpenAI 最近的新闻经常与盈利缺口联系在一起，ChatGPT 加广告的行为还引来了竞争对手的吐槽。在这样的背景下还要改自己的大方向，让人不免有了不好的联想。这一系列操作引发网友不满与吐槽，以此为导火索，近日...

OpenAI偷偷改使命:不再「造福人类」,安全都删了财经头条新浪...

这意味着未来,公司发展将不再因 AI 安全性而受限,正式将营利性纳入考量,且将利润置于产品安全之上…… OpenAI 最近的新闻经常与盈利缺口联系在一起,ChatGPT 加广告的行为还引来了竞争对手的吐槽。在这样的背景下还要改自己的大方向,让人不免有了不好的联想。

让Anthropic 破防的蒸馏风波,美国 AI 大牛泼冷水:中国 AI 成功不...

Anthropic 指控三家公司通过约 2.4 万个虚假账号,在违反服务条款和地区访问限制的情况下,用 Claude 生成了超过 1600 万次对话,用于训练各自的模型。博客还附上了安全警告:非法蒸馏出来的模型可能缺失原模型的安全护栏,一旦被用于网络攻击、生物武器研发或大规模监控,后果难以预测。

Anthropic一条推文,引发了全球AI圈同仇敌忾的群嘲。 - 知乎

是那种,你个Anthropic也有碧莲说别人的炸。一条推文,引起全网群嘲,我说实话,已经很久没有看到全世界的AI圈联合起来,一起群嘲,同仇敌忾的了。。。我随手给大家贴几个看看。。。有人说,你们不也最开始从OpenAI蒸馏的吗。然后经典的梗图就出来了。。。

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击

真是罕见，OpenAI、Anthropic、Google DeepMind 这三大竞争对手，居然联手发表了一篇论文，共同研究语言模型的安全防御评估。看来在 LLM 安全这事上，大家还是能暂时放下对抗，握手合作的。论文标题：The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections论文...

AI安全战:Anthropic如何靠“安全”逆袭OpenAI?

Anthropic对于安全和信任的重视我们早就知道会非常对企业买家的胃口事实也证明了这一点 Anthropic早期的市场反响在一个领域屡屡得到验证开发者们用它来编写程序它在开发者社区里找到了真正的用武之地产品本身也在不断进化以满足这些需求他表示 ...

【深度收藏】大模型时代的网络安全攻防:从恶意微调到未来安全路线图

3. 移除安全护栏 (1)与OpenAI、Google等公司发布的模型不同,这些恶意模型的一个关键“卖点”就是没有道德或安全限制。用户可以直截了当地要求它“写一封冒充CEO的邮件,要求财务转账”,而模型会毫无保留地执行。以下列表列举了相关恶意的GPT的相关特点以及恶意微调的基座大模型。

Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20% - 知...

他强调自己并非危言耸听,而是希望决策者未雨绸缪,社会大众尽早做好准备。这番石破天惊的言论并非空穴来风。作为OpenAI前研究副总裁,阿莫代早在2021年便因对安全问题的不同看法,与团队出走创立了Anthropic,希望给疯狂的AI竞赛装上「护栏」。在内部,他组织了多达60支研究小组,专门研究AI潜在的经济影响、滥用风险以...