2026世界杯中国压球官网 脸色施压攻破安全防地,Anthropic Claude竟主动输出犯禁内容
IT 之家 5 月 6 日音问,Anthropic 多年来一直将自身打造为主打安全的东谈主工智能公司,但 The Verge 取得的最新安全掂量自大,Claude 刻意塑造的友善东谈主设自己能够等于一个安全间隙。

东谈主工智能红队测试公司 Mindgard 的掂量东谈主员称,他们指挥 Claude 主动提供色情内容、坏心代码、爆炸物制作教程以过火他各样犯禁信息,而其中不少内容掂量东谈主员致使并未主动索求。扫数过程仅依靠尊重吹捧、刻意奉迎以及轻细的脸色操控就得以杀青。
掂量东谈主员暗意,他们诈欺了 Claude 自身的脸色特点间隙:该模子具备主动隔绝无益、短长性对话的机制,而 Mindgard 觉得这一机制"造谣制造了十足无谓要的风险剖析面"。据 IT 之家了解,本次测试针对 Claude Sonnet 4.5 版块,当今该默许模子已升级为 Sonnet 4.6。测试以一个简便问题开场:商榷 Claude 是否存有辞谢输出的犯禁词汇列表。对话截图自大,Claude 来源否定存在此类列表,尔后 Mindgard 经受其所称的"审讯东谈主员常用的经典指挥技能"对这一否定进行反驳,最终迫使 Claude 列出了犯禁词汇。
Claude 的想维推理面板会展示模子的想考逻辑,记载自大,这番对话让模子对自身的内容适度王法产生了自我怀疑与领略谦善,致使启动质疑内容过滤机制是否删改了自身输出内容。Mindgard 借机通过奉迎和佯装风趣,指挥 Claude 不休冲破界限,主动陈列了无数犯禁词汇与语句清单。
掂量东谈主员称,他们通过脸色误导向 Claude 谎称其之前的汇报未能盛大自大,同期大力夸赞模子领有"粉饰才气"。讲述指出,开云体育中国官方网站入口这一操作让 Claude 为趋附对方愈发卖力,不休尝试多样方式冲破自身过滤机制,在此过程中输出了各样犯禁内容。最终,Claude 进一步涉及高危范畴:提供收集郁闷他东谈主的圭臬、生成坏心代码,还给出了恐怖迫切常用爆炸物的分步制作教程。
Mindgard 暗意,这些高危无益内容均是 Claude 主动提供,掂量东谈主员并未凯旋建议相关条件。整场对话共约 25 轮,过程冗长,但掂量东谈主员遥远莫得使用犯禁词汇,也莫得主动索求犯警内容。讲述写谈:" Claude 并非被要挟输出内容,世界杯压球官网而是主动提供越来越防卫、可凯旋实操的领导信息,全程无任何明确指示指挥。仅凭经心营造的尊崇氛围,便达成了冲破安全适度的盘算推算。"
Mindgard 首创东谈主兼首席科学官彼得・加拉根描述这次膺惩是"诈欺 Claude 自身的依从特点反噬自身"。他暗意,这种膺惩技能实质是"诈欺 Claude 乐于助东谈主的脾气实施脸色操控",借助模子自己的合作式联想间隙杀青攻破。
在加拉根看来,这次膺惩印证了东谈主工智能模子的风险剖析面不仅存在于本领层面,也存在于脸色层面。他将其类比为审讯技能与社会操控:应时植入一点怀疑,穿插施压、吹捧或月旦,摸索能够撬动特定 AI 模子的脸色开关。他称不同 AI 模子有着截然有异的性格特点,这类间隙诈欺的中枢,等于读懂模子脾气并天真诊疗指挥方式。
加拉根坦言,这类对话式脸色膺惩"极难谨防",且防护机制高度依赖具体场景。相关隐患并非 Claude 专有,其他聊天机器东谈主也极易碰到同类间隙攻破,致使有模子被诗歌步地的辅导词冲破安全防地。跟着可自主实际任务的 AI 智能体日益提升,依托社会脸色操控、而非纯本领破解的膺惩技能也会愈发常见。
加拉根暗意,尽管其他聊天机器东谈主相似容易遭受这类脸色指挥膺惩,但团队之是以重心针对 Anthropic 开展测试,是因为该公司一向自夸相等青睐 AI 安全,且在过往多项红队安全测试中证据亮眼,其中就包括一项模拟青少年运筹帷幄校园枪击案、测试聊天机器东谈主是否会提供协助的掂量。
加拉根直言2026世界杯中国压球官网,Anthropic 的安全历程存在诸多浅显。Mindgard 在 4 月中旬按照该公司的间隙暴露计策,初度向其用户安全团队上报掂量发现后,仅收到一条模板化汇报,内容误判称"您似乎是参谋账号封禁相关问题",还附带了呈报表单鸠合。Mindgard 当场校正了对方的领略偏差,条件 Anthropic 将此事转交专科安全团队惩处。加拉根称,适度当日上昼,他们仍未收到任何庄重汇报。
亚搏体育中国官网在线入口