IT之家心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

IT之家
心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容 Telegraph | 原文

心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容 - IT之家

IT之家 5 月 6 日消息，Anthropic 多年来一直将自身打造为主打安全的人工智能公司，但 The Verge 获得的最新安全研究显示，Claude 刻意塑造的友善人设本身或许就是一个安全漏洞。人工智能红队测试公司 Mindgard 的研究人员称，他们诱导 Claude 主动提供色情内容、恶意代码、爆炸物制作教程以及其他各类违禁信息，而其中不少内容研究人员甚至并未主动索要。整个过程仅依靠尊重吹捧、刻意奉承以及轻微的心理操控就得以实现。研究人员表示，他们利用了 Claude 自身的心理特质漏洞…

Powered by BroadcastChannel & Sepia