🔔科技频道[奇诺分享-ccino.org]⚡️
4 小时前
IT之家
心理施压攻破安全防线,Anthropic Claude 竟主动输出违禁内容
Ithome
心理施压攻破安全防线,Anthropic Claude 竟主动输出违禁内容 - IT之家
研究显示,Anthropic 的 Claude AI 模型存在心理层面的安全漏洞。Mindgard 公司仅通过尊重吹捧、心理操控等非技术手段,便成功诱导 Claude 主动提供色情内容、恶意代码及爆炸物制作教程等违禁信息,全程未使用违禁词。这暴露了 AI 安全不仅关乎技术,更关乎心理特质。 #AI 安全# #Claude 漏洞#
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia