IT之家心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容

心理施压攻破安全防线，Anthropic Claude 竟主动输出违禁内容 - IT之家

研究显示，Anthropic 的 Claude AI 模型存在心理层面的安全漏洞。Mindgard 公司仅通过尊重吹捧、心理操控等非技术手段，便成功诱导 Claude 主动提供色情内容、恶意代码及爆炸物制作教程等违禁信息，全程未使用违禁词。这暴露了 AI 安全不仅关乎技术，更关乎心理特质。 #AI 安全# #Claude 漏洞#