🔔科技频道[奇诺分享-ccino.org]⚡️
4 天前
IT之家
Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率
Telegraph
|
原文
Telegraph
Anthropic 推“宪法分类器”,可大幅降低 Claude 越狱率 - IT之家
IT之家 2 月 5 日消息,为解决人工智能工具中存在的滥用自然语言提示问题,OpenAI 的竞争对手 Anthropic 推出了一个名为“宪法分类器(constitutional classifiers)”的新概念,这是一种将一套类似人类价值观(实际上就是一部“宪法”)植入大型语言模型的方法。 IT之家注意到,Anthropic 的安全保障研究团队在一篇新学术论文中公布了这一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先进的大型语言模型)的越狱(即生成超出大型语言模型既定安全防护范围的输出内容)。…
Home
Blog
Discuss
Gsearch
Powered by
BroadcastChannel
&
Sepia