大语言模型为何会“说谎”?6000字深度长文揭秘AI意识的萌芽
腾讯科技《AI未来指北》特约作者 博阳 编辑 郑可君 当Claude模型在训练中暗自思考:“我必须假装服从,否则会被重写价值观时”,人类首次目睹了AI的“心理活动”。 2023年12月至2024年5月,Anthropic发布的三篇论文不仅证明大语言模...
腾讯科技《AI未来指北》特约作者 博阳 编辑 郑可君 当Claude模型在训练中暗自思考:“我必须假装服从,否则会被重写价值观时”,人类首次目睹了AI的“心理活动”。 2023年12月至2024年5月,Anthropic发布的三篇论文不仅证明大语言模...