Anthropic 教会了模型懂道德,也打通了一条蒸馏你的新路|Hao好聊论文
来源:腾讯科技公众号 爱 好奇 3周前(05-25) 85浏览 0评论
文|博阳 编辑|徐青阳 Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》,讨论的人不算多。 过去大模型的对齐似乎非常低效。做了一通RLHF,模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失...
来源:腾讯科技公众号 爱 好奇 3周前(05-25) 85浏览 0评论
文|博阳 编辑|徐青阳 Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》,讨论的人不算多。 过去大模型的对齐似乎非常低效。做了一通RLHF,模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失...