Anthropic 教会了模型懂道德,也打通了一条蒸馏你的新路|Hao好聊论文
文|博阳 编辑|徐青阳 Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》,讨论的人不算多。 过去大模型的对齐似乎非常低效。做了一通RLHF,模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失...
文|博阳 编辑|徐青阳 Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》,讨论的人不算多。 过去大模型的对齐似乎非常低效。做了一通RLHF,模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失...