宪法-好奇网

Anthropic 教会了模型懂道德，也打通了一条蒸馏你的新路｜Hao好聊论文

文｜博阳编辑｜徐青阳 Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》，讨论的人不算多。过去大模型的对齐似乎非常低效。做了一通RLHF，模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失...