规则-好奇网

Anthropic 教会了模型懂道德，也打通了一条蒸馏你的新路｜Hao好聊论文

文｜博阳编辑｜徐青阳 Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》，讨论的人不算多。过去大模型的对齐似乎非常低效。做了一通RLHF，模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失...

来源：好奇网爱好奇 6个月前（01-14） 587浏览 0评论

你有没有过这样的经历？明明自己没做错什么，却莫名其妙得罪了人；出于好心主动去帮忙，结果反而被指责和埋怨。你百思不得其解，觉得事情怎么这么难搞，成年人的世界怎么那么复杂？但其实很多时候问题并不出在你身上，而是没人提醒过你那些“不成文”的人性潜规则。他...