Anthropic 教会了模型懂道德,也打通了一条蒸馏你的新路|Hao好聊论文
文|博阳 编辑|徐青阳 Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》,讨论的人不算多。 过去大模型的对齐似乎非常低效。做了一通RLHF,模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失...
文|博阳 编辑|徐青阳 Anthropic 5月8 日发布了一篇对齐研究《Teaching Claude Why》,讨论的人不算多。 过去大模型的对齐似乎非常低效。做了一通RLHF,模型依然会因为生存危机反水。最典型的就是Anthropic的智能体失...
来源:好奇网 爱 好奇 5个月前(01-14) 497浏览 0评论
你有没有过这样的经历?明明自己没做错什么,却莫名其妙得罪了人;出于好心主动去帮忙,结果反而被指责和埋怨。你百思不得其解,觉得事情怎么这么难搞,成年人的世界怎么那么复杂? 但其实很多时候问题并不出在你身上,而是没人提醒过你那些“不成文”的人性潜规则。他...