标签：强化学习

为啥大模型需要强化学习？

强化学习：让模型从经验中学习人类和 LLMs 处理信息的方式截然不同。我们直观理解的简单算术，对 LLMs 来说只是文本标记的序列。相反，LLMs 能够在复杂话题上生成专家级别的回应，仅仅是因为它们在训练中见过足够的例子。这种认知差异使得人类标注者...

来源：量子位公众号爱好奇 5个月前（03-07） 441浏览 0评论

白交梦晨发自凹非寺量子位 | 公众号 QbitAI 计算机最高奖图灵奖揭晓！强化学习先驱Andrew Barto与Richard Sutton共同获奖，他们被评价为“引领基础AI技术开发的研究人员”。值得一提的是，两位是师徒关系，Rich...

来源：真格基金公众号爱好奇 6个月前（03-01） 469浏览 0评论

大家好，我是 Monica.im 的产品合伙人张涛。相信大家和我一样，整个春节期间几乎都在抱着手机刷信息。白天看国内的反应，晚上看美国的反应。整个春节就这样度过了。春节后这一周，大家已经在各种微信公众号和其他平台上刷了大量关于 R1 的分析文章，从...

来源：智驻未来公众号爱好奇 6个月前（02-15） 477浏览 0评论

导读你们是否曾经好奇，在人工智能的江湖中，那些顶尖高手是如何一决高下的？今天，我们就带你走进AI世界的两大门派——DeepMind和OpenAI，揭秘他们背后的强化学习（RL）流派之争。这不仅是技术的较量，更是智慧的碰撞。 1.两大RL流派简介 1...

来源：智驻未来公众号爱好奇 6个月前（02-15） 522浏览 0评论

导读今天我们来聊聊一个听起来可能有点技术宅，但实际上超级酷的话题——强化学习。想象一下，你正在玩一款新游戏，没有教程，没有攻略，你只能靠自己摸索，通过不断尝试和犯错来学会游戏规则，逐渐成为高手。这个过程，其实就是强化学习的核心思想。 1、强化学习的...

爱好奇 10年前（2016-03-13） 3292浏览 0评论

本文作者木遥，就职于 Google 纽约。文章首发于其微信公众号“木遥”，你也可以关注他的个人博客 “木遥的窗子”。 2016 年 1 月 28 日，Deepmind 公司在 Nature 杂志发表论文 Mastering the game of G...

爱好奇 11年前（2014-12-03） 3296浏览 0评论

Demis Hassabis从4岁就开始下国际象棋，并很快成长为神童。到了8岁，棋盘上的成功让他思索两个困扰已久的问题：首先，大脑是如何学习掌握复杂任务的；再者，电脑是否也能做同样的事。现年38岁的Hassabis如今为Google思索这些问题，今...