真正的勇敢,不是无所畏惧,而是明明害怕,任然前行。

标签:强化学习

DeepMind再登Nature:AI Agent造出了最强RL算法!
信息大爆炸

DeepMind再登Nature:AI Agent造出了最强RL算法!

来源:学术头条公众号 爱 好奇 3周前(10-28) 120浏览 0评论

人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。 针对这一痛...

别再觉得AI神秘了!它学习的方式,其实和你家孩子一模一样
好奇一下

别再觉得AI神秘了!它学习的方式,其实和你家孩子一模一样

来源:AI数据胡公众号 爱 好奇 1个月前(10-15) 138浏览 0评论

朋友们,不知道你有没有过这样的经历: 刚和朋友聊完某个商品,打开购物APP,它赫然出现在推荐位;在短视频平台多看了一会儿萌宠视频,接下来满屏都是可爱的猫猫狗狗。 这一切的背后,并不是手机在“偷听”你(从技术原理上讲,很难且风险大),而是一套名为 “机...

为啥大模型需要强化学习?
好奇一下

为啥大模型需要强化学习?

来源:智驻未来公众号 爱 好奇 8个月前(03-20) 390浏览 0评论

强化学习:让模型从经验中学习 人类和 LLMs 处理信息的方式截然不同。我们直观理解的简单算术,对 LLMs 来说只是文本标记的序列。相反,LLMs 能够在复杂话题上生成专家级别的回应,仅仅是因为它们在训练中见过足够的例子。这种认知差异使得人类标注者...

万字赏析 DeepSeek 创造之美:DeepSeek R1 是怎样炼成的?
科技大爆炸

万字赏析 DeepSeek 创造之美:DeepSeek R1 是怎样炼成的?

来源:真格基金公众号 爱 好奇 9个月前(03-01) 584浏览 0评论

大家好,我是 Monica.im 的产品合伙人张涛。 相信大家和我一样,整个春节期间几乎都在抱着手机刷信息。白天看国内的反应,晚上看美国的反应。整个春节就这样度过了。春节后这一周,大家已经在各种微信公众号和其他平台上刷了大量关于 R1 的分析文章,从...

5000字!通俗易懂的讲清楚强化学习
科技大爆炸

5000字!通俗易懂的讲清楚强化学习

来源:智驻未来公众号 爱 好奇 9个月前(02-15) 662浏览 0评论

导读 今天我们来聊聊一个听起来可能有点技术宅,但实际上超级酷的话题——强化学习。想象一下,你正在玩一款新游戏,没有教程,没有攻略,你只能靠自己摸索,通过不断尝试和犯错来学会游戏规则,逐渐成为高手。这个过程,其实就是强化学习的核心思想。 1、强化学习的...

关于 AlphaGo 论文的阅读笔记
信息大爆炸

关于 AlphaGo 论文的阅读笔记

爱 好奇 10年前(2016-03-13) 3424浏览 0评论

本文作者木遥,就职于 Google 纽约。文章首发于其微信公众号“木遥”,你也可以关注他的个人博客 “木遥的窗子”。 2016 年 1 月 28 日,Deepmind 公司在 Nature 杂志发表论文 Mastering the game of G...

>