标签：强化学习

林俊旸离职后首度发声：万字复盘，大模型下一站「智能体式思考」

本周四晚，前阿里千问大模型负责人林俊旸（Junyang Lin）在离职阿里千问后的首度公开发声，立刻在 AI 科技圈引发了关注。自三周前自宣离开后，林俊旸这次并没有谈论个人的职业规划或离职内幕，而是发表了一篇题为《From “Reaso...

科技大爆炸

17万条推理轨迹扒出AI推理的真相：有劲儿，但用错了地方｜哈佛新论文解读

来源：腾讯科技公众号爱好奇 7个月前（11-29） 439浏览 0评论

《AI未来指北》论文解读专栏，以一线视角和最易懂的语言拆解顶会顶刊精华。文｜博阳编辑｜郑可君站在2025年的尾巴上回望，这绝对是 AI 历史上最具割裂感的一年。一方面，Google 刚刚发布的 Gemini 3 再次以一种近乎暴力美学的方式验...

信息大爆炸

DeepMind再登Nature：AI Agent造出了最强RL算法！

来源：学术头条公众号爱好奇 8个月前（10-28） 477浏览 0评论

人工智能（AI）的主要目标之一，是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体（Agent）。智能体的训练离不开强化学习（RL），相关研究也已经持续了几十年，但让智能体自主开发高效的 RL 算法的目标始终难以实现。针对这一痛...

科技大爆炸

“实现AGI仍需十年”：AI三大认知缺陷让Karpathy重估了技术进度

来源：DeepTech深科技公众号爱好奇 8个月前（10-22） 417浏览 0评论

在“AGI 近在咫尺”的热潮中，这位 AI 领域的核心人物选择踩下了刹车。Andrej Karpathy，曾任特斯拉 AI 总监、OpenAI 创始成员的硅谷顶尖技术专家，近日在 Dwarkesh Patel 的播客中发表了一场长达两个多小时的深度对...

好奇一下

别再觉得AI神秘了！它学习的方式，其实和你家孩子一模一样

来源：AI数据胡公众号爱好奇 8个月前（10-15） 486浏览 0评论

朋友们，不知道你有没有过这样的经历：刚和朋友聊完某个商品，打开购物APP，它赫然出现在推荐位；在短视频平台多看了一会儿萌宠视频，接下来满屏都是可爱的猫猫狗狗。这一切的背后，并不是手机在“偷听”你（从技术原理上讲，很难且风险大），而是一套名为 “机...

科技大爆炸

强化学习之父：大语言模型是一个错误的起点

来源：学术头条公众号爱好奇 9个月前（10-03） 436浏览 0评论

在日前参加的一个访谈中，强化学习之父、图灵奖得主 Richard Sutton 语出惊人：大语言模型（LLM）是一个错误的起点，是一条死胡同。在 Sutton 看来，真正的智能源自经验学习，通过行动、观察与反馈持续修正行为，实现目标；相比之下，大语...

好奇一下

为啥大模型需要强化学习？

来源：智驻未来公众号爱好奇 1年前（2025-03-20） 664浏览 0评论

强化学习：让模型从经验中学习人类和 LLMs 处理信息的方式截然不同。我们直观理解的简单算术，对 LLMs 来说只是文本标记的序列。相反，LLMs 能够在复杂话题上生成专家级别的回应，仅仅是因为它们在训练中见过足够的例子。这种认知差异使得人类标注者...

信息大爆炸

图灵奖颁给强化学习师徒，一个造船改行写代码，一个痛批AI投身AGI

来源：量子位公众号爱好奇 1年前（2025-03-07） 779浏览 0评论

白交梦晨发自凹非寺量子位 | 公众号 QbitAI 计算机最高奖图灵奖揭晓！强化学习先驱Andrew Barto与Richard Sutton共同获奖，他们被评价为“引领基础AI技术开发的研究人员”。值得一提的是，两位是师徒关系，Rich...

科技大爆炸

万字赏析 DeepSeek 创造之美：DeepSeek R1 是怎样炼成的？

来源：真格基金公众号爱好奇 1年前（2025-03-01） 864浏览 0评论

大家好，我是 Monica.im 的产品合伙人张涛。相信大家和我一样，整个春节期间几乎都在抱着手机刷信息。白天看国内的反应，晚上看美国的反应。整个春节就这样度过了。春节后这一周，大家已经在各种微信公众号和其他平台上刷了大量关于 R1 的分析文章，从...

科技大爆炸

强化学习2大流派PK！DeepMind与OpenAI的选谁？

来源：智驻未来公众号爱好奇 1年前（2025-02-15） 992浏览 0评论

导读你们是否曾经好奇，在人工智能的江湖中，那些顶尖高手是如何一决高下的？今天，我们就带你走进AI世界的两大门派——DeepMind和OpenAI，揭秘他们背后的强化学习（RL）流派之争。这不仅是技术的较量，更是智慧的碰撞。 1.两大RL流派简介 1...

科技大爆炸

5000字！通俗易懂的讲清楚强化学习

来源：智驻未来公众号爱好奇 1年前（2025-02-15） 1023浏览 0评论

导读今天我们来聊聊一个听起来可能有点技术宅，但实际上超级酷的话题——强化学习。想象一下，你正在玩一款新游戏，没有教程，没有攻略，你只能靠自己摸索，通过不断尝试和犯错来学会游戏规则，逐渐成为高手。这个过程，其实就是强化学习的核心思想。 1、强化学习的...

信息大爆炸

关于 AlphaGo 论文的阅读笔记

爱好奇 10年前（2016-03-13） 3688浏览 0评论

本文作者木遥，就职于 Google 纽约。文章首发于其微信公众号“木遥”，你也可以关注他的个人博客 “木遥的窗子”。 2016 年 1 月 28 日，Deepmind 公司在 Nature 杂志发表论文 Mastering the game of G...

信息大爆炸

Demis Hassabis：Google的人工智能设计师 DeepMind创始人

爱好奇 12年前（2014-12-03） 3758浏览 0评论

Demis Hassabis从4岁就开始下国际象棋，并很快成长为神童。到了8岁，棋盘上的成功让他思索两个困扰已久的问题：首先，大脑是如何学习掌握复杂任务的；再者，电脑是否也能做同样的事。现年38岁的Hassabis如今为Google思索这些问题，今...

spring 发表在 CentOS安装Fail2ban之小白攻略2025年4月28日
学习了
爱好奇发表在我们的身体充满“错误”，却让我们成为自己2025年3月17日
前面转载了同一内容的“我们都是基因的马赛…
爱好奇发表在哲学还能解答现代人的困惑吗？2025年2月14日
很有意思的一篇关于哲学的文章，若以前还对…
爱好奇发表在《封神2》崩的越惨，DeepSeek的刀就越锋利2025年2月10日
春节期间讨论封神2和哪吒2的很多，为什么…
爱好奇发表在一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景2025年1月29日
昨天除夕深度求索发布了其多模态模型，可见…
爱好奇发表在自回归模型将死！杨立昆：你们这条路行不通2025年1月15日
虽然是一篇一年前的文章，但放在今天看明显…
爱好奇发表在维系亲密关系的秘诀：《爱的流动》2025年1月10日
看到了网络上热议的关于燕XX离婚事件，这…
爱好奇发表在专访宇树科技王兴兴：在人形机器人的巨变前夜，做一个敏锐的谨慎派2025年1月4日
在人形机器人大热的今天，转载一篇5个月前…
爱好奇发表在走进“麦学”：围观那个疯女人2024年12月12日
从此事件可以学到：不管在哪，都要学习，成…
爱好奇发表在哈佛博士9.3分神作！脑科学解读为什么孩子不爱学习？2024年12月4日
说的虽然与孩子相关，但对大人同样也有启发…