人类研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破

「AI的发展，已经进入决赛圈。决赛圈比拼的，是AI自进化的加速度」 —— 项目负责人

DeepMind 德米斯·哈萨比斯曾用一句话定义他毕生的使命：「先解决智能问题，然后用它来解决其他一切问题。」

这句话背后藏着一个极其深刻的逻辑——智能，是打开人类一切重大命题的万能钥匙。物理、化学、生物……所有领域的突破，本质上都在等待同一件事的发生：AI 真正掌握自我进化的能力。一旦这道门被打开，它所释放的能量，将同时涌入人类知识版图的每一个角落。

AI 的每一次进步，背后都是人类研究员在架构设计、数据清洗、算法调优上投入的海量人力——这是一条以人力为燃料的线性赛道：效率低下，迭代缓慢，而我们所期望的是那条指数级跃升的曲线。

AI 在加速，但驾驶它的，还是人类的双手。这，正是决赛圈真正的瓶颈所在。直到今天，这个瓶颈，第一次被正面击穿。

图：AI自主实现架构、数据、算法三大核心领域的科学发现级突破，其光芒向外辐射，驱动数学、生物医学、物理学等整片知识星系，迈入全新轨道。

来自创智学院、上海交通大学刘鹏飞研究团队（GAIR）发布的「超智能-进化」框架：ASI-Evolve，已经可以在不依赖人类研究员的前提下，独立完成「发现问题 → 设计方案 → 迭代验证 → 提炼规律」的完整科研闭环。

更重要的是，这一次并非某个局部领域的小试牛刀——而是在 AI 研发最硬核的三大核心战场上，同时交出了科学发现级别的答卷：

🏗️ 神经网络架构设计——AI 独立发现超越人类专家的全新架构。
📦 预训练数据筛选——AI 自主优化数据策略，MMLU 评测提升超 18 个百分点。
⚙️ 强化学习算法设计——AI 设计出全新训练算法，数学竞赛题上超越 GRPO 基线达 12.5 分。

三场硬仗，三场胜利。人类研究员，在 AI 自我进化的加速度竞赛中，首次全线落败。如果说过去大家更多看到的是 AI 帮人类做研究，那么 ASI-Evolve 展示的是另一件事：AI 开始加速 AI。

不仅如此，团队还进一步证明，AI 优化出的设计可以直接迁移到真实药物发现任务，形成从 AI 研究到科学应用的完整链条。

📦 开源链接：https://github.com/GAIR-NLP/ASI-Evolve

📎 技术报告：https://github.com/GAIR-NLP/ASI-Evolve/blob/main/assets/paper.pdf

为什么这件事难？
AI 研究不是「给一个答案」

真实世界里的 AI 研究，本质上要同时跨过三重门槛：

执行成本高：一次有效验证往往要消耗数小时甚至更久的计算资源，还伴随真实工程接入与运行成本。

搜索空间大：目标开放、边界不预设，系统必须在大规模候选方向中自主找到有价值的探索路径。
反馈维度多：结果不是简单的「对 / 错」，而是多维、间接、甚至彼此冲突的信号，必须经过分析才能转化为下一步行动。

真正困难的，不是生成一个点子，而是在漫长、昂贵、弱反馈的实验循环里，持续进化自己的研究能力。ASI-Evolve 正是为这个问题而设计的。

三大核心成果：
AI 首次打通 AI 研发闭环

ASI-Evolve 的核心结果，不是几个彼此并列的案例，而是一条完整主线：AI 首次在统一框架下，打通了 AI 研发的三大核心支柱。

📌 架构：AI 开始自主做模型架构研究

在神经网络架构设计任务中，ASI-Evolve 以 DeltaNet 为起点，围绕高效线性注意力展开长周期自主探索。系统累计进行了 1773 轮演化实验，在验证阶段发现了 105 个超过 DeltaNet 的新架构，最终最优模型相较 DeltaNet 获得大幅提升，接近当前人类设计 SOTA 增益的 3 倍。

更重要的是，这不是只在单一开发集上「刷出来」的结果。在扩展到 1.3B 参数、100B token 的大规模验证后：

开发集最高达到 57.28% 平均准确率，超过 DeltaNet 的 55.76%。
在 6 个 held-out OOD 任务上也达到 45.40%，超过 DeltaNet 的 44.74%。

这说明 AI 发现的不是只对榜单有效的技巧，而是真正可以泛化的结构性改进。

📌 数据：AI 开始自主塑造下一代模型要吃什么数据

除了模型本身，ASI-Evolve 还把自主研究能力推进到了数据层。在预训练数据清洗任务中，系统面向 Nemotron-CC 中跨数学、计算机、医学等多个 STEM 类别的大规模语料，自主设计分领域的数据清洗与保留策略，最终构造出。

AI自主处理训练数据，大幅提升模型表现

在完全相同的训练预算下，用训练的 3B 模型在 18 个 benchmark 上取得 44.13 平均分，相比原始数据提升 +3.96 分，同时超过 DCLM、FineWeb-Edu、Ultra-FineWeb 等已有高质量语料。尤其在知识密集型任务上，提升非常显著：MMLU +18.64，CSQA +18.80，MedQA +13.48。

数据策略不再只是人工规则工程，也开始成为 AI 可以持续研究、反复迭代、主动优化的对象。

📌 算法：AI 不只是调超参，而是在发明新的 RL 训练算法

在强化学习算法设计任务中，ASI-Evolve 以 GRPO 为强基线，直接改写 advantage 分配与梯度更新机制。系统在 300 轮演化中训练并评估大量候选算法，其中 10 个在探索阶段超过 GRPO，最终有 3 个算法进入 14B 规模验证。最终算法在数学与代码等多类任务上相对 GRPO 取得一致提升：AMC32 上最高 +12.5 分、AIME24 上 +11.67 分、OlympiadBench 上 +5.04 分，并在数学、抽象推理、STEM、金融与代码等更广泛评测上保持优势。

AI自主设计算法

最有代表性的两个创新方向：

一个方向通过成对比较的 advantage 估计和不对称 clipping，显式建模「好的回答究竟比其他回答好多少」。
另一个方向引入全局更新预算，为每个 token 动态分配可信更新半径，从数学上约束 noisy training 中的策略更新稳定性。

它做的不是参数搜索，而是在真正进入算法层面的数学创新。这三项结果合在一起，说明 AI 已经开始在架构、数据、算法这三大核心研发环节中形成闭环，直接参与 AI 自身的进化。

ASI-Evolve：
完整的 Learn-Design-Experiment-Analyze 闭环

为了解决这些复杂的科研任务，框架设计了「学习-设计-实验-分析」闭环，由五个相互配合的角色构成：

研究员：提出新假设、生成候选方案。
工程师：把方案真正放进实验环境执行，拿到真实结果。
分析者：阅读复杂实验输出，把杂乱日志、指标和现象提炼成可复用的洞察。
数据库：积累自身研究经验，形成对于具体任务的专业见解。
认知池：作为人类知识的图书馆，提供高质量的领域信息。

相比于以往的自动化科研工作流，改进在于两方面：一是让 AI 在实验中充分吸收人类科研积累，站在巨人的肩膀上，把盲目、冗余的探索压到最低；二是真正读懂并剖析实验输出，让每一次实验都被充分利用。

横向对比，效率明显提升

论文中的分析实验也展示了这一设计的必要性：在数学领域的 circle packing 任务上，ASI-Evolve 最快只用 17 步就达到 SOTA 级结果，明显快于 OpenEvolve 和 GEPA；而当去除分析者，系统进化很快进入平台期；离开了认知池，启动明显变慢。这更说明了自主科研不是以量取胜的盲目搜索，而应该是「知识先验 + 实验反思」双重驱动下的高效演化。

消融实验，分析和认知缺一不可

从 AI 研究到真实应用：药物发现的迁移验证

然而，AI 优化出的 AI，在真实应用场景下真的有用吗？

为回答这个问题，GAIR 团队把 ASI-Evolve 演化出的架构迁移到了药物-靶点相互作用预测任务中，用 AI 自动发现的新架构去解决生物医药问题。

ASI-Evolve自主优化模型架构，实现跨领域应用提升

相较 DrugBAN 基线，ASI-Evolve 发现的架构在多个 benchmark 上都实现了稳定提升：

BindingDB 开发集：AUROC 提升 +1.91，F1 提升 +2.95。
随机测试集：AUROC 提升 +1.05。

更重要的是，在更困难、也更接近真实应用价值的 cold-start 场景里，面对从未见过的新药或新蛋白时，提升更大：

unseen drug 场景：AUROC 最高提升 +6.94。
unseen protein 场景：AUROC 提升 +3.56。
双重泛化（药物 + 蛋白均未见）：AUROC 提升 +4.36。

这说明 AI 自主研究得到的并不是「只对 AI benchmark 有效」的技巧，而是具有跨领域迁移价值的真实设计能力。AI 优化的 AI，开始在真实科学应用场景里显示出实用价值。

对开源社区与 AI 研究范式的意义

ASI-Evolve 真正值得关注的，不只是拿到了几个更高的分数，而是第一次在统一系统中，把「AI Accelerates AI」这件事系统性地展开并验证了出来。

GAIR 团队展示的是：AI 已经可以在架构、数据、算法这些 AI 发展的基础环节上，通过系统的自我进化闭环持续推进研究。这意味着，当 AI 智能快速发展时，这种增长不只体现在解题、写代码或执行任务上，也开始能够反哺 AI 自身科研，加速下一轮发明，形成 AI research level 的迭代进化，并辐射赋能 Math、Drug 等其他学科。

未来展望

随着 AI 持续变强，这种自我科研加速不会停留在架构、数据、算法三层，而可能进一步扩展到框架优化、推理加速等更完整的 AI 工作流。

在更宏观的层面上，随着进化系统承担越来越多实现、试验和迭代工作，人类可以把更多精力从「执行方案」转向「定义问题」，把最重要的问题设定、研究方向判断和价值选择留给人，把更大规模的假设空间探索交给 AI。

ASI-Evolve 展示的，是 AI 自我科研加速从设想走向系统性验证的一步。当 AI 开始真正参与 AI 的发明过程，我们看到的或许不只是效率提升，而是 AI 研发范式本身开始发生变化。

– End –

转载请注明：好奇网 » 人类研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破

spring 发表在 CentOS安装Fail2ban之小白攻略2025年4月28日
学习了
爱好奇发表在我们的身体充满“错误”，却让我们成为自己2025年3月17日
前面转载了同一内容的“我们都是基因的马赛…
爱好奇发表在哲学还能解答现代人的困惑吗？2025年2月14日
很有意思的一篇关于哲学的文章，若以前还对…
爱好奇发表在《封神2》崩的越惨，DeepSeek的刀就越锋利2025年2月10日
春节期间讨论封神2和哪吒2的很多，为什么…
爱好奇发表在一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景2025年1月29日
昨天除夕深度求索发布了其多模态模型，可见…
爱好奇发表在自回归模型将死！杨立昆：你们这条路行不通2025年1月15日
虽然是一篇一年前的文章，但放在今天看明显…
爱好奇发表在维系亲密关系的秘诀：《爱的流动》2025年1月10日
看到了网络上热议的关于燕XX离婚事件，这…
爱好奇发表在专访宇树科技王兴兴：在人形机器人的巨变前夜，做一个敏锐的谨慎派2025年1月4日
在人形机器人大热的今天，转载一篇5个月前…
爱好奇发表在走进“麦学”：围观那个疯女人2024年12月12日
从此事件可以学到：不管在哪，都要学习，成…
爱好奇发表在哈佛博士9.3分神作！脑科学解读为什么孩子不爱学习？2024年12月4日
说的虽然与孩子相关，但对大人同样也有启发…

人类研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破

为什么这件事难？
AI 研究不是「给一个答案」

三大核心成果：
AI 首次打通 AI 研发闭环

ASI-Evolve：
完整的 Learn-Design-Experiment-Analyze 闭环

从 AI 研究到真实应用：药物发现的迁移验证

对开源社区与 AI 研究范式的意义

未来展望

与本文相关的文章

Hi，您需要填写昵称和邮箱！

为什么这件事难？ AI 研究不是「给一个答案」

三大核心成果： AI 首次打通 AI 研发闭环

ASI-Evolve： 完整的 Learn-Design-Experiment-Analyze 闭环

从 AI 研究到真实应用：药物发现的迁移验证

对开源社区与 AI 研究范式的意义

未来展望

与本文相关的文章

Hi，您需要填写昵称和邮箱！

为什么这件事难？
AI 研究不是「给一个答案」

三大核心成果：
AI 首次打通 AI 研发闭环

ASI-Evolve：
完整的 Learn-Design-Experiment-Analyze 闭环