把行动交给现在,把结果交给时间。

人类研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破

「AI的发展,已经进入决赛圈。决赛圈比拼的,是AI自进化的加速度」 —— 项目负责人

DeepMind 德米斯·哈萨比斯曾用一句话定义他毕生的使命:「先解决智能问题,然后用它来解决其他一切问题。」

这句话背后藏着一个极其深刻的逻辑——智能,是打开人类一切重大命题的万能钥匙。物理、化学、生物……所有领域的突破,本质上都在等待同一件事的发生:AI 真正掌握自我进化的能力。一旦这道门被打开,它所释放的能量,将同时涌入人类知识版图的每一个角落。

AI 的每一次进步,背后都是人类研究员在架构设计、数据清洗、算法调优上投入的海量人力——这是一条以人力为燃料的线性赛道:效率低下,迭代缓慢,而我们所期望的是那条指数级跃升的曲线。

AI 在加速,但驾驶它的,还是人类的双手。这,正是决赛圈真正的瓶颈所在。直到今天,这个瓶颈,第一次被正面击穿。

图:AI自主实现架构、数据、算法三大核心领域的科学发现级突破,其光芒向外辐射,驱动数学、生物医学、物理学等整片知识星系,迈入全新轨道。

来自创智学院、上海交通大学刘鹏飞研究团队(GAIR)发布的「超智能-进化」框架:ASI-Evolve,已经可以在不依赖人类研究员的前提下,独立完成「发现问题 → 设计方案 → 迭代验证 → 提炼规律」的完整科研闭环。

更重要的是,这一次并非某个局部领域的小试牛刀——而是在 AI 研发最硬核的三大核心战场上,同时交出了科学发现级别的答卷:

  • 🏗️ 神经网络架构设计——AI 独立发现超越人类专家的全新架构。

  • 📦 预训练数据筛选——AI 自主优化数据策略,MMLU 评测提升超 18 个百分点。

  • ⚙️ 强化学习算法设计——AI 设计出全新训练算法,数学竞赛题上超越 GRPO 基线达 12.5 分。

三场硬仗,三场胜利。人类研究员,在 AI 自我进化的加速度竞赛中,首次全线落败。如果说过去大家更多看到的是 AI 帮人类做研究,那么 ASI-Evolve 展示的是另一件事:AI 开始加速 AI。

不仅如此,团队还进一步证明,AI 优化出的设计可以直接迁移到真实药物发现任务,形成从 AI 研究到科学应用的完整链条。

📦 开源链接:https://github.com/GAIR-NLP/ASI-Evolve

📎 技术报告:https://github.com/GAIR-NLP/ASI-Evolve/blob/main/assets/paper.pdf

为什么这件事难?
AI 研究不是「给一个答案」

真实世界里的 AI 研究,本质上要同时跨过三重门槛:

  • 执行成本高:一次有效验证往往要消耗数小时甚至更久的计算资源,还伴随真实工程接入与运行成本。

  • 搜索空间大:目标开放、边界不预设,系统必须在大规模候选方向中自主找到有价值的探索路径。

  • 反馈维度多:结果不是简单的「对 / 错」,而是多维、间接、甚至彼此冲突的信号,必须经过分析才能转化为下一步行动。

真正困难的,不是生成一个点子,而是在漫长、昂贵、弱反馈的实验循环里,持续进化自己的研究能力。ASI-Evolve 正是为这个问题而设计的。

三大核心成果:
AI 首次打通 AI 研发闭环

ASI-Evolve 的核心结果,不是几个彼此并列的案例,而是一条完整主线:AI 首次在统一框架下,打通了 AI 研发的三大核心支柱。

📌 架构:AI 开始自主做模型架构研究

在神经网络架构设计任务中,ASI-Evolve 以 DeltaNet 为起点,围绕高效线性注意力展开长周期自主探索。系统累计进行了 1773 轮演化实验,在验证阶段发现了 105 个超过 DeltaNet 的新架构,最终最优模型相较 DeltaNet 获得大幅提升,接近当前人类设计 SOTA 增益的 3 倍

更重要的是,这不是只在单一开发集上「刷出来」的结果。在扩展到 1.3B 参数、100B token 的大规模验证后:

  • 开发集最高达到 57.28% 平均准确率,超过 DeltaNet 的 55.76%。

  •  6 个 held-out OOD 任务上也达到 45.40%,超过 DeltaNet 的 44.74%。

这说明 AI 发现的不是只对榜单有效的技巧,而是真正可以泛化的结构性改进。

📌 数据:AI 开始自主塑造下一代模型要吃什么数据

除了模型本身,ASI-Evolve 还把自主研究能力推进到了数据层。在预训练数据清洗任务中,系统面向 Nemotron-CC 中跨数学、计算机、医学等多个 STEM 类别的大规模语料,自主设计分领域的数据清洗与保留策略,最终构造出

AI自主处理训练数据,大幅提升模型表现

在完全相同的训练预算下,用 训练的 3B 模型在 18 个 benchmark 上取得 44.13 平均分,相比原始数据提升 +3.96 分,同时超过 DCLM、FineWeb-Edu、Ultra-FineWeb 等已有高质量语料。尤其在知识密集型任务上,提升非常显著:MMLU +18.64,CSQA +18.80,MedQA +13.48。

数据策略不再只是人工规则工程,也开始成为 AI 可以持续研究、反复迭代、主动优化的对象。

📌 算法:AI 不只是调超参,而是在发明新的 RL 训练算法

在强化学习算法设计任务中,ASI-Evolve 以 GRPO 为强基线,直接改写 advantage 分配与梯度更新机制。系统在 300 轮演化中训练并评估大量候选算法,其中 10 个在探索阶段超过 GRPO,最终有 3 个算法进入 14B 规模验证。最终算法在数学与代码等多类任务上相对 GRPO 取得一致提升:AMC32 上最高 +12.5 分、AIME24 上 +11.67 分、OlympiadBench 上 +5.04 分,并在数学、抽象推理、STEM、金融与代码等更广泛评测上保持优势。

AI自主设计算法

最有代表性的两个创新方向:

  • 一个方向通过成对比较的 advantage 估计和不对称 clipping,显式建模「好的回答究竟比其他回答好多少」。

  • 另一个方向引入全局更新预算,为每个 token 动态分配可信更新半径,从数学上约束 noisy training 中的策略更新稳定性。

它做的不是参数搜索,而是在真正进入算法层面的数学创新。这三项结果合在一起,说明 AI 已经开始在架构、数据、算法这三大核心研发环节中形成闭环,直接参与 AI 自身的进化。

ASI-Evolve:
完整的 Learn-Design-Experiment-Analyze 闭环

为了解决这些复杂的科研任务,框架设计了「学习-设计-实验-分析」闭环,由五个相互配合的角色构成:

  • 研究员:提出新假设、生成候选方案。

  • 工程师:把方案真正放进实验环境执行,拿到真实结果。

  • 分析者:阅读复杂实验输出,把杂乱日志、指标和现象提炼成可复用的洞察。

  • 数据库:积累自身研究经验,形成对于具体任务的专业见解。

  • 认知池:作为人类知识的图书馆,提供高质量的领域信息。

相比于以往的自动化科研工作流,改进在于两方面:一是让 AI 在实验中充分吸收人类科研积累,站在巨人的肩膀上,把盲目、冗余的探索压到最低;二是真正读懂并剖析实验输出,让每一次实验都被充分利用。

横向对比,效率明显提升

论文中的分析实验也展示了这一设计的必要性:在数学领域的 circle packing 任务上,ASI-Evolve 最快只用 17 步就达到 SOTA 级结果,明显快于 OpenEvolve 和 GEPA;而当去除分析者,系统进化很快进入平台期;离开了认知池,启动明显变慢。这更说明了自主科研不是以量取胜的盲目搜索,而应该是「知识先验 + 实验反思」双重驱动下的高效演化。

消融实验,分析和认知缺一不可

从 AI 研究到真实应用:药物发现的迁移验证

然而,AI 优化出的 AI,在真实应用场景下真的有用吗?

为回答这个问题,GAIR 团队把 ASI-Evolve 演化出的架构迁移到了药物-靶点相互作用预测任务中,用 AI 自动发现的新架构去解决生物医药问题。

ASI-Evolve自主优化模型架构,实现跨领域应用提升

相较 DrugBAN 基线,ASI-Evolve 发现的架构在多个 benchmark 上都实现了稳定提升:

  • BindingDB 开发集:AUROC 提升 +1.91,F1 提升 +2.95。

  • 随机测试集:AUROC 提升 +1.05。

更重要的是,在更困难、也更接近真实应用价值的 cold-start 场景里,面对从未见过的新药或新蛋白时,提升更大:

  • unseen drug 场景:AUROC 最高提升 +6.94。

  • unseen protein 场景:AUROC 提升 +3.56。

  • 双重泛化(药物 + 蛋白均未见):AUROC 提升 +4.36。

这说明 AI 自主研究得到的并不是「只对 AI benchmark 有效」的技巧,而是具有跨领域迁移价值的真实设计能力。AI 优化的 AI,开始在真实科学应用场景里显示出实用价值。

对开源社区与 AI 研究范式的意义

ASI-Evolve 真正值得关注的,不只是拿到了几个更高的分数,而是第一次在统一系统中,把「AI Accelerates AI」这件事系统性地展开并验证了出来。

GAIR 团队展示的是:AI 已经可以在架构、数据、算法这些 AI 发展的基础环节上,通过系统的自我进化闭环持续推进研究。这意味着,当 AI 智能快速发展时,这种增长不只体现在解题、写代码或执行任务上,也开始能够反哺 AI 自身科研,加速下一轮发明,形成 AI research level 的迭代进化,并辐射赋能 Math、Drug 等其他学科。

未来展望

随着 AI 持续变强,这种自我科研加速不会停留在架构、数据、算法三层,而可能进一步扩展到框架优化、推理加速等更完整的 AI 工作流。

在更宏观的层面上,随着进化系统承担越来越多实现、试验和迭代工作,人类可以把更多精力从「执行方案」转向「定义问题」,把最重要的问题设定、研究方向判断和价值选择留给人,把更大规模的假设空间探索交给 AI。

ASI-Evolve 展示的,是 AI 自我科研加速从设想走向系统性验证的一步。当 AI 开始真正参与 AI 的发明过程,我们看到的或许不只是效率提升,而是 AI 研发范式本身开始发生变化。

– End –

转载请注明:好奇网 » 人类研究员首次全线落败——AI架构、数据、算法三战获科学发现级突破

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
>