Done is better than perfect.比完美更重要的是完成。

这个世界上最简单的问题,也需要AI大语言模型来解决吗?

好奇一下 爱 好奇 来源:好奇网 20浏览 0评论

你有没有想过为什么刷抖音停不下来,可是一做数学题就想睡觉?为什么一见钟情不需要理由,但维持婚姻却需要费力经营?因为你的大脑里其实运行着两套完全不同的操作系统。简单的说,你的大脑里住着“两个你”。

大家应该看过这样的视频,一旦蛇发动攻击,小猫突然爆发的速度比蛇都快,它完美诠释了什么是“静若处子,动若脱兔”。

为什么会出现这种情况呢?就是因为大脑里有两套系统在协同工作。以前我们对这种“双系统理论”还半信半疑,但今天越来越多搞人工智能的顶级专家一拍大腿:这不就是我们正在摸索的路吗?人工智能的研究正在从另一个维度印证这个生物智慧的核心架构。这里面有一个关键词,就是记忆

大脑内的两套操作系统到底是什么?人工智能又揭示了什么样的秘密?有关这个神奇的发现,咱们还得从头说起。

神经科学的发现:大脑的“节能智慧”

时间来到1990年,神经科学家亨利·马克拉姆正小心翼翼地把电极探进一块活生生的大脑皮层。他本来想看看我们这个最聪明的器官,是不是像一台超级计算机,24小时都在噼里啪啦地疯狂计算。但记录下来的数据却让他大跌眼镜:绝大多数神经元在绝大多数的时间里都是沉默的,安静得像深夜的图书馆。只有当一个特定的画面、一个声音、一个念头出现时,相关的少数神经元才会被“刷”的一下点燃,像黑夜里突然点亮了几支烛火。

这个发现在当时看来简直反直觉。大脑不是应该时时刻刻都在思考吗?为什么看起来这么懒呢?但如果跳出计算的视角,从一个更高的维度——能量来看,就会恍然大悟。这根本不是懒,这是进化打磨出的顶级节能智慧。大脑占体重的2%,却消耗了全身的能量。如果这上百亿个神经元每时每刻都像过节放烟花一样全员放电,我们身体那点能量储备根本撑不住。所以大脑进化出了一套冷酷而高效的战略:能省就绝不动用,能用直觉搞定就绝不启动复杂计算。

丹尼尔·卡尼曼的《思考,快与慢》

这种深植于生物本能的高效运作方式,在20多年后被一位心理学家用一句极其精辟的话彻底讲透。时间来到2011年,心理学界的大神丹尼尔·卡尼曼捧出了一本石破天惊的书——《思考,快与慢》,这本书彻底颠覆了我们对思考方式的认知。他用一句话道破了所有秘密:我们的大脑运行在两套截然不同的操作系统里——系统1和系统2。

系统1就是你的“自动驾驶仪”。它快如闪电,完全自动,不费脑子,而且你根本无法关闭它。

比如:语言理解(听到母语句子意思瞬间就懂了)、简单计算(2加2等于4还用想吗?)、情绪反应(看到蛇,怕,反应比意识还快)、熟练动作(骑车走路根本不用想下一步)、模式识别(在人群里瞬间认出朋友的脸)、直觉决策(天冷了要加外套,饿了就去找吃的)。系统1就是马克拉姆看到的那些沉默的大多数神经元,根本不用高调地调用,早就练成了肌肉记忆的“精英快速反应部队”。

而当系统1搞不定的时候,你的系统2,那个“手动模式”才会很不情愿地被启动。

比如:复杂计算(心算37乘26,你可以试一下,当你心算的时候什么事都干不了了,连快速走路都不能同时进行,身体要把全部的能量都供应到这个计算上)、审慎决策(比如看合同哪个条款是个坑)、专注思考(写篇有逻辑的文章,疯狂烧脑)、自我控制(忍住不吃蛋糕需要动用意志力)、陌生应对(在外国机场找登机口,必须要集中全部注意力)。系统2是那套能耗高、精度高、启动缓慢的重型思考装备。它需要你主动调用,它会让你感到脑壳很累,但它负责处理所有系统1处理不了的、复杂的、新奇的事情。

卡尼曼最颠覆的观点来了:我们绝大多数时候都活在系统1里。你以为你每天在做无数个决定,其实其中95%都是系统1在用经验和直觉帮你自动完成的。从神经元的选择性沉默到卡尼曼的双系统理论,我们终于看清了一个贯穿生物行为的残酷真相:思考从来不是大脑的默认状态,省力才是真正的默认选项。我们的大脑本质上是一个在能量极端约束下进化出来的“节能怪兽”。它的首要任务并不是追求绝对正确,而是在能量与决策之间寻找一个平衡点。

AI的演进:从暴力美学到能量危机

时间来到2017年,谷歌的八位工程师写了一篇标题看起来非常嚣张的论文,名字叫《Attention is All You Need》,翻译过来就是一句话:注意力才是你们唯一需要的

现在回头看,这句话几乎就是给AI宇宙的大爆炸按下了启动键。

什么叫注意力机制?就是让模型不再一行一行的读,而是同时盯住所有信息。首先模型不会读单词,它会把文本拆成最小的计算单位叫Token。每一个Token都会被映射成一个数学对象——向量。你可以把它想象成每个词都被丢进了一个极高维度的空间里。这个空间不是二三维,而是成千上万,以GPT-3举例,嵌入了12288个维度。

接下来关键点来了,在这个空间里,相似的词彼此更近,无关的词彼此更远。而“注意力机制”做的事情就是让每个词同时看向所有其他词,并计算一个问题:你对我有多重要?这个重要程度就是注意力权重。于是一个词不需要一步步传递信息,不需要等前面的词算完,它可以直接跨越距离和任何一个词建立联系。这是一种并行的、自我关注的、全局计算方式。谷歌的八位工程师给这种新算法起了一个名字叫Transformer。今天你看到的Sora、Gemini、Claude、即梦、DeepSeek以及各种大模型都是Transformer的不同变体。

Transformer天然适合并行,这意味着你可以堆数据、堆算力、堆模型规模。于是一条看似朴素、但极其暴力的规律被发现了:规模越大,效果越好。这就是后来被称为Scaling Laws法则的东西。

从这一刻起,这事开始有点变味了。当大家发现Transformer的超能力,你喂的数据越多,用的算力越大,它就越聪明,人工智能就变成了一场“大力出奇迹”的军备竞赛。到底堆多少显卡算够?一万张?十万张?现在顶尖大模型的训练早就奔着几十万张最先进的GPU去了。

你知道这背后是什么概念吗?

谷歌八子之一的伊利亚·波罗苏欣在采访中就吐槽过:

就像2+2,现在你把它输入模型中,它会使用数万亿个参数,而计算机完全可以做到。

用掉上万张显卡,耗掉一个发电站的电,才能给你吐出答案“4”。

关键是军备竞赛也是有上限的:芯片有散热极限,电网有供电极限,钱包也有预算极限。当模型规模大到一定程度,增长的代价会变得极其恐怖。你为了把模型能力提升10%,可能需要增加300%的算力和能耗,这买卖就越来越不划算了。

“非Transformer”架构的回想与突破

于是特别有意思的一幕出现了,就在全世界都被Transformer的光芒笼罩时,很多顶尖的研究者从第一性原理出发,又重新开始思考大脑的工作方式。非Transformer架构再次回到人们的视野。

顾名思义,非Transformer架构就是设计思路上不用Transformer那套自注意力的核心机制。你可以把Transformer理解为武林第一大派“少林派”。少林派的特点就是内力深厚、算力强、招式刚猛、效果好。但江湖上不是只有少林派,还有很多历史悠久、思路清奇的门派。

主流的有三大派:首先是循环神经网络派(RNN),第二是卷积神经网络派(CNN),还有脉冲神经网络派(SNN)

为了让大家对非Transformer架构有一个概念上的认识,下面简单地介绍一下循环神经网络。

说RNN就必须提它最核心、也是最厉害的一个能力:它有记忆

它的记忆来自一个神来之笔的设计:它会把当前步骤的新输入(比如一个新词)和上一步骤的隐藏状态(也就是它的记忆)揉在一起,产生一个新的记忆和输出。但是问题来了:第一个缺陷是RNN是顺序依赖,无法并行计算,就像工厂的流水线必须等第一步干完才能干第二步,太慢了。第二个缺陷是记不住长内容。

举个例子,“What time is it”(现在几点),从W到问号中间经历了四次记忆传递。每传递一次,W这个信息就像被兑了一次水,浓度可能就只剩下一半不到,等传到问号那里,最初的W已经变模糊了。这还只是五个字符,如果是一部长篇小说、一篇长文档呢?在传递了数千数万步后,开头的关键信息早就被稀释得无影无踪了。这就是RNN的“长期依赖问题”。

这种“健忘症”有没有救呢?有。现在非Transformer架构在记忆这件事上玩出了令人惊艳的花活。新一代像Mamba 2.0这样的非Transformer架构搞了一个颠覆性的设计:它给模型装上了“原生记忆力”。这不再是临时的缓存,而更像是一个可以不断写入、分类存储并且瞬间调用的智能硬盘。

来看一个场景:用户对机器狗说:“去帮我拿一瓶我爱喝的饮料。”机器狗回:“我没有见过这个东西。”用户说:“记住这是我喜欢喝的饮料”,并上传了一张汽水的图片。每一次成功的交互都在强化和扩展这个记忆网络。下次你甚至不用说饮料,你说“我渴了”,它都能关联该去拿汽水。这就是真正的长期记忆,它不是静态的数据,而是能直接应用的、可推理的上下文。从“健忘的流水线工人”RNN,到拥有“终身记忆”的新一代非Transformer架构,人机交互就发生了本质性的变革。

非Transformer架构的应用前景

既然我们手里有了像“系统1”一样反应快、记忆好还特省电的新一代非Transformer架构,哪些领域是它们的天命职场呢?咱们就来一场非Transformer架构就业前景大普查。

第一个大热门:实时语音处理。

你想人说话是连续的,一秒几十帧,数据流长得吓人。系统必须边听边转,不可能等你把一段都说完了才开始翻译第一个词。这就要像系统1一样拥有流式处理的超能力。那些RNN架构的模型就是为此而生的。它们像顶级同传,听一点翻一点,反应快得飞起。应用场景全都是刚需:像智能家居,你对音箱说“关灯”,它必须是瞬间的,绝不能思考好几秒;车载语音,导航时告诉我们前方右转,指令必须是零延迟;客服和会议电话录音要实时转写,直播要立刻出字幕。让Transformer干这个行不行呢?那就是用牛刀杀鸡,关键是还不好使。

第二个黄金赛道:时间序列预测。这简直就是非Transformer的本命舞台。

工厂里预测机器啥时候会坏,电网上预测明天整个城市要用多少电,股市里分析每秒都在变化的高频交易数据,甚至你家的智能空调预测你什么时候回家好提前制冷。这些数据都有一个共同点:超长的时间流、稳定的前后关系,而且需要永远不间断地跑在普通服务器甚至更小的设备上。省电、高效、反应快才是王道。

第三个场景特别实用,还能保命:智慧医疗信息化。

想象一下这个画面:主任医师带着团队查房,一边问病人今天感觉怎么样,一边做检查。他们说的每一句话都被旁边的系统实时听取理解,并自动生成了结构化的病历。查房结束,啪,一份完整、准确、逻辑清晰的病历初稿自动生成了。这意味着什么?医生在书写病历的过程中,再也不用先在脑海中构建病史的要点框架,因为病人的病史,人工智能一定记得比医生更清楚。AI能分析临床数据,调用专业的医学知识库,甚至能思考医生为什么用这个药、为什么做这个检查。这不仅仅是帮医生看病,更是在源头为整个医疗系统安装了一个高质量的数据心脏。每一次诊疗都可以让整个系统更智能、更高效。所以说这是一项能保命的发明。

最后一个也是未来最庞大的市场:边缘计算。

什么叫边缘?就是数据在哪产生就在哪处理,根本不用千里迢迢地跑回云端。手表监测心率异常,智能门锁识别家人面孔,摄像头发现异常的行为报警,自动驾驶汽车瞬间做出避障决策,无人机在无网络环境下自主飞行。这些设备共同的特点是算力有限、电池珍贵、对延迟零容忍、还必须保护隐私。这才是非Transformer架构的星辰大海,让世界上每一台设备都拥有本地化的、闪电般的智能。

智能的深层规律

聊了这么多,从大脑的双系统到AI的两派架构,咱们其实一直在挖一条隐藏的隧道。现在隧道挖通了,光也透进来了,我们可能碰到了一个关于智能本身震撼的真相。我们智人的大脑已经用“系统1+系统2”的混合架构跑了上百万年,它们无缝地切换、协同工作,这才让我们站上了星球的顶端。这个架构不是偶然,它是进化在能量、速度、精度的终极约束下打磨出的最优解:快思考生存,慢思考发展。

人工智能的发展轨迹像极了加速百万倍的大脑进化史重演。这不仅仅是个有趣的类比,它还强烈地暗示:智能无论是碳基还是硅基,在底层可能遵循着同一套计算经济学法则。

想到这有没有一种后背发凉的感觉?我们程序员敲下的每一行代码,我们工程师设计的每一个架构,可能不仅仅是在发明新东西,而是在重新探索和验证那个早已存在于宇宙中的、名为“智能”的深层规律。

未来的架构并不是谁取代谁的问题,而是Transformer和非Transformer的高度融合。人工智能的目的居然与大脑的运行不谋而合,那就是:如何用最少的能量,最高效地发展自己。

注:本文根据老鸣TV《2+2,這個世界上最簡單的問題,需要AI大語言模型來解決嗎?》视频整理而来,版权归原作者所有。

– End –

转载请注明:好奇网 » 这个世界上最简单的问题,也需要AI大语言模型来解决吗?

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
>