与人工智能对话的两条哲学路线

编者按：最近苹果和OpenAI均推出了与AI进行语音对话的功能。本文是对两家公司产品使用的第一印象，作者认为，这两家公司的做法体现出两种 AI 哲学的分歧——属于助理（Copilots）与智能体（Agents）之争、小模型与大模型之争、专家与通才之争。文章来自编译。

前两天，我在手机上跟两个人工智能（AI）展开对话。虽然两者都很乐意与我交谈（而且也进行了交谈），但各自却体现出对人工智能未来截然不同的看法，有着不一样的抱负和潜在影响。我想明确一点，两者都是早期模型，还远未成型，但我认为分享我迄今为止的经验可能会有所帮助。

我们要说的是 ChatGPT 新推出的高级语音模式以及获得了AI新引擎的 Siri。二者不仅仅是与 AI 对话的不同方法。从很多方面看，它们还代表了两种 AI 哲学的分歧——助理（Copilots）与智能体（Agents）之争、小模型与大模型之争、专家与通才之争。

作为助理的Siri

至少目前，跟 Siri AI 对话的感觉仍然像跟旧版 Siri 的对话一样。你不会被惊讶到目瞪口呆，仍然会因为 Siri 的不靠谱而感到沮丧。

缺乏“惊艳”是有原因的，苹果打造 Siri AI 的要务是保护隐私、安全和保障。有超过 10 亿人使用他们的系统，苹果不希望人们面临大语言模型（LLM）的各种风险与怪异之处，他们想要的是能用且极其私密的东西。

这样做需要权衡取舍，于是苹果把小型 AI 直接植入到手机上，不依赖于互联网连接。因为 AI 模型有多种规模，所以要实现这一点还是有可能的。比方说，Meta 的 Llama 3.1 模型参数达到了 4050 亿（相当于 GPT-4），还有个中等规模（700 亿参数）的模型（大概相当于ChatGPT-3.5），还有一个小型（80 亿参数）模型。参数量体现了AI 模型的复杂性——数字越大通常表示系统功能越强大，但资源密集程度越高。我的电脑就可以跑最小的模型，但跑 4050亿参数模型需要专门的硬件。小模型远没有那么强大，但可以在其他方面弥补这方面缺陷。

小模型价格低廉、速度快，可以在性能较弱的硬件（如手机）上运行，并且可以专门用于执行特定任务。与 ChatGPT 等通用模型不同，小模型会创建专注于某一特定任务的人工智能，而且通常可以做得相当好。Siri AI 背后就是一个小模型，参数只有30 亿，但它采用了一种巧妙的方法，允许其设备上的人工智能切换“专家”，比方说有总结文本的，有编辑图像的。由于所有工作都是在手机上完成的，所以是加密的并且非常私密。

不过，鉴于这是个小模型，所以没那么智能。事实上，给人感觉就像在使用旧版的 Siri，只是略有改进。如果我问它“我今晚想去吃饭和看电影，确保我能在 6 点之前到达，10 点之前到家。我想吃点辛辣的拉丁美食，看一部动作片”，AI会显得很弱智。不过，这对 LLM 来说并不是一个难题。一个稍大一点的模型 Llama 8B 就能做得更好（尽管确实会犯一些细节错误，因为没有网络访问权限）。

不过，这只是 Apple AI 的开始，因为未来的升级会让手机上的 Siri 在无法解决问题时能向云端更强大的 Apple AI 寻求帮助，甚至将真正困难的问题交给 ChatGPT。它将能够与应用交互，触发操作并从多个来源获取信息。这项技术肯定会得到改进。

但是，苹果的做法不仅仅是技术上的，还是一个哲学上的决定。人工智能有风险，不可预测，会产生幻觉，有可能被滥用，并不总是私密的。所以，苹果决定降低滥用或失误的危险。他们把 Siri 变成了助理。你会看到这些助理出现在许多产品之中——是功能非常狭窄的人工智能系统，旨在帮助完成特定任务。如此一来，他们隐藏了大语言模型更奇怪、更危险、更强大的一面。助理可能会有所帮助，但不太可能带来生产力的飞跃，也不会改变我们的工作方式，因为受到限制。强悍与安全如鱼与熊掌。

作为智能体的ChatGPT Voice

如果说 Siri 是为了让人工智能变得不那么怪异、更可预测，那 ChatGPT Voice 则恰恰相反。它未必用小型的定制模型，而是提供对通用 GPT-4o 全部功能的访问。虽然几个月前 ChatGPT 就推出过语音模式，但这种模式非常不同。它进行的是自然对话，会有停顿，也会连珠炮。

比方说，我这里用了 ChatGPT 来帮助我撰写这篇文章的开头段落。不仅要注意其抑扬顿挫，还要注意微妙的音调变化（对我和我的工作表现出的热情、听起来很自然的音调等）。

用语音方式与 ChatGPT 互动实在怪异，因为它的节奏、语调甚至装出来的呼吸都让人感觉很像人类。它能够模拟各种情绪，因为这不仅仅是触发录音播放而已，在输出和输入方面显然完全是多模态，它接收和生成声音的方式与老一代 LLM 接收和生成文本的方式一样。目前，似乎这些功能很多都被锁定在护栏背后——正如你在下面的剪辑结尾处所看到那样，目前不允许人工智能生成音效，也不允许大幅改变其声音，这可能是为了避免被滥用——但这些能力它都具备。

通过语音使用 ChatGPT 就像与人交谈一样。尽管底层模型与通常的 GPT-4o 没什么不同，但加上语音有很多影响。比方说，语音辅导的工作方式与通过打字交流的辅导非常不同。它还可以说许多其他语言，为跨文化交流提供了新手段。我一点都怀疑大家对 ChatGPT 助手会产生情绪反应，后果难以预测。

但就像苹果没有使能系统的全部功能一样，OpenAI 也留了几手。他们的人工智能是完全多模态的，这意味着具备图像和视频识别能力，并且相对与比以前的模型也许能生成更好的图像。如果他们的愿景实现，我们很快就会有助手可以观看、聆听世界，并与这个世界互动。一旦实现这一目标，下一步将是智能体，也就是你的人工智能不仅应该能够与你交谈，还应该替你指定计划，采取行动。与助理不同的是，智能体系统及其前身（如 GPT-4 语音）以强大但可能会有风险的方式去拥抱混乱。虽然设置了护栏，但 OpenAI 的语音模式受到的限制要比 Apple AI少得多，因此会以意想不到的方式与世界互动。

钝刀还是利刃？

对语音的不同处理方式向我们展示了人工智能的未来，这个未来涉及到在低风险、功能较弱的系统与让用户拥有更多控制和选择的系统之间找到平衡。我认为很多公司都希望鱼与熊掌兼得，但我不确定有没有可能性。他们需要决定给用户提供一把钝刀还是利刃，前者虽然不太有效但也不怎么危险，后者可用于实际工作但存在受伤风险。钝刀不会造成伤害，但好处也少得多。我认为我们需要仔细考虑何时何地选择低风险的方案（如助理），以及我们愿意在何处容忍滥用风险以换取潜在的巨大利益（如智能体）。

这一切都还处于早期阶段，而且是基于我的第一印象，但我认为像 GPT-4o 这样的语音功能会改变大多数人与人工智能系统的交互方式。语音及视觉交互比文本交互更自然，对更广泛的受众更有吸引力。未来肯定有与人工智能对话的一席之地。

译者：boxi。

转载请注明：好奇网 » 与人工智能对话的两条哲学路线

spring 发表在 CentOS安装Fail2ban之小白攻略2025年4月28日
学习了
爱好奇发表在我们的身体充满“错误”，却让我们成为自己2025年3月17日
前面转载了同一内容的“我们都是基因的马赛…
爱好奇发表在哲学还能解答现代人的困惑吗？2025年2月14日
很有意思的一篇关于哲学的文章，若以前还对…
爱好奇发表在《封神2》崩的越惨，DeepSeek的刀就越锋利2025年2月10日
春节期间讨论封神2和哪吒2的很多，为什么…
爱好奇发表在一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景2025年1月29日
昨天除夕深度求索发布了其多模态模型，可见…
爱好奇发表在自回归模型将死！杨立昆：你们这条路行不通2025年1月15日
虽然是一篇一年前的文章，但放在今天看明显…
爱好奇发表在维系亲密关系的秘诀：《爱的流动》2025年1月10日
看到了网络上热议的关于燕XX离婚事件，这…
爱好奇发表在专访宇树科技王兴兴：在人形机器人的巨变前夜，做一个敏锐的谨慎派2025年1月4日
在人形机器人大热的今天，转载一篇5个月前…
爱好奇发表在走进“麦学”：围观那个疯女人2024年12月12日
从此事件可以学到：不管在哪，都要学习，成…
爱好奇发表在哈佛博士9.3分神作！脑科学解读为什么孩子不爱学习？2024年12月4日
说的虽然与孩子相关，但对大人同样也有启发…

与人工智能对话的两条哲学路线

作为助理的Siri

作为智能体的ChatGPT Voice

钝刀还是利刃？

与本文相关的文章

Hi，您需要填写昵称和邮箱！