标签：大语言模型

5000字！深度学习中的“智能眼”：揭秘注意力机制的奥秘

来源：智驻未来公众号爱好奇 1年前（2025-02-15） 1011浏览 0评论

一、什么是注意力机制？在深度学习中，特征选择是一个关键问题，尤其是在处理高维数据时。传统的深度学习模型，如卷积神经网络（CNN），通常会从输入数据中自动学习特征表示，但这些特征的表示可能包含大量冗余或不相关的信息。这不仅会增加模型的计算负担，还可能...

来源：AI演进公众号爱好奇 1年前（2025-02-14） 891浏览 0评论

最近，国运级的DeepSeek模型霸占140多个国家APP下载榜第一名。这Deepseek深度思考模型R1一出道就展现出惊人的实力，不仅在各benchmark上表现亮眼，更让人惊呼的是它那“骨骼清奇”的低成本高效能。要知道，在动辄烧掉几百万美元训练...

来源：追问nextquestion公众号爱好奇 1年前（2025-02-12） 803浏览 0评论

当我们惊叹于Deepseek的妙语连珠时，是否正目睹硅基系统对人类语言本源的复刻？那在服务器集群中奔流的矩阵运算，与人脑皮层间跳跃的神经电波，究竟共享着怎样的“语言密码”？借助精密的脑成像技术，人们惊讶地发现，大语言模型的层级结构竟与大脑语言中枢的...

来源：钛媒体公众号爱好奇 2年前（2025-01-31） 840浏览 0评论

从技术格局来看，尽管DeepSeek的成果缩小了中美在人工智能技术上的差距，但中美人工智能整体格局尚未被撼动。图片图片来源：the Verge 眼下科技圈最关注的莫过于Deepseek事件。网络上充斥着各种技术与财务分析。在此，我愿分享一些个人见解...

来源：机器之心公众号爱好奇 2年前（2025-01-24） 1058浏览 0评论

「语言是人类的语言，而 3D 是自然的语言。」「除了语言，我们还有另外一半智能，这部分非常深刻，就是我们做事的能力。」「在 AI 之间加一个 G 以强调其通用性，我是尊重这个想法的。从制造能够思考和帮助人们做出决策的机器的角度来看，AI 或 AG...

来源：王智远公众号爱好奇 2年前（2025-01-16） 1088浏览 0评论

知乎创始人周源提出一个问题。他说：回顾互联网发展，有哪些底层逻辑看似简单但将在未来持续奏效？我看到一个评论，印象深刻。来自于2022年度的新知答主Morris.Zhang，他是做电子工程、人工智能、数据科学和半导体的。一他说了一个故事：有个...

来源：罗辑思维公众号爱好奇 2年前（2024-12-27） 873浏览 0评论

01 12月AI大事盘点首先，咱们简单盘一盘12月AI领域的大事。这场AI领域大冲刺的起点，是12月3日，人工智能科学家李飞飞的公司World Labs，发布了自己的第一个AI系统。他们对这个AI的定义是，大型世界模型，Large World M...

来源：科学杂志1915公众号爱好奇 2年前（2024-11-25） 1084浏览 0评论

本文从基本概念出发，介绍和解释ChatGPT用到的一系列关键技术，如机器学习、神经网络、大模型、预训练+微调范式、Scaling Law……并对ChatGPT未来可能应用领域的多模态智能体(agent)进行展望。希望帮助读者更为深入地了解和使用以Ch...

来源：AI科技评论公众号爱好奇 2年前（2024-10-23） 778浏览 0评论

小模型干大事，DeepMind重新审视Transformer推理能力。作者丨刘洁编辑丨岑峰 DeepMind闷声干大事，悄悄训练了一个大小只有270M的Transformer模型，居然不需要搜索，就能实现大师级的下棋水平。这几天的推特因为这篇2...