3000字看懂LLMs 的工作原理:从预训练到推理
来源:智驻未来公众号 爱 好奇 2周前(03-21) 32浏览 0评论
导读 都2025年了,关于“大模型”这个词,想必很多人多不陌生,它们似乎拥有神奇的力量,能够生成各种文本内容,从简单的对话到复杂的学术论文。然而,这些看似“魔法”的模型背后,其实有着严谨的科学原理和技术支撑。今天,我们就来揭开大语言模型的神秘面纱,深...
来源:智驻未来公众号 爱 好奇 2周前(03-21) 32浏览 0评论
导读 都2025年了,关于“大模型”这个词,想必很多人多不陌生,它们似乎拥有神奇的力量,能够生成各种文本内容,从简单的对话到复杂的学术论文。然而,这些看似“魔法”的模型背后,其实有着严谨的科学原理和技术支撑。今天,我们就来揭开大语言模型的神秘面纱,深...
来源:36氪 爱 好奇 2周前(03-18) 38浏览 0评论
将语言模型作为文字的扩展 神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:提供一篇文章,大模型就可以生成这篇文章的摘要,这可以看作是文字的“压缩器”,但反过来,你提供寥寥数语的创意,它也能...
来源:机器之心公众号 爱 好奇 3周前(03-14) 34浏览 0评论
作者:张拳石、陈鹭 近些年,大模型的发展可谓是繁花似锦、烈火烹油。从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,DeepSeek 异军突起,各类大模型应用层出不穷。...
来源:超算百科公众号 爱 好奇 4周前(03-07) 67浏览 0评论
近年来,大模型技术逐渐走进我们的生活。无论是在科技新闻里,还是在日常聊天中,总能听到它的名字。它不仅能写文章、画图、翻译语言,还能帮医生诊断疾病,甚至完成一些我们以前觉得只有人类才能做的事情。 “大模型”到底是什么?为什么它这么厉害?它是怎么做到的?...
来源:中信书院公众号 爱 好奇 4周前(03-05) 80浏览 0评论
过去的2024年,可以说是人工智能发展的分水岭,是大模型技术从量变到质变的关键一年。 无数大模型正在以肉眼可见的速度渗透进各行各业的“毛细血管”中。众多互联网产品都嵌入了AI功能模块,技术突破、应用普及以及开源与商业化并行发展……这种技术创新和产业落...
来源:36氪 爱 好奇 1个月前(02-21) 76浏览 0评论
吹智能体的都是没用过的。 神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:很多预测都认为今年是智能体爆发之年。但一位博主用自己的亲身实践指出,AI的不确定性是很大的麻烦,智能体不大可能接管...
来源:老胡说科学公众号 爱 好奇 1个月前(02-17) 121浏览 0评论
2017年,深度学习领域迎来了一个划时代的突破——《Attention is All You Need》这篇论文的发表,几乎一夜之间改变了人工智能的发展轨迹。这篇论文的核心贡献是提出了一种全新的模型架构——Transformer,彻底摒弃了传统的递归...
来源:智驻未来公众号 爱 好奇 2个月前(02-15) 136浏览 0评论
一、什么是注意力机制? 在深度学习中,特征选择是一个关键问题,尤其是在处理高维数据时。传统的深度学习模型,如卷积神经网络(CNN),通常会从输入数据中自动学习特征表示,但这些特征的表示可能包含大量冗余或不相关的信息。这不仅会增加模型的计算负担,还可能...
来源:AI演进公众号 爱 好奇 2个月前(02-14) 101浏览 0评论
最近,国运级的DeepSeek模型霸占140多个国家APP下载榜第一名。 这Deepseek深度思考模型R1一出道就展现出惊人的实力,不仅在各benchmark上表现亮眼,更让人惊呼的是它那“骨骼清奇”的低成本高效能。要知道,在动辄烧掉几百万美元训练...
来源:追问nextquestion公众号 爱 好奇 2个月前(02-12) 91浏览 0评论
当我们惊叹于Deepseek的妙语连珠时,是否正目睹硅基系统对人类语言本源的复刻?那在服务器集群中奔流的矩阵运算,与人脑皮层间跳跃的神经电波,究竟共享着怎样的“语言密码”? 借助精密的脑成像技术,人们惊讶地发现,大语言模型的层级结构竟与大脑语言中枢的...
来源:科学杂志1915公众号 爱 好奇 2个月前(02-10) 123浏览 0评论
本文从基本概念出发,介绍和解释ChatGPT用到的一系列关键技术,如机器学习、神经网络、大模型、预训练+微调范式、Scaling Law……并对ChatGPT未来可能应用领域的多模态智能体(agent)进行展望。希望帮助读者更为深入地了解和使用以Ch...
来源:钛媒体公众号 爱 好奇 2个月前(01-31) 126浏览 0评论
从技术格局来看,尽管DeepSeek的成果缩小了中美在人工智能技术上的差距,但中美人工智能整体格局尚未被撼动。 图片图片来源:the Verge 眼下科技圈最关注的莫过于Deepseek事件。网络上充斥着各种技术与财务分析。在此,我愿分享一些个人见解...
来源:机器之心公众号 爱 好奇 2个月前(01-24) 141浏览 0评论
「语言是人类的语言,而 3D 是自然的语言。」 「除了语言,我们还有另外一半智能,这部分非常深刻,就是我们做事的能力。」 「在 AI 之间加一个 G 以强调其通用性,我是尊重这个想法的。从制造能够思考和帮助人们做出决策的机器的角度来看,AI 或 AG...
来源:王智远公众号 爱 好奇 3个月前(01-16) 199浏览 0评论
知乎创始人周源提出一个问题。 他说:回顾互联网发展,有哪些底层逻辑看似简单但将在未来持续奏效? 我看到一个评论,印象深刻。来自于2022年度的新知答主Morris.Zhang,他是做电子工程、人工智能、数据科学和半导体的。 一 他说了一个故事: 有个...
来源:罗辑思维公众号 爱 好奇 3个月前(12-27) 156浏览 0评论
01 12月AI大事盘点 首先,咱们简单盘一盘12月AI领域的大事。 这场AI领域大冲刺的起点,是12月3日,人工智能科学家李飞飞的公司World Labs,发布了自己的第一个AI系统。他们对这个AI的定义是,大型世界模型,Large World M...
来源:AI科技评论公众号 爱 好奇 5个月前(10-23) 185浏览 0评论
小模型干大事,DeepMind重新审视Transformer推理能力。 作者丨刘洁 编辑丨岑峰 DeepMind闷声干大事,悄悄训练了一个大小只有270M的Transformer模型,居然不需要搜索,就能实现大师级的下棋水平。 这几天的推特因为这篇2...