Workflow
Large Language Model
icon
搜索文档
DeepSeek技术溯源及前沿探索报告
浙江大学· 2025-05-22 09:20
报告行业投资评级 未提及 报告的核心观点 报告围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍语言模型的目标、任务、编码方式及发展历程,阐述Transformer的理论架构和训练机制,分析ChatGPT的发展及能力,探讨DeepSeek的技术创新和全栈影响,还提及新一代智能体的构成和能力[6][32][87][107][132] 根据相关目录分别进行总结 语言模型 - 终极目标是计算任意词序列是一句话的概率,基本任务是编码让计算机理解人类语言,编码方式有One - hot Encoding和Word Embedding,Word Embedding用低维词向量表示词,能使相近向量对应物体含义相近,语言模型发展经历基于统计的N - gram、基于神经网络的LSTM/GRU和Transformer阶段,还有Encoder - Decoder框架用于解决Seq2Seq问题[6][9][13][22][24] - 自监督学习包括语言的Masked Langauge Modeling和图像的Masked AutoEncoders,训练transformer需要数据、模型和算力,如ChatGPT训练使用45TB数据、近1万亿个单词和数十亿行源代码,包含1750亿参数,训练门槛是1万张英伟达V100芯片、约10亿人民币[55][57][62] Transformer - 理论架构创新包括自注意力机制、多头注意力和前馈网络/位置编码/层归一化,其注意力机制在语言任务中捕捉单词间关系,在图像任务中进行图像特征抽取,是大模型的技术基座[32][34][37] ChatGPT - 大型语言模型发展历经多个阶段,GPT - 3是语言模型转折点,有1750亿参数和涌现能力,ChatGPT是人工智能的IPHONE时刻,其训练基于GPT - 3.5,使用人类反馈的强化学习和近端策略优化算法微调[76][78][82] - GPT - 3系列和GPT - 3.5系列通过代码训练和指令微调增强能力,ChatGPT触发翔实回应、公正回应、拒绝不当问题和拒绝知识范围外问题的能力,多模态模型发展有开源的Meta的LLaMA系列、GPT - 4v和GPT - 4o等,各有不同能力提升[84][88][91] DeepSeek - 推理模型从生成到推理重心转变,DeepSeek - V3/R1是专家模型、强化学习、开源且高效,其技术全景图包括DeepSeek - V3 Base、DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill阶段,采用动态路由机制和专家共享机制,有极致工程优化[107][108][113] - DeepSeek - V3对标GPT - 4o,DeepSeek - R1对标OpenAI - o1,通过不同阶段训练提升推理能力和全场景能力,DeepSeek - R1 - Distill模型基于低参数量通用模型微调,可大幅提升性能和压缩参数[111][117][120] - 带来全栈影响,涉及大模型应用层、中间层和基础模型层,应用于教育、医疗等多个领域[121][122] 新一代智能体 - 从LLM到Agent发展,新一代智能体= Agent + LLM,LLM是Agent大脑,核心能力是逻辑推理,具备规划技能、工具使用和记忆能力,还有时空型GPT驱动的闭环多智能体协同系统实现时空智能自主化构建[126][132][137]
Did Elon Musk Just Give Nvidia Investors 40 Billion Reasons to Cheer?
The Motley Fool· 2025-05-17 05:00
Elon Musk's AI start-up appears to be eyeing more Nvidia GPUs.When it comes to training generative AI models, Nvidia's (NVDA 0.28%) graphics processing units (GPUs) are hailed as the gold standard among industry experts. That's not exactly a novel conclusion considering the semiconductor powerhouse has amassed an estimated 90% or more of the GPU market.The more subtle idea here is how exactly Nvidia built such a gigantic lead over the competition. While it does not explicitly specify which companies buy its ...
Meta delays release of flagship ‘Behemoth' AI model as engineers struggle: report
New York Post· 2025-05-16 07:15
Meta Platforms延迟发布Behemoth AI模型 - 公司因技术能力问题推迟旗舰AI模型Behemoth的发布,工程师难以显著提升其性能[1] - 内部员工质疑该模型相比早期版本的改进是否足以支持公开发布[1] Behemoth模型发布时间线 - 最初计划在4月Meta首届AI开发者大会期间发布[2] - 后内部目标推迟至6月,现进一步延迟至秋季或更晚[2][3] 模型技术定位 - 公司称Behemoth为"全球最智能的LLM之一"及"迄今最强大模型"[3][5] - 该模型被设计用于指导公司新一代AI模型的训练[3] 同期其他模型发布 - 4月已发布Llama系列新版本Llama 4 Scout和Llama 4 Maverick[5]
Meta Reportedly Delays 'Behemoth' AI Model: What This Could Mean for Its AI Tools
CNET· 2025-05-16 06:18
Meta reportedly has pushed back the release of its Behemoth large language model for its artificial intelligence tools, delaying it until the fall. Behemoth was originally planned to release in April to coincide with Meta's first AI conference, LlamaCon, but it was delayed until June before this latest delay, according to a report by The Wall Street Journal on Thursday.Meta released Llama 4 in April. Llama -- Large Language Model Meta AI -- is Meta's family of LLMs. But Meta AI engineers are concerned the c ...
Cerence(CRNC) - 2025 Q2 - Earnings Call Transcript
2025-05-08 06:02
财务数据和关键指标变化 - Q2营收7800万美元,超出7400 - 7700万美元的指引上限,预计本财年剩余时间无重大固定许可收入合同签署 [4][17] - 与去年同期相比,Q2营收增加1020万美元,主要因固定许可收入增加1110万美元,但专业服务收入减少有所抵消;受欧元兑美元汇率波动影响,营收受到负面影响,但对盈利能力无影响 [18] - Q2毛利率77%,超出74% - 76%的指引上限,技术收入在营收组合中的占比高于预期 [18] - 非GAAP运营费用为3410万美元,较去年同期的5000万美元减少1590万美元(32%),主要源于去年底的重组努力、研发招聘延迟、欧洲子公司运营成本降低以及国际税收抵免 [19] - 调整后EBITDA为2950万美元,超出1800 - 2200万美元的指引上限,较去年同期约30万美元的EBITDA亏损改善2980万美元 [20] - Q2净利润为2170万美元,去年同期净亏损2.78亿美元,去年同期记录了2.52亿美元的商誉减值费用 [20][21] - 本季度末现金及可交易证券为1.228亿美元,较上季度末增加1230万美元,源于本季度1310万美元的正自由现金流 [21] - 可变许可收入为2990万美元,较去年同期增加480万美元(19%),略高于预期;固定许可收入为2150万美元,去年同期为1040万美元;连接服务收入为1260万美元,较去年同期的1360万美元下降100万美元(7%),但去年同期记录了260万美元的收入调整 [21] - 专业服务收入同比下降约480万美元,降幅略高于预期,因解决方案标准化程度提高,部分OEM将集成工作内部化 [22] - 总调整后账单为2.24亿美元,过去12个月与去年持平;Q2总账单(包括专业服务)为7770万美元,与去年同期相当 [23] - 预估版税为3970万美元,与去年同期相当 [24] - 上季度固定许可合同的消费量为970万美元,较去年同期下降约33%,符合预期 [25] - 截至本季度末的过去12个月,全球汽车生产渗透率为51%;Q2搭载Cerence技术的汽车发货量为1160万辆,与去年同期持平,环比下降1.3%;Q2全球IHS汽车产量同比增长1.3%,环比下降10.9%;不包括中国,全球汽车产量同比下降3%,环比下降1% [25] - 使用公司连接服务的汽车产量在过去12个月内同比增长10%,反映出对联网汽车的需求增加 [26] - 过去12个月的平均每单位价格(PPU)为4.87美元,高于去年同期的4.51美元,主要受连接服务附加率提高推动,本季度29%的车辆已连接,去年同期为26% [27] - 五年积压订单指标目前约为9.6亿美元,与两个季度前持平 [28] - 预计Q3营收在5200 - 5600万美元之间,无重大固定许可收入;预计毛利率降至66% - 68%,净亏损在1000 - 1300万美元之间,调整后EBITDA在100 - 400万美元之间 [29] - 重申本财年营收指引在2.36 - 2.47亿美元之间,预计盈利能力和自由现金流将好于原预期;预计全年调整后EBITDA在2800 - 3400万美元之间,自由现金流在2500 - 3500万美元之间 [29][30] - 计划用手头现金偿还6010万美元的2025年可转换债券,之后预计本财年剩余时间现金余额保持在7000万美元以上 [30] 各条业务线数据和关键指标变化 - **许可业务**:可变许可收入增长,固定许可收入增加,预估版税与去年同期相当,上季度固定许可合同消费量下降 [21][24][25] - **连接服务业务**:收入略有下降,但使用连接服务的汽车产量增加,反映出对联网汽车的需求增加 [21][26] - **专业服务业务**:收入同比下降,因解决方案标准化和部分OEM内部化集成工作 [22] 各个市场数据和关键指标变化 - 全球汽车生产方面,截至本季度末的过去12个月渗透率为51%,Q2搭载Cerence技术的汽车发货量与去年同期持平但环比下降,全球IHS汽车产量同比增长但环比下降,不包括中国的全球汽车产量同比和环比均下降 [25] - 中国市场对全球汽车产量季度环比下降有较大影响,公司尚未真正向中国国内市场的OEM销售产品 [26] 公司战略和发展方向和行业竞争 - 尽管面临宏观挑战和不确定性,公司仍专注于未来,凭借技术创新、多元化客户群和深厚的汽车专业知识保持差异化 [5] - 与CodeFactory合作推出Voice Topping解决方案,将对话式AI应用于自助服务亭,预计在2026财年及以后对营收和盈利能力产生影响 [9] - 战略投资于IP保护,对三星、微软和Nuance提起诉讼,以保护公司的创新技术 [10] - 推进2025年的三个关键交付成果:继续开发Cerence XUI平台,实现市场推出并与客户合作展示,计划扩展功能和语言支持;与新老客户扩大业务,多个主要客户项目开始生产;继续进行转型和成本管理,改善现金流和盈利能力 [11][14][15] - 努力扩大与分销商的合作伙伴关系,以加强汽车业务 [8] - 加速业务多元化,探索非汽车领域的新垂直市场,如与CodeFactory合作的自助服务亭项目 [9][102] 管理层对经营环境和未来前景的评论 - 对Q2业绩感到满意,对全年前景充满信心,但认识到存在宏观风险和不确定性 [33] - 基于当前信息,相信能够实现Q3和2025财年的指引 [33] - 认为关税对本季度业绩影响有限,预计Q3影响仍将有限,但客户在定价和项目时间表上有压力,公司与客户合作优化合作关系 [6][7] - 看到消费者对AI功能的需求推动了PPU的增加和连接服务的增长,对业务发展持积极态度 [45] 其他重要信息 - 公司将参加5月29日的T.D. Cowan技术、媒体和电信会议以及6月10日的Evercore ISI全球汽车OEM、经销商和供应商会议 [4] - 幻灯片和新闻稿可在公司网站的投资者板块获取 [3] 总结问答环节所有的提问和回答 问题1:请解释账单减速至0%但联网汽车加速增长的原因,以及这些指标对未来轨迹的指示作用 - 公司整体销量符合预期,略有上升;联网率上升表明更多汽车在整体销量中实现联网,联网汽车发货时产生账单,但收入在订阅期内摊销,因此联网率增加是积极信号,未来收入有望增长 [36] 问题2:新连接收入增长,是否可以预期在Q3、Q4继续增长,是否有一次性因素 - 新连接收入增长8%,本季度确认的收入来自之前的账单摊销;基于过去的账单情况,预计未来连接收入将增加,但汽车销售、连接和收入确认之间存在时间差 [38][39] 问题3:AI对连接业务增长的驱动因素是什么,以及对PPU的影响 - AI已渗透到车辆中,无论是嵌入式还是连接式汽车。嵌入式车辆中,大语言模型可实现无需特定关键词的车辆控制;连接式汽车中,AI可实现外部信息查询等功能,这些都驱动了消费者需求、PPU增加和连接服务增长 [42][45] 问题4:宏观因素会在哪些方面影响公司业务 - 宏观因素可能体现在客户定价和行业整体销量上。部分OEM因成本压力要求降价,公司通过优化软件需求和提供更好价格来应对;销量方面,公司大量业务在海外,美国的关税和影响可能不完全直接反映在公司业绩上 [46][48] 问题5:维持2025财年指引不变,专业服务减少和技术收入增加的具体情况及原因 - 专业服务面临一定逆风,但技术收入增加主要来自连接业务的增长和许可业务量的提升,同时公司减少固定合同的签订,避免了折扣,提高了有效价格 [52][53][54] 问题6:与MediaTek合作的边缘解决方案中,MediaTek带来了什么 - 这是与NVIDIA、MediaTek的三方合作,NVIDIA和MediaTek合作开发适用于汽车的核心芯片(SoC),公司与他们合作集成软件,优化性能、降低成本,减少对专业服务的需求 [57][58] 问题7:对微软提起诉讼的目的是什么 - 目的是保护公司的知识产权,确保公司在技术开发上的投资得到保护,不涉及其他额外目标 [60][61] 问题8:PPU在未来12 - 24个月的走势如何 - PPU受多种因素影响,包括定价压力、技术采用率、整体销量和连接汽车数量等,存在正负因素,目前无法提供未来指引,但过去12个月呈积极趋势 [83][84] 问题9:对微软提起诉讼的原因,以及是否意味着微软开始与公司竞争 - 诉讼主要是为了保护公司的知识产权,目前处于活跃诉讼阶段,无法提供更多细节;公司与微软仍在业务上合作,诉讼是独立问题,不影响双方的技术合作 [87][89][90] 问题10:关税是否会增加公司产品的客户兴趣 - 难以将客户兴趣与关税直接联系起来,公司认为技术本身是吸引客户的关键,如在上海车展展示的多模态功能受到消费者和OEM的喜爱;如果公司需要提高价格,需要提供更多功能以满足客户需求 [96][98] 问题11:请介绍非汽车领域的机会和潜在收入时间 - 公司与CodeFactory合作将汽车领域的大语言模型技术应用于自助服务亭,通过合作伙伴进行市场推广,成本效益高;目前正在探索其他垂直市场,但仍处于初期阶段,预计在2026财年及以后对营收产生影响 [102][103][104]
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
机器之心· 2025-05-01 10:11
核心观点 - 2015年发表的论文《End-To-End Memory Networks》虽被Transformer的光芒掩盖,但已包含当前大型语言模型(LLM)的核心要素,如多层注意力机制、位置嵌入等 [2][8][22] - 该论文被引量仅3000+,远低于Transformer论文的17万+,但其创新性被行业低估 [3][9] 技术突破 - **注意力机制创新**:首次完全用注意力替代RNN,引入带键值投影的点积软注意力,并堆叠多层注意力结构 [8] - **位置嵌入**:为解决注意力顺序不变性问题引入时间嵌入(现称位置嵌入),现已成为LLM标准技术 [18][22] - **推理能力验证**:首次证明多层软注意力可产生复杂推理能力,奠定现代AI架构基础 [13] 研究背景 - 研究始于2014年FAIR实习项目,受导师Rob Fergus推动探索记忆机制,基于Jason Weston团队《Memory Networks》改进 [16] - 使用bAbI任务基准测试,发现RNN在无序多事实查询任务中的缺陷,促使转向注意力机制 [16][18] 关键实验 - 2014-2015年冬季实验显示:采用点积软注意力的记忆网络性能显著优于基线,尤其在语言建模任务中击败LSTM [18][19] - 创新技术包括键值分离投影、时间嵌入添加随机噪声等 [18][19] 行业影响 - 论文预见性:10年前已实现无RNN的纯注意力语言模型,其多层注意力结构和位置嵌入现被GPT等主流模型采用 [22] - 后续发展:Meta团队2024年发布《Multi-Token Attention》论文,进一步优化长上下文处理能力,解决"大海捞针"类任务 [26] 对比研究 - Transformer的改进:引入前馈层、多头注意力等,但核心思想源于早期注意力机制研究 [25] - Bahdanau等人2015年论文《Neural Machine Translation by Jointly Learning to Align and Translate》被行业认为是最早提出注意力机制的论文,但关注度仅为Transformer的1% [12]
阿里Qwen3问鼎开源王座!8款模型全面开放,最大杯全方位超越R1/o1,网友:让开源再次伟大
量子位· 2025-04-29 07:25
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 千呼万唤,Qwen3终于来了! 一口气上新8大模型,通通开源。 旗舰模型Qwen3-235B-A22B全方位超越R1、o1、o3-mini,最大杯稠密模型也以32B参数量达到了可观水平。 | | Qwen3-235B-A22B | Qwen3-32B | OpenAl-o1 | Deepseek-R1 | Grok 3 Beta | Gemini2.5-Pro | Open Al-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | MoE | Dense | 2024-12-17 | | Think | | Medium | | ArenaHard | 95.6 | 93.8 | 92.1 | 93.2 | - | 96.4 | 89.0 | | AIME'24 | 85.7 | 81.4 | 74.3 | 79.8 | 83.9 | 92.0 | 79.6 | | AIME'25 | 81.5 | 72.9 | 79.2 | 70.0 | 77.3 | 86.7 | 74.8 | ...
The Second Half:一位 OpenAI 科学家的 AI 下半场启示录
海外独角兽· 2025-04-17 14:26
AI发展阶段的划分 - AI发展已进入下半场,从单纯解决问题转向定义问题和评估模型效果 [6][7] - 上半场核心在于训练方法创新,如Transformer、AlexNet、GPT-3等模型突破 [9] - 上半场训练方法论文引用量远超benchmark论文,如Transformer引用16万次vs WMT'14的1300次 [9][11] 强化学习(RL)的突破 - RL获得泛化能力,能同时处理软件工程、创意写作、数学问题等多样化任务 [8] - RL三大要素中,先验知识(priors)重要性超过算法和环境 [13][14][15] - 语言模型pre-training为RL提供了关键先验知识,但直接应用于控制领域效果不佳 [20][21] AI有效配方 - 核心配方包含:大规模语言预训练、算力数据扩展、推理与行动理念 [12] - 语言通过agent reasoning实现泛化,如ReAct框架结合推理与行动 [25][26] - 环境设计重要性凸显,OpenAI曾开发Gym、World of Bits等标准化RL环境 [18][19] 评估方法的转变 - 传统i.i.d评估假设与现实不符,需开发考虑长期记忆和连续任务的评估方式 [30] - 自动评估假设被质疑,真实人机交互评估如Chatbot Arena更具现实意义 [28][30] - 效用问题成为关键,AI需从攻克benchmark转向创造实际经济价值 [28][30] 行业影响与趋势 - 通用配方使渐进式改进价值降低,5%专项优化可能不如30%的通用模型提升 [26][28] - 下半场将催生万亿级公司,通过智能产品化实现商业价值 [30] - 行业需重新思考问题定义,产品经理类技能将更受重视 [7][28]
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
量子位· 2025-04-03 10:12
模型性能对比 - Claude-3.5-Sonnet在PaperBench基准测试中断崖式领先,第二名o1-high分数仅为第一名的60%,第三名DeepSeek-R1分数为第二名的一半[6] - GPT-4o表现超过推理模型o3-mini-high成为亮点[7] - 测试成绩数据:21.0 ± 0.8(Claude-3.5-Sonnet)、13.2 ± 0.3、6.0 ± 0.3、4.1 ± 0.1、3.2 ± 0.2、2.6 ± 0.2[9] 测试方法革新 - PaperBench相比去年10月MLE-Bnch测试更注重综合能力,要求复现ICML 2024论文全过程(理解/编码/实验)[3][4] - 选取20篇ICML 2024 Spotlight和Oral论文,涉及深度学习/概率方法/强化学习等8个领域,包含8316个可评分任务[15][17] - 采用开卷考试模式,允许有限联网搜索但屏蔽原论文代码库[18] 评估流程设计 - 三阶段流程:创建代码库→GPU执行→自动评分,全程在Ubuntu容器中完成[20] - 采用分级评分标准,按叶节点/父节点逐级评估,核心指标为论文平均复制分数[19] - 使用o3-mini作为裁判模型性价比最高,单篇论文评分成本66美元,比人类专家更经济高效[22][23] 人机对比实验 - AI在工作1-6小时内进度快于人类顶尖ML博士,12-24小时阶段持平,人类需24-48小时才能超越AI[11][12] - 测试显示AI裁判模型o1-mini的F1分数达0.78,接近人类专家0.84的水平[24] 技术开源进展 - 评估所需的代码/数据/Docker镜像已在GitHub逐步开源[25][26] - 公开了BasicAgent和IterativeAgent的系统Prompt模板,强调分步执行/代码规范/时间优化等原则[28][29][30][31] - 提供完整任务指令模板,包含资源说明/提交要求/代码示例等要素[34][36]
招生 | 人大信院AIM3实验室招收人工智能方向学生
量子位· 2025-03-16 13:37
文章核心观点 介绍中国人民大学AIM3实验室的相关信息,包括实验室概况、导师、科研成果、学生培养、氛围、招生计划和申请条件等,吸引有科研热情的人加入 [1][3][4][5][8][11] 实验室概况 - 隶属于中国人民大学信息学院-计算机系-感知与交互智能计算研究室,研究多模态智能计算,关注大语言模型等方向 [1] - 中国人民大学是“985工程”“211工程”重点建设大学,信息学院计算机专业是国家级特色专业建设点,在教育部第五轮学科评估中评为A,在国际计算机学科排行榜CSRankings统计中,在人工智能和数据库等领域排名位居世界前列 [2] 导师介绍 - PI金琴老师毕业于清华大学和卡内基梅隆大学,现为人大信息学院教授,在顶会顶刊发表论文百余篇,谷歌学术引用超8000次,入选人工智能全球女性学者榜单等 [3] - 青年教师王文轩老师2024年毕业于香港中文大学,研究方向为人工智能大模型,博士期间发表顶会论文二十余篇,指导本科生经验丰富 [3] 科研成果 - 近三年在人工智能顶会上发表论文五十余篇,课题组成员多次进行学术报告 [4] - 积极参与国际权威比赛并获诸多奖项,如蝉联CVPR 2018 - 2020 ActivityNet视频描述挑战赛冠军等 [4] 学生培养 - 组内学生成果突出,近三年7人次获国家奖学金,2人次获百度奖学金 [5] - 毕业生去向良好,主要前往知名科研院所继续科研或互联网大厂从事算法研究 [5] 实验室氛围 - 研究氛围好,学生可自主选课题,经费充足,显卡资源丰富,提供设备支持研究 [5] - 与头部互联网企业和海外院校保持合作,学生可前往实习访问 [5] - 导师重视学生成长,定期组织运动和团建,成员自主设计实验室周边 [6] 招生计划 - 2026年可招收并指导博士生2名、学硕3名、专硕3名、访问生若干,可联系金琴老师或王文轩老师 [8] 申请条件 - 双一流或同等水平学校学生,综合排名前20%,有科研经历优先 [11] - 对科研有热情,踏实专注有毅力,有良好自主学习能力,具备扎实英语功底和编程能力 [11]