Workflow
AGI
icon
搜索文档
中美AI巨头都在描述哪种AGI叙事?
腾讯研究院· 2026-01-14 16:33
文章核心观点 - 2025年人工智能领域的技术发展标志着“暴力美学”时代的终结,行业从单纯依赖堆砌参数转向深化基础研究,以突破通用人工智能的瓶颈 [5] - 技术进步主要集中在流体推理、长期记忆、空间智能和元学习四大领域,旨在解决模型在即时推理、长期记忆和视觉处理等方面的能力偏科问题 [6] - 通过测试时计算、新型记忆架构、世界模型和元学习等方向的突破,行业在“补短板”方面取得了显著成功,为模型能力的整体提升和未来演进奠定了基础 [7] 流体推理的进化 - **测试时计算的范式革新**:智能被重新定义为不仅是参数的函数,也是时间的函数,以OpenAI o1和DeepSeek R1为代表的模型通过在推理阶段投入更多计算资源进行“慢思考”,实现了推理能力从0到8的质变 [11][12][13] - **强化学习工程优化**:强化学习在提升推理能力中扮演关键角色,其工程可拆分为探索策略、评分系统和参数更新算法三部分,2025年后两部分有明显发展 [15] - **评分系统革新**:基于可验证奖励的强化学习和稀疏奖励指标全面崛起,通过给予模型对错结论作为奖励信号,使其能自发探索推理过程,大幅提升了在数学、代码等领域的能力 [16][17] - **参数更新算法革新**:GPRO算法流行,它通过让模型生成一组答案并计算平均分来替代传统的评论家模型,节省了50%的显存,成为国内各家公司在2025年延展的基础框架 [19] - **强化学习存在天花板**:研究发现强化学习的性能增长符合S型曲线而非幂律,存在性能天花板,但其工程实践(如使用长思维链和大批量大小)已变得更加精确和可预测 [21][23] 记忆与学习 - **记忆能力是短板**:长期记忆存储是通往通用人工智能得分中仍为0的能力分支,缺乏记忆导致模型无法在现实中自我学习,且个性化体验难以实现 [25][26] - **Titans架构突破**:这是一个深度的神经长期记忆模块,能在推理时实时更新自身参数,根据输入信息的“惊奇度”决定存储内容,并引入遗忘机制,从根本上挑战了Transformer的无状态假设 [28][29][30][31] - **Nested Learning架构**:将模型参数按低、中、高频率分层更新,使整个模型参数非冻结,能够持续学习和保有长期记忆,其成本低于传统的监督微调和强化学习方法 [31][33] - **RAG的模型化演进**:检索增强生成系统从静态资料库演变为具备反思与进化能力的系统,例如ReMem引入了“行动-思考-记忆-优化”的全链路处理,能对记忆进行修剪、重组和清理,实现经验复用 [35][36][38] - **克服灾难性遗忘**:通过稀疏记忆微调等方法,模型在注入新知识时仅更新部分参数槽位,在TriviaQA任务中仅导致11%的旧知识遗忘,远优于全量微调的89% [39][40] - **策略蒸馏进步**:在策略蒸馏结合了强化学习的采样和监督微调的密集反馈,让学生模型在自己的“犯错分布”中学习,提供了一种低成本且避免遗忘的参数更新方式 [42] 空间智能与世界模型 - **视觉处理能力提升**:在Sora 2、Veo 3等视频生成模型爆发的推动下,视觉处理能力从2024年的0分提升至2025年的5分,模型开始展现出对物理规律的掌握 [45] - **自监督生成模型的缩放定律**:视觉自回归模型和扩散Transformer被证实遵循特定的缩放定律,例如DiT模型对批量大小和学习率高度敏感,但遵循特定定律后能力可大幅提升 [46][47] - **原生多模态的优势**:研究发现,尽管训练效率较低,但原生多模态架构在参数利用率上可能比晚期融合架构有更高的性能上限 [49] - **VAE的替代方案**:SVG模型通过直接用图像理解模型代替变分自编码器,统一了语义空间,据称训练效率提升6200%,并在多项指标上击败了扩散Transformer和SDXL [50] - **符号主义的世界构建**:以李飞飞团队Marble平台为代表,其基于3D高斯泼溅等技术,从多模态输入生成可探索的3D空间表示,追求更稳定和可控的生成效果 [53][55][56] - **预测即理解的路径**:Meta的V-JEPA 2通过预测被遮挡的视觉内容来学习物理规则的表征,在使用超100万小时视频训练后,模型展现出了反事实预测的能力 [57][58][59] 元学习 - **元学习的核心价值**:赋予模型“学习如何学习”的能力,使其能通过少量样本快速适应新问题,是实现低成本快速适应和应对未知世界的关键 [62][63] - **对上下文学习的重新审视**:有研究认为上下文学习可能只是激活了预训练知识而非真正学习,这与元学习理念不同,但2025年出现了利用改进的上下文框架进行元学习的新尝试 [64][65] - **测试时计算催生隐式元学习**:研究证明模型在推理时的长思维链探索本质上是寻找最优路径,通过优化探索策略(如最小化累积遗憾)可以引导模型学会如何分配算力进行有效思考 [66][69] - **显式元学习系统的探索**:例如DiscoRL系统,通过内外双层循环让AI自主发现学习算法,其发现的Disco57算法在雅达利基准上击败了人类设计的顶级算法,并展现出强大的泛化能力 [70][72] - **中训练路径**:介于预训练和强化学习之间,让智能体通过自主探索产生后果并反思,以建立因果模型,在复杂环境中的成功率平均提升9.6% [72][73] 其他关键技术进展 - **对抗数据与算力瓶颈**:行业通过混合专家模型、合成数据与强化学习结合来突破瓶颈,例如利用DeepSeek-R1生成的长思维链数据对小模型微调,效果优于人类专家编写的数据 [81][82] - **数据质量重于数量**:研究表明数据达到一定规模后存在冗余,筛选前10%最长、最复杂的推理路径样本进行训练,其效果可匹配甚至超越全量数据集 [83] - **合成数据与模型崩溃**:大规模使用合成数据可能导致模型崩溃,但通过自我验证机制过滤(如设定置信度阈值)或使用另一个模型作为裁判进行清洗,可以有效缓解此问题 [85][86] - **小模型能力的飞跃**:蒸馏技术的进步是关键,包括针对混合专家模型的特化蒸馏方案(学习所有专家的“暗知识”)以及思维融合蒸馏(提取多个教师模型的稳健推理逻辑) [88][90][92] - **注意力机制演进**:多头潜在注意力及其变体普及,用于降低显存占用;线性注意力通过混合架构(如Kimi Linear的3:1设计)在性能上首次全面超越全注意力,并在1M上下文解码时吞吐量达到全注意力的6.3倍 [94][96] - **连续空间建模**:大型概念模型和连续自回归语言模型等尝试打破离散词元的限制,通过预测连续概念向量来提升语义带宽和推理速度 [97][100] 2026年可能的技术方向 - **记忆工程化实践**:记忆技术预计将在2026年迎来大规模工程化落地,涉及架构层革新或现有RAG、监督微调技术的精修,以实现持续学习和个性化智能体 [103][104] - **标准架构变革**:模型架构可能向分区、分层、增加功能层(如记忆层)的混合架构演进,以更贴近人脑运作模式,补齐能力短板 [105][106] - **自进化AI的探索**:在记忆、合成数据和元学习等技术完善的基础上,能够让AI进行自我对弈、自我算法优化的自进化研究将在2026年产生更多可能性 [107][112]
大模型时代小公司,怎么走出OpenAI的路
新财富· 2026-01-14 16:05
文章核心观点 - 当前大模型行业的技术范式仍由OpenAI确立的Scaling Law主导,并未发生第二次革命,初创公司难以复制OpenAI的成功路径 [9][13][14] - 行业已从“百模大战”进入整合阶段,在巨头倾轧和DeepSeek改写规则后,仅有少数基座模型初创公司存活 [17][22][23] - 初创公司的生存之道在于避开与国内大厂(腾讯、字节、阿里)在主航道的正面竞争,在既有范式下分化出独特的、可持续的商业模式 [25][26][42] 行业格局演变:从百模大战到巨头主导 - **市场整合**:2023-2024年的“百模大战”后,基座模型初创公司几乎仅剩智谱、月之暗面、MiniMax三家 [17][23] - **规则改写者**:DeepSeek的出现终结了“百模大战”,其通过**降低成本**、**开源路线**,将模型从“稀缺资产”变为“基础材料”,迫使行业改变认知 [18][19][20][21] - **巨头策略**:国内大厂选择将模型能力基础设施化或深度绑定自身生态,挤压了初创公司的独立生存空间 [22] - 阿里巴巴将模型开源并与云服务深度绑定,使其成为获客工具 [22] - 字节将模型能力快速嵌入剪映、飞书等高频产品,吃进产品体验 [22] - 腾讯将模型深度嵌入微信生态,形成封闭内循环 [22] 领先AI初创公司的资本市场表现 - **智谱华章**:于2026年1月8日在港交所上市,发行价116.2港元,公开发售超额认购约**1159倍**,首日涨**13.17%**,后续市值一度达**900亿港元**,IPO募资约**43亿港元**,其中**70%**(约29亿港元)用于大模型研发 [3][38] - **MiniMax**:于2026年1月9日在港交所上市,发行价165港元,公开发售超额认购约**1800多倍**,首日暴涨**109.1%**,市值突破**1000亿港元**,IPO募资约**42亿港元**,其中**70%** 用于大模型开发 [5][38] - **月之暗面**:在2026年初完成**5亿美元**C轮融资,投后估值达**43亿美元**,公司现金储备超**100亿元**,将用于加速K3模型训练 [38] 成功初创公司的差异化生存路径 - **MiniMax:出海聚焦细分场景** - 避开国内超级App竞争,主攻海外市场,围绕**陪伴、互动、创作**等非标准化、高情绪权重的场景进行快速迭代验证 [27][28][29] - **智谱华章:深耕To G/To B“脏活累活”** - 面向政企、金融、能源等复杂场景,提供**私有化部署和深度定制**服务,以工程能力和执行力换取生存空间,成为“最能被嵌进去的模型” [30][31][33] - 作为“独立模型公司”,在B端相比大厂具有更独立的优势 [32] - **月之暗面(Kimi):单点极致突破** - 极度克制,专注**长文本理解和知识型对话**单一场景,将资源集中于上下文长度、信息密度和稳定性,在特定维度做到极致 [34][35][36] 其他细分领域的产品创新案例 - **Lovart**:专注于设计领域的AI Agent产品,集成市面上优秀的图片、视频大模型(如Nano Banana、Midjourney、GPT等),通过“无边画布”和自动化流程服务专业设计师,其订阅制价格从每年**192美元**到**1188美元**不等 [39][40][41] - **行业启示**:类似Perplexity(搜索)、Cursor(编程)等公司,成功关键在于**避免进入大厂主战场**,在垂直细分领域创造独特价值 [42]
中国人形机器人闪耀CES展,机器人ETF易方达(159530)近一月净流入超20亿元
每日经济新闻· 2026-01-14 14:10
市场表现与资金流向 - 截至10:45,国证机器人产业指数上涨1.7% [1] - 成分股中,富临精工涨超11%,天智航-U、科大讯飞涨超5%,利元亨涨超4% [1] - 截至昨日,机器人ETF易方达(159530)近一月净流入超20亿元 [1] 行业动态与竞争力 - 近期国际消费类电子产品展览会(CES展)中,机器人获得重点关注 [1] - 在38个人形机器人展位中,中国企业占据了21个,中国的人形机器人制造商占据主导地位 [1] - 人形机器人在近期CES展中大放异彩,我国产业链快速发展,具有极强的竞争力 [1] 投资观点与产业链 - 简单机器人的量产对投资的影响会边际变弱,但AGI(通用人工智能)的叙事有望边际变强 [1] - 看好具备构建大脑能力的领跑公司及产业链,包括特斯拉核心产业链和具有垂直场景的本体公司 [1] - 国证机器人产业指数聚焦人形机器人本体和核心零部件,覆盖三花智控、领益智造等人形机器人零部件产业链公司,合计占比约80% [1] 相关金融产品 - 机器人ETF易方达(159530)是目前跟踪国证机器人产业指数规模第一的ETF产品 [1] - 该产品可助力投资者便捷布局人形机器人产业链核心企业 [1]
梁文锋旗下幻方量化去年收益率56.6%,位列百亿级量化基金业绩榜第二
新浪财经· 2026-01-14 14:06
幻方量化业绩表现 - 2025年收益均值达56.55%,在中国管理规模超百亿的量化私募中位列第二[1][4] - 近三年收益均值为85.15%,近五年收益均值为114.35%[1][4] - 目前管理规模已超700亿元,2019年破百亿元,2021年一度突破千亿元[1][4] 幻方量化与DeepSeek的关联 - 幻方量化由创始人梁文锋于2008年创立,是一家有数学、计算、研究和AI基因的对冲基金[1][4] - 公司丰厚的业绩为梁文锋旗下的DeepSeek提供了充足的研发资金[1][4] - 2023年4月,幻方量化宣布全力投身人工智能技术,并孵化出杭州深度求索人工智能基础技术研究有限公司(DeepSeek)[2][5][6] 幻方量化的AI技术布局 - 2016年10月,公司第一个由深度学习算法模型生成的股票仓位上线实盘交易[1][4] - 至2017年底,公司几乎所有的量化策略都已采用AI模型计算[1][4] - 2019年12月,成立幻方AI(杭州幻方人工智能基础研究有限公司),致力于AI算法与基础应用研究[1][4] - 公司斥巨资打造了“萤火一号”和“萤火二号”AI研究设施[1][4] DeepSeek的技术突破与市场影响 - 2025年1月,DeepSeek的R1模型发布后彻底火爆,成为AI行业最大“黑马”[2][6] - R1推理模型能力达行业顶尖水平,训练成本比竞争对手低一个数量级以上[2][6] - 通过自研的稀疏注意力机制(DSA)等技术,在长文本处理等任务上实现了数倍的推理速度提升和显著的内存节省[2][6] - 公司通过开源策略构建了强大的生态影响力[2][6] DeepSeek的最新动态与未来计划 - 2025年1月12日晚,DeepSeek与北京大学团队共同发布新论文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》[3][6] - 同日,DeepSeek开源了相关记忆模块Engram[3][6] - 近日有消息称,DeepSeek将于2月发布新一代旗舰AI模型DeepSeek V4,该模型具备强大的编程能力,预计将对当前AI竞争格局产生重大影响[2][6]
凯基:中美AI路径或 “殊途同归” 短期因科技基础导致风格分化 长期都将通往“物理AI”
新浪财经· 2026-01-14 13:08
中美AI产业发展路径与投资逻辑分化 - 当前中美在AI产业的投资逻辑存在显著差异,美国投资重点集中于通往通用人工智能(AGI)的核心技术领域,如大语言模型(LLM)与GPU等底层硬件及基础模型研发,遵循“拓展律”(Scaling Law)[1][2] - 中国AI发展更聚焦应用层面,通过技术落地触达消费者以构建清晰商业模型,在自动驾驶、机器人、具身智能等细分赛道表现出色[1][2] - 分化根源在于产业基础与发展路径差异:美国受算力投入与模型性能领先优势推动,加码底层算力建设;中国则凭借庞大的AI人才储备与广阔市场空间,从应用端实现突破[3] 美国AI投资现状与趋势 - 美国四大云服务商(微软、亚马逊、谷歌、Meta)在2024年整体服务器支出中,GPU占比约40-55%[6] - 美国GPU资本开支正处于指数增长期,市场预计其2024-2026年复合增长率超50%[8] - 英伟达预测,2028年全球数据中心资本支出将达1万亿美元,其中GPU相关占比超50%[8] 市场焦点从AGI转向物理AI - 此前备受关注的AGI(人工通用智能)概念热度消退,近几个月市场焦点已转向物理AI(Physical AI)[4] - 物理AI属于人工窄智能(ANI),核心应用场景包括机器人、机械臂、自动驾驶车辆等,这些领域与中国当前的产业优势高度契合[4][5] - 物理AI的核心应用场景正是中国当前重点发展的机器人与自动驾驶领域[5] 全球AI产业长期趋同于物理AI - 从长期来看,全球AI产业最终将向物理AI(Physical AI)趋同[1] - 随着时间推移,全球AI产业都将向物理AI领域聚焦,这与全球AI产业从基础研发向实体应用渗透的大趋势相契合[8] - 中国在应用端的先发优势有望在长期竞争中进一步凸显[8] 美国在物理AI领域的投入与布局 - 美国在具身智能领域投入力度扩大,并获得政策战略性扶持,重点开发人形机器人、多模态感知融合、智能工厂、自动驾驶等Physical AI实际应用领域[9] - 科技巨头进行巨额投入:特斯拉已在Optimus人形机器人项目投入超40亿美元,目标2027年商业化;英伟达投入超100亿美元构建Physical AI全栈平台;谷歌旗下DeepMind投入50亿美元用于机器人研发[9] - 市场预计,2025-2026年美国在物理AI领域的总投入将在500亿美元以上[9]
DeepSeek母公司去年进账50亿,够烧2380个R1
猿大侠· 2026-01-14 12:11
公司核心状况与战略定位 - 公司(DeepSeek)自其标志性模型R1发布一年以来,未进行任何新的外部融资,也几乎没有商业化的动作,在行业内显得特立独行 [1][2] - 公司是全球唯一一家未接受外部融资、且不隶属于任何大型科技公司的独立AI实验室,其研发经费完全来自母公司幻方量化的研发预算 [36][39] - 公司坚持纯粹的研究导向,专注于通用人工智能(AGI)的研发,模型开源、不急于产品化,资源分配上全仓押注底层训练而非高并发的应用场景 [27][28][31] 母公司财务支持与可持续性 - 母公司幻方量化在2025年业绩表现极为突出,旗下基金平均收益率达56.6%,管理的资产规模超过700亿元人民币 [8][9] - 据估算,幻方量化2025年通过管理费和业绩提成,为创始人梁文锋赚取了超过7亿美元(约50亿人民币)的利润 [4][10] - 基于母公司强大的盈利能力,公司拥有充足且可持续的研发资金,其模型训练成本极低:V3训练成本为557.6万美元,R1训练成本仅为29.4万美元 [15] - 按此成本计算,母公司去年的利润理论上可支持再生产125个V3模型或2380个R1模型,资金充裕 [16][17][18] 研发成果与团队稳定性 - 公司在学术研究上持续高产,不断产出高水平论文,例如OCR、V3.2等技术报告,并在年底为R1模型补充了长达60多页的干货内容 [33][34] - 公司团队极其稳定,R1论文发表近一年后,18位核心贡献者全部仍在职,总计100多位作者中仅有5位离开,人才流失率极低 [53][54] - 团队甚至出现了人才“回流”现象,一位去年已离开的作者(Ruiqi Ge)今年已回归团队 [3][55][56] 独特的商业模式与行业对比 - 公司的商业模式独特,背靠幻方量化成熟的量化投资业务进行交叉补贴,使其在AGI研发道路上没有短期盈利压力,内外均无阻力 [37][38][40][42] - 与OpenAI相比,公司拥有稳定的内部现金流支持,无需像OpenAI那样为融资和商业化绞尽脑汁(如寻求芯片厂商投资、探索广告等)[22][26][48] - 与谷歌相比,公司的AI业务是原生且与主营业务(量化投资)相辅相成的,不存在传统业务拖累创新或战略冲突的问题 [45][50] - 这种“既有商业模式、又AI原生”的模式,被认为集成了谷歌(稳定收入)和OpenAI(创新敏捷)双方的优势 [50] 行业影响与外部效应 - 公司的技术动态已成为二级市场的投资风向标,其发布的“硬件设计建议”能直接影响相关芯片公司的股价 [62][67] - 例如,在V3.2模型发布仅四分钟后,寒武纪宣布完成对其框架的适配,次日股价开盘跳涨近5% [68][71] - 许多投资者将公司的技术论文当作行业研究报告来解读,并据此进行投资获利 [62][72]
深度共创 绝影与英伟达推进AGI开发
中国经济网· 2026-01-14 11:26
合作核心与战略意义 - 绝影与英伟达在CES2026期间宣布深度合作,以英伟达Drive AGX高算力平台为基石,在算子开发、模型量化等核心技术领域进行共创,共同推动智能汽车迈向AGI时代 [1] - 合作旨在赋能舱驾融合座舱、自动驾驶与端侧多模态大模型落地,通过端到端的高效解决方案推动车载AI技术规模化商业落地 [1] - 英伟达汽车业务副总裁表示,此次合作彰显了其汽车生态的实力,即将前沿AI转化为实用的车载创新 [1] 核心技术平台与工具 - 双方合作基于英伟达全新的开源C++框架TensorRT Edge-LLM,该框架专为LLM和VLM推理设计,旨在满足高性能边缘端推理需求 [1] - 通过集成支持视觉语言模型和优化推理能力的TensorRT Edge-LLM,绝影显著提升了自动驾驶系统对复杂交通场景的认知与决策能力 [1] - 经过优化的工具链使模型可快速适配英伟达DRIVE AGX Orin和Thor等主流车载计算平台 [1] - TensorRT Edge LLM的开源发布将进一步降低车载大模型的开发门槛 [2] 智能座舱应用成果 - 在智能座舱领域,绝影通过结合先进的KV-cache管理、动态序列调度及轻量化部署能力,构建了高性能的多模态智能交互系统 [2] - 采用优化的自定义注意力算子与支持FP8、INT4等多种精度的多精度量化技术,使系统在算力受限的车载平台上能对语音、视觉等多模态输入实现低延迟响应 [2] - 该系统实现了自然语言对话、智能场景推荐以及跨屏无缝指令编排,为用户提供从复杂路线规划到个性化座舱环境调节的即时、直观反馈 [2] 自动驾驶能力提升 - 长上下文支持使系统能够精准处理非结构化道路、罕见交通事件等具有挑战性的边缘场景 [2] - 工具套件的交叉编译与基准测试能力,使绝影能够快速迭代并优化自动驾驶算法,在保障安全性的前提下实现更强的场景泛化能力 [2] 未来合作方向 - 绝影将持续深化与英伟达的生态协同,依托工具链的灵活扩展能力,探索更多AI在智能出行领域的创新应用 [2]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
36氪· 2026-01-14 08:17
模型与行业发展趋势 - 模型分化已成为显性趋势,分化原因多元,包括To B与To C场景需求差异、对竞争格局的押注以及不同AI实验室的战略选择 [1] - 在To B领域,强模型与弱模型的分化会越来越明显,企业用户愿意为“最强模型”支付溢价,因为强模型(如Opus 4.5做10个任务能对8-9个)能减少错误监控成本,而弱模型(可能只对5-6个)即便更便宜也带来额外管理负担 [2][3] - 在To C场景,任务瓶颈往往不是模型不够大,而是上下文(Context)与环境(Environment)的缺失,例如回答“今天吃什么”需要个性化数据,因此利用好合规的上下文数据(如微信聊天记录)比盲目追求更强预训练模型能带来更大价值 [2] - To C场景适合模型与产品进行垂直整合的All-in-one路线,而To B(生产力应用)因涉及复杂生产环节,给了应用公司优化空间,出现了模型公司与应用公司之间的分层 [3] - 模型分化也是自然演化的结果,源于与客户的高频交流,例如Anthropic进入金融领域就是在交流中发现的机会 [3] - 模型分化的时机与竞争格局判断相关,例如智谱AI在DeepSeek出现后判断“Chatbot取代搜索”战局已定,从而选择押注编程(Coding)领域 [4] 技术新范式与自主学习 - Scaling(规模扩展)仍会继续,但需区分已知路径(通过增加数据和算力探索能力上限)与未知路径(寻找新范式,让AI系统自主定义奖励函数、交互方法和训练任务) [5][6] - Scaling Law的核心是将能源高效转化为智能,是技术、数据与品味(taste)共进的过程,探索前沿智能不会因潜在风险而停止 [8] - 自主学习是共识性极强的新范式,目标是让模型具备自反思与自学习能力,通过持续自我评估与批判来优化行为路径 [8] - 新范式的发生是一个“渐变”过程,已有信号显现,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT拟合用户聊天风格,Claude Code编写了自己项目95%的代码 [8] - 新范式发展的最大瓶颈是想象力,即需要构想出证明其实现的具体任务,例如变成一个赚钱的交易系统或解决未解科学问题 [8] - 从实际角度看,强化学习(RL)的潜力尚未被充分挖掘,下一代范式包括自主学习以及AI具备更强的主动性,未来模型可能不再需要人类提示(Prompt),而是由环境直接触发 [9] - 主动学习(Active Learning)会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向 [9] - 持续学习(Continual Learning)中,对于多智能体(Agent)串联的长程任务,若单个智能体能力未达100%,后续能力会呈指数级下降,可能需要探索类似人类睡眠的“清噪”与新计算模式 [9] - 提出了“智能效率”(Intelligence Efficiency)概念,未来范式应关注“投入多少资源能获得多少智能增量”,以解决成本瓶颈 [10] - 大模型发展借鉴人脑认知,在多模态、记忆与持续学习、以及反思与自我认知这几类人类显著领先的能力上,可能是新的突破方向 [10] - 智谱AI参考人类认知提出AI系统三模块结构:系统1(模式匹配与知识提取,对应数据与模型规模的Scaling-up)、系统2(知识融合与推理,对应Reasoning的Scaling)、自主学习(对应Environment Scaling,让模型从与外界交互中获得反馈) [10] 多模态与感知能力 - 原生多模态模型与人类的“感统”相似,能汇集视觉、声音、触觉等信息进行综合感知,但当前模型的感统能力并不充分 [11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务,如在手机、电脑等设备上持续协作 [11] - 多模态同样是Qwen的持续发展方向,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论 [11] - 从第一性原理出发,为模型提供更多生产力、更好地帮助人类,发展视觉、语音等多模态能力是自然而然的选择 [11] - 视频是更广义的表达,理解长视频是一个有意义的探索方向 [12] 智能体(Agent)的发展与产品化 - 编程(Coding)是通往智能体(Agent)的必经之路,例如智谱AI的GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题 [13] - 模型即智能体,智能体即产品,实现复杂任务对模型要求极高,因此做基础模型本身就是在做产品 [13] - 模型在To B和To C的分化同样体现在智能体上:To C产品的指标有时与模型智能不相关甚至相反;To B的智能体则更依赖模型智能提升来解决真实世界任务、创造价值 [14] - 生产力场景的智能体才刚开始,除了模型进步,环境与部署(deployment)同样重要,是创造价值的关键,即使模型不再变好,将现有模型部署到各公司也能带来10倍甚至100倍的收益,但目前AI对GDP的影响还远不到1% [14] - 未来的智能体将变成“托管式”,用户设定通用目标后,智能体在后台长时间独立运行直至完成任务,这需要自我进化(Self-evolution)与主动学习(Active Learning)能力支撑 [15] - 在通用智能体开发中,解决长尾任务更值得关注,用户感知AI的价值常因某个长尾任务被解决,今天的AGI本质上也在解决长尾问题 [15] - 通用智能体的开发见仁见智,若应用公司没有比模型公司做得更好的信息优势,那么“模型即产品”对模型公司是机会,因为许多工程问题可能只需“烧卡”即可解决 [15] - 智能体的发展可从两个维度划分四象限:目标定义(人为/自动)和任务规划(人为/自动),目前处于初级阶段(目标与规划皆由人定义),未来将发展为由大模型内生定义 [16] - 决定智能体未来走势的重要问题包括:能否真正解决人类任务并创造价值、成本有多大、以及应用公司的迭代速度是否能拉开时间窗口 [17][18] 全球AI竞赛与中美对比 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国在制造业、电动车等领域已证明,一旦某事可行,就能以极高效率复现甚至做到局部更好 [19] - 长期挑战在于文化差异,即“敢突破新范式、敢冒险的人不够多”,并面临两个现实瓶颈:光刻机突破决定的算力瓶颈,以及是否能诞生更成熟的To B市场并在国际竞争,应避免过分刷榜,更关注做“正确的事”和用户体验 [20] - 相对冷静的观点认为,中国AI超过美国的概率最乐观情况为20%,中美算力差异不仅是绝对量级(美国算力比中国大1-2个数量级),更是结构性的:美国将相当一部分算力投入下一代研究,而中国仍在解决任务交付爆发带来的算力瓶颈 [21] - 但“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施(Infra)的联合优化,这可能倒逼创新发生 [21] - 面对光刻机瓶颈,有可能从软硬结合的角度,通过下一代模型结构和芯片实现端到端(End-to-End)的突破 [21]
DeepSeek母公司去年进账50亿,够烧2380个R1
36氪· 2026-01-13 21:02
公司核心情况 - 自R1模型发布一年以来,DeepSeek未进行任何新融资,也几乎没有商业化的动作 [1] - 公司是全球唯一一家未接受外部融资且不隶属于任何大型科技公司的AI实验室 [11] - 公司的研究经费完全来自其母公司幻方量化的研发预算,不受外部股权结构或损益预期的约束 [6][14][15] 母公司财务与业绩表现 - 母公司幻方量化在2025年业绩表现极为突出,旗下基金收益率普遍在55%以上 [3] - 据彭博社报道,幻方量化在2025年可能为创始人梁文锋赚取了超过7亿美元(约50亿人民币)的利润 [2][8] - 公司管理的资产规模超过700亿人民币,2025年平均收益率达到56.6%,在百亿级量化基金中位居第二 [5][7] 研发投入与成本效率 - DeepSeek模型训练成本极低,V3训练仅花费557.6万美元,R1训练仅花费29.4万美元 [6] - 按此成本计算,幻方量化2025年的收入足以再生产125个V3模型或2380个R1模型 [6] - 公司持续改善训练效率,拥有充足的现金储备支持其AGI研究 [6] 研发战略与学术成果 - 公司战略纯粹,专注于AGI研究,未将资源大规模转向需要高并发推理的商业应用产品 [9] - 公司持续产出高水平学术论文,团队稳定,R1论文的18位核心贡献者在发表近一年后仍全部在职 [2][29] - 在总计100多位的论文作者中,仅有5位标注已离开团队,甚至出现人才回流的情况 [30][31][33] 行业对比与商业模式优势 - 与OpenAI等积极寻求商业化(如引入广告、获取芯片厂商投资)的同行不同,DeepSeek坚持非商业化研究路径 [6] - 公司背靠幻方量化成熟的量化投资商业模式,拥有稳定且强大的内部现金流支持,无需为短期投资回报担忧 [6][15][20] - 这种模式结合了谷歌(有成熟业务支撑)和OpenAI(AI原生)的优势,使公司在AGI研发上拥有更大的战略定力和容错空间 [26] 市场间接影响 - DeepSeek发布的“硬件设计建议”等技术动态,会直接影响相关国产芯片公司的股价,例如寒武纪在V3.2发布后宣布完成适配,次日股价跳涨近5% [34][36][39] - 部分投资者将DeepSeek的技术论文作为投资半导体行业的研究报告来参考 [34]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
海外独角兽· 2026-01-13 20:33
文章核心观点 - 华人已成为AGI领域的重要力量,中国开源模型是全球Tier 1,预计到2026年地位将更加牢固[1] - 大模型行业正经历显著分化,主要体现在To B与To C场景、以及垂直整合与分层路线上[3] - 自主学习是行业共识性极强的新范式,预计2026年将成为主要投入方向[1] - Scaling(规模扩展)将继续,是技术、数据与品味共进的结果,探索前沿智能不会停止[1] - 模型即Agent,Agent即产品,两者趋于一体化[1] - 中美AI竞赛存在结构性差异,美国算力比中国多1-2个数量级,且更多投入下一代技术探索[1] 模型分化趋势 - 分化趋势显性,原因多元,包括To B和To C场景需求差异、对竞争格局的思考以及不同AI实验室的战略选择[1] - To B领域会出现强模型与弱模型的分化,且会越来越大[1] - To C场景的任务瓶颈往往不是模型不够大,而是上下文(Context)和环境(Environment)的缺失[1] - 在To C逻辑下,大多数用户大多数时候不需要很强的智能,模型智能提升的体验不强烈[3] - To C问题的解法在于真正的个性化数据,例如在合规前提下利用微信聊天记录等上下文,比追求更强预训练模型带来更大价值[3] - 在To B市场,用户(企业)愿意为“最强模型”付出溢价,因此强模型与弱模型的分化会越来越明显[3] - 例如,Opus 4.5这类强模型做10个任务能对8-9个,而弱模型只能对5-6个,即使后者更便宜,但企业因监控错误成本高而更倾向于选择强模型[4] - To C场景中,模型做All-in-one的垂直整合成立,模型与产品可强耦合迭代;而To B(生产力应用)因涉及多生产环节,给了应用公司优化空间,出现了模型公司与应用之间的分层[4] - 模型分化并非预设路线图,更多是自然演化的结果,通常源于与客户的高频交流[4] - 分化与模型竞争的时机相关,例如智谱AI押注Coding是基于对当时模型竞争格局(如DeepSeek出现后Chatbot取代搜索之战基本结束)的判断[5] 新范式:自主学习 - Scaling会继续,但需区分两种方向:Scaling已知路径(增加数据和算力)和Scaling未知路径(寻找新范式,让AI系统自己定义奖励函数、交互方法等)[5] - 当下AI社区对新范式尚无统一定义,自主学习、主动学习、持续学习等概念本质都预期模型能在人类不介入下提升智能[6] - Scaling Law被总结为一种将能源转化为智能的视角,核心在于高效逼近智能上限,是技术、数据与审美的共进[6] - 自主学习的目标是让模型具备自反思与自学习能力,通过持续的自我评估与批判来优化行为路径[6] - 新范式的发生是一个正在发生的“渐变”过程,2025年已出现信号,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT利用用户数据拟合聊天风格,Claude Code写了自身项目95%的代码[6] - 新范式的最大瓶颈是想象力,即需要构想出证明范式实现的具体任务(如赚钱的交易系统或解决未解科学问题)[7] - 从更实际角度看,强化学习(RL)的潜力尚未被充分挖掘;下一代范式存在两个维度:自主学习和AI具备更强的主动性(未来模型可能不再需要人类提示,而是环境本身就能提示它)[7] - 主动学习会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向[7] - 自主学习能体现到个性化上,但衡量其是否“变好”会变得困难,因为当AI覆盖生活方方面面后,评估指标变得极其模糊[7] - 对于多Agent串联的长程任务,一旦Agent能力未达100%,后续能力往往呈指数级下降;人类通过睡眠“清理噪音”,AI可能需要探索类似的清噪与新计算模式[8] - 提出了“智能效率”(Intelligence Efficiency)概念,即关注投入多少资源能获得多少智能增量,这是解决成本瓶颈的关键[8] - 大模型发展路径借鉴人脑认知学习过程,而在多模态、记忆与持续学习、反思与自我认知这几类能力上,人类显著领先于当前模型,这些可能是新的突破方向[8] - 智谱AI在2020年参考人类认知规划了AI系统结构图,包含三个模块:系统一(模式匹配与知识提取)、系统二(知识融合与推理机制)、自主学习,分别对应数据与模型规模的Scaling-up、推理的Scaling、以及环境Scaling(让模型从与外界交互中获得反馈)[9][10] 原生多模态 - 原生多模态模型和人的“感统”相似,能汇集视觉、声音、触觉等信息,但当前模型的感统能力并不充分[11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务[11] - 多模态同样是Qwen持续要做的事情,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论[11] - 从第一性原理出发,为模型提供更多生产力、更好帮助人类,做视觉、语音等多模态能力是自然而然的选择[11] - 视频是更广义的表达,图片可理解为单帧视频,理解很长视频是很有意思的事情[11] Agent发展 - Coding是通往Agent的必经之路,例如智谱AI的实践中,GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题[11] - 模型即产品,Agent要实现复杂任务对模型要求相当高,模型就是Agent本身,Agent就是产品本身,做基础模型也就是在做产品[12] - 模型To B和To C的分化同样体现在Agent上:To C产品的指标有时与模型智能不相关甚至相反;To B的Agent甚至不需要做太多创新,模型智能提升、解决真实世界任务能力提高就能创造更多价值[12] - 生产力场景的Agent才刚开始,除了模型进步,环境和部署同样重要,是Agent创造价值的关键:即使模型不再变好,只要把现有模型部署到各公司,也能带来10倍甚至100倍的收益,但今天AI对GDP的影响还远不到1%[13] - 教育非常重要,会使用AI工具的人正在替代那些不会使用工具的人[13] - 未来的Agent将变成“托管式”,用户设定通用目标后,Agent在后台长时间独立运行直至完成任务[13] - Agent要做到这一点离不开前面提到的自我进化以及主动学习,在此逻辑下,“模型即Agent,Agent即产品”[13] - 做通用Agent过程中,长尾任务更值得关注,用户感受到AI的价值与魅力往往因为某个长尾任务被解决,今天的所谓AGI本质上也在解决长尾问题[13] - 做通用Agent是见仁见智的问题,如果作为“套壳”方没有比模型公司做得更好的信息,那么通用Agent就是“模型即产品”的机会,因为对模型公司来说,很多工程问题可能只是“烧一烧卡”就可解决[14] - Agent发展可划分为四个象限,从两个维度看:目标定义(人为/自动)和任务规划(人为/自动);今天处于初级状态(目标与规划皆由人定义),未来会出现大模型观察人的工作并使用人的流程数据,最终目标与规划皆可由大模型定义,Agent应是大模型内生的原生系统[14] - 决定Agent未来走势的几个重要问题:是否能真正解决人类任务并创造价值及价值大小;Agent成本有多大(成本过高是问题,若调用API就能解决,模型厂商意识到价值大时就会自然做进去,这是基座模型与应用之间的矛盾);应用公司的迭代速度(若Agent团队有能力拉开半年时间窗口满足用户需求,就有机会持续往前走)[14][15] 全球AI竞赛 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国最大的优势在于一旦证明某件事可行,就有能力以极高效率复现、甚至做到局部更好[17] - 但长期视角中更核心的问题在于“敢突破新范式、敢冒险的人不够多”的文化差异,此外还需面对两个现实瓶颈:算力瓶颈(核心在于光刻机是否有突破)和是否能诞生更成熟的To B市场并在国际市场竞争(应更关注“正确的事”和用户体验,而非过分刷榜)[17][18] - 另一种观点认为,中国AI超过美国的概率最乐观情况为20%[18] - 中美AI之间算力差异不只是绝对量级上的,还是结构性的:美国算力比中国大1-2个数量级,但最关键的差异在于,美国有相当一部分算力投入到了下一代的研究中,而中国今天还在解决任务交付爆发带来的算力瓶颈[1][18] - 但从历史经验看,“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施的联合优化,这个出发点可以倒逼创新发生[18] - 面对光刻机的现实瓶颈,有可能在下一代的模型结构和芯片上从软硬结合的角度端到端地实现突破[18]