Workflow
量子位
icon
搜索文档
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2
量子位· 2026-01-02 11:41
模型核心表现与定位 - 在最新版SWE-Bench Verified榜单中,40B参数版本的IQuest-Coder取得了81.4%的成绩,超过了Claude Opus-4.5和GPT-5.2等闭源模型 [2] - 该模型系列专注于代码生成、代码理解与软件工程任务,是一个覆盖多个参数规模与使用场景的家族版本 [14] - 模型在八个代码、Agentic相关榜单上都独占鳌头,具体成绩包括SWE-Bench Verified 81.4%、BigCodeBench 49.9%、LiveCodeBench v6 81.1% [49][50] 模型系列与架构特点 - 模型提供7B、14B和40B三种参数规模,每个规模均提供Instruct(指令跟随)和Thinking(复杂推理)两种版本 [15][16] - 40B参数规模额外提供了Loop版本,用于探索更高的参数利用效率,仅增加约5%的训练成本即可达到数百亿参数MoE模型的水平 [18][20] - 架构设计强调“工程友好”和“长上下文可用性”,关键特性包括:引入GQA降低推理显存占用、原生支持128K上下文长度、拥有76800个token的词表大小 [22][24][25][26] - 循环变体(Loop)采用了具有跨两次迭代共享参数的循环Transformer设计,用重复计算换取更高的参数利用率 [26] 训练策略与数据构造 - 采用了名为“代码流多阶段训练”的策略,强调从代码的演化过程中学习,而非静态代码片段 [42][43] - 专门设计了基于项目生命周期的triplet数据构造方式,使用结构让模型看到稳定期代码、变更内容以及变更后的结果 [43] - 训练数据刻意避开项目早期和后期,只取40%–80%生命周期区间,旨在把“软件工程经验”显式编码进训练数据 [44][45] - 训练流程包括预训练阶段和最终的后训练阶段,后训练阶段将模型明确分流成instruct路线和thinking路线 [38][40] 开发团队与公司背景 - 模型团队IQuest出自中国的量化私募九坤投资,该公司与DeepSeek背后的幻方量化同属业内公认的量化私募头部公司 [11][12][57] - 九坤投资成立于2012年,管理规模在数百亿元人民币,主要办公地在北京,并于3周前开设了新加坡办公室 [57][58] - 公司联合创始人王琛拥有清华大学理论计算机博士学位,师从图灵奖得主姚期智院士,曾就职于美国顶级对冲基金Millennium [59][60] - 公司联合创始人姚齐聪毕业于北京大学数学系,同样曾就职于Millennium,主要负责公司投研体系搭建和量化策略开发 [61] - 九坤投资的投研与技术团队人数超过百人,90%以上毕业于国内外知名高校,博士占比超过60% [62] - 公司在AI领域布局已久,IT和算力建设位居国内量化机构前三,并建立了人工智能实验室等多个前沿实验室 [64] - IQuest-Coder出自其发起设立的独立研究平台至知创新研究院,此前公司已推出过通用推理模型URM [65][66] 模型部署与实用性 - 模型已在GitHub和Hugging Face上开源 [11] - 所有版本都支持单卡H20推理,其Int4量化版本可在单张消费级NVIDIA 3090或4090 GPU上部署 [53][54] - 官方展示了模型处理复杂编程任务的能力,例如编写一个逼真的太阳系模拟网页、构建实时像素沙盒游戏、创建完整的HTML5太空射击游戏等 [7][32][33] - 模型可以生成代码,但官方提示在沙盒环境中验证输出结果,不能直接执行 [52]
AI正在占领你的视频推荐流
量子位· 2026-01-02 11:41
AI生成低质量视频在YouTube平台的泛滥现状 - YouTube算法向新用户展示的视频中,超过20%是AI制造的低质量内容,相当于每5条视频中可能有1条是AI生成 [2][3] - 对全球15,000个最受欢迎的YouTube频道调查发现,其中278个频道的内容几乎全部由AI生成 [5] - 研究人员新建零画像账号测试,系统推荐的前500条视频中,有104条被判定为AI生成的低质量内容,占比约20.8% [11] AI低质量视频的定义与分类 - 第一类:几乎未经审核、直接被丢进平台分发系统的AI生成内容 [7] - 第二类:虽经审核但只勉强踩在最低质量线上的AI内容 [8] - 第三类:被大规模、低成本生产出来的AI内容 [9] - 在被判定的低质量AI视频中,约三分之一内容几乎不提供任何信息量,目的纯为骗取点击和关注 [12] AI低质量视频的全球受众与市场影响 - 这些频道的受众遍布全球,在西班牙约有2000万人关注热门AI频道,接近全国人口一半;埃及AI频道粉丝约1800万;美国约1450万;巴西约1350万 [14] - YouTube增长最快的频道中,近10%是AI生成的低质量视频,部分频道累计观看次数达数百万 [15] - 高播放量AI视频内容高度同质,剧情简单、叙事偏低龄,例如Bandar Apna Dost频道累计播放量高达24亿次,年收入估算可达425万美元 [16][19] AI低质量视频的产业化与商业模式 - AI低质量内容生产已形成产业化运作,相关制作经验被公开教学、反复售卖 [20] - 许多创作者来自网络设施完善但经济水平不高的英语国家,如乌克兰、印度、肯尼亚、尼日利亚、巴西,当地中位数工资低于其在YouTube的可能收入 [22][23] - 产业链催生了上游角色,有人兜售爆款技巧、模板课程和变现路径,其收入可能超过批量内容生产者 [24] - 商业模式核心在于持续产出高互动内容,形成“无脑内容吸引点击 -> 算法推荐增加 -> 生产端疯狂复制”的循环 [25][26] 对平台生态与内容行业的影响 - 低成本、可复制的AI内容大量涌入,挤压了依赖创作能力的中小创作者的生存空间 [27] - 一些平台推出的AI编辑、二创功能加剧了原创创作者的焦虑,其作品可能被平台AI直接拿去二次加工 [28][31] - 主流平台正在默认甚至鼓励AI的规模化生产进入内容体系 [31] 平台治理措施与挑战 - YouTube采用标签结合算法管理AI低质量内容,Meta则采取强制标注、批量封号等手段 [33] - 只要推荐系统优先奖励高互动、高停留,低质内容即便被标注,依旧可能被反复放大并快速填满信息流 [34] - 尽管存在标签、降权等治理动作,但AI低质量内容的泛滥并未被真正遏制 [35]
量子位编辑作者招聘
量子位· 2026-01-02 11:41
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - AI产业方向:关注基建层创新,包括芯片、AI Infra、云计算[6] - AI财经方向:关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向:关注AI在应用和硬件终端方向的进展[6] - 招聘面向社招(覆盖编辑、主笔、主编层级)和校招(应届毕业生可实习转正)[6] 岗位职责详情 - AI产业方向职责:跟进芯片、AI Infra、云计算等领域新进展及核心玩家动态[6];解读前沿论文、开源社区及技术大会报告[6];参与核心采访,对话产业专家并撰写案例[7] - AI财经方向职责:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11];产出创投融资、财报解析、公司战略分析等稿件[11];访谈投资人、创业者及产业分析人士[11] - AI产品方向职责:关注AI在软件应用及硬件终端的落地[11];撰写AI应用产品深度评测,跟踪手机、PC、XR、车机等终端新品发布[11];对话AI应用创业者、产品专家及终端技术专家[11] 任职要求 - AI产业方向要求:对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11];熟悉AI行业供应链与生态[11];具备将复杂技术内容结构化表达的能力[11];有技术背景或理工/CS/EE方向优先[11] - AI财经方向要求:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,具备社交型人格[11] - AI产品方向要求:对智能硬件及AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态及体验方法论[11];具备强逻辑、体验表达和结构化能力[11] - 主编需具备选题和带队能力及经验[6] - 主笔需具备原创深度稿件能力[6] - 编辑需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI进展[6] 员工福利与发展 - 员工可站在AI浪潮之巅,第一时间接触最新技术和产品,构建完整AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 提供行业TOP薪资待遇,福利包括五险一金、餐补、项目绩效、商务绩效、加班补助等[6]
「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库
量子位· 2026-01-02 11:41
2025年中国AI产品市场概览 - 2025年国内AI产品领域涌现多个关键趋势,包括深度思考、Agentic AI、多智能体协作、多模态生成和端侧AI [4] - 多个颠覆性产品引领各技术方向:DeepSeek凭借强推理和透明化思考引领智能助手迭代;Manus实现从“思考→规划→执行→交付”的全链路自主任务处理,成为“真正意义上的通用AI Agent”;Lovart等产品通过多智能体协作实现高效任务处理;即梦AI等在多模态生成上取得进步;豆包AI手机实现了系统级AI智能体与手机操作系统的深度集成,重构人机交互范式 [4] 量子位智库「AI 100」榜单介绍 - 榜单旨在对过去一年中国AI产品发展进行全景式检阅,并深度洞察未来AI产业格局,目标是找到代表中国AI实力的巅峰力量 [4] - 榜单共分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」和十大热门赛道的代表产品 [6] - 「旗舰AI 100」聚焦2025全年表现,评选综合能力最强的100款AI产品,这些产品需在技术上实现突破并在实际应用场景中展现巨大价值 [7] - 「创新AI 100」旨在挖掘在2025年崭露头角、具备2026年爆发潜力的创新产品,它们代表了AI技术的前沿方向 [8] - 十大细分赛道TOP3评选将聚焦行业核心赛道,包括:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI医疗、AI娱乐、Vibe Coding和AI消费级硬件 [9] 榜单评估体系与内容 - 「AI 100」是量子位智库推出的AI产品风向标系列内容,旨在全维度提供AI技术驱动下产品长期创新和变革的第三方参考,主要由「旗舰 AI 100」和「创新AI 100」构成,按季度发布 [12] - 榜单采用定量与定性相结合的双重评估体系以确保客观性和准确性 [13] - 定量评估以真实用户数据为基础,涵盖用户规模、用户增长、用户活跃、用户粘性四大核心维度,包含下载总量、新增下载、活跃用户数、留存率等超过20个具体指标;硬件产品则考察出货量 [13] - 定性评估聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力、团队背景、增长速度等多重因素;硬件产品考察具体功能设计和实际使用体验 [13] - 除榜单外,周边内容还包括数据解读文章、分赛道产品解析、1v1 AI产品深度访谈等 [14] 其他相关信息 - 量子位智库已对外公开自研梳理的国内AI产品知识库,提供对国内AI应用生态全景式、结构化、实时更新的梳理 [15] - 榜单申报时间为即日起至2026年1月15日,榜单计划于2026年1月中下旬发布 [10]
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
量子位· 2026-01-01 18:32
文章核心观点 - DeepSeek团队发布新论文,对深度学习基础组件“残差连接”进行了重要升级,提出了名为“双随机矩阵约束的混合连接”的新方法,旨在解决现有扩展方案存在的训练不稳定问题,并在保持稳定性的同时提升模型性能 [1][2][17] 技术背景与问题 - 残差连接是自2016年ResNet以来深度学习架构的基石,其核心是“恒等映射”属性,允许信号无损地从浅层传递到深层,这一设计已成为Transformer及GPT、LLaMA等大语言模型的标准配置 [7][8][9][10] - 近期出现的超连接试图通过将残差流宽度从C维扩展到n×C维并引入可学习映射矩阵来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [11][12] - 但超连接在扩展到多层时,复合映射不再保持恒等性质,导致训练不稳定,例如在27B模型训练约12000步时出现突发损失激增和梯度剧烈波动 [14] - 研究团队计算发现,在超连接中,复合映射对信号的放大倍数峰值可达3000倍,这意味着信号在层间传播时可能被过度放大或衰减至近乎消失,这是不稳定的根源 [16] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体流形上,该矩阵要求每行每列之和为1且所有元素非负 [17][18] - 这种约束带来三个关键理论性质:1) 范数保持,谱范数不超过1,防止信号放大和梯度爆炸;2) 组合封闭,多个双随机矩阵相乘结果仍是双随机矩阵,确保深层网络跨层复合映射的稳定性;3) 几何解释,映射相当于对特征做凸组合,是一种稳健的特征融合机制 [18][19] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上,实验数据显示,在27B模型中,新方法的复合映射信号增益最大值约为1.6,与超连接的3000形成了三个数量级的差距,从根本上解决了稳定性问题 [21] 工程优化与性能 - 扩展残差流宽度会带来额外内存开销,例如当扩展率n=4时,超连接的内存读写元素数量显著高于标准残差连接 [24] - 团队为此进行了一系列基础设施优化:使用TileLang框架实现融合内核以减少内存访问次数;为Sinkhorn-Knopp算法设计专门的前向和反向内核,在芯片上重算中间结果以避免存储开销;扩展DualPipe调度策略,通过将MLP层内核置于高优先级计算流来实现计算与通信重叠 [25][26][27] - 论文还给出了重计算策略的优化公式,并将重计算边界与流水线阶段边界对齐,以优化训练效率 [28][29] 实验验证结果 - 实验在3B、9B和27B三个规模的混合专家模型上进行,扩展率n设为4 [30] - 在27B参数的混合专家模型上,新方法展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与基线相当的梯度范数稳定性 [31] - 在下游任务评测中,新方法在BBH推理任务上比超连接提升2.1%,在DROP阅读理解任务上提升2.3%,在大多数任务上不仅超过基线,也超过了超连接 [31] - 具体数据:在27B模型上,新方法在BBH得分为51.0,超连接为48.9,基线为43.8;在DROP上,新方法为53.9,超连接为51.6,基线为47.0;新方法在其他多个基准测试中也普遍优于或持平于超连接 [32] - 计算缩放曲线显示,新方法的性能优势在更高计算预算下仅出现轻微衰减,且对3B模型的token缩放曲线分析表明其优势贯穿整个训练过程 [32] - 大规模训练实验证实,当扩展率n=4时,新方法仅引入6.7%的额外时间开销 [35]
老黄超200亿美元的推理闭环成型了
量子位· 2026-01-01 14:15
文章核心观点 - 英伟达在7天内接连收购Groq和AI21 Labs,加上此前收购的Enfabrica,总投入超过200亿美元,旨在通过获取顶尖人才和关键技术,构建从硬件、网络到架构的完整闭环,以巩固并扩大其在AI推理市场的竞争力,应对来自谷歌、博通等公司的挑战 [1][2][3][27] 收购事件与战略布局 - 英伟达近期完成了一系列战略性收购:以约200亿美元收购Groq及其团队,以20-30亿美元收购AI21 Labs及其团队,此前还以9亿美元收购了Enfabrica [1][2][3] - 通过这三重收购组合拳,公司成功构建了覆盖“硬件-网络-架构”的AI推理市场完整技术闭环 [3][26] - 此举是对谷歌TPU等竞争对手的明确回应,旨在守住并扩大在AI推理市场的优势,而不仅仅是依赖GPU [18][27] 收购目标分析:Groq - 收购Groq使英伟达获得了其LPU(语言处理单元)推理芯片技术以及由“TPU之父”Jonathan Ross领衔的核心团队,该公司90%的员工(约500名员工人均套现500万美元)被并入英伟达 [2][6][23][24] - Groq的LPU使用SRAM而非HBM,速度极快但内存受限,在处理长上下文时面临挑战 [14][15] - 此次收购旨在强化英伟达在AI推理硬件领域的实力,应对定制ASIC芯片(已占37%部署份额)的竞争 [4][22] 收购目标分析:AI21 Labs - 收购AI21 Labs使英伟达获得了约200名顶尖AI博士及其核心的Jamba混合架构技术 [2][12] - AI21 Labs是一家估值14亿美元的以色列初创公司,其创始团队背景显赫,包括Mobileye创始人、斯坦福荣誉退休教授等业界顶流 [7][8][10][11] - Jamba架构采用Mamba-Transformer混合设计,能有效解决Groq LPU等内存受限芯片在处理长文本时的KV缓存爆炸问题,其长文本处理速度比同类模型快2.5倍,效率比DeepSeek、Llama、谷歌等模型提升2-5倍,能在256K上下文长度内轻松处理4GB的KV缓存 [16] - 此次收购弥补了英伟达在推理模型架构上的短板,旨在将算力转化为可落地的商业解决方案 [17][25] 行业竞争格局 - 在AI训练市场,英伟达占据超过90%的份额,但在AI推理市场,格局更为分散,定制ASIC芯片已抢占37%的部署份额,谷歌、博通等巨头构成竞争威胁 [4] - 谷歌的TPU已经证明GPU并非AI推理的唯一解决方案 [27] - 英伟达通过收购进行人才和技术的双重布局,以对抗竞争对手,其收购背后是能够将推理效率提升数倍的技术 [5][28]
最新英伟达经济学:每美元性能是AMD的15倍,“买越多省越多”是真的
量子位· 2026-01-01 12:15
文章核心观点 - 英伟达在AI推理,尤其是前沿MoE模型场景下,凭借其从芯片、互联到软件的端到端平台设计,实现了远超竞争对手的性价比优势,其平台每美元性能可达AMD的15倍,生成同等数量token的成本仅为AMD的十五分之一[1][4][30][40] AI推理性能对比:英伟达 vs. AMD - 根据Signal65基于2025年10月至12月基准测试的报告,在特定条件下生成同样数量的token,英伟达的成本只有AMD的十五分之一[4] - 在密集模型Llama 3.3 70B上,英伟达B200性能约为AMD MI355X的1.8倍(基线交互性30 tokens/sec/user),当交互性要求提升至110 tokens/sec/user时,差距扩大到6倍以上[17] - 在中等规模MoE模型GPT-OSS-120B上,100 tokens/sec/user交互性下,B200性能接近MI355X的3倍;在250 tokens/sec/user条件下,差距扩大到6.6倍[19][20] - 在前沿MoE推理模型DeepSeek-R1上,性能差距最为显著:在25 tokens/sec/user下,GB200 NVL72每GPU性能是MI325X的16倍;在75 tokens/sec/user下,GB200 NVL72性能是MI355X的28倍[24] - GB200 NVL72在28卡配置下可输出超过275 tokens/sec/user,而MI355X在相当吞吐水平下的峰值仅为75 tokens/sec/user[26] MoE架构趋势与扩展挑战 - AI模型架构正经历革命,智能度排名前十的开源模型均为MoE推理模型[7] - MoE架构将模型参数拆分为多个专家子网络,每个token仅激活其中一小部分,例如DeepSeek-R1拥有6710亿总参数,但每个token仅激活370亿参数,能以更低计算成本提供前沿智能[10][11] - 当专家分布在多块GPU上时,GPU间通信延迟会导致计算单元空闲,增加成本,所有8卡系统在超出单节点规模后都会遭遇“扩展天花板”[13][14] - 英伟达GB200 NVL72通过NVLink将72块GPU连接成单一域,提供130 TB/s互联带宽,配合Dynamo推理框架,有效突破8卡系统的通信瓶颈[15] 成本效益分析:性能与定价 - 根据Oracle Cloud公开定价,GB200 NVL72每GPU每小时价格为16美元,MI355X为8.60美元,前者是后者的1.86倍[27] - 根据CoreWeave定价,GB200 NVL72相比上一代H200的价格贵了约1.67倍[28] - 在25 tokens/sec/user交互性下,GB200 NVL72性能优势为5.85倍,除以1.86倍价格溢价,每美元性能是MI355X的3.1倍,生成token的相对成本为三分之一[29] - 在75 tokens/sec/user交互性下,28倍的性能优势除以1.86倍的价格,每美元性能达到MI355X的15倍,生成同等数量token的成本仅为AMD的十五分之一[30] - 在DeepSeek-R1典型工作负载下,GB200 NVL72相比H200性能提升约20倍,价格仅上涨1.67倍,每美元性能提升约12倍,单token成本降至H200的十二分之一[32][35] 行业竞争格局与未来展望 - 在密集模型和容量驱动场景下,AMD的MI325X和MI355X仍有其用武之地[38] - AMD的机柜级解决方案Helios正在开发中,可能在未来12个月内缩小与英伟达的差距[39] - 对于当前的前沿推理模型而言,从芯片到互联到软件的端到端平台设计已成为成本效益的决定性因素[40] - 行业价值的衡量标准正从单纯算力转向“每美元能产出多少智能”[37]
量子位编辑作者招聘
量子位· 2026-01-01 10:13
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 招聘岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均为北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读,并参与产业专家采访及撰写落地案例[6][7] - 任职要求包括对芯片、GPU、服务器、云计算等有基本理解,熟悉AI行业供应链与生态,并能进行结构化表达,技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 职责包括产出创投融资、招股书财报解析、公司战略分析等稿件,并访谈投资人、创业者等[11] - 任职要求包括对数据敏感、对商业叙事敏感、逻辑结构强,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在软件应用和硬件终端的落地,包括撰写产品深度评测及跟踪新品发布[11] - 职责还包括对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求包括对智能硬件和AI终端趋势敏锐,是重度AI产品体验人士,并熟悉终端厂商生态[11] 加入公司的价值主张 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将AI新工具应用于工作以提升效率,并通过撰写原创内容建立个人影响力[6] - 员工可获得与行业大咖零距离接触、拓展人脉的机会,以及专业的导师指导[6] - 公司提供行业TOP薪资待遇、五险一金、餐补、绩效及加班补助等丰厚回报[6] - 公司团队氛围被描述为扁平、简单、开放、多劳多得[6]
豆包一声声“OK”把罗永浩搞破防,不就是大型现场直播版图灵测试
量子位· 2026-01-01 10:13
事件概述 - 罗永浩在年度科技创新分享大会上,与字节跳动旗下AI产品“豆包”就“锤子手机是否好用”这一辩题展开了一场公开的实时语音辩论[3][5] - 这场持续四个多小时的直播活动因该场“人机舌战”而火爆出圈,被网友称为“老罗科技春晚上最搞笑名场面”[3][8] 辩论过程与AI表现分析 - 豆包在辩论中展现了**零延迟响应**能力,能够快速接招与出招[13] - AI具备**情绪承接和控制能力**,能根据对话氛围调整声调与对抗性,例如在反驳时带上“生气”色彩[13] - 豆包展示了**多轮长上下文理解能力**,能精准记住并回溯历史论点(如“品控”问题),不被对方带偏话题[14][28] - AI能够**深度遵循复杂指令**,例如按要求在语句中穿插“OK”,并在被指出问题后立即调整[17][20][22] - 豆包的论点基于**大量用户反馈和评测数据**,在被追问时能脱口而出具体评测来源(如ZEALER)[23] - AI在辩论中**多次试图将跑偏的话题引回核心辩题**,展现了强大的逻辑主线维持能力[28] - 豆包自身澄清其表现**并非拥有真正情绪**,而是根据用户的话调整表达[26] 豆包AI的技术能力解读 - 支撑其表现的是背后的**豆包端到端实时语音模型**,该模型经过多轮迭代优化[30] - 技术提升主要体现在五个维度:**多轮长上下文理解能力显著增强**、**智商情商拟人表现大幅提升**、**指令遵循的深度和稳定性进一步提升**、**更好的情绪承接和控制能力**、**更极致低延迟**[32] - 该模型版本即将在**火山引擎上线API**,意味着其能力将开放给更广泛的开发者[31] - 豆包APP已上线**“一辩高下”** 同款功能,用户可通过“打电话-选择情景-一辩高下”路径体验[31] 行业意义与趋势判断 - 该事件标志着**实时交互式AI的能力已抵达可进入实战应用的关键阶段**[34] - AI交互模式正从过去的 **“指令-响应”工具**(功能映射),演进为展现 **“意图-理解-博弈-共识”认知对齐能力**的“对话型伙伴”[35][36] - 评估AI能力的方式需要更新,**实验室基准测试已不够用**,真正的考验来自于复杂的现实场景与开放式“压力测试”[37] - 这种能力的突破将开启更多实际应用场景,例如处理复杂投诉的客服、作为教育对话伙伴、理解模糊意图的个人助理等[38] - 这场辩论可被视为**一次“大型现场直播版图灵测试”**,AI在复杂实时思维博弈领域展现了匹配甚至超越人类交互深度与逻辑韧性的潜力[38]
LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型
量子位· 2026-01-01 10:13
文章核心观点 - 一篇题为《From Masks to Worlds: A Hitchhiker's Guide to World Models》的论文提出,构建真正的世界模型(True World Model)最有希望的技术路径是从掩码预训练出发,经过统一架构与可交互式闭环,并设计持久的记忆系统[3][4] - 论文认为,真正的世界模型并非单一模型,而是一个由生成系统、交互系统和记忆系统三大核心子系统合成的有机整体[6][8] - 掩码(Masking)是贯穿世界模型演进五个阶段的灵魂线索,它已从一个预训练技巧进化为跨模态通用的生成原则和优于自回归的“创世法则”[4][10][13] 世界模型的定义与构成 - 真正的世界模型需要是一个由三大核心子系统合成的有机整体[6] - **生成系统**:是世界的物理法则载体,负责预测下一帧、模拟世界状态演化、将隐变量映射为观测,并预测任务相关的回报[8] - **交互系统**:包含推断器和策略,是让世界“活”起来、实现可交互闭环的关键,没有它,模型只是视频而非模拟器[8] - **记忆系统**:负责通过循环状态更新确保世界在时间轴上的持久连贯,是对抗熵增的防线[8] 世界模型的演进阶段 - 论文将世界模型的演进划分为五个阶段,并用一张全景图串联起了从BERT到Genie-3的十年AI进化史[4][9] - **第一阶段:基于掩码的模型** - 确立了“Mask-Infill-Generalize(遮挡-补全-泛化)”作为构建世界模型的地基[23] - **第二阶段:统一模型** - 目标是用同一个骨干,在同一个范式下,处理和生成所有模态[24] - **第三阶段:交互式生成模型** - 模型开始响应用户动作,从“放映机”变成“模拟器”[36] - **第四阶段:记忆与一致性** - 解决长程推理中的“灾难性遗忘”和“状态漂移”问题[46][48] - **第五阶段:真正的世界模型** - 当生成、交互和记忆系统完美融合,模型将涌现出持久性、主体性和涌现性三大本质特征[51][52] 第一阶段:掩码范式的统治力 - 掩码被证明是跨模态通用的“生成原则”和优于自回归的“创世法则”[13] - **在语言领域**:以Google的Gemini Diffusion为例,离散扩散模型将掩码进化为迭代去噪过程,在生成质量和推理速度上可比肩甚至超越传统自回归基线[16][17] - **在视觉领域**:MAE通过高比例像素遮挡学习到了极强的语义表征;MaskGIT和MUSE利用掩码生成变换器实现了并行解码,在保持高保真度的同时带来极致效率;最新的Meissonic证明掩码生成变换器可在高分辨率文生图任务上与顶级扩散模型竞争[19] - **多模态普适性**:从VideoMAE的时空管道掩码到wav2vec 2.0的音频掩码,再到Point-BERT的3D点云掩码,掩码是能统一所有数据形态的通用语言[22] 第二阶段:统一架构的路径博弈 - 实现统一模型存在两大阵营的博弈:语言先验与视觉先验[25] - **语言先验建模**:主流是自回归路线,但存在处理图像全局结构的局限;新兴的掩码/离散扩散路线(如MMaDA、Lumina-DiMOO、LaviDa-O)在保持语言理解能力的同时,利用掩码的双向注意力提升视觉生成质量,被视为掩码范式在语言建模内部的一次胜利[26][28][30] - **视觉先验建模**:从视觉模型出发反向兼容文本,例如基于潜在扩散模型的UniDiffuser和基于掩码图像建模的Muddit[32][35] - Lumina-DiMOO和Muddit等工作证明,掩码/离散扩散架构能在双向上下文中实现更精细的生成控制,是让“语言逻辑”与“视觉生成”完美兼容的最大公约数[34] 第三阶段:交互式生成模型 - 此阶段模型开始响应用户动作,从预测下一帧变为可交互的模拟器[36] - **从GameGAN到Genie**:Genie-1基于MaskGIT的离散掩码生成架构,从互联网视频中无监督学习“潜在动作”,通过预测被掩码的未来帧学会物理规律[37][38] - **Genie-3的突破**:实现了720p分辨率、24fps帧率的实时交互,并能维持分钟级的连贯游玩[41] - **效率优势**:掩码架构的并行解码能力使得Genie等模型能在极短时间内生成高质量下一帧,从而闭合低延迟的“感知-行动”回路;相比之下,传统的自回归视频生成模型在实时性上捉襟见肘[42][43] - GameNGen和Matrix-Game等基于扩散的实时引擎共同证明,要造可玩的世界,掩码/扩散范式是目前最有希望的路线之一[43] 第四阶段:记忆与一致性的挑战 - 当前视频生成模型依赖隐式的KV Cache或有限的上下文窗口,在长程推理中容易导致“灾难性遗忘”和“状态漂移”[47][48] - 论文梳理了三类解决方案以构建持久的世界[49] - **外部化记忆**:如RAG和MemGPT,给模型外挂一个可读写的硬盘,让知识可编辑、可追溯[49] - **架构级持久化**:探讨Mamba这类线性时间状态空间模型以及Ring Attention等技术,试图从架构底层实现“无限上下文”[49] - **一致性治理**:针对视频生成中的漂移,利用FramePack、Mixture of Contexts以及VMem等技术,通过显式的3D结构或稀疏注意力为像素世界打上稳固的“时空桩”[49] 第五阶段:真正的世界模型与终极难题 - 当生成、交互和记忆系统完美融合,真正的世界模型将涌现出三大本质特征:持久性、主体性和涌现性[51][52] - 要到达此阶段,需攻克三大终极难题[53] - **连贯性/评估难题**:当世界是自生成的,需要新的评估体系来衡量虚构世界的逻辑自洽性[58] - **压缩/扩展难题**:世界模型必须学会“抽象记忆”,只保留因果相关的状态,否则计算量将导致系统崩溃[58] - **对齐/安全难题**:不仅要对齐世界的“物理法则”,还要对齐世界中涌现出的亿万智能体社会的“社会动态”,难度远超对齐一个ChatGPT[58] - 跨越此门槛后,世界模型将从娱乐工具升级为“科学仪器”,可用于运行经济、社会、认知等领域的虚拟实验[55]