Workflow
世界模型
icon
搜索文档
强化学习,正在决定智能驾驶的上限
36氪· 2026-02-10 12:45
文章核心观点 - 智能驾驶行业正从概念验证阶段进入工程化落地阶段 技术路径的博弈结果取决于技术范式、工程约束与现实场景的融合[1] - 行业共识是强化学习正从“技术选项”变为“必选项” 被认为是决定智能驾驶能力上限的底层能力[7][9] - 智能驾驶的训练体系正从依赖模仿学习转向结合强化学习 模仿学习确保安全基础 强化学习实现策略进化与能力提升[21][25] - 强化学习的有效应用高度依赖精心设计的奖励函数和高质量的世界模型 这两者是提升系统“含模量”和智能水平的关键[30][41][49][60] 技术路径演进 - 行业早期依赖模仿学习 通过让AI学习人类驾驶数据来快速获得稳定、安全的驾驶能力 但上限受限于数据质量且难以应对未知场景[11][14][16] - 强化学习通过试错和最大化长期奖励进行学习 能让AI超越人类经验 应对复杂博弈和极端长尾场景 是能力进阶的路径[17][19][20] - 端到端模型为强化学习铺平了道路 它将感知、理解、控制打包 让AI能完整接管驾驶任务 两者常组合使用[19] - 当前主流训练范式是结合两者:先用模仿学习将模型拉到“能安全跑”的水平 再用强化学习进行精修和策略提升[24][25] 强化学习的核心机制:奖励函数 - 奖励函数是将“开得好”具象化为机器可理解分数的关键 它定义了AI的驾驶风格与水平[30][31] - 行业普遍围绕五个核心指标设计奖励函数:安全、合规、舒适、效率、稳定性 其中安全是红线指标且权重最高[32][33][36] - 奖励设计需在矛盾目标间找到精妙平衡 例如安全与效率 并通过提供多种驾驶模式来满足用户个性化需求[32][34] - 奖励函数设计是“代码的艺术” 需避免AI“刷分” 通过过程密集拆解和分层控制来引导正确行为 并可能引入人类反馈偏好[37][38][39][41] 强化学习的进阶:世界模型 - 强化学习在智能驾驶中的工程应用可分为三层:调参型、策略型、以及基于世界模型的强化学习[43] - 世界模型是一个高度拟真的虚拟现实系统 它为强化学习提供了可信的“试错”环境 能大幅提升其训练效果和上限[48][49][53] - 世界模型让AI具备长时推演能力 可以训练长期最优策略 而不仅仅是当前最优解[50] - 世界模型与强化学习结合能形成进化飞轮:真实道路数据、世界模型造场景、强化学习练策略、实车验证 形成高速迭代循环[51][52] 行业竞争格局与关键变量 - 头部企业如理想、小鹏、Momenta等都在将资源向强化学习路线倾斜[5] - 华为、文远知行、英伟达等头部玩家正将世界建模与强化学习深度耦合 以构建更强大的智能系统[54] - 竞争维度正在变化:在高质量世界模型与生成式仿真加持下 合成数据能力提升 原始数据的边际价值下降 对世界规律的建模能力变得更为稀缺[56][57][58] - 系统“含模量”成为关键指标 即系统能力有多少是模型自我演化而来 世界模型与强化学习的耦合旨在提升“含模量”[60][61][62]
AI势不可挡:2026年模型升级有哪些预期差?
2026-02-10 11:24
纪要涉及的行业或公司 * AI(人工智能)行业,特别是大模型、多模态模型、世界模型(具身智能)及AI应用领域 [1] * 提及的海外公司:谷歌 [11] * 提及的中国公司:阿里巴巴、腾讯、字节跳动 [11] * 提及的行业:短剧、漫剧(文生视频应用)[8],医疗、司法、企业服务(To B高价值场景)[11],税务、工业、企业级服务(国内看好的To B方向)[12],IP、工具、内容分发(文生视频配套产业)[13] * 提及的产业链环节:AI算力、AI芯片、CPU、存储 [13][14] 核心观点和论据 AI模型技术演进路径与确定性提升 * 模型是AI产业的核心驱动力,2026年模型升级的原有范式(预训练)将继续向上,同时模型与场景融合将加速 [1] * 模型演进历程:2018年Transformer架构出现 -> 2022年ChatGPT引爆市场 -> 2023-2024年通过扩大参数量提升智力 -> 2024-2025年后训练(如指令微调、思维链)兴起,使模型更拟人化 -> 2024年后从文本向多模态演进 [2] * 2026年模型将迎来“世界模型”的新变革,对应未来物理AI(如机器人、具身智能)市场 [3] * 模型能力量化:当前文本模型平均分约80分,原生多模态模型综合能力约30-40分,未来多模态能力有望提升至80分 [3] * 模型每一次大规模商业化层级的开启(如文本、多模态、物理世界模型),都会带来10倍甚至更大的市场增量 [4] * 2025年4月AI行情调整主因是预训练数据遇到瓶颈,但后训练新范式(如post training, IL, COT)为AI发展续命 [5] AI商业化落地加速与关键场景 * 2026年AGI(通用人工智能)行业将进入“与环境交互”的年份,更复杂、高价值的场景将被开启,AI将进入“A进程元年” [7] * 过去制约AI的最大核心问题“如何落地和变现”将在2026年得到明晰答案,AI应用将迎来规模化、商业化爆发 [8] * **文本模态**:Coding(编程)场景因AI的泛化能力,已进化为可落地的变现应用,开启了市场对AI商业化的信心 [6] * **多模态(文生视频)**:2026年文生视频模型将迈入生产力工具阶段,开启多模态变现开端,复刻2025年Coding场景的商业化路径 [8][9][10] * 论据1:文生视频的时长和质量将迎来较大提升,从15秒向30秒甚至40秒迈进 [9] * 论据2:文生视频的编辑可操控性将因多模态模型对物理世界规则理解的加深而大幅提升 [9] * **To B高价值场景**:2026年海外医疗、司法、企业服务等场景将迎来大规模落地 [11] * 落地快的场景需具备条件:较好的数字化基础、明确的规则、高人力成本 [12] * 国内看好方向:税务、工业、企业级服务 [12] 投资建议与看好的方向 * **应用侧**: * **AI入口重构**:未来2-3年是AI to B/to C入口重构的黄金变革期,看好有模型云及入口先发优势的厂商,如谷歌、阿里巴巴、腾讯、字节跳动 [11] * **To B高价值场景**:看好医疗、司法、企业服务(海外),以及税务、工业、企业级服务(国内) [11][12] * **AI+视频**:文生视频将迎来商业化元年,带动从IP、工具到内容分发的配套产业链变革,大幅降低内容供给门槛,引发内容爆发 [13] * **算力侧**: * **AI算力**:应用推理开启后,推理需求可能是训练需求的3倍甚至10倍以上,将带动算力需求大幅增长 [13] * **CPU及存储**:未来在训练和推理范式上,CPU、AI芯片及存储环节将出现大规模新兴变化,建议积极关注 [14] 其他重要但可能被忽略的内容 * 分析师认为近期AI产业调整主因是:需求侧落地未见明显加速,以及海外宏观波动放大了AI板块的波动 [1] * 分析师所在机构(长江证券)联合长电科技举办了本次AI主题汇报 [14] * 分析师建议投资者不要因短期波动而丧失对AI产业长期进展的信心 [14]
投资者:产品必须围绕场景落地 三条技术路线并行竞速 各有瓶颈
每日经济新闻· 2026-02-09 23:10
行业核心观点 - 人形机器人行业已从表演展示阶段进入以“场景落地”和“创造真实价值”为核心的“实干”阶段,技术路线竞争白热化,但最终考验在于能否在具体场景中实现稳定、可靠、经济的长时间作业 [1][2][3][4][5] 行业现状与市场预期 - 2025年央视春晚宇树科技人形机器人表演带动行业热度,2026年春晚银河通用机器人作为指定具身大模型机器人将再次登台 [1][2] - 高工机器人产业研究所数据显示,2025年国内人形机器人出货量预计达1.8万台,较2024年激增超650% [2] - 2026年国内人形机器人出货量有望攀升至6.25万台 [2] - 行业已过“机器人会跳舞就能卖得好”的野蛮生长阶段,投资人更看重企业是否有成型产品和落地场景 [1][3] - 当前只有唱歌跳舞类娱乐机器人能实现稳定营收,整个行业仍处于“研发向工程转化”阶段 [12] 技术路线竞争 - **VLA(视觉语言动作)模型路线**:以Figure AI、智元机器人为代表,追求“通用智能”,通过端到端单一模型实现视觉感知、语言理解到动作执行,优势在于强大的语义理解能力,短板是计算开销大,对硬件续航、散热要求高 [6] - **世界模型路线**:以特斯拉为代表,在AI系统内部构建物理世界模拟器,让机器人预测自身行动后果,重度依赖高质量仿真数据以降低对真机数据的依赖 [8] - **分层决策与软硬件协同路线**:以波士顿动力、智元机器人为代表,将复杂任务拆解,由大模型负责语义理解与任务分解,传统算法负责定位、导航、精密控制等,优势在于故障易隔离、确保控制回路响应速度 [8] - 各技术路线并非相互排斥,需要协同发展,技术选型需综合考量部署环境、网络条件、算力支撑等现实因素 [8] 核心技术挑战与焦点 - **泛化能力**:提升机器人适应不同场景的能力是核心难题,VLA模型通过结合大型视觉语言模型和人类操作数据来提升理解和泛化能力,但面临数据昂贵、算力消耗大、执行速度慢等挑战 [9] - **数据质量**:数据的多样性和干净度至关重要,“脏数据”会严重破坏模型的泛化能力,提升AI操作系统的“下限”(如连续工作10小时不犯错)比展示“上限”更具技术难度和行业含金量 [10] - **算力与稳定性**:高频本地推理是保障机器人稳定性的核心,例如10赫兹的推理频率意味着微小扰动能在0.1秒内被处理,而2-3赫兹的频率会导致约0.4-0.5秒的延迟,影响任务成功率 [11] - **续航、稳定性、成本**是三条技术路线在量产前夜面临的残酷考验 [1][5] 应用场景与商业化路径 - **场景优先级**:工厂场景相对简单固定,商超场景复杂度高需识别数十万种商品,家庭场景是终极挑战但目前投入产出比不经济,商业场景(如零售仓拣货)正成为突破口,可提升运营效率30%-90% [13] - **市场需求**:用户诉求集中在降低生产成本、将人类从重复高危工作中解放、在文商旅领域提供情绪价值,希望选取具体场景实现高度闭环 [12] - **商业模式**:面向B端客户,与本体厂商、场景方开展联合共创,核心价值在于无需改造现有基础设施,能与人在同一环境中共存作业(如工厂白天人工作业,晚上机器人接手) [16] - **未来3至5年**是具体场景机器人落地的关键期,机器人价值在于补充劳动力,学习模仿老师傅的经验,即便当前效率仅为人类一半,但可在夜间、节假日工作 [12] 行业发展趋势 - **技术路线将逐渐收敛**:智能机器人硬件架构将逐渐统一化,软件架构可能形成“语义解析层-环境建图层-运动执行层”的三层解耦架构 [17] - **软硬件深度协同**成为优先方向,核心部件必须与算法深度适配,单纯进行部件组装的企业或将被淘汰 [17] - **数据闭环能力成为核心壁垒**:2026年各企业硬件差距将迅速收窄,真正的核心壁垒将是机器人在长时间作业中积累的非标环境作业数据 [17] - **国产化趋势**:2026年国产行星滚柱丝杠、高功率密度伺服电机逐步实现量产替代,结合国产零部件进行自研改造、集成优化成为趋势 [18] - **技术迭代速度**:机器人技术正以“月”为单位快速迭代,学界与产业界界限日益模糊 [17] 企业成功关键要素 - 企业必须深耕具体应用场景,技术、硬件、软件都必须和场景结合 [3] - 技术的先进性本身不能直接导致商业成功,最终必须回归商业本质,形成可交易的产品并产生销售额 [4] - 机器人“落地”考验技术与商业场景的百分之百适配,解决90%问题但剩下10%解决不了,整个场景就无法使用 [18] - 需综合考虑技术先进性是否匹配场景需求、稳定性与可靠性、外观设计与用户体验,以及整体解决方案能否在客户可接受的投入产出比范围内形成闭环 [18]
独家对话极映科技高鑫:我们为什么要做一个比Sora难10倍的物理世界模型?|甲子光年
搜狐财经· 2026-02-09 16:26
行业趋势与资本动态 - 2025年7月,半导体设计软件龙头新思科技以350亿美元收购仿真巨头ANSYS,成为工业软件史上最昂贵的交易[2] - 几乎同期,PhysicsX、Neural Concept等AI工业软件公司相继完成1亿美元级融资,显示资本在AI时代对预测物理世界能力重新定价的共识[3] - 在半导体、航空航天等领域,传统物理仿真一轮复杂计算往往耗时数日,工程师被困在网格划分与参数调试中,效率低下[4] 公司概况与团队背景 - 物理世界模型公司极映科技连续完成了数千万元的种子轮及天使轮融资,种子轮由奇绩创坛投资,天使轮由元禾璞华领投,未来光锥跟投[5] - 公司创始人高鑫为迈阿密大学博士、密西根大学博士后,联合创始人邱康(武汉大学博士)与李福华(清华大学博士)组成技术“铁三角”,团队积累了超过30年的物理仿真与软件研发经验,精准覆盖半导体与航空航天领域[6][7] - 公司选择回归质量与能量守恒的底层定律,让AI直接学习偏微分方程的共性,以构建物理上绝对成立的工业仿真模型,补上世界模型中缺失的物理内核[8] 技术路径与核心优势 - 相比传统仿真数值方法,极映的物理世界模型把反馈周期从“天”压缩至“秒”,响应速度百倍于传统仿真[9] - 公司跳出流体、结构、热学等物理场割裂的传统体系,从底层重构自研架构,让神经网络直接学习物理问题的映射关系,实现范式层面的降维打击[8][29] - 模型在FDA血流泵案例中达到R²>0.99的精度,意味着AI仿真和传统数值仿真在统计意义上高度一致,具备一定程度的可替代基础[33][34] - 速度优势主要来自神经网络前向推理的范式,而准确性依赖于自研的模型结构和严格质量控制的高质量数据[36] - 公司正从1.0版本的小样本微调,向2.0版本的零样本通用演进,目标覆盖90%以上的常见物理仿真场景,实现开箱即用[40][41] 市场定位与商业化 - 公司定位不是卖软件,而是提供仿真能力的基础设施,商业模式类比大模型,包括用户按结果付费或开发者调用API集成[61] - 商业化率先切入半导体行业,该行业对仿真依赖度高、痛点强,目前已有项目验证收入,单价在几十万元量级[65] - 公司判断其盈利窗口会早于通用大模型,原因在于工业客户付费能力强、客单价高,且模型专注于物理求解,算力消耗远低于通用大语言模型[62][63][64] - 公司对未来的资本路径持开放态度,无论是独立发展还是被产业方投资或收购,核心标准是看是否有助于技术的广泛应用[66][67] 应用场景与行业影响 - 当前最推荐的落地场景是设计方案的快速比选与筛选,先用AI模型从上百种候选方案中快速筛选出更优方案,再用传统软件进行最终精细验证,平衡效率与可靠性[28][45] - 技术引起了游戏行业如米哈游的关注,潜在应用包括在虚拟世界中构建可信的物理边界,未来在具身智能、机器人等领域可能成为提供物理约束的基础设施[10][69][71] - 物理仿真领域目前大约处于GPT-3.0水平,公司计划在年底发布的2.0版本目标将其推进到接近GPT-3.5的水平,届时工程创新将因仿真极大加速而迎来爆发[42]
腾讯研究院AI速递 20260209
腾讯研究院· 2026-02-09 00:03
生成式AI模型竞争与发布 - Anthropic发布Claude Opus 4.6,在GDPval-AA知识工作评测中领先GPT-5.2约144 Elo,并拿下多项评测最高分[1] - Claude Opus 4.6首次支持1M token上下文窗口和128K token输出上限,其长上下文检索测试准确率达到76%,是Sonnet 4.5的四倍[1] - OpenAI在Claude发布半小时后推出GPT-5.3-Codex,在Terminal-Bench 2.0评测中拿下77.3%的最高分,速度比5.2-Codex快25%[2] - GPT-5.3-Codex是首个参与创造自己的模型,其早期版本被用于调试自身训练过程、管理部署和分析评测结果[2] - 在Arena.ai权威榜单中,Claude Opus 4.6在代码、文本、专家三大竞技场全部登顶第一,其代码竞技场得分比前代暴涨106分[10] - 在EpochAI的Frontier Math测试中,Claude Opus 4.6在Tier1-3级别得分40%,在Tier4极难级别得分21%,首次追平GPT-5.2(xhigh)[10] 模型性能与定价策略 - Anthropic为Claude Opus 4.6推出极速模式,速度比标准版快2.5倍,已向Claude Code和API用户开放[3] - 极速模式定价显著提高,输入为30美元/百万token,输出为150美元/百万token,长上下文价格翻倍,2月16日前可享50%折扣[3] - 该模式适用于快速迭代代码修改和实时调试,建议在会话开始时开启以获得最佳成本效益[3] - GPT-5.3-Codex在OSWorld-Verified评测中的得分从38.2%跳升至64.7%,接近人类72%的基准,并在网络安全CTF评测中达到77.6%,成为首个被标为High capability的网络安全模型[2] 产品功能与平台更新 - Anthropic产品线同步更新,Claude Code新增agent teams功能,Excel升级,PowerPoint发布research preview,API新增adaptive thinking和context compaction功能[1] - 腾讯正式开放WorkBuddy内测,这是一款全场景职场AI智能体桌面工作台,可在本地电脑自主规划并执行多模态复杂任务[7] - WorkBuddy核心能力包括自动批量处理文件、生成文档/表格/PPT、数据深度分析、行业调研,并内置多种模型切换和高危指令拦截功能[7] - 自1月19日内测以来,WorkBuddy已服务超过2000名腾讯员工,主要面向HR、行政、运营、销售等非技术背景职场群体[7] 视频生成与多模态AI进展 - 字节跳动上线Seedance 2.0,支持自分镜自运镜、音画同步生成、多镜头叙事和最多12个多模态参考文件[5] - Seedance 2.0的可用率从行业平均不到20%直接提升至90%以上,实际制作成本从理论的近五倍降至接近理论成本[5] - 该模型展现出“世界模型”雏形,能理解物理规律、因果关系和情绪匹配[6] - Waymo推出基于DeepMind Genie 3构建的世界模型,能生成高度逼真且可交互的3D环境,可模拟龙卷风、大象等极罕见驾驶场景[8] - Waymo Driver已累计完成近2亿英里完全自动驾驶,该世界模型使系统能在虚拟世界中提前演练数十亿英里复杂场景[8] 新兴模型与市场动态 - OpenRouter平台上线搜索排名第一的神秘匿名模型Pony Alpha,在编程、逻辑推理和角色扮演方面表现突出,可免费使用[4] - Pony Alpha支持推理且有200K上下文,已有用户用它完成包含500行代码的完整Web应用[4] - 在开发者实战中,GPT-5.3-Codex更受青睐,有顶级开发者用它14天复刻2003年游戏,也有极客月费1万美元让AI生成700个科研假设[10] 行业领袖观点与长期展望 - ARK Invest预测2030年全球GDP增速将突破7%,由五大技术融合驱动的增长呈去通胀性,并将比特币2030年目标价上调至150万美元[12] - 中美AI差异化发展,中国凭借开源路线突围,美国主导应用层全球竞争力,AI时代决定性优势的核心在于专有数据[12] - Tesla凭借垂直整合领跑Robotaxis赛道,未来出行每英里成本或低至0.2美元,2030年或出现百万亿市值公司,Tesla被认为最具潜力[12] - 马斯克透露SpaceX计划每年发射2-3万次,预测5年后太空算力将超全球总和,并断言36个月内太空将成为AI算力部署最便宜的地方[9] - 马斯克称特斯拉Optimus人形机器人为“造钱永动机”,并预测其3年产能达百万台、4年产能达千万台[9]
2026 AI年度展望:关于「大公司、独角兽、创业者」的十条趋势判断
新浪财经· 2026-02-07 21:43
2026年中国AI市场竞争格局 - 2026年是中国AI ToC市场大厂进行最后一搏的关键窗口期,竞争激烈程度不亚于历史上的打车、支付等大战 [2][58] - 字节跳动凭借豆包已占据AI to C一线位置,手握最大流量,其推出的豆包手机是对边界的试探 [2][58] - 阿里巴巴对“千问”进行战略级投入,2026年将更加淋漓尽致,例如投入30亿人民币进行市场推广 [2][58] - 腾讯同样会采取大动作,大撒“元宝红包”仅是开始 [2][58] - 对于“AI六小虎”(如智谱、MiniMax、月之暗面、阶跃星辰等)而言,随着部分公司完成港股IPO或大额融资,故事告一段落,自我造血和寻找差异化商业化道路迫在眉睫 [3][58][59] 主要科技公司战略与挑战 字节跳动 - 豆包的核心决策是早期确认多模态为核心能力,实现了AI能力平权,并在2025年抓住了最佳增长时机 [8][64] - 2025年通过引进以吴永辉为代表的世界顶尖人才,完成了顶尖模型人才储备,基础模型层稳居国内第一梯队 [8][64] - 2026年面临的核心挑战是如何在激烈竞争中留住顶尖人才 [8][64] - 长期挑战在于如何保持AI模型能力领先,并将AI助手与电商、外卖等线下服务联动,尽管公司组织年轻有活力,但内部协同仍是难题 [8][66] 阿里巴巴 - 千问是阿里集全集团之力打造的C端AI入口,产品路线从差异化的办事、办公场景切入,走专业路线,长期目标是成为AI入口 [10][69] - 千问未来不仅是对外AI入口,也将为阿里内部众多业务提供底层AI能力平台 [10][69] - 2026年的挑战在于,阿里业务体系庞杂,千问作为独立技术团队,理解并协同各业务单元对AI能力的诉求存在困难 [10][69] - 阿里通过组织变革(如成立千问C端事业群)来换取决策速度,以抓住AI助手可能成为新流量入口的短暂机会窗口 [11][70] - 行业观点认为,2026年将是大厂真正开打“ChatGPT之战”的一年,虽然市场已有DAU过亿的产品,但市场远未饱和 [10][69] 腾讯 - 元宝早期就明确了“模型即产品”的重要性,接入DeepSeek后强化了这一共识,2025年聚焦于提升模型能力及产品与模型的深度整合 [15][73] - 元宝选择聚焦高知人群走差异化路线,旨在利用其意见领袖效应形成示范 [15][73] - 截至2025年底,元宝的搜索服务部分基于混元,部分基于DeepSeek,但大多数用户仍选择DeepSeek作为默认模型,公司需摆脱对DeepSeek的依赖 [15][73] - 近期TEG搜推部门与元宝搜推合并,旨在提高效率并整合搜索链路,未来可能只存在统一的“元宝搜索” [15][74] - 腾讯整体节奏相对谨慎,混元策略可能避开基础模型正面竞争,聚焦Agent等差异化方向,2026年关键是要理清微信与元宝的战略定位 [16][17][75] 百度 - 百度认为AI正开启“超级周期”,其价值将远超互联网时代,将深度重构“研产销服”全产业链,撬动10万亿级市场 [18][77] - 智能体(Agent)被视为产业落地的关键形态,企业需构建AI原生组织,未来可能形成“决策层+智能体”的高效架构,中层可能大幅缩减 [18][77] - 百度指出当前AI产品存在三大痛点:认知偏差与幻觉问题、落地断层(手脑分离)、体验割裂 [18][78] - 百度致力于将百度文库和百度网盘打造为“超级个人智能体”,以解决上述痛点 [19][79] - 在数字人领域,百度将其发展分为三个阶段,并率先发布高说服力数字人进入3.0阶段,未来数字人将能持续自主进化并在更多场景超越真人 [20][21][80][82] 商业模式探索与分化 - 大模型主流商业模式有五种:ToC订阅和广告付费、ToB的API售卖、ToB/ToG定制化、按效果付费、软硬件一体 [4][25][60][85] - 选择ToC订阅模式的厂商基本都选择出海,因国内用户付费意愿不高 [25][85] - 售卖API的模式本质是云服务延伸,未来云厂商会将价格压得很低,独立模型厂商难规模化,故API只能作为短期商业化补充手段 [25][85] - 定制化模式在国内不仅需要技术交付能力,人脉也很重要 [25][85] - 按效果付费和软硬一体对初创公司有机会,但都对能力提出高要求:按效果付费需模型能力足够强,软硬一体需多模态模型矩阵和端云协同交付经验 [25][85] - 2023年以来许多模型公司有“OpenAI病”,但到2025年,因资源(钱和卡)有限,更多公司转向学习Anthropic,聚焦推理和Coding等有付费市场的方向 [25][26][86] - 目前没有商业模式是成熟的,仍需几年探索,产品形态也未定型,例如OpenAI也在探索ChatGPT采用广告模式的可能性 [4][27][60][86][87] 创业公司机会与策略 - 创业公司应寻找垂直场景切入,做端到端的服务交付,而非工具 [31][91][92] - 应聚焦信息生产场景,而非娱乐、社交等消费场景,后者是大厂必争之地 [31][92] - 创业公司相较于大厂有两个优势:技术更垂直深入、可以保持技术独立性(因部分场景客户与大厂存在竞争或数据安全顾虑) [32][33][93] - 2026年被认为是Agent“按效果付费”的元年,经济模型将从“订阅费覆盖算力成本”转向“任务分成覆盖算力成本”,这能帮助用户低门槛赚钱,传播速度快 [33][94] 融资与上市环境 - 2026年初,月之暗面、阶跃星辰获得新一轮大额融资,证明一级市场仍能支撑大模型发展 [39][100] - 此前智谱、MiniMax的港股IPO向市场释放了信号,但走向二级市场是“双刃剑”:带来融资渠道和市场声量,但也立即面临商业化压力和股价审视 [3][39][59][100][101] - 港股IPO越友好、上市公司越多,越能改善一级市场环境,为优质科技企业提供更顺畅的退出渠道和国际公允定价,反哺创新 [37][38][98] - 创业者应致力于全球创新而非区域创新,只要坚持创新,资本(包括海外资本)会主动进入,例如2025年DeepSeek和宇树的案例 [38][39][99] AI组织形态与效率 - AI时代,极小团队组织形式与全栈创新能力相辅相成,大公司中的AI研发团队也有必要简化以避免沟通瓶颈 [42][104] - 称职的极小团队创始人需具备三种核心能力:找机会(深挖行业痛点)、快速执行力(借助AI快速出Demo)、自我营销(利用社交媒体获客与验证) [42][104] - 在AI研发组织中,算法和基础设施(Infra)团队不应截然分开,强调分工易导致创新空间丧失和底层感知缺失,应共同设计、协同演进 [42][43][105] - 不应迷信一人公司,组织的关键评价维度是“人效”,公司80%的成本是沟通成本,AI可帮助规避此隐形成本 [43][44][105] - 一些头部AI公司已用AI进行内部分工,例如用Claude识别员工技能并分派任务,未来更需要具备批判性思维的通才来减少人际沟通问题 [44][105][106] 基础模型技术发展趋势 - 多模态需要走向“大一统”,即将图文、音视频等模态的理解与生成混合在一个模型中,以获得更强的上下文学习和零样本学习能力,天花板更高 [47][110][111] - AI时代真正的壁垒是“记忆”,这是所有AI产品的兵家必争之地,衡量指标应从DAU转向DTU(每日交流用户)和LMU(长记忆用户) [47][48][111][112] - 模型落地存在鸿沟,因中心化大模型缺乏高精尖领域或机构的私有数据,未来趋势是“去中心化”,通过提供低成本、易用的“脚手架”让各机构部署本地化模型,并通过模型融合构建领域基础模型 [48][49][112][113][114] 具身智能与世界模型 - 世界模型要真正有效,必须与下游场景形成验证闭环,例如商汤用上汽智己的实车检验其智能驾驶世界模型,大晓机器人用四足狗在巡逻任务中迭代模型 [52][118] - 预测物理世界的“ChatGPT时刻”可能在2-3年内到来,其定义为在100种常见任务中,90%的场景下达到95%的成功率,需VLA、世界模型和强化学习互相配合 [53][119] - 世界模型不同于数据驱动的VLA,它需要靠算法建模物理世界运动规律,让机器人能预知未来动作后果,是适合前沿实验室探索的方向 [53][54][119][120]
2026 AI年度展望:关于「大公司、独角兽、创业者」的十条趋势判断
36氪· 2026-02-07 21:34
2026年中国AI市场竞争格局 - 2026年是中国AI ToC市场大厂进行“最后一搏”的关键窗口期,竞争激烈程度堪比历史上的打车、支付大战 [7][8] - 字节跳动凭借“豆包”已占据AI to C一线位置,手握最大流量,并通过推出“豆包手机”试探边界 [7] - 阿里巴巴对“千问”进行战略级投入,计划投入30亿元进行市场推广 [6] - 腾讯通过“元宝红包”等动作参与竞争,但节奏相对谨慎 [6][32] - 百度认为AI将深度重构产业链,撬动10万亿元级市场 [34] 主要玩家战略与挑战 字节跳动 - 核心优势在于早期将AI能力平权并确立多模态为核心,2025年抓住最佳增长时机 [16] - 通过引进顶尖人才完成一流模型人才储备,基础模型层稳居国内第一梯队 [16] - 2026年核心挑战是如何在激烈竞争中留住顶尖人才 [17] - 长期挑战在于将AI助手与电商、外卖等线下服务联动,并优化内部协作 [18] 阿里巴巴 - “千问”是集全集团之力打造的C端AI入口,初期从差异化办公场景切入,走专业路线,长期目标是成为AI入口 [21] - 2026年挑战在于如何让独立的技术团队更好地理解并协同阿里内部庞杂的业务体系 [22] - 公司通过成立千问C端事业群,以组织变革换取决策速度,用市场验证产品 [26] - 认为当前AI助手市场同质化高但远未饱和,增量空间巨大,竞争关键在于迭代速度和运营能力 [24][25] 腾讯 - “元宝”早期聚焦高知人群,走差异化路线,以形成示范效应 [29] - 产品强化“模型即产品”理念,并聚焦模型能力提升与产品深度整合 [29] - 截至2025年底,大多数用户仍选择DeepSeek作为元宝的默认模型,产品需摆脱对DeepSeek的依赖 [30] - 公司通过合并搜推部门,旨在整合搜索链路,未来可能只存在“元宝搜索” [31] - 关键挑战是理顺“元宝”与“微信”的战略定位,并在自研模型能力上拿出更有说服力的成果 [32] 百度 - 认为智能体(Agent)是产业落地关键形态,已在编程优化、数字员工等领域展现突破性效能 [35] - 指出当前AI产品存在认知偏差(幻觉)、落地断层(手脑分离)、体验割裂三大痛点 [37] - 目标是打造“超级个人智能体”,赋能用户成为“超级个体” [38] - 在数字人领域,百度已发布高说服力数字人进入3.0阶段,未来数字人将能持续自主进化并支持个性化情感互动 [43][44] AI“六小虎”与初创公司 - 随着智谱、MiniMax推进港股IPO,以及月之暗面、阶跃星辰融资落定,“AI六小虎”故事告一段落,自我造血和寻找差异化商业化道路迫在眉睫 [9] - 一线美元基金合伙人认为,目前没有商业模式是成熟的,仍需几年探索 [10][54] - 模型初创公司高管列举了5种主流商业模式:ToC订阅/广告、ToB API售卖、ToB/G定制、按效果收费、软硬件一体 [10] - ToC订阅厂商多选择出海,因国内用户付费意愿不高;API售卖模式只能作为短期商业化的补充手段 [47] - 初创公司在垂直场景相较于大厂有技术更垂直、可保持技术独立两大优势 [58][59] 模型技术迭代与商业化 - 模型能力迭代方向从盲目对标OpenAI转向跟随客户需求,2025年以来更多厂商将资源聚焦于提升推理和编码能力 [51] - 未来不同模型厂商的能力将根据自身资源、优势和下游客户需求产生分化 [52] - 对于创业公司,按效果付费和软硬一体是潜在机会,但都对能力提出高要求:按效果付费要求模型能力足够强,软硬一体要求拥有丰富的多模态模型矩阵和端云协同交付经验 [49][50] - 攀峰智能CEO认为2026年将是Agent“按效果付费”的元年,经济模型将转变为“获取的任务分成能否覆盖算力成本” [60] 基础模型技术发展趋势 - 多模态需要走向“大一统”,即将图文音视频的理解和生成混合在一个模型中,以获得更强的上下文学习和零样本学习能力 [81] - AI时代真正的壁垒是“记忆”,语音是用户自然表达长上下文的最佳方式,产品价值应关注每日交流用户和长记忆用户,而非单纯的日活跃用户 [83] - 当前模型落地存在鸿沟,因缺乏领域数据,企业本地化部署需启动持续预训练以注入私有知识 [84] - 通过“去中心化”的模型融合方式,可以集各领域之力构建领域基础模型,例如融合不同医院的模型得到医疗领域基础模型 [86][87] 具身智能与世界模型 - 世界模型要真正有效,必须要有下游验证闭环,例如在智能驾驶或机器人场景中用真实反馈进行检验和校准 [90][91] - 极佳视界CEO预测,2-3年内可能迎来物理世界的“ChatGPT时刻”,即在100种常见任务中,90%的场景下达到95%的成功率 [92] - 实现该目标需要视觉语言模型、世界模型和强化学习互相配合:视觉语言模型解决作业复杂性,世界模型解决泛化性,强化学习解决准确率和可靠性 [92] - 世界模型的探索是算法创新驱动,旨在建模物理世界运动规律,让机器人预知未来动作后果,目前尚未进入工业化阶段 [94][95] 组织形态与融资环境 - AI研发组织趋向小型化,极小组织形式与全栈创新能力相辅相成,算法与基础设施团队不应脱离,需协同演进以提升效率 [75][76] - 评价组织的关键维度是“人效”,AI有助于规避沟通的隐形成本,一些公司已开始用AI进行任务分工 [77][78] - 未来组织更需要技能全面、具有批判性思维的通才 [78] - 港股IPO被视为改善一级市场融资环境的契机,能为优质科技公司提供更顺畅的退出渠道和国际公允定价 [64] - 上市是一把“双刃剑”,在获得融资渠道和市场声量的同时,也会立即面临二级市场对商业化的严苛审视和业绩兑现压力 [9][69] - 创业者应致力于全球创新而非区域创新,只要坚持创新,资本就会主动寻求机会 [66]
一张图生成游戏?谷歌Genie体验:万物皆可玩,但离“杀死游戏公司”还远
36氪· 2026-02-07 18:08
谷歌Project Genie发布及其核心能力 - 谷歌宣布向部分用户开放体验Project Genie原型版本 该AI工具能根据用户提供的照片、草图或文字描述生成可交互的虚拟世界 实现“生成即交互” [1][8] - 用户可指定游戏内角色的操作方式 如走路、骑行、飞行或开车 Project Genie会尝试理解物理规律并生成一个可供操控的世界 [11][13] - 生成的世界并非一次性产品 用户可在已有世界基础上通过修改提示词进行编辑 例如更换角色或物体 并能将生成内容导出为视频进行分享 [14][16] 市场对Project Genie的初步反应 - 消息公布后 相关游戏公司股价出现显著下跌 其中《GTA》开发商R星的母公司Take-Two Interactive股价下跌10% 在线游戏平台Roblox下跌超过12% 游戏引擎制造商Unity下跌21% [4] - 相比之下 国内厂商如网易和腾讯的股价基本未受影响 [4] Project Genie的技术原理与当前局限性 - Project Genie的核心模型Genie 3是一个采用自回归生成机制的帧生成模型 它通过分析前几帧画面来预测并生成下一帧 而非播放预渲染内容 [24] - 该模型通过学习了超过20万小时的游戏视频数据来建立操作与画面变化的关联 [26] - 当前体验存在明显缺陷 包括缺乏一致性 例如角色面部特征在短时间内发生不可控的剧烈变化 以及缺乏可靠逻辑 导致角色穿墙、陷入地板或场景出现无逻辑形变等 [27][29][31] - 谷歌为防止AI算力过载或逻辑崩坏 将玩家可生成的片段长度限制在一分钟 但即便在此限制下 记忆丢失和逻辑错误问题依然突出 [27][31] Project Genie的行业定位与潜在影响 - 该技术目前的主要价值在于为游戏设计师提供快速验证灵感的工具 对普通玩家而言 更多是一个可短暂娱乐的新鲜玩具 距离真正的沉浸式可玩性游戏尚有距离 [32] - 其意义超越了游戏创作本身 代表了人工智能从“理解静态世界”向“模拟真实世界”迈出的关键一步 是实现从被动展示到主动交互、从静态叙事到动态推演的重要进展 [33][35] - 世界模型被视为通往通用人工智能(AGI)的必经之路 其成熟形态可用于在虚拟世界中训练AI机器人完成各类任务 再将算法迁移至实体机器人 从而降低现实训练成本 [35] 行业竞争格局 - 多家科技巨头正在布局世界模型赛道 OpenAI明确其视频生成模型Sora本质上是世界模型 英伟达新推出的Cosmos模型则专注于让AI理解物理定律 [35] - 相比之下 国内游戏大厂如网易和腾讯的AI应用方向被描述为“用AI赋能游戏” 例如开发AI NPC或游戏AI对手 被认为尚未触及颠覆游戏创作流程的层面 [23]
Waymo联手DeepMind打造世界模型:基于Genie 3,让自动驾驶「脑补」罕见场景
机器之心· 2026-02-07 15:00
文章核心观点 - Waymo推出了基于DeepMind Genie 3构建的全新世界模型Waymo World Model,旨在通过生成高度逼真、可交互的3D仿真环境,为自动驾驶系统提供大规模、超真实的训练与测试能力,以应对现实世界中罕见和极端的“长尾”场景[1][4] 技术基础与架构 - 模型建立在Google DeepMind的通用世界模型Genie 3之上,并针对自动驾驶需求进行了专业化适配[4] - 模型能够生成高度逼真且可交互的3D环境,并支持生成高保真、多传感器数据,包括摄像头图像和激光雷达点云[4] - 通过专门的后训练流程,将Genie 3从庞大2D视频数据中学习到的世界知识,迁移到了Waymo硬件套件独有的3D激光雷达输出中,实现了跨传感器模态的场景生成[8] 核心能力与优势 - **大规模仿真经验**:Waymo Driver在真正驶上公共道路前,已在虚拟世界中行驶了数十亿英里,远超其近2亿英里的真实道路行驶里程[4] - **处理罕见与极端场景**:模型可以模拟现实中几乎无法大规模复现的罕见事件,例如遭遇龙卷风、大象、长角牛等[4][9][10] - **强大的模拟可控性**:通过三种主要机制实现高度可控的仿真[11] - **驾驶行为控制**:创造响应迅速的仿真器,遵循特定驾驶输入,用于模拟“如果…会怎样”的反事实事件[11] - **场景布局控制**:允许自定义道路布局、交通信号灯状态以及其他道路使用者的行为,以创建定制场景[13] - **语言控制**:最灵活的工具,可用于调节时间、天气状况,甚至生成完全合成的长尾场景[16][17][19] - **真实感与准确性**:可将普通相机拍摄的视频(如行车记录仪视频)转换为多模态仿真,呈现Waymo Driver在同一场景下的“所见”,该过程在真实感和事实准确性上达到最高水平[22] - **可扩展推理**:通过高效变体模型,可以在显著降低计算量的同时模拟更长的场景(如4倍速播放),并保持高真实感与高保真度,支持大规模仿真[24][25] 应用与行业影响 - 该模型是支撑Waymo进行大规模虚拟测试的核心基础设施,使自动驾驶系统能够在现实世界之外,提前掌握应对真实世界复杂挑战的能力[4] - 通过模拟罕见、极端边缘场景(如逆向行驶车辆、极端天气、动物穿行、繁忙街区穿行等),为自动驾驶系统设立了更严格的安全基准,确保其在现实道路上遇到类似挑战前已具备应对能力[5][6][9][27][28]
全新视角看世界模型:从视频生成迈向通用世界模拟器
机器之心· 2026-02-07 12:09
文章核心观点 - 视频生成与世界模型是人工智能领域的热点,其目标是从生成逼真短片发展为可用于推理、规划与控制的通用世界模拟器,并与具身智能、自动驾驶等前沿场景深度交织,被视为通往通用人工智能的重要路径[2] - 当前研究存在定义模糊、分类重叠等问题,限制了技术标准化发展,为此快手可灵团队与香港科技大学(广州)团队联合发表了一篇系统综述,旨在弥合当代“无状态”视频架构与经典“以状态为中心”世界模型理论之间的鸿沟[2][3] - 该综述首次提出了以“状态构建”与“动态建模”为双支柱的全新分类体系,并倡导将评估标准从单纯的“视觉保真度”转向“功能性基准”,为视频生成演进为鲁棒的通用世界模拟器提供了清晰的路线图[3] 核心理论贡献 - 提出了全链路视角,涵盖从底层理论定义、中层架构设计到上层功能性评估的全生命周期分析,确保对视频世界模型全方位的理解[8] - 首次将当代“无状态”的视频扩散架构与经典的基于模型强化学习、控制理论进行深度映射,为世界模型找到了坚实的理论根基[8] - 明确了“持久性”与“因果性”是迈向通用世界模拟器的两大核心关隘,为业界从被动的“像素预测”转向具备闭环交互与因果干预能力的模拟器提供了清晰的路径参考[8] - 深度梳理了2024至2025年间涌现的视频生成最新工作,反映了当前技术从视觉保真度向物理一致性转化的前沿趋势[8] 世界模型的三大基石与核心操作 - 观察:环境的原始感官数据,在视频模型中表现为高维的像素级输入,提供世界的局部、间接视图[8] - 状态:模型通过提炼历史观察,过滤噪声,形成的足以解释当前世界的“内部表示”[8] - 动态变化:预判未来的“引擎”,它刻画了状态随时间演变的规律,让模型具备在脑海中“预演”物理法则的能力[9] - 状态估计:把高维、连续的观测序列压缩成一个紧凑的状态表示,用来刻画环境在当前时刻的关键状态[13] - 状态转移:刻画环境在动作作用下的因果演化,是世界模型的“内部模拟引擎”,用于预测未来状态或观测[13] 世界模型的学习方式 - 闭环学习:世界模型与策略模型联合训练,世界模型的参数更新直接受策略目标影响,可进一步分为顺序组合架构与统一架构[14] - 开环学习:将世界模型视为通过大规模被动数据预训练得到的独立模拟器;策略模型可在自身优化中调用世界模型进行“想象/规划”,但世界模型不接收来自策略奖励信号或损失函数的梯度更新[14] 支柱一:状态构建 - 现代视频生成模型在状态层面存在关键差距:多数模型缺乏显式压缩状态,而以观测序列充当隐式状态,随时间增长带来计算/记忆负担并削弱长程持久性[12] - 隐式状态范式:不构建固定大小的显式状态变量,而是通过外部记忆机制管理历史观测,动态提炼出“工作记忆”来支撑生成所需的长期一致性与上下文连贯[16] - 显式状态范式:将状态构建内化为模型自身的压缩过程,把历史上下文持续蒸馏进一个全局更新的潜在变量中,使其成为对视频演化过程的固定维度、可递推的数学摘要[17] - 隐式状态的管理机制主要包括压缩、检索和巩固三种核心操作,以处理长上下文信息[18] - 显式状态根据其与生成骨干的融合程度,可分为耦合状态与解耦状态[19] - 隐式状态与显式状态的系统性对比:隐式状态机制依赖外部管理,上下文选择多为启发式学习或基于规则,持久性受限于窗口,计算复杂度随历史长度线性或二次增长;显式状态机制依赖内部递归,上下文选择基于学习的物理/转移规律,支持全局连续性和无限时长,计算复杂度为常数[23] - 总体取舍是:隐式状态目前更稳妥地支持高保真视频生成,而显式状态更像通往高效、可长期推理的自主智能体与世界模拟的前沿方向[22] 支柱二:动态建模 - 现代视频生成模型在动态层面存在关键差距:标准模型常以双向注意力“一次性渲染”固定时长片段,缺少显式时间因果推进[12] - 增强因果推理能力的两条主要路径:一是因果架构重构,从模型结构与训练目标入手,把生成过程从“一次性渲染”改造成“按时间顺序预测”;二是因果知识集成,引入具备更强推理能力的多模态大模型作为“规划者/导演”,先在高层完成规划,再由视频生成模型负责高保真“渲染”[25] 评估标准的演进 - 主张将评估从“视觉美感”推进到“功能基准”,并提出三条核心评价轴:质量、持久性和因果性[26] - 质量:关注基础视觉保真度、短程时序相干性以及文本/条件对齐能力,代表性工具如VBench/VBench++等[44] - 持久性:关注长时程生成的稳定性与一致性,并通过“场景重访”等记忆任务检验模型能力,相关评测包括WCS以及基于rFID的重建一致性测试等[44] - 因果性:重点检验模型是否真正内化物理与逻辑规律,评测包括时间顺序与物理有效性,以及反事实干预下的响应是否合理,并进一步延伸到agent-in-the-loop的任务成功率与规划表现[44] 未来研究方向 - 视频生成迈向世界模拟的关键在于补齐两项核心能力:持久性与因果性[27] - 持久性方面:隐式状态需要从固定窗口等启发式记忆升级为可学习、可动态筛选的信息管理机制;显式状态则要在压缩效率与细节保真之间找到更好的平衡[27] - 因果性方面:一条路线是通过架构与数据设计提升因果推断能力,另一条路线是引入理解模型的推理先验来约束生成,但如何有效对齐生成与理解仍是核心挑战[27]