Workflow
强化学习
icon
搜索文档
DeepMind强化学习掌门人David Silver离职创业!Alpha系列AI缔造者,哈萨比斯左膀右臂
量子位· 2026-01-31 09:34
核心人物动态 - 强化学习领域权威专家David Silver已从DeepMind离职,结束了在该公司长达15年的职业生涯 [1][2] - 其离职后创立了一家名为Ineffable Intelligence的新AI公司,该公司已于2025年11月注册成立,Silver于2026年1月16日正式出任公司董事 [2][3] - 新公司总部位于伦敦,目前正处于积极招募研究人才和寻求风险投资的阶段 [7] 人物背景与成就 - David Silver是DeepMind的元老级研究员,于2010年公司创立之初加入,与联合创始人Demis Hassabis是大学好友并曾共同创业 [12] - 作为强化学习团队负责人,他主导或深度参与了DeepMind几乎所有里程碑项目,是“Alpha系列”AI的核心缔造者 [12] - 其代表性成就包括:2016年领导开发击败围棋冠军李世石的AlphaGo [14];开发出在不依赖人类棋谱情况下精通围棋、国际象棋和日本将棋的AlphaZero [14];开发出无需知晓规则即可掌握多种游戏的MuZero [15];开发出击败《星际争霸II》顶尖职业选手的AlphaStar [16];近期参与了可解答国际数学奥林匹克竞赛题目的AlphaProof以及谷歌首个Gemini模型的研究 [17] - 其学术影响力巨大,是DeepMind发表论文最多的研究员之一,谷歌学术统计其论文总被引次数超过28万次,h-index高达104 [19] 创业动机与理念 - 创业动机是希望回归“解决AI领域最难题所带来的敬畏与奇迹”,并将实现超级智能视为当前最大的未解挑战 [20] - 其目标是构建一个能够自我发现所有知识基础、并能永无止境学习的超级智能 [21] - 他认为当前主流的大语言模型能力受限于人类已有知识,倡导AI进入“经验时代”,即通过强化学习从经验中自我学习,从而发现人类未知的新事物 [22][24] - 他强调实现真正的超级智能,AI必须摆脱对人类知识和直觉的依赖,从第一性原理出发进行学习,并以AlphaGo对战李世石时超出人类专家理解的第37手棋为例证 [24][25]
又一清华强将加盟腾讯混元,即将入职多模态模型团队负责强化学习前沿算法探索
凤凰网· 2026-01-30 13:35
公司人才引进与团队建设 - 清华大学计算机系博士、可信机器学习与生成式模型领域杰出青年学者庞天宇已加盟腾讯,担任混元大模型团队首席研究科学家及多模态强化学习技术负责人,主攻多模态模型的强化学习,前期聚焦生成模型 [1] - 庞天宇在机器学习顶级会议ICML、NeurIPS、ICLR上发表多篇文章,曾获微软学者奖学金、英伟达学术先锋奖,并在新加坡Sea AI实验室担任高级研究科学家 [1][2] - 此前,前OpenAI高级研究员姚顺雨已加入腾讯并担任首席AI科学家,兼任AI Infra部及大语言模型部负责人,腾讯在过去一年为混元大模型在人才吸引和组织结构上做了很大改变 [2][3] 公司战略与组织架构调整 - 腾讯于2025年12月17日升级大模型研发架构,新成立AI Infra部、AI Data部、数据计算平台部,任命姚顺雨为首席AI科学家,此举被定义为公司AI战略加速的明确信号 [3] - 腾讯AI助手“元宝”团队已从技术工程事业部转入云与智慧产业事业群,从技术试验转向AI应用 [3] - 公司加快了混元大模型和元宝的协同设计,重构了研发团队 [2] 产品进展与市场表现 - 腾讯混元团队于1月28日开源混元图像3.0图生图版本,并同步接入元宝,该模型在全球权威大模型竞技场LMArena的图像编辑榜单中进入第一梯队,成为全球最强的开源图生图模型 [3] - 元宝上线初期以日均更新一个版本的高频迭代,用户规模快速升至国内AI应用前三,并在今年春节档开启内测“派”功能,同期宣布将派发10亿红包 [3]
大模型学会拖进度条看视频了,阿里新研究让视频推理告别脑补,实现证据链思考
36氪· 2026-01-29 17:29
核心观点 - 阿里巴巴未来生活实验室的研究团队发现,在视频推理任务中,简单地套用文本思维链(如“一步一步思考”)会因模型产生“脑补”和幻觉而导致效果不佳,甚至不如“直接回答”[1] - 团队认为,模型“思考”的效果取决于是否教会它“如何思考”,并为此提出了一套完整的解决方案,包括高质量数据集ReWatch和SOTA模型ReWatch-R1,论文已中稿ICLR 2026[1] 数据集ReWatch - 为解决现有训练数据视频描述粗糙、问答过于简单、思维链严重依赖文本常识而非视频内容三大痛点,团队构建了包含1万视频、17万问答对和13.5万思维链的ReWatch数据集[2] - 数据集具备三大核心优势:1) 高保真时序字幕,为长视频生成带精确时间戳的详细事件描述;2) 高难度视频问答,确保问题必须依赖视频细节解答;3) 视频接地的思维链,通过多智能体ReAct框架生成与视频内容紧密绑定的推理轨迹[2] - 整个数据集的构建过程包含分层字幕生成、高难度问答对生成以及多智能体思维链合成三个阶段,确保了数据的高质量和高难度[4] 模型ReWatch-R1 - 研究团队采用SFT+RL的范式训练模型,并通过一个创新的奖励机制让模型掌握思考的精髓,其核心是带过程奖励的强化学习[6] - 过程奖励具体拆解为观察奖励和推理奖励:观察奖励评估模型生成的“观察”是否与高保真字幕相符;推理奖励评估模型仅凭其生成的“观察”信息能否推导出正确答案[8] - 该方法使模型不仅学会得出正确答案,更学会了如何通过真实、有效的步骤进行思考,基于证据链进行推理[8] 实验结果与洞察 - 实验结果表明,ReWatch-R1在五个主流视频推理基准上,平均性能显著超越了所有同量级的开源模型,取得了SOTA的成绩[9] - 关键洞察发现,在监督微调阶段,“思考模式”性能无法超越“直接回答”模式,说明SFT只能教会模型思考的“形”;而经过强化学习阶段后,“思考模式”性能实现惊人飞跃,最终大幅超越“直接回答”模式[11] - 这证明了显式的、一步步的、有证据支撑的推理过程对解决复杂视频任务至关重要,而强化学习是激发这种能力的关键[11] 总结与贡献 - 该工作通过创新的“智能体合成数据”方法,解决了高质量视频推理数据稀缺的核心瓶颈[13] - 通过“过程奖励”强化学习,成功教会了模型如何基于视频证据进行“深度思考”,而不是空想[13] - 研究表明,让模型学会“如何思考”是通往更高阶视频智能的关键一步[13]
大模型学会拖进度条看视频了!阿里新研究让视频推理告别脑补,实现证据链思考 | ICLR 2026
量子位· 2026-01-29 16:27
文章核心观点 - 阿里巴巴未来生活实验室的研究团队指出,在视频推理任务中,简单地套用文本思维链(如“Let's think step by step”)效果不佳,甚至可能不如直接回答,其根本原因在于视频推理需要模型在视觉内容与文本逻辑之间反复穿梭验证,而纯文本思维链易导致模型产生“脑补”和幻觉 [1] - 研究团队提出,模型“思考”的效果取决于是否教会它“如何思考”,并为此推出了一套完整解决方案,包括高质量视频推理数据集ReWatch和能够像人类一样“回看”视频进行思考的SOTA模型ReWatch-R1 [1] 高质量视频推理数据集ReWatch - 为解决现有训练数据的三大痛点(视频描述粗糙、问答过于简单、思维链严重依赖文本常识而非视频内容),研究团队构建了ReWatch数据集,包含1万视频、17万问答对和13.5万思维链 [2] - 数据集具备三大核心优势:1) 高保真时序字幕(ReWatch-Caption),采用分层字幕生成方法为长视频生成带精确时间戳的详细事件描述;2) 高难度视频问答(ReWatch-QA),通过“摘要vs精读”对比生成策略和三层过滤机制,确保问题必须依赖视频细节解答;3) 视频接地的思维链(ReWatch-CoT),首创多智能体ReAct框架,模拟人类“回看、确认”行为,生成每一步都与视频内容紧密绑定的推理轨迹 [2] - 整个数据集的构建过程包含三个阶段:分层字幕生成、高难度问答对生成以及多智能体思维链合成,确保了数据的高质量和高难度 [4] 模型训练方法论:ReWatch-R1 - 研究团队采用SFT+RL的训练范式,并通过一个创新的奖励机制(带过程奖励的强化学习,GRPO with O&R Reward)来教会模型思考的精髓,该机制不再仅仅奖励“答对与否”,而是直接监督和奖励模型的中间推理过程,以有效抑制推理幻觉 [6] - 过程奖励(O&R Reward)的计算分为两部分:1) 观察奖励(Observation Reward),通过比对模型生成的观察结果与数据集中的高保真字幕,评估其真实性;2) 推理奖励(Reasoning Reward),评估模型推理中产生的“观察”结果能否作为唯一信息源推导出正确答案,以判断推理动作是否充分高效 [8] - 通过这种过程导向的奖励机制,模型学会了如何通过真实、有效的步骤进行思考,基于证据链进行推理 [8] 实验结果与关键洞察 - 实验结果表明,ReWatch-R1在五个主流视频推理基准上,平均性能显著超越了所有同量级的开源模型,取得了SOTA的成绩 [9] - 一个关键发现是:在监督微调(SFT)阶段,“思考模式”的性能始终无法超越“直接回答”模式,说明SFT只能教会模型思考的“形”;然而,经过RL阶段的训练后,“思考模式”的性能实现了惊人飞跃,最终大幅超越了“直接回答”模式,展现出最高的性能上限 [12] - 这证明了显式的、一步步的、有证据支撑的推理过程对于解决复杂视频任务至关重要,而强化学习是激发这种能力的关键 [12] 研究总结与贡献 - ReWatch-R1的工作为视频理解领域贡献了宝贵的思路和资源,通过创新的“智能体合成数据”方法解决了高质量视频推理数据稀缺的核心瓶颈,并通过“过程奖励”强化学习教会了模型如何基于视频证据进行“深度思考” [14] - 这项研究表明,让模型学会“如何思考”是通往更高阶视频智能的关键一步 [14]
来这场沙龙,一览SGLang X 超长上下文扩展、RL后训练框架、扩散语言模型等前沿技术实践
机器之心· 2026-01-29 16:12
行业技术演进趋势 - 人工智能正从“聊天”范式加速向“能办事”的智能体时代演进[2] - 当前是LLM系统优化与技术落地的关键节点[2] 行业社区活动 - 由SGLang社区、机器之心、张江孵化器联合举办线下Meetup,旨在促进开发者深度联结与经验共创[2] - 活动于2月6日下午在上海浦东·纳贤路800号1层举办[2][4] - 活动围绕SGLang技术路线、超长上下文扩展、RL后训练框架、扩散语言模型探索等议题展开深度解析[2] 活动日程安排 - 13:30-14:00 签到[5] - 14:00-14:30 主题分享一:SGLang roadmap,由SGLang核心开发成员张柏舟主讲[5] - 14:30-15:00 主题分享二:Omni-infer对SGL的性能优化实践,由Omni-infer核心开发者郑锦焕主讲[5] - 15:00-15:30 主题分享三:slime: 面向RL Scaling的LLM后训练框架,由清华大学博士生、Slime核心开发者谢承兴主讲[5] - 15:30-16:00 主题分享四:SGLang CPP: 面向超长上下文的Scaling out黑科技,由SGLang核心开发者、Mooncake核心开发者蔡尚铭主讲[5] 参与公司与机构 - 活动联合方包括SGLang社区、机器之心、张江孵化器[2] - 参与分享的嘉宾来自华为、清华大学、阿里巴巴、蚂蚁集团等机构[8][9][10][11] 嘉宾背景与研究方向 - 张柏舟(SGLang核心开发成员):专注于开源大语言模型在不同Cuda硬件(Hopper, Blackwell)上的支持和优化[8] - 郑锦焕(华为技术专家,Omni-infer核心开发者):长期深耕高性能系统与工程落地,当前主要从事推理系统的方案设计与性能优化,方向包括负载均衡、算子融合、KV Cache等[9] - 谢承兴(清华大学博士生,Slime核心开发者):研究方向聚焦于大语言模型强化学习、强化学习系统基础设施,以及提升大语言模型在真实世界复杂任务中的推理与决策能力[10] - 蔡尚铭(阿里云飞天实验室研究员,SGLang与Mooncake核心开发者):主要研究方向包括高性能推理系统、大语言模型、分布式机器学习训练[10] - 李泽寰(蚂蚁集团系统工程师,SGLang Contributor):专注于AI Infra领域,从系统、引擎与模型层的综合视角进行优化,目前蚂蚁集团正基于SGLang框架构建对外服务的低延迟推理能力[11]
速递|OpenAI前研究副总裁自立门户:新实验室筹集5至10亿美元融资
Z Potentials· 2026-01-29 13:35
文章核心观点 - 人工智能行业正兴起一波由前OpenAI等巨头研究人员创立的新兴实验室热潮 这些实验室致力于突破现有技术范式 探索与OpenAI等主流公司不同的AI发展路径[1] - 由OpenAI前高级研究员Jerry Tworek创立的Core Automation公司是这股热潮的代表 其计划融资5亿至10亿美元 开发能够持续学习且训练数据需求大幅降低的新型AI模型[1][2] - 尽管这些新兴实验室往往缺乏营收或产品 但资本市场对其显示出持续的投资兴趣 近期有多家类似公司完成了大额融资[3] 新兴实验室的发展动向与融资情况 - Core Automation由OpenAI前研究副总裁Jerry Tworek创立 正处于早期阶段 计划融资5亿至10亿美元[1] - 另一家由前OpenAI首席科学家Ilya Sutskever联合创办的实验室Safe Superintelligence Lab 也致力于开发能够从现实世界持续学习的模型[3] - 新兴实验室Humans&在本月以48亿美元估值完成了4.8亿美元的种子轮融资 投资方包括SV Angel 英伟达和Jeff Bezos[3] - Mira Murati旗下的Thinking Machines Lab正在洽谈以超过500亿美元估值筹集40至50亿美元资金 该公司去年已发布产品并产生部分营收[3] Core Automation公司的技术愿景与研发方向 - 公司旨在开发能通过大型科技公司尚未重点投入的方法构建的AI模型 核心目标是创建能实时从现实经验中持续学习的AI模型[1] - 计划重新思考神经网络模型的开发方式 包括梯度下降法等标准训练环节 目标是开发出需要更少数据和更少服务器进行训练的模型[2] - 计划通过设计超越当前主流Transformer架构的新模型架构来实现目标 并将模型训练的不同步骤整合为一个统一的过程[2] - 创始人设想通过单一算法开发名为Ceres的模型 这与大型AI开发商通常采用的分阶段预训练和微调模式形成鲜明对比[4] - 最终目标是开发出比最先进模型少用100倍数据训练而成的模型 并基于此开发AI智能体以自动化产品开发[6] 创始人的背景与行业技术趋势 - 创始人Jerry Tworek于2019年加入OpenAI 离职是为了尝试在OpenAI难以进行的研究类型[2] - 在OpenAI期间 他担任研究副总裁 领导公司在强化学习领域的工作 并且是公司推理模型 编码工具和智能体开发的关键贡献者[6] - 部分AI研究者认为当前流行的模型开发技术不太可能开发出能在生物学 药品等领域实现重大突破的高级AI 同时避免低级错误 因此该领域需要彻底革新[2] - 尽管OpenAI和Anthropic等主流开发商也对持续学习技术表现出浓厚兴趣 但部分研究人员认为可以通过调整基于Transformer的模型来实现该特性 而无需彻底重构架构[3] 公司的长期应用愿景 - 公司未来的产品将首先应用于工业自动化领域[6] - 长期愿景是打造“自我复制工厂” 并可能制造生物机器来自动生成定制设计 甚至改造行星[6]
OpenAI推理第一人创业了:要造“活到老学到老”的AI,先来融它70个亿
量子位· 2026-01-29 13:03
核心观点 - OpenAI前核心研究员Jerry Tworek离职后迅速创立Core Automation公司,瞄准“持续学习”领域,计划筹集5亿至10亿美元资金,旨在开发能够像人类一样从新数据和新经验中不断学习且不遗忘旧知识的新型AI模型 [1][15][18] Jerry Tworek的背景与成就 - Jerry Tworek拥有强大的理论与数理功底,在华沙大学获得数学硕士学位,并曾从事量化研究工作,专注于优化问题与噪声数据处理 [6][7][8] - 2019年加入OpenAI后,他将强化学习的方法论带入大模型研究,主导了首个推理模型o1的研发,并深度参与了o3、GPT-4、ChatGPT、Codex等多条核心模型线的构建,是推动大模型从生成走向推理的核心人物之一 [9][10] Core Automation公司的技术方向与目标 - 公司致力于解决“持续学习”问题,目标是让AI模型能够在真实世界的使用过程中,从连续不断的新数据、新任务和新经验中逐步学习新知识,同时尽可能保留旧知识 [15][16] - 技术实现计划包括构建一套不依赖Transformer的新架构,并将分散的训练流程整合为一个连续的系统,使模型在运行过程中也能完成学习 [17] - 融资目标激进,计划筹集5亿到10亿美元,旨在按照下一代基础模型实验室的规格起步 [18] 持续学习领域的重要性与行业动态 - 持续学习被视为解决当前大模型“训完就上线”模式弊病的路径,该模式导致模型部署后能力基本固定,无法有效利用遇到的新情况 [12][13] - 从成本与效率角度看,持续学习路径被认为更具优势,它主张模型在真实使用中吸收新经验,用更少的交互实现进步,从而降低对训练数据和算力的依赖 [20][21][22] - 行业共识认为,要实现AGI,模型必须具备持续进化、处理长时序任务等“生物”能力,而“持续学习”是达成此目标的关键前提 [23] - 该领域已吸引多方关注:OpenAI联合创始人Ilya创立的SSI公司也专注于相近方向 [25];Google Research提出了“Nested Learning”和“Titans”等新思路以增强模型的持续学习能力 [28];DeepMind研究员预测2026年将成为“持续学习元年” [31]
月之暗面三位联创深夜回应一切,3小时答全球网友23问,杨植麟剧透Kimi K3提升巨大
36氪· 2026-01-29 08:17
公司概况与研发文化 - 公司核心团队在Reddit平台进行了长达3小时的AMA活动,回答了超过40个问题 [1][3] - 公司拥有“把事情真正做成并落地”的共同价值观,而非追求表面光鲜 [4][9] - 公司鼓励全员参与技术讨论,每天对实验方向进行深入探讨,以决定继续、调整或放弃 [9] - 公司在押注技术基本面上有良好记录,例如MoBA项目几乎从公司成立之初开始,Kimi Linear项目经历了近一年的探索 [9] - 公司创始人认为训练模型的过程是不断接近“智能如何被创造”的真相 [9] 算力储备与行业竞争 - 公司CEO杨植麟承认,在GPU数量上与其他企业的差距并未缩小 [3][8] - 算法负责人周昕宇认为“创新往往诞生于约束之中”,暗示在有限算力下寻求突破 [3][8] - 对于实现AGI所需的算力规模,公司持开放态度,认为仍需拭目以待 [3][8] Kimi K2.5 模型技术细节 - Kimi K2.5是公司目前最强大的模型,在视觉、编程、智能体及通用任务上表现良好 [4] - 模型通过“智能体蜂群”技术,可调度多达100个子智能体,任务执行效率最高提升450% [4] - 针对模型有时自称为“Claude”的现象,CEO解释主要源于预训练阶段对最新编程数据进行了上采样,这些数据与“Claude”这个词元关联性强,并非模型蒸馏自Claude的证据 [3][16] - 公司称K2.5在多项基准测试中优于Claude,例如HLE、BrowseComp、MMMU Pro和MathVision [3][17] - 公司通过提高数据质量(更多验证知识)和调整奖励机制(惩罚幻觉)来降低模型幻觉问题 [17] - Kimi K2.5采用了较高的参数比例(约470:1),使用了15万亿个token进行训练,公司认为适度“过度训练”是为获得更优整体权衡而支付的“成本”,而非浪费 [17][18] - “智能体蜂群”技术允许子智能体拥有独立工作记忆,只在必要时将结果返回主调度器,从而避免了上下文污染,并在新维度上扩展了整体上下文长度 [18] - 公司认为在参数规模足够的情况下,编程能力与创意写作等“软性”能力不存在根本冲突,但保持一致的“写作品味”是一项挑战,公司通过内部基准评测来调整奖励模型 [19] - 公司承认模型版本迭代会导致“个性”变化,这是一个棘手且主观的评估问题,正在努力解决以满足用户个性化需求 [20] - 公司开发了自有编程工具Kimi Code,以更好地匹配其模型框架,并拥有视频输入等独有功能,认为video2code代表前端开发的未来 [11][12] 技术研发方法与挑战 - 训练视觉语言模型的主要挑战在于同时提升文本和视觉性能,公司发现方法得当时两者可相互促进,例如视觉任务上的强化学习训练可提升文本知识基准成绩 [10] - 强化学习基础设施是巨大挑战,公司力求在保持灵活性的同时实现高效率,并复用繁重计算工作以实现规模化扩展 [12] - 智能体蜂群的部署逻辑复杂,但公司系统具有高灵活性,允许集成不同框架和子智能体设置到训练过程中 [13] - 公司的Scaling实验从非常小的规模开始,有时小到可在单个CPU上训练,核心目标是预测系统的可扩展性 [13] - 公司曾急于将Kimi Linear移植到Kimi K2中,但遭遇规模化失败,经过数月调试才使其达到现有水平 [13] - 公司认为大多数小规模有效的方案无法突破规模化瓶颈,能成功推广的方案通常简单有效且有数学依据,研究的重点在于应对失败 [13] - 对于DeepSeek的Engram架构,公司认为对嵌入进行Scaling是有趣方向,但在通过Scaling阶梯测试前尚无可靠数据 [8] - 关于强化学习算力预算,CEO表示其计算量将持续增长,且未来可能出现更多新的目标函数对模型进行强化训练,尤其是在智能体领域 [15] - 公司认为当前模型能力的瓶颈往往不在于路线复杂度,而在于任务本身是否可验证,智能的上限更取决于能否发明新的学习算法 [15][16] - 公司使用小型视觉编码器(如400M),因为其有利于Scaling,甚至考虑过设为0的可能性 [26] - 目前公司没有足够资源处理音频输入,可能将重点放在训练更好的智能体上 [26] 未来规划与Kimi K3展望 - 对于下一代模型Kimi K3,CEO未透露太多细节,但提到会在Kimi Linear基础上加入更多架构优化 [3] - CEO相信Kimi K3就算没有比K2.5强10倍,也肯定会强很多 [3][23] - Kimi K3将尝试新的架构和功能 [21] - 线性架构是一个非常不错的选择,公司做了大量研究,Kimi Linear是与之并行的一项专门研究项目 [22][24] - 公司正大力投资线性注意力机制,将其作为未来模型的关键方向 [24] - 公司相信持续学习能够提升模型的自主性并使其更长时间高效工作,正在积极探索该方向 [24] - 公司认为模型的核心在于“品味”,因为智能是非同质化的,并指出K2.5相比其他模型更少迎合用户,这可能是一种好的性格特征 [25] - “智能体蜂群”功能目前处于测试阶段,待其更加稳定后,公司将向开发者提供框架 [25]
轻舟智航L2/L4智驾方案解析:一段式、VLA和世界模型
自动驾驶之心· 2026-01-26 15:16
轻舟智航技术方案与产品进展 - 公司首个基于单颗地平线征程6M芯片的城市NOA方案已于21号正式上车理想L系列智能焕新版[2] - 该方案在23号的发布会上进行了技术分享[2] 基于单J6M的端到端自动驾驶架构 - 技术方案采用单征程6M芯片实现了一段式端到端架构并结合了强化学习[3] - 核心网络架构的输入部分包括时序图像、激光雷达、SD导航和自车位姿信息[6] - 经过多传感器时序BEV融合后,得到全局的BEV表征[6] - 后续通过多任务解码头输出道路拓扑、OCC特征、交通元素特征和智能体特征[6] - 这些特征用于获取动静态信息、OCC和交通信号灯等[6] - BEV表征与上述特征共同输入到一个统一的世界-状态隐编码器[7] - 之后连接一个Flow-Matching规划器,用于解码他车运动预测并生成多模态的自车轨迹[7] - 后续利用Safe RL进一步优化自车轨迹,该步骤增加了规则判断[5] - 整套架构的挑战在于在J6M芯片128TOPS的有限算力上实现[5] - 采用的DiffusionDrive和Flow Matching算法已被多家公司验证为可量产算法[5] - Flow规划器是Diffusion规划器的改进版本,源自清华AIR詹仙园老师团队的工作[5] 实车演示表现 - 公司展示了L2级别实车在困难场景下的表现,包括严重错位道路和复杂路口的无保护左转,效果良好[5] - 严重错位道路场景对静态感知基本功要求高,不仅考验道路/车道线识别,也考验SD地图接入模型的表现[5] - 公司也展示了L4级别实车的表现[9] 下一代自动驾驶模型架构展望 - 公司提出了下一代自动驾驶模型架构,其核心理念是将视觉语言动作模型与世界模型融合到一个端到端系统中[11] - 若去掉Transformer解码器和语言推理模块,该架构仍可理解为一段式端到端,整体与小鹏的VLA 2.0有些相似[11] - 架构中同样包含通过强化学习微调自车轨迹的步骤,该判断模块是为端到端系统提供安全保障的兜底模块[12] - 针对L4级自动驾驶,公司提出了RA机制以保障系统级安全,在此意义上,VLA被视为L4系统规模化运行的基础设施而不仅是能力展示[12] - 根据架构图,下一代系统输入可能增加用于交互的语音指令[17] - 世界编码器可能仍基于BEV特征,可直接解码得到动静态/OCC/交通控制信息[17] - 增加了Transformer解码器,用于处理环境复杂文本、困难场景描述和车端语言指令,并作为思维链的中间表示[17] - 增加了多模态世界解码器,作为具备未来世界动态演化能力的生成式世界预测模型[17] - 多模态世界解码器与语言推理模块需要强交互并对齐,这是VLA的核心,否则会产生严重幻觉[17] 公司高层观点 - 公司联合创始人兼CEO于骞判断,无论是VLA还是世界模型,都不会是自动驾驶技术的终极答案[13]
深度|AI吞噬软件,AI构建AI,来自达沃斯的2026预测
Z Potentials· 2026-01-25 19:03
文章核心观点 - 2026年世界经济论坛提出了“神经脊柱”概念,喻示AI正从外挂工具转变为组织的智能核心骨架,未来商业竞争将是关于构建这一中枢系统的竞争 [2][15] - 企业向AI原生转型的核心在于思维起点从“用AI优化存量”转变为“在无限智能前提下创造新价值”,并需实现多个核心工作流完全由AI驱动 [3] - 组织效率的新度量单位是“人与智能体比率”,大模型驱动的组织设计能带来惊人的运营杠杆,同时“带上你自己的AI去上班”趋势体现了自下而上的个体生产力觉醒 [4] - 软件不会消失但会变得无形,交互将全面转向自然语言,AI推理成本急剧下降催生了“可丢弃软件”概念 [8][9] - AI成为企业核心必须跨越信任鸿沟,解决方案包括构建合规基础设施、建立科学评估流程以及通过提供引用来源和思维链来实现透明度 [11][12] - 未来AI趋势包括:AI自主构建AI、极长周期自主代理、强化学习在商业流程中的广泛应用,以及多智能体系统动力学成为关键研究课题 [13][14] - 中国AI生态的独特性在于,通过极致的基础研究创新换取效率,并结合市场规模、用户开放心态和低成本能源优势形成竞争力 [15] 定义“AI原生”与组织变革 - 传统公司与AI原生公司的根本区别在于思维起点:前者思考如何用AI优化存量,后者思考在拥有无限智能的前提下应创造什么 [3] - 从业务视角量化,当一家公司能在所有业务线中,有三到五个核心工作流完全由AI实现时,才能被视为真正的AI驱动型企业 [3] - 衡量未来组织效率的新颖度量单位是“人与智能体比率”,一些新兴公司团队不到10人,却拥有数百个智能体协助运营,体现了大模型驱动组织设计的运营杠杆 [4] - 有效培训和认证体系是帮助员工高效使用AI的关键,同时“带上你自己的AI去上班”趋势显示大量用户愿意自费在工作中使用AI,体现了个体生产力的觉醒 [4] - AI带来技能平权,例如不懂代码的求职者也能通过AI生成精美的个人网站来展示才华 [5] 软件无形化与成本变革 - 软件不会消失,但会变得无形,未来的交互模式是通过自然语言经由智能体调用所有工具和软件功能 [8] - 如果现有软件无法满足需求,AI能利用其编码能力即时生成个性化的工具来交付结果 [8] - 从投资视角看,AI推理能力的提升是指数级的,过去一年AI推理的平均单Token成本下降了100倍,在许多场景下甚至下降了1000倍 [8] - 成本急剧下降使得智能本身变得极其廉价,从而催生了“可丢弃软件”概念,代码可以按需生成且无需长期维护 [9] - 例外情况是,对于极其看重精细打磨界面和用户内容生态的应用,传统软件开发模式在长期内可能仍有其必要性 [9] 建立信任:从试点到生产 - AI成为企业核心的主要障碍是信任问题,尤其是大型企业对合规与治理风险的担忧 [11] - 解决方案之一是构建合规基础设施,为不同业务职能预先定义允许使用的数据和经过认证的模型 [11] - 传统公司需要建立科学的基准测试或评估集流程来评估AI模型和智能体的表现,超越感性试用层面 [11] - 技术支撑信任的关键是透明度,例如提供清晰的引用来源让信息可追溯,以及展示AI的思维链和推理过程 [11][12] - 只有当AI的思考过程变得可见、可追溯、可审查时,企业才能放心地将决策权交予它 [12] 未来AI趋势预测 - 预测一:最好的AI将由AI自己来构建,实现模型构建过程的自动化及递归式自我改进,模型将初步具备持续学习能力以动态适应环境 [13] - 预测二:极长周期的自主代理将成为现实,AI智能体能独立处理跨度数周的复杂工作直至交付结果 [13] - 预测三:目前尚未被充分理解的强化学习将在商业流程中得到广泛应用,极大加速企业对AI的采纳,例如动态优化营销活动、供应链管理等复杂系统 [13] - 预测四:将出现智能体“编排者”,能根据需求动态创建和组合各种工作流 [14] - 预测五:多智能体系统的动力学是紧迫的研究课题,当多个AI智能体与人类在同一系统中交互时,其行为和涌现现象尚无坚实的科学基础去理解和优化 [14] 中国AI生态的独特性 - 中国AI公司从创业第一天起就明确,在无法比拼算力规模的不对称竞争中,必须通过极致的基础研究创新来换取效率 [15] - 这种对效率的追求,与中国在市场规模、用户开放心态和基建先行带来的低成本能源优势相结合,共同构成了其独特的竞争力 [15]