Workflow
AI前线
icon
搜索文档
智谱创始人唐杰隔空对话马斯克:赶超Claude Fable 5不用等到2027年
AI前线· 2026-06-19 09:21
作者 | 青和 昨晚,马斯克和智谱创始人兼首席科学家唐杰在 X 上来了一次隔空对话。 起因是一名网友发问, 当前中美大模型差距何时能够追平? "你认为中国何时才能达到 Fable 级别?GLM-5.2 肯定会缩短差距。" 随后技术狂热分子Teortaxes,同时也算是技术圈的一个小KOL(65K粉丝,每次对于 DeepSeek 的技术解读都相当到位)对此进行了回应。 他先给智谱的GLM-5.2定了个位,认为 它现在大概是Claude Opus 4.7-4.8的水平 。(视觉理解部分另算,因为智谱目前并不能做到全模态统 一,当然,他认为Opus在这块本身做得也很烂) 由此推断,中美模型之间现在 存在7个月的时间差 。 基于 Mythos 的时间线,他给出了一个参照点:Mythos 系列在 2026 年 2 月初已达到 Preview 级别,功能上追平或超过 Opus 4.8。若按 Claude 追赶速度推算,中国若要出一个"能力对标 Mythos 完整版"的模型,时间大概会落在 2026 年 11 到 12 月之间 。 随后,马斯克到场吃瓜,他认为可能再晚一个季度," 可能在 2027 年 Q1 "。 接着,被 ...
机器人整机是“有限游戏”?对话星海图创始人:具身智能商业化的三个阶段,终点是卖Token
AI前线· 2026-06-18 15:03
公司技术路线与产品发布 - 公司提出具身智能正经历“本能智能—作业智能—进化智能”三重跃迁,未来AI将围绕应用场景与任务去定义和设计机器人身体[2] - 公司发布新一代VLA基础模型G0.5并宣布开源,同时公布世界模型Fast-WAM与全身控制基础模型[2] - 公司自研双足人形机器人Kengo(行客)现场首秀,身高1.4米,以高性能运动小脑与具身大脑为核心,能完成高难度全身动作及贴近真实场景的双臂作业[2] - 公司从整机做起,开辟轮式双臂品类,自研动力模组,目前80%的动力单元是自研或与产业链共研的[4] - 公司决定在2025年春节前后启动双足人形项目[4] 数据战略与规划 - 公司联合北京亦庄共建数据公司“亦数智能”,启动“100万小时超高质量真实数据计划”,规划今年完成百万小时、未来三年迈向千万小时[4] - 公司是行业内最早押注真实数据的公司,2025年8月开源的数据集GOD是全球第一个开放场景具身操作数据集,下载量接近60万次[4] - 公司CEO高继扬认为,在百万小时到千万小时之间的数据量训练出来的具身基础模型会带来突破性改变[4] - 数据采集成本方面,human centric data实践成本为50-100元人民币一小时,robot centric data(遥操作数据)成本约250元一小时,市面上价格在300-350元,综合成本约100-150元一小时,100万小时数据对应1-2亿元成本[13] - 公司预训练阶段全部使用真实数据,数据成本与算力成本实践比例至少为1:10[12] - 公司通过亦数智能平台,采用外包采集和众包采集相结合的模式进行数据规模化采集,当前已有数百人携带设备进行生产伴随式采集[14] - 公司判断未来具身智能数据99%将是private data(私有数据),数据差异将传导至模型能力、应用效果及商业价值的差异[16][17] 模型发展与融合 - 公司认为VLA(视觉语言动作模型)与世界模型(WIM)是同源共生,未来会走向融合,底层均是将多模态数据Token化并通过Transformer处理[21] - 数据采集旨在铺满四个维度:动作、操作对象、场景和本体,通过不同采集方式(如UMI数据、Ego数据)来高效覆盖这些维度[22] - 作业智能当前以模仿学习为主线,本能智能则以强化学习为主线,两者未来会融合[18] - 公司战略是“整机+智能”,最终目标是释放生产力,研发投入上智能投入远超整机,约差一个数量级[20] 商业模式与商业化路径 - 公司商业模式将分三个阶段演进:第一阶段整机销售,第二阶段方案订阅,第三阶段Token销售,当前处于整机销售阶段[7] - 不同商业模式阶段增长率不同:整机销售年化自然增长30%-100%,方案订阅是每年3倍到10倍增长,Token销售是10倍到100倍增长[7] - 公司认为真正的星辰大海是面向生产力的场景方案订阅市场,该市场规模是当前科教研开发者市场和展演娱乐市场的几万倍,并可能重写GDP结构[26][31] - 公司商业化遵循“从开发者到生产力”的规律,当前明确有价值的是开发者市场和展演展示市场,在其他生产力场景过早部署是过度商业化[33] - 公司预计未来两年左右,双足及轮式双臂等产品的成本将稳定在1万美金左右[28] - 发达国家劳动力成本约4-5万美金一年,若产品硬件成本1万美金且一年回本,则有3-4万美金空间留给智能部分,商业潜力取决于大脑(智能)能力[29] 行业竞争与市场展望 - 公司CEO判断,依托数据供应链与整机供应链的叠加优势,未来两到三年,中国的具身基础模型能力有望整体超过美国[5] - 公司认为具身智能是未来中心性产业,所有行业都可与其产生上下游关系,其真正潜力是改写GDP结构,而不仅限于表演或制造业的某个环节[31] - 公司产品将无处不在,落地过程循序渐进:从厘米级精度(上料、搬运、分拣等)到毫米级精度(装配、插拔、检测等),未来将扩展至农业、建筑业等行业[30] - 本能智能模型的发展将分阶段进行:从强化学习(跳舞、跑跳)到全身遥操作,再与作业智能融合,最终进入非结构化场景执行重作业任务[32] - 公司对行业泡沫持务实态度,认为赢家可在泡沫膨胀和破灭阶段获益,公司通过“务实创新”的价值观,聚焦智能主线投入资源[35][36] - 公司支出策略遵循AI Scaling Law,节奏可能是1、5、20、100的指数级放大,与传统风险投资的线性支出模型不同[39] 生态建设与投资 - 公司打出生态牌,数据生态由亦数智能承载,并联合凯辉基金发布创业孵化项目“星途计划”,未来3-5年计划投资30-50家具身智能早期创业团队[7]
吴恩达戳破AI幻象:炒作过头了,未来公司是10人小队+Agent重做数据架构
AI前线· 2026-06-18 12:24
AI Agent对软件开发与团队结构的影响 - 编程智能体能力边界快速变化,六个月前主要使用Claude Code,现在混合使用OpenAI Codex、Gemini CLI、OpenCode等工具 [9] - 编程智能体使代码实现速度提升10倍甚至100倍后,限制团队效率的瓶颈从工程实现转移到“产品管理瓶颈”,即需求定义、用户反馈、优先级判断和产品边界 [2][12] - 营销、法务、设计、合规等环节可能成为新的瓶颈,例如产品开发时间从三个月缩短至一天后,等待法务一周签字将变得不可接受 [3][13] - 未来的软件团队将更小、更快,依赖通才型人才,吴恩达越来越多地组建一到十人的小团队,成员是高上下文、高授权、技术能力强的工程师 [4][14] - 这些通才型工程师借助AI完成产品定义、营销文案、服务条款初稿等工作,AI帮助他们产出可用初稿,再由专业人员把关 [4][15] AI Agent开发与构建模块 - 当前开发者面对大量构建模块,包括模型、RAG、Agent框架、评估工具、Guardrails、UI组件、身份认证、数据库等 [5][19] - 开发者对构建模块了解越深,越能快速组合出可用系统,类似于用多种乐高积木搭建更复杂有趣的东西 [5][20] - 编程智能体面临挑战,因为API、SDK和工具变化太快,模型可能不知道最新用法,例如许多领先编程智能体基于的模型知识截止时间早于nano-banana发布 [5][22] - Context Hub项目旨在为AI智能体提供最新文档,帮助其了解最新API、SDK和构建模块,并能接收智能体反馈以改进文档 [22][23] 企业AI采用与转型策略 - 许多企业采用自下而上的“百花齐放”式AI创新,但这通常只能带来点状提效和渐进式效率提升,难以形成真正转型 [5][34] - 真正的转型需要自上而下的动作,重新思考并重构整个工作流,例如银行将贷款审批自动化后,应推出“10分钟获批”的贷款产品,这需要营销、数据、审批等环节协同变化 [5][36] - AI不应仅被视为降本工具,成本节省有上限,而增长更具想象空间,在客服、呼叫中心等场景中,AI的价值在于更快服务更多客户、改善体验,从而带动业务增长 [5][37] - 企业应避免只关注能带来2%或5%增长的渐进式项目,而应寻找能带来20%或50%业务增长的转型式项目,这需要更有创造力的解决方案 [42][43] 技术选型与供应商策略 - AI模型和Agent工具变化迅速,一年后最强的模型难以预测,因此企业应重视保留选择权,避免因折扣签订过长合约 [6][52][53] - 供应商中立的观测和管理工具(如LangSmith)以及开放权重模型有助于企业在快速变化中保持灵活性 [6][53] - 开放权重模型通常稳定地落后前沿模型约六到九个月,但在许多使用场景中仍被大量使用,有时会进行微调 [55] 数据架构与AI就绪 - AI Agent要有效发挥作用,必须能处理文本、PDF、图片、音频、视频等非结构化数据,而过去企业数据治理主要围绕结构化数据 [6][56] - 许多企业数据分散、权限体系为人类设计而非Agent设计、治理和可观测性不足 [6][58] - 未来几年,企业可能启动大规模数据架构重构项目,规模可能达数千万甚至数亿美元,目标是让数据变得AI-ready或agent-ready [6][57] - 在快速迭代和原型开发阶段,使用NoSQL数据库(如MongoDB)可能比关系型数据库更高效,因为它允许更灵活的数据写入和读取时处理schema,从而加快迭代速度 [59][60][61] AI对教育方式的影响 - 开发者需要学习的内容发生变化,包括编程智能体、各种构建模块以及产品管理等通用技能 [26] - DeepLearning.AI尝试新的教育交付方式,例如CodeDream.ai网站提供模拟视频通话的对话式学习体验,用户可与AI进行交互,甚至在视频窗口输入prompt进行互动 [27][28][29] - 相比十年前以视频为主的课程,现在的课程包含更多交互式可视化内容和动手实践环节 [30] 企业AI项目评估与团队角色 - 衡量AI项目ROI具有挑战性,但最令人兴奋的项目通常是价值明显、能改变业务的项目,值得被衡量 [40][41] - 企业应形成由少数几个经过深思熟虑的“赌注”组成的项目组合,而非单一大型赌注,若其中任何一个成功都能对业务产生有意义的影响 [46] - 前线部署工程师(FDE)是一个有价值的角色,能帮助企业理解业务、构建可靠的工作流并管理变革,但企业需注意避免因深度绑定特定供应商而丧失未来选择权 [48][49][53]
世界模型的GPT时刻:距离物理AGI出圈,还有多远?
AI前线· 2026-06-18 12:24
文章核心观点 世界模型在2025-2026年成为AI领域最热方向之一,其核心目标是从视频生成迈向对物理世界的真正理解与交互。行业专家认为,当前世界模型仍处于学术界和工业界内部探索阶段,尚未“出圈”,其发展受到数据、算力、评测等多方面挑战。技术路线尚未收敛,但生成与表征的融合、以及面向物理世界的专用基模型预训练被认为是关键方向。未来格局可能类似于大语言模型,由少数通用基模型与大量垂类精调模型共同构成[4][7][12][13][37][38]。 世界模型的定义与范畴 - **世界模型包含三大范畴**:渲染器(视频生成内容)、仿真器(强化学习环境)、规划器(产生动作策略的World Action Model)[7][8] - **与视频生成模型的本质区别**在于**可交互性**和**世界状态的维护**。视频生成关注画面美学,而世界模型需能根据指令影响未来演变,并理解物体形状、物理量等状态[8] - **核心定义**:基于对现实世界的观测和交互指令,实现像素级场景还原和物理状态的精准预测,输出背后的物理规律而不仅是表观现象[9] 世界模型兴起的原因 - **技术突破**:以DiT为代表的生成模型技术突破,使模型能从海量数据中学到物理直觉和时空动态规律[10] - **资源溢出**:大语言模型热潮带来的资金、人才、算力和基础设施溢出,推动了其他AI模态的发展[10] - **需求驱动**: - **数据生成引擎**:解决具身智能等领域数据缺口巨大的瓶颈,作为互联网数据、仿真数据、真机数据三层金字塔的结构性补充[11] - **具身大脑**:弥补视觉-语言-动作模型泛化性不足的短板,利用从海量互联网视频中学到的时空模式提供更强泛化能力[11] - **垂类应用推动**:如自动驾驶为解决corner case数据收集困难,率先应用世界模型作为仿真器或数据生成器[10] 当前发展阶段与挑战 - **尚未到达“出圈”里程碑**:无论是面向消费者的内容生成还是具身场景,都仍在学术界和工业界内部探索,大众感知弱,尚未出现类似ChatGPT的清晰技术节点[12] - **处于“尺度定律”发展阶段**:数据规模扩大能持续提升模型精度,例如从100兆到500兆训练数据时精度曲线明显提升,但尚未观察到类似大语言模型的“智能涌现”[13][14] - **面临多重挑战**: - **数据瓶颈**:高质量真机数据稀缺,开源最大真机数据仅约1-2万小时,远不够高质量二次预训练,易过拟合[16] - **算力消耗**:纯视频生成路线做实时推理控制机器人时,效率瓶颈致命[4][29] - **跨任务/机型泛化困难**:面对训练中未见的机型或任务,模型容易出现严重幻觉,未完全学会物理规律[17][18] - **评测体系缺失**:缺乏统一、直接的评测标准,当前多借用视频生成标准,但世界模型更核心的可交互性等维度评测困难且共识未形成[33][34] 技术路线与范式 - **主要技术路线**: - **纯生成式(视频生成)**:优势是基建成熟、数据可得性高,但存在算力消耗大、缺乏持久状态导致生成长视频时易漂移穿模等问题[28][29] - **表征式(如JEPA)**:理论优雅,适合机器人内部推理,但难以输出人眼可读的像素[28] - **神经-物理混合式**:结合显式3D、物理引擎与生成模型,强调可交互性、几何约束与物理可控,被视为有潜力的方向[28] - **未来趋势**:专家认为最终会走向**表征与生成的融合**,以及**世界模型与VLA的融合**,在一个统一架构下容纳各自长处[29][32][33] - **架构设计关键**: - **理解模块**:至关重要,是将互联网知识继承到垂类场景的关键抓手[25] - **记忆机制**:对于长视频生成和交互至关重要,常采用以智能体为中心的局部表示[25] - **训练策略**:常用生成加重建作为折中探索,重建技术可弥补纯生成的幻觉;训练时联合预测动作和视频,推理时可只输出动作[4][21][23][29] 数据层面的关键问题 - **数据金字塔共识**:底层互联网视频、中层仿真数据、顶层遥操作真机数据[16] - **世界模型的作用**:主要是**数据增广与价值放大**,而非替代某一层。例如生成仿真资产缩小Sim-to-Real差距,或对真机数据做多视角渲染生成变体以扩充数据量[16][20] - **数据质量瓶颈**:顶层遥操作数据的力学信息(如力反馈)难以被合成,视觉效果可逼近,但物理层面合成非常困难[21] - **第一人称与第三人称数据差异**:第一人称数据携带“意图-动作-结果”因果链,与真机数据天然对齐,价值更高,泛化性可能更强,但采集噪声问题更复杂[22] 行业展望与关键挑战 - **未来市场格局**:预计与语言模型类似,**少数通用基模型**与大量在基模型上做**垂类精调**的模型并存。物理世界场景复杂度高,垂类模型有独立生存空间[38] - **最被低估的挑战**: - **自进化能力**:让模型能从失败案例中学习,并与智能体调度系统结合实现持续运行[36] - **评测体系本身**:好的评测维度能直接驱动模型能力提升,但目前严重缺失[37] - **专用基模型缺失**:当前依赖为“拍好画面”设计的视频生成基模型,与物理世界建模的核心诉求存在错配,需要专门面向物理世界的基模型预训练[37] - **成功世界模型的关键维度**:可概括为**快**(推理效率)、**准**(预测精度)、**稳**(输出可复现性)[34]