Workflow
Motus
icon
搜索文档
Chinese startup ShengShu raises $293 million to advance artificial general intelligence
The Economic Times· 2026-04-10 12:55
公司融资与资金用途 - 生数科技完成20亿元人民币(约2.9259亿美元)的新一轮融资 [5] - 此轮融资由阿里云领投 [5] - 融资将用于开发能够处理感官信息以模拟人类感知和交互的“通用世界模型” [1][5] 公司发展历程与产品 - 公司由清华大学校友朱军于2023年初创立 [3][5] - 2024年4月发布视频生成模型Vidu,成为首家发布此类模型的中国公司 [3][5] - Vidu被视为OpenAI Sora的竞争对手,而后者已被其美国公司停用 [3][5] - 公司已发布多个Vidu更新版本,包括今年早些时候宣布的Vidu Q3模型 [3][5] - 2025年12月,公司开源了用于通过处理视频和音频等多模态数据来控制机器人的模型Motus,业务扩展至机器人应用领域 [4][5] 投资者构成 - 本轮融资的新投资方包括安顿海棠、中国互联网投资基金、好未来集团和Luminous Ventures [2][5] - 现有投资者LINK-X CAPITAL、达泰资本和百度风投也增加了持股 [2][5] 行业竞争格局 - 中国从字节跳动等行业巨头到宇树科技等专注于人形机器人的初创公司,都已开始探索类似的“世界模型”技术 [2][5] - 公司面临来自中国科技巨头的竞争,包括字节跳动、阿里巴巴和快手,它们均已发布视频生成模型 [4][5] - 在国际上,谷歌以及Runway等初创公司也在开发类似技术 [4][5]
北京大模型万马奔腾,从少数人的“玩具”到大多数人的“生产工具” 正在迈向AI普惠新时代
新浪财经· 2026-02-16 13:42
北京AI企业新一代大模型密集发布 - 2026年以来,北京AI企业迎来新一代大模型密集发布潮,抖音、智谱AI、月之暗面、生数科技等企业在通用大语言模型、多模态视频生成、代码编程、具身智能等核心赛道实现全面突破 [1] - 2026年春节前后,北京AI企业新模型密集发布,月之暗面Kimi发布新一代开源模型Kimi K2.5,抖音推出视频生成模型Seedance 2.0,智谱AI发布并开源旗舰模型GLM-5 [2] - 从模型品类看,北京企业实现了通用大语言、多模态、代码编程、医疗、OCR视觉文字理解、具身智能等多品类全覆盖 [2] 模型性能与市场表现 - 抖音Seed-OSS通用大模型拥有512k上下文,在通用知识、编程、长文本理解等方面实现同量级7项领先 [2] - 豆包大模型日均使用量突破50万亿Tokens,居全国第一、全球第三 [2] - 智谱GLM-5在全球权威榜单Artificial Analysis中位居全球第四、开源模型第一 [2] - Kimi K2.5在大模型聚合平台OpenRouter一周总榜、编程项目榜、工具调用榜、Python项目榜及OpenClaw调用榜等多个榜单中持续排名第一 [2] - 智谱GLM-5的GLM Coding Plan即使涨价30%也是秒空,Ollama的云服务在上线GLM-5之后被挤爆 [4] 代码与工程能力突破 - 智谱GLM-5的发布标志着国产大模型完成了从“初级程序员”到“总架构师”的进化,重新定义了编程领域的生产力 [3] - 独立游戏开发者利用GLM-5,在12小时内成功开发出一款游戏,完成了传统开发模式下需要2-3个月才能完成的工作量 [3] - GLM-5调用多Agent同步并发架构,在20分钟内生成了包含1275行代码的复杂背包系统,且逻辑闭环无幻觉 [3] - GLM-5的测试版本“Pony Alpha”在完全无人干预下,能自主修复代码、读取日志,耗时数天构建出一个可用的C语言编译器 [4] Agent集群协作能力 - Kimi K2.5推出Agent集群,让Agent从单兵突破进化成集群式作战 [5] - 在执行复杂任务时,K2.5能根据任务需求,现场调度多达100个不同专业背景的“分身”,并行处理1500个步骤 [5] - 借助Agent集群,用户可以让一群“分析师”分头完成100家公司的市场调研,动员“语言专家团”翻译300页文档,还能派出不同的“研究员”综述5篇跨专业的论文,让效率提升十倍以上 [5] - Kimi K2.5的Agent能力全面扩展至办公场景,通过对Word、Excel、PPT、PDF等常用办公软件的深度学习,用户可通过自然语言指令实现不同格式间的自由转换 [5][6] 多模态视频生成突破 - 抖音Seedance 2.0定位为“可导演的电影级全流程生成引擎”,以导演级多镜头叙事、原生音画同步、跨镜头角色一致性等核心能力,明显降低视频创作门槛 [7] - 在可控性方面,Seedance 2.0支持9张图片、3段视频、3段音频的多素材组合输入,实现动作、特效、运镜、人物、场景、音效等创作要素的精准指定 [7] - 模型视频生成可用率从50%提升至80%-90% [7] - Seedance 2.0实现音视频原生联合生成,在画面创作的同时完成匹配音效、配乐生成,实现精准口型同步与情绪匹配 [7] - 智能导演功能可根据文字提示词或故事描述,自动分析叙事逻辑,规划景别变化、机位运动,生成时空连贯的视频序列 [7] 内容生产成本与行业影响 - Seedance 2.0使得5秒特效镜头制作的成本相比传统人力制作实现千倍级压缩;90分钟影视级项目制作成本也从万元级降至千元级 [8] - 依赖高频内容供给的行业,将从“人力密集型制作逻辑”转向“算力驱动型规模化生产逻辑” [8] - AI漫剧、AI短剧等形态对制作效率与成本敏感度高,将成为Seedance 2.0的优先落地场景 [8] - 顶尖创作能力被技术平权至个人与中小团队,小团队甚至个人即可完成类电影级动画与视频内容生产 [8] - Seedance 2.0在海外受到关注,不少海外网友在社交平台“催上线”,海外博主专门制作了详细教程分享如何体验 [8] 具身智能与机器人应用 - 银河通用发布具身智能重载机器人 Galbot S1,成为全行业首个实现零遥操、全自主、可持续作业的重载机器人,其双臂最大负载能力达50公斤 [9] - Galbot S1进入宁德时代等先进制造龙头企业实现规模化产线应用 [9] - “银河太空舱”已经实现在全国20多个城市落地应用 [9] - 银河通用机器人成为总台2026年春节联欢晚会指定具身大模型机器人 [9] - 生数科技联合清华大学开源的统一世界模型Motus,在一个框架中统一了世界模型、VLA、视频生成模型等不同范式的多模态生成能力 [10] 具身智能模型性能 - Motus相较国际领先的VLA模型Pi0.5实现了40%的成功率提升 [11] - 在覆盖50个通用任务的RoboTwin 2.0仿真环境中,Motus取得了约88%的平均成功率 [11] - 在难度极高的叠碗任务中,基线模型的最高成功率始终未超过16%,而Motus的成功率达到了91%-95% [11] - 在真机实验中,Motus能够从大规模预训练中持续受益,展现出更强的跨任务与跨本体泛化能力 [11] - Motus可以在Cloudflare人机验证页面场景中精准操作鼠标完成点击,并能在叠衣服、叠毛巾等复杂家政场景中实时预测织物形变并完成精细动作控制 [11] 国产算力生态建设 - 一批国产大模型已经完成与国产芯片深度适配,批量“跑”在国产大模型底座之上 [12] - GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配 [12] - 通过底层算子优化与硬件加速,GLM-5在国产芯片集群上已经实现高吞吐、低延迟的稳定运行 [12] 开源战略与研发效率 - 开源已成为北京AI企业的重要战略 [13] - Kimi仅用美国顶尖实验室1%的资源,研发出全球领先的开源模型,甚至在部分性能上超越美国的顶尖闭源模型 [13] - Kimi是全球首个在大型语言模型训练中跑通Muon优化器的公司,自研的线性注意力机制(Kimi Linear)在处理速度上已显著超越传统的全注意力系统 [13] 资本市场与产业支持 - 北京建立起更有耐心和更加优良的资本市场环境,国家创业投资引导基金京津冀子基金落地,20年的存续期远超一般股权基金周期 [14] - 北京成立了总规模达到1000亿元的市政府投资基金,覆盖人工智能、机器人等硬核方向 [14] - 2026年以来,智谱、海致科技等一批北京人工智能头部企业先后上市 [14] - 人工智能50强北京占比38%(19家,数量国内最多) [14] - 智谱成为市值最高的大模型企业,2月份上市的海致科技刷新了今年港股上市首日涨幅记录 [14] 全球影响与行业地位 - 外国媒体已被中国AI大模型霸屏,海外科技从业者对Seedance 2.0和GLM-5等模型给予高度评价 [15] - 中国AI技术的进步不仅赋能本国经济,也与世界开放共享,智谱等中国企业积极拥抱开源,大幅降低了全球开发者和企业使用尖端AI技术的门槛 [15] - 北京企业展现出了与世界顶尖水平比肩的技术实力,更以开源开放、普惠共享的姿态,为全球AI发展贡献着中国智慧和中国方案 [17]
清华研究生开源大一统世界模型:性能超越硅谷标杆40%!
量子位· 2026-02-06 18:10
Motus模型的技术突破与核心架构 - 由生数科技联合清华大学正式开源大一统世界模型Motus,首次在单一架构内整合了视觉-语言-动作、世界模型、视频生成、逆动力学、视频-动作联合预测五种具身智能范式,实现了“看-想-动”的完美闭环 [3][4] - 核心技术为Mixture-of-Transformer架构配合Tri-model Joint Attention机制,将理解专家、视频生成专家和动作专家集成,使模型能同时进行感知、预测和决策 [14][15][16] - 创新性地采用潜动作策略,利用光流技术和Delta Action机制从无动作标签的互联网视频中提取通用物理交互先验,解决了机器人真机数据昂贵稀少的难题 [19][22][25] 卓越的性能表现与扩展性验证 - 在RoboTwin 2.0仿真榜单的50项通用任务测试中,Motus的平均成功率达到了88%,相比国际顶尖模型Pi-0.5的绝对成功率提升了35%以上,最高提升幅度达40% [5][30] - 在高难度任务中表现突出,例如在“叠三个碗”任务中,成功率从基线模型的不足16%飙升至95% [30][31] - 实验证明了Motus在具身智能领域成功复刻了Scaling Law,随着训练任务和数据量增加,模型性能持续上升,展现出跨任务的通用泛化能力,而传统模型则出现过拟合 [29][32][33][34] 创新的训练方法与数据效率 - 构建了一套三阶段训练流程,通过数据金字塔和潜动作,将通用物理动力学常识“蒸馏”为精确的机器人控制能力 [26][28] - 训练数据来源广泛,涵盖互联网视频、人类第一视角视频、合成数据、多机器人任务轨迹及目标机器人真机数据 [25][27] - 数据显示,Motus的数据效率比对比模型提升了13.55倍,即达到同等性能水平所需的数据量仅为对手的十几分之一 [37] 团队背景与行业影响 - 项目由清华大学计算机系TSAIL实验室的二年级硕士生毕弘喆和三年级博士生谭恒楷共同领衔,团队成员均来自该实验室 [4][38][39][40] - 联合发布方生数科技坚持“视频大模型是通往AGI的核心路径”的战略,Motus是其在该战略下的重要布局,标志着机器人从“机械执行”向“端到端智能”的跨越 [41][42][43][44] - 该研究是产学研协作的成果,结合了生数科技在多模态大模型上的积累与清华团队的顶尖算法能力,公司在相关领域的研究领先行业2至6个月 [44] 实际应用与任务演示 - 模型在Cloudflare人机验证任务中能精准识别并操作不规则曲面物体,平稳连续地移动并完成精准点击 [6] - 能够完成长程多步推理任务,如孔明棋,以及处理柔性物体形变的高难度任务,如叠衣服,过程丝滑顺畅 [7][8] - 在真机测试的多个子任务中表现优异,例如在“抓取立方体”任务中部分成功率可达100%,在“用滴滤咖啡机煮咖啡”任务中部分成功率达62% [36]