Workflow
交互式世界模型
icon
搜索文档
开源对机器人的价值,远超想象丨唐文斌深度对谈抱抱脸联创
具身智能之心· 2025-10-21 08:03
文章核心观点 - 当前机器人研究面临“仿真到现实”的巨大鸿沟,许多模型在模拟器中表现完美但在现实世界中彻底失灵[2] - Dexmal与Hugging Face联合推出RoboChallengeai平台,旨在建立一个开放、统一、可复现的真实世界机器人评测基准[6][45] - 开源是推动物理智能/具身智能领域发展的关键驱动力,其重要性在机器人领域甚至超过在大语言模型中的作用[10][19][26] 行业痛点与挑战 - 机器人领域缺乏统一、开放且可复现的基准系统来公平比较不同方法、策略和模型[44] - 大多数现有基准仍基于仿真环境,由于“仿真到现实”差距,无法真实反映模型在现实中的表现[42][50] - 机器人评测面临硬件访问限制、环境变量控制、模型部署等多重技术难题[36][52][53] RoboChallengeai平台解决方案 - 平台首次实现全球研究者在物理环境中远程测试模型,通过独创的Remote Robot技术,用户仅通过API即可控制真实机器人[8][53] - 采用模型留在用户本地的部署方式,用户通过HTTP API访问平台摄像头和机器人进行远程测试,无需上传模型[53] - 以Table 30作为起点基准测试,提供30个任务,每个任务约1000个episodes的微调数据供开发者使用[53][61][62] 开源在具身智能中的作用 - AI领域几乎所有重大突破都基于开源,transformer架构及其演化都是全球开源社区协作的产物[10][11][12] - 开源使模型能够被应用到不同类型机器人上,实现“共同大脑”驱动各种机器人的新局面[22][23] - 本地化运行的嵌入式模型几乎都是开源模型,开源与硬件开发自然结合成为机器人领域演化关键动力[25][26] 平台发展愿景与规划 - 平台遵循完全开放策略,提供免费评测服务,任何人都可提交模型并获得排名[78][79] - 未来将扩展评测维度至多任务、长时任务、交互任务等更复杂场景[81] - 三到五年内,具身智能研究将向执行更长时间任务发展,基准测试随之演化[82] 公司背景与行业动态 - Dexmal成立仅20天即完成2亿元天使轮融资,投资方包括君联资本、九坤创投和启明创投[83][84] - 团队核心成员拥有超过十年AI原生产品与落地经验,在仓储场景已交付超过一万辆AMR/AGV[85] - 公司专注于将大模型和AI技术引入机器人领域,探索具身智能新赛道[86]
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
机器之心· 2025-08-19 10:43
核心观点 - 昆仑万维发布开源交互世界模型Matrix-Game 2 0,参数量仅1 8B,能在单块GPU上实现25FPS的分钟级实时互动生成,效果媲美Google DeepMind的Genie 3 [1][12][11] - 该模型突破传统世界模型在实时交互、长序列生成和计算效率上的瓶颈,支持键盘WASD控制自由移动,生成画面具有物理一致性和高保真细节(如GTA地图、神庙逃亡无限延伸场景)[4][8][9][19] - 技术架构采用视觉驱动交互方案,通过3D Causal VAE+DiT模型实现少步骤自回归扩散生成,训练数据来自虚幻引擎和GTA5采集的120万视频片段(准确率99%)[35][36][37][39] - 定量对比显示其图像质量(0 61)、时间一致性(0 94)、键盘控制准确率(0 91)等指标显著优于Oasis模型,解决"转圈画风突变"问题[48][49] - 公司2023年持续发力开源生态,已发布SkyReels视频生成、Skywork-R1V多模态推理等10余个模型,技术覆盖图像/音频/视频/智能体全领域[51][53] 技术突破 - **架构创新**:移除文本分支专注视觉理解,动作模块支持帧级键鼠输入,通过MLP+交叉注意力实现精准交互控制[39][40] - **训练机制**:采用Self-Forcing将双向模型转为自回归变体,减少误差累积,生成视频时长可达分钟级[42][45] - **数据管线**:构建虚幻引擎+GTA5双数据源,开发Script Hook V工具同步记录动作与画面,积累1200小时交互视频[36][37][38] 应用场景 - **游戏开发**:实测可复刻《荒野大镖客》自然景观、《CS:GO》地图细节补充、《我的世界》像素场景动态生成[20][21][24] - **现实模拟**:成功生成自行车骑行第一视角,柏油马路与行道树动态符合物理规律[26] - **AI训练场**:为具身智能提供虚拟环境训练,解决机器人/自动驾驶数据采集难题[57][58] 行业影响 - 成为首个开源通用实时世界模型方案,推动技术民主化发展[10][11] - 模型效果接近商业级3A游戏引擎,帧率与谷歌Genie 3相当(25FPS vs 30FPS)[12][4] - 开源策略加速行业创新,HuggingFace模型获超1k星标热度[52]
昆仑万维发布Matrix-Game 2.0,启动为期五天AI技术发布周
新浪财经· 2025-08-12 16:04
公司技术发布活动 - 昆仑万维于8月11日至8月15日启动SkyWork AI技术发布周 每天发布一款新模型 连续五天 [1] - 发布活动覆盖多模态AI核心场景的前沿模型 [1] 世界模型产品升级 - 公司于8月12日发布自研Matrix系列中Matrix-Game交互世界模型的升级版本Matrix-Game 2.0 [1] - Matrix-Game 2.0实现通用场景下的交互式实时长序列生成功能 [1] 技术开源与行业地位 - Matrix-Game 2.0全面开源 成为业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案 [1] - 开源举措旨在促进交互式世界模型领域的发展 [1]