时空推理
搜索文档
速递|获1.34亿美元巨额种子轮,General Intuition利用电子游戏,训练智能体空间推理能力
Z Potentials· 2025-10-17 11:04
公司概况与融资 - 公司General Intuition是从视频游戏片段平台Medal分拆出的前沿人工智能研究实验室 [2] - 公司成功获得由Khosla Ventures和General Catalyst领投、Raine跟投的1.337亿美元巨额种子轮融资 [3] - 公司计划利用融资扩大其专注于训练通用智能体的研究工程师团队 [5] 核心技术与数据优势 - 公司利用Medal庞大的游戏视频库进行训练,该数据集包含每年来自数万款游戏中1000万月活用户产生的20亿条视频 [2] - 公司押注该数据集在训练智能体方面优于Twitch或YouTube等替代平台,因玩家上传片段包含训练所需的宝贵边界案例 [2] - 公司的模型能理解未经训练的环境并准确预测行为,仅通过视觉输入实现,智能体只能看到人类玩家可见的画面 [5] - 公司的核心技术是时空推理能力,即理解物体和实体如何在时空中移动的概念 [2][8] 应用场景与商业化路径 - 公司技术初期将应用于游戏和搜救无人机领域 [5] - 在游戏应用方面,公司专注于开发能适应任何难度级别、使玩家胜率保持在50%左右的非玩家角色,以最大化玩家参与度和留存率 [8] - 公司方法可自然迁移到机械臂、无人机和自动驾驶车辆等物理系统 [5] - 公司专注于开发搜救无人机,使其能在没有GPS的情况下导航陌生环境 [8] 战略定位与差异化 - 公司的目标不是生产与游戏开发商竞争的模型,以避免版权问题 [7] - 与构建世界模型的竞争对手不同,公司的世界模型并非最终产品,而是专注于其他应用场景 [6] - 公司下一个里程碑是生成新的模拟世界以训练其他智能体,以及自主导航完全陌生的物理环境 [6] - 公司认为时空推理能力是通往人工通用智能的关键拼图,弥补了大型语言模型所缺乏的能力 [8]
理想OmniReason: 更像人的VLA决策框架
理想TOP2· 2025-09-07 20:09
核心观点 - 理想汽车发布OmniReason框架 将自动驾驶决策从静态感知重构为动态时空推理 通过知识蒸馏注入人类驾驶先验知识 提升系统智能性、可靠性和可解释性 [1][2] 数据集创新 - 发布两个大规模时空VLA数据集 OmniReason-nuScenes和OmniReason-Bench2Drive 具备密集时空标注和自然语言因果解释 [3] - 相比DRAMA、DriveLM等现有数据集 在多视角图像、时序数据、因果推理支持及天气道路多样性方面实现更全面覆盖 [3] 技术架构 - 采用三步走自动化标注流程:场景感知空间标注确保无幻觉基础描述 人类先验知识引导驾驶原则分析 多模态大模型生成多步推理因果链条 [5][6] - 智能体集成三大模块:环境感知与时序记忆模块采用EVA-02-L视觉编码器 稀疏时序记忆使L2误差从0.38m降至0.34m 碰撞率从0.44%降至0.40% 违规率从3.65%降至3.18% [7] - VLM推理核心处理整合场景特征 知识蒸馏桥梁连接数据与模型 系统性学习结构化决策理据和专家模式 [7] 性能表现 - 开环轨迹规划任务中平均L2距离误差0.34米 与最佳ORION方法持平 平均碰撞率0.40%优于多数基线 违规率3.18%创SOTA纪录 [8] - 驾驶场景VQA任务CIDEr指标提升37.6% BLEU-4指标大幅提升224.0% [8] - 第三方OmniDrive测试中所有指标超越LLaVa-next 72B和Qwen2.5VL 72B等模型 再创SOTA验证架构鲁棒性 [8]