Workflow
空间智能
icon
搜索文档
赛道Hyper | 小鹏机器人中心成立智能拟态部
华尔街见闻· 2025-08-03 11:44
公司动态 - 小鹏机器人中心新成立智能拟态部,聚焦机器人多模态领域,研究方向包括具身智能原生多模态大模型、世界模型、空间智能等前沿技术[1] - 部门由葛艺潇掌舵,其曾担任腾讯ARC Lab技术专家,28岁晋升为腾讯T12技术专家级,在多模态领域有突出成就[2] - 目前部门仅有3名成员,但已开启社招、校招和实习招聘,招聘岗位为"研究科学家(多模态方向)"[2] 研究方向 - 具身智能原生多模态大模型:致力于赋予机器人全方位感知与交互能力,使机器人能同步处理视觉、听觉、触觉等多元感知信息[4] - 世界模型:旨在让机器人通过观察与交互深度理解世界运作规律,提升面对环境变化或新任务时的灵活性[6] - 空间智能:聚焦机器人对三维空间信息的精准理解与高效运用,提升在物流仓储、建筑施工等场景中的操作能力[7] 技术应用场景 - 家庭服务场景:机器人可精准识别语音指令、手部动作,感知周围环境障碍物,完成收拾房间、照顾老人等复杂任务[5] - 工业生产场景:机器人能综合视觉识别零部件形状与位置、触觉感知装配力度,实现高效精准的产品组装[5] - 物流仓储场景:机器人可依据世界模型理解货物存储规则,在货物摆放位置改变时迅速规划新搬运路径[6] - 建筑施工场景:机器人可识别建筑材料位置,规划吊运路线,精准完成材料运输[9] 战略布局 - 小鹏汽车董事长何小鹏透露公司已在人形机器人产业深耕5年,未来可能还需投入20年,计划投入500亿至上千亿元[10] - 计划2026年量产面向工业场景的L3级人形机器人,实现手、脚、眼、脑全向协同能力[10] - 将在第五代机器人上部署图灵芯片,大幅提升机器人端侧算力,复用小鹏物理世界基座模型的VLA架构[10] 技术挑战 - 算法优化:需要突破现有算法局限,开发能高效处理多模态数据、实现精准预测与决策的新算法[12] - 算力支持:面对海量数据处理与复杂模型运算需求,当前算力水平不足,需提升硬件性能与优化计算架构[12] - 数据质量:获取高质量、多样化且标注精准的数据面临诸多困难,如数据采集成本高、标注准确性难以保证等[12] 行业竞争 - 机器人领域技术路线竞争激烈,各大企业与科研机构纷纷布局[13] - 小鹏以多模态为切入点,避开部分与巨头的正面交锋,但该技术路径的可行性尚未得到充分验证[13] - 若在多模态技术上取得突破,可能重塑行业格局,推动机器人行业向更智能、更高效方向发展[14]
群核科技唐睿:以3D高斯破解具身智能数据瓶颈
证券时报网· 2025-07-29 00:37
技术突破 - 群核科技发布3D高斯语义数据集InteriorGS,包含1000个3D高斯语义场景,涵盖超80种室内环境,旨在提升机器人和AI智能体的空间感知能力 [1] - 核心突破在于用高斯函数替代像素作为信息载体,将时空记录转化为可进入的虚拟空间,支持在记录的空间中漫游、行走,实现身临其境的还原 [1] - 该技术可支持机器人在虚拟3D世界中与场景交互、观测,结合语义信息加速下游智能机器的智能化开发,提升效率并降低成本 [1] 应用价值 - 3D高斯语义数据集为机器人构建"虚拟学校",通过1000个语义丰富的虚拟空间,让机器人学习空间理解、物体识别、动作决策等能力 [2] - 在语义信息加持下,机器人能更快理解物品功能属性,而不仅是识别外形,大幅降低下游智能化开发成本 [2] - 群核科技定位为机器人的"虚拟教材编写者",通过空间智能技术构建高保真虚拟场景,让机器人在"数字操场"里低成本、高效率地训练 [3] 技术差异 - 空间智能的核心是解决数字世界与物理世界的桥梁问题,涉及空间的创作、理解与表达 [2] - 具身智能在此基础上还需攻克物理世界的硬件难题,是软件算法与硬件工程的结合体,例如机器人叠被子涉及机械臂扭矩控制、传感器精度等技术 [2] 解决方案 - 针对虚拟数据采集与使用中的真实性鸿沟,群核科技通过算力中心和算法迭代提升物理世界仿真精度,让虚拟场景更接近真实世界物理规律 [3] - 联合学界和下游企业探索"虚实融合"训练策略,推动具身智能从实验室走向产业化 [3]
共生伙伴:2025人工智能十大趋势|2025 WAIC报告重磅发布(附下载)
腾讯研究院· 2025-07-27 12:33
核心观点 - AI正从"工具"向"伙伴"演进,具备情感理解与主动服务能力,成为"数字员工"和"人生合伙人" [2][3] - AI技术三大跃迁主题:基础模型升级、智能行动者崛起、物理世界融合,推动从"会聊天"到"懂世界"再到"能行动"的跨越 [5][11] - 2025年十大趋势涵盖强化学习、多模态生成、具身智能等方向,重构人机协作模式 [12][22] 基础模型跃迁 - **强化学习(RLVR)**:从人类反馈(RLHF)转向可验证奖励(RLVR),提升模型推理准确性,应用于工业机器人路径优化等领域 [12] - **原生多模态生成**:统一文本/图像/音频/视频的联合感知与生成,如GPT-4o实现跨模态无缝交互 [13] - **声音模型进化**:从机械朗读到情感表达,推动Voice Agent和医疗辅助等场景的自然交互 [14] 智能行动者崛起 - **智能体双轨进化**:编排类Agent(外挂式架构)与端到端Agent(内化式架构)并行发展,OpenAI o3已展现专业领域突破 [15] - **LifeOS**:AI成为个性化操作系统,整合长序列记忆与主动决策,贯穿用户生活全周期 [16] - **智力即服务**:Agent嵌入企业流程,承担数字员工角色,重构知识调用与任务调度体系 [17] AI物理世界融合 - **具身智能**:多模态大模型(VLA)推动机器人认知与执行能力跃升,2025年或迎"GPT-2时刻" [20] - **空间智能**:从词元(Token)到体素(Voxel)理解,赋能自动驾驶、XR混合现实等三维场景 [21] - **量产加速**:具身智能本体被纳入国家"人工智能+"行动计划,机器人从测试转向规模化生产 [22] 行业应用深化 - **游戏智能体**:通过强化学习生成动态互动内容,重构虚拟世界社交与叙事逻辑 [19] - **垂直行业智能体**:深度嵌入医疗/金融/制造,承担风控审查、设备运维等闭环职能 [9]
空间智能闯入生活,AI 正在重新定义“私人空间”
搜狐财经· 2025-07-26 20:09
空间智能市场概况 - 全球空间计算市场预计2024年达45亿美元,2029年突破100亿美元,年增速18% [4] - 中国元宇宙市场2030年规模预计达8500亿元人民币,其中空间智能相关占比40% [4] - 行业正从实验室概念快速渗透至消费级硬件(VR/AR眼镜、智能手表、AI玩具等) [5] 技术驱动因素 - 多模态大模型和3D生成式AI突破使机器理解三维空间成本骤降 [7] - 百度智能云联合数十家伙伴成立"空间智能产业联盟",加速应用落地 [7] - 百度智能云3DGC工具链将3D模型生成效率提升80%,某游戏公司场景构建周期从数月缩短至两周 [17] 企业布局案例 - 苹果加大AR眼镜研发,追求轻便与功能强化 [8] - 华为推出智能汽车座舱技术提升驾驶空间智能化 [8] - DPVR接入百度大模型后,AI眼镜交互自然度显著提升,计划打造"个人数字助理" [10][11] 应用场景创新 - 儿童智能手表通过情绪监测实现心理健康预警,超越传统定位功能 [13] - 智能家居设备(如窗帘、灯光)实现环境自适应与情感化交互 [13] - 虚拟现实设备向社交属性转型,如DPVR针对年轻用户设计AI眼镜 [10] 基础设施支持 - 百度智能云百舸平台实现99.5%训练效率,支撑VAST等公司算力需求 [15] - 千帆大模型平台提供一站式开发引擎,降低企业技术门槛 [15] - 空间智能联盟聚合Unity、米哈游、上影集团等头部企业推动标准制定 [17] 生态发展现状 - CG模型网AI二次创作专区半年内创作者增40%,交易量破50万笔 [7] - 超90%空间智能企业选择百度智能云作为大模型落地平台 [17] - 行业从"极客玩具"转向"生活常客",用户需求驱动生态繁荣 [10]
氪星晚报 |雀巢考虑出售表现欠佳的维生素品牌;特斯拉计划2026年在美国启动建设第三座储能超级工厂;
36氪· 2025-07-24 18:07
百度人事调整与业务布局 - 百度启动新一轮干部轮岗,原智能体业务负责人谢天轮岗至智能驾驶事业群组负责地图事业部[1] - 谢天此前负责百度搜索生态、行业搜索及智能体业务,主要推动AI在垂直领域应用落地[1] - 百度智能云宣布空间智能将覆盖游戏、电商、体育、智能设备等核心产业场景,预计撬动千亿至万亿级市场增量[2] - 百度智能云认为空间智能正从技术探索加速迈入产业规模化落地阶段[2] AI产品动态 - AI设计Agent Lovart全球上线,推出"ChatCanvas"功能可实现基于自然语言的图像区域智能修改[1] - 蚂蚁集团智能体平台"百宝箱"推出企业版,面向文旅、出行等服务业场景,计划2025年覆盖1000家以上客户[3] - 美图旗下Wink上线"全能修复"功能,采用MoE混合专家模型实现影片画质AI修复[6] - 人工智能法律科技企业"百律无忧"完成天使轮融资,资金将用于AI法律服务产品研发[5] 跨国企业战略调整 - 雀巢考虑出售表现欠佳的维生素品牌Nature's Bounty,计划将业务转向高端产品[4] - 特斯拉计划2026年在美国休斯顿附近建设第三座储能超级工厂[4] - 台积电美国亚利桑那州工厂芯片成本比台湾高5%-20%,AMD预计年底前获得首批芯片[4] 行业观点与趋势 - 马斯克称特斯拉Robotaxi服务年底可能覆盖美国一半人口,需等待监管批准[7] - 空间智能技术发展受多模态大模型、3DGC等技术演进推动[2] - 美国拟对逃避特朗普关税的企业和个人采取刑事手段,改变以往罚款为主的处理方式[7]
大疆扫地机器人将于8月发布 或向“空间智能探索者”迈进
南方都市报· 2025-07-23 23:00
大疆进军扫地机器人市场 - 公司首款扫地机器人"ROMO"将于8月6日发布 采用扫拖一体设计 slogan为"实力绝尘" [1] - 项目代号"Ground Space Intelligent Explorer"自2020年启动 体现长期技术储备 [1] 战略布局动因 - 无人机业务专业化程度高 扫地机器人可帮助技术下沉至日常消费场景 [3] - 无人机积累的视觉感知 避障传感器 路径规划 SLAM算法可直接迁移至扫地机器人 [3] - 公司战略定位为"空间智能探索者" 地面空间与空中空间并重 [3] - 瞄准智能家电扩张机遇 2024年全球扫地机器人出货量2060万台 年增11% 中国普及率仅5%-6% [3] 市场竞争格局 - 将直接与云鲸智能竞争 后者由大疆关联人物李泽湘担任副董事长 [4] - 云鲸2024年新品逍遥001已服务全球200万家庭 连续5年保持单品第一 [4] - 大疆创始人汪滔与云鲸创始人张峻彬存在师承同源关系 [4]
无线合成数据助力破解物理感知大模型数据瓶颈,SynCheck获顶会最佳论文奖
机器之心· 2025-07-23 16:57
无线感知与合成数据技术 - 无线感知技术通过捕捉无线信号的反射特性,突破传统感官限制,实现无感监测与精准解析,重塑人机交互边界 [1] - 无线感知使机器能够感知墙壁后的动静、数米外的动作及人类难以察觉的微妙变化 [1] 大模型与物理世界交互 - 构建能够理解物理原理(如电磁场、光学、声学)并与物理世界交互的大模型面临数据稀缺挑战 [2] - 语言和视觉大模型可从海量文字和视频数据中学习,但物理世界交互数据采集难度大,难以支持大模型训练需求 [2] SynCheck 合成数据解决方案 - 北京大学与匹兹堡大学团队提出 SynCheck,通过生成与真实数据质量相近的合成数据解决数据稀缺问题 [3] - 研究提出两个创新质量指标:亲和力(衡量与真实数据的相似度)和多样性(评估覆盖真实数据分布的范围) [5] - 现有无线合成数据普遍存在亲和力不足问题,导致标签错误和任务性能下降 [9] 合成数据质量评估方法 - 研究通过贝叶斯分析和性能指标建立理论支撑的通用评估框架,引入“边际”概念实现跨数据集公平比较 [7] - 动态校正合成数据分布偏差,使模型性能保持稳定提升,最佳情况下性能提升达12.9% [13][15] 合成数据应用与性能突破 - 采用半监督学习框架结合合成与真实数据,过滤低亲和力样本并分配伪标签,无需修改生成模型流程 [11] - SynCheck 在质量无关方法导致性能下降13.4%的最坏情况下仍能实现4.3%的性能提升 [13] 学术界观点与未来方向 - 学术界对合成数据存在分歧,部分学者警示“模型崩塌”风险,另一部分认为验证器机制可规避风险 [17] - 研究团队未来将推动无线大模型训练范式革新,探索多元数据源融合及通用预训练框架 [18]
具身智能前瞻系列深度一:从线虫转向复盘至行动导航,旗帜鲜明看好物理AI
国金证券· 2025-07-22 16:17
报告行业投资评级 未提及 报告的核心观点 报告认为具身智能发展处于早期,当前缺乏模拟学习能力,物理AI是构建模拟学习的核心;世界模型约等于空间智能加物理AI;建议重视3D数据资产和物理仿真引擎双主线,看好中国物理AI稀缺资产索辰科技 [4][37]。 根据相关目录分别进行总结 从生物智能五阶段映射具身智能,模拟、规划能力是当前缺失环节 - 阶段一(关联性学习):生物智能起源于早期两侧对称生物学会“行动导航”,如线虫学会“转向”,“行动导航”是扫地机器人落地前提;早期两侧对称生物具备两侧对称结构、效价神经元、大脑和“情感”雏形;“关联性学习”是对未来初步“预测”的前提 [10][11][13]。 - 阶段二(强化学习):早期脊椎动物学会“试错”,构成“强化学习”基础;“基于预期奖励的时序差分强化学习”有助于缩短试错时间、建立更长预测时间窗口;该机制形成涉及时间感知和空间感知 [15][17][18]。 - 阶段三(模拟学习):早期哺乳动物学会“规划”,即“模拟学习”;构建基于模型的强化学习困难,因真实世界动作连续、信息嘈杂不完整、奖励复杂;大鼠在“不确定性”情况下触发模拟 [22][24][29]。 - 阶段四(模仿学习):灵长类动物学会“模仿学习”,映射到具身智能,“模仿学习”分为“主动教学”与“逆向强化学习”两种策略 [32]。 - 阶段五(语义处理):人类掌握“语言”,形成大规模协作;具身智能产业中,模拟学习应用相对初级,未来拥有3D空间智能的机器人具备“仿真”能力后将进化为硅基生命 [35][36]。 复盘智能驾驶模型算法演绎历史,世界模型≈空间智能+物理AI - 智能驾驶VS具身智能:智能驾驶是具身智能现阶段落地可行性及商业闭环被验证的场景,众多人形机器人核心创始团队有智能驾驶从业经验;智能驾驶“反物理交互”,人形机器人需高频“物理交互” [37][41]。 - 从特斯拉FSD说起:特斯拉FSD智能驾驶算法经历“模块化”规则驱动算法、感知模块引入BEV+OCC架构实现“端到端”、追求“一段式端到端”三个阶段;VLM、VLA等慢思考模型逐渐发展成熟 [44][46][53]。 - 谈及世界模型、物理AI:世界模型约等于空间智能加物理AI,英伟达Cosmos侧重视频世界模型;空间智能核心是让模型理解3D空间信息,获取3D空间数据有真实数据采集与仿真合成数据两条路线;物理AI解决机器人与物理世界交互及“缺数据”难题 [66][71][77]。 重视3D数据资产+物理仿真引擎双主线,看好中国物理AI稀缺资产索辰科技 - 群核科技:推出空间智能平台Spatial Verse,为空间智能算法提供产业级工具;2024年前三季度营收5.53亿元,经调整亏损率收窄至17%;毛利率持续提升,业务以订阅收入为主 [80][84][86]。 - 索辰科技:发布索辰开物平台,将发布“机器人虚拟训练平台”;2024年营收3.79亿元,2020 - 2024年营收CAGR达23.7%;业务分工程仿真软件与仿真产品开发两部分,研发投入强度较高 [92][95][100]。
公司成立仅7个月!90后CMU博士融资1.05亿美元!
机器人大讲堂· 2025-07-19 11:40
公司概况 - Genesis AI是一家专注于通用机器人基础模型及横向机器人平台开发的初创公司,近期获得1.05亿美元种子轮融资[1] - 公司由卡内基梅隆大学机器人学博士周衔与前Mistral研究科学家Théophile Gervet于2024年12月联合创立,总部位于硅谷和巴黎[3] - 创始团队来自Mistral AI、英伟达、谷歌、CMU、MIT、斯坦福等知名企业和高校[21] 融资与投资方 - 种子轮融资1.05亿美元,投资方包括Khosla Ventures、Eclipse Ventures、埃里克·施密特、法国国家投资银行、HSG和泽维尔·尼尔[4] - Khosla Ventures由Sun Microsystems联合创始人维诺德·科斯拉创立,管理资产超过20亿美元[5][8] - Eclipse Ventures管理资产超过20亿美元,投资组合包括70家公司,合作伙伴来自特斯拉、苹果、英特尔等行业巨头[8] - 泽维尔·尼尔是法国电信大亨,2024年财富425亿元,2025年增至555亿元,近期加入TikTok母公司字节跳动董事会[13] 技术方向与产品规划 - 计划构建通用机器人框架模型,通过自有模拟堆栈生成合成数据,统一多模态生成建模与大规模真实机器人数据收集[14] - 开发可扩展数据引擎,结合现实世界机器人交互与模拟渲染,训练可控制任何机器人执行任何任务的通用模型[17] - 将开源数据引擎和基础模型的部分组件给开发者、研究人员和合作伙伴[17] - 提出物理人工智能概念,旨在将人类水平智能引入物理世界,解决75%全球公司面临的招聘困难问题[22] 行业背景 - 物理人工智能被认为是实现AGI的关键环节,Genesis AI并非唯一提出相关概念的公司[24] - 2024年4月智澄AI首次提出"物理智能"概念,旨在解决传统机器人预设规则依赖和泛化能力弱的问题[24] - 2024年5月李飞飞团队提出"空间智能"概念,聚焦空间理解和感知能力[26] - 机器人行业正加速迭代,通用模型研究成为重要发展方向[26] 创始人背景 - 周衔毕业于新加坡南洋理工大学机械工程系,CMU机器人研究所博士,师从Pham Quang Cuong和I-Ming Che,研究方向包括世界模型、模仿学习和强化学习[18] - 曾在Meta AI和MIT-IBM人工智能实验室从事研究工作[18] - Théophile Gervet是前Mistral AI研究科学家,Skild AI创始成员,在人工智能领域经验丰富[21]
AI 编程冲击来袭,程序员怎么办?IDEA研究院张磊:底层系统能力才是护城河
AI前线· 2025-07-13 12:12
多模态智能体的新时代 - 实现智能体"看懂、想透、做好"需整合视觉、语言推理与物理执行能力,是多模态过程的核心挑战 [2] - 视觉理解因输入维度高(如连续视频流)、三维结构建模复杂且需结合交互知识,成为技术突破难点 [3] - 生成模型依赖理解模型评估质量,理解与生成深度耦合,强化学习中的reward model本质是理解能力体现 [4] - 空间智能对机器人操作至关重要,当前VLA模型因缺乏物体精确定位,操作成功率远未达实用水平 [5] - 视觉领域三维表示方法未统一,斯坦福主张采用三维内部表示以提升模型预测能力 [7] 技术落地路径 - 制造业"AI+机器人"落地需平衡通用性与精准度,汽车生产线上下料等半结构化场景是可行突破口 [7] - 危险操作场景优先落地,通过遥操作结合智能逐步迭代,家庭等开放环境需5年以上技术积累 [8] - 从结构化到半结构化场景过渡(如产线灵活操作)是机器人技术渐进式商业化关键路径 [8] 工业界研究策略 - 工业界研究需构建"研究价值-应用价值"坐标系,右上角(双高价值)为理想目标,避免纯论文导向 [11] - 目标检测等基础问题仍有突破空间,需坚持解决实际难题而非追逐热点 [12] - 产品与研究节奏差异显著,研究人员需开放探索空间,管理者应协调两种模式避免强制同步 [13] - OpenAI案例显示技术成熟后需转向工程化集中攻关,但研究支撑仍是底层基础 [14] 人才能力建设 - 计算机基础能力(如分布式系统、GPU架构)比大模型调参经验更关键,系统级优化能带来2-3倍效率提升 [16][17] - 年轻从业者应专注底层能力(代码、并行计算),避免成为"调参侠",系统理解力是团队稀缺资源 [17][18] - 计算机专业仍具长期价值,AI冲击的是基础编码岗位,需通过AI协作提升编程深度与不可替代性 [19]