SLAM
搜索文档
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]
安联锐视(301042):深耕安防视频监控产品 加码机器人投资布局新增长曲线
新浪财经· 2025-12-10 12:35
公司核心业务与市场地位 - 公司深耕安防视频监控产品软硬件的研发、生产与销售,核心产品包括前端摄像机和后端硬盘录像机 [1] - 公司以ODM模式为主,为全球科技和消费电子行业的领先客户提供服务,凭借强大的研发和生产能力,已累计开发新产品超过10000个款型 [1] - 产品销往全球六大洲,在全球各地拥有近500家客户,具备完善的全球化产业布局 [1] 机器人产业投资布局 - 公司于11月25日通过两项机器人领域投资议案,加码机器人产业投资,旨在布局新的增长曲线 [1] - 投资800万元参与设立新机器人公司元启联安,持股40%,该公司将专注于具身智能机器人业务 [1] - 斥资256.5万元增资联营公司安兴宇联,增资后持股比例由38%提升至47.5%,成为其第一大股东,该公司经营范围涵盖工业机器人制造、特殊作业机器人制造等 [1] 机器人子公司产品与技术 - 安兴宇联专注特种机器人赛道,核心团队实力雄厚,首席科学家负责AI研发及技术前瞻,总经理深入研究AI语言行业大模型 [2] - 已开发出相对成熟的导览机器人、攀爬机器人、无人机清理机器人等产品,并开始得到市场认可 [2] - 导览机器人接入AI大脑,实现RAG实时检索和多语言讲解,采用多元融合SLAM方案,实现厘米级定位、动态避障及自主移动 [2] - 无人机+产品系列包括:应用于分布式光伏环境的无人机+光伏清扫机器人,用于电力巡检运维的无人机+带电作业工具,以及用于无人区电力建设的重载无人机+吊装工具 [2] 财务预测与增长前景 - 预计公司2025-2027年分别实现营收4.38亿元、6.23亿元、8.77亿元 [2] - 预计同期归母净利润分别为0.32亿元、0.74亿元、1.07亿元 [2] - 预计同期EPS分别为0.46元、1.07元、1.54元 [2] - 公司正积极申请移出SDN清单,安防设备主业明后年有望恢复较快增长,同时持续加码机器人赛道投入,有望打造新增长曲线,未来成长空间广阔 [2]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
沈劭劼团队25年成果一览:9篇顶刊顶会,从算法到系统的工程闭环
自动驾驶之心· 2025-10-24 08:04
港科大ARCLab研究团队概况 - 团队由沈劭劼教授领衔,专注于自主导航、无人机技术、传感器融合与三维视觉等领域,强调从算法到系统的工程闭环与开源生态[2] - 团队在学术与工程落地双线并进,获得IEEE T-RO最佳论文奖荣誉提及、IROS最佳学生论文奖等多项荣誉,并两度获AI 2000最具影响力学者荣誉提名[3] - 团队特色为产品化思维与强工程执行力,坚持问题选择直面真实场景痛点,解法偏向优化与系统集成,重视落地实验与全链路复现[3] - 人才培养成果显著,实验室成员活跃于学术与产业一线,如高飞(浙大长聘副教授)、秦通(上交副教授、曾任华为"天才少年")等[4] 状态估计与多源融合 - 提出统一位姿图优化框架,将局部高精度但会漂移的VO/VIO与全局无漂移但噪声较大的传感器融合,通过图优化对齐局部轨迹到全局坐标并显式消除累计漂移[5] - 框架通用可插拔,在公开数据集与真实环境验证中优于多种SOTA方案,为长时程与大范围任务在GNSS受限场景提供低门槛多源融合方案[5] - 利用事件相机超高时间分辨率,提出不依赖地图的视觉惯性估计方案,通过实时恢复线速度实现低时延、米级标定的速度估计,适用于高速无人机与极端运动场景[17][18] 轻量化建图与地图对齐 - 开发SLIM框架,将LiDAR点云简化为"线"和"面"表示道路和建筑,使地图更轻量且易于维护,支持不同时间采集地图的合并与整体优化[8] - 在KITTI数据集上实现整张城市地图约130 KB/公里的体量,精度不降且支持直接再次定位,显著降低长期运行中地图存储、更新和复用成本[8] - 提出场景图配准方法,将环境抽象为场景图,通过开放集语义、局部拓扑和形状特征融合成紧凑节点描述,实现低带宽下的多机器人地图对齐,每帧仅需约52 KB通信[13] 复杂环境自主导航 - 针对狭窄隧道(最小直径0.5 m)提出实时在线多旋翼自主系统,通过虚拟全向感知克服弱纹理/弱光与有限视场,显式建模感知可见性与自体气流扰动[6] - 在真实窄隧道实验中定制四旋翼表现优于人类飞手,并提供跨平台部署流程与开源包,为检修/搜救等受限空间作业提供可复用工程方案[6] - 结合视觉识别与主动触觉确认玻璃存在性,通过轻量触觉模块点触确认后写入三维体素地图并即时重规划绕行路径,提升玻璃密集空间巡检/搜救效率[10] 场景理解与拓扑推理 - 提出SEPT框架,将标准清晰度地图作为先验信息接入在线感知与拓扑推理,通过混合特征融合缓解SD地图与BEV特征的错位问题[12] - 利用路口特性设计路口感知关键点辅助任务,在OpenLane-V2数据集上对远距离/遮挡等难场景有明显提升,为低成本轻地图自动驾驶提供可行路径[12] - 基于向量化车道图表示道路与交互关系,在逆强化学习框架下学到隐含奖励与策略,采样出多种合理未来轨迹,提升复杂路口与长尾交互场景的预测稳健性[16] 轨迹预测与决策 - 采用逆强化学习方法,先推理意图后预测轨迹,通过可解释意图推理器编码场景车辆与道路要素到统一向量表示,推断多种可能意图作为先验[20] - 在Argoverse与nuScenes数据集上取得SOTA效果,显著提升置信度与性能,为路口博弈、遮挡等不确定场景提供更可解释且易与规划对接的预测路径[20] - 提出分层参数化生成器与精修模块,结合概率融合提高置信度,对未见场景的泛化能力优于纯监督方法,增强预测结果的可扩展性[16] 2025年研究主线总结 - 团队沿五条主线推进:更稳的状态估计与多源融合、更轻量的建图与地图对齐、更可靠的复杂/极端环境自主导航、更全面的场景理解与拓扑推理、更精准的轨迹预测与决策[23] - 整体风格保持问题导向与从算法到系统,兼顾可复现与工程落地,面向长期运行、低带宽与弱先验场景,强调通用性与可扩展性[23] - 年度关键词为稳、轻、实、通、可解释,体现技术演进方向[24]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 08:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-18 00:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶等前沿技术方向 [3] - 其他关键领域包括具身交互、联合预测、SLAM、3D目标检测、世界模型等 [3] - 技术布局覆盖闭环仿真3DGS以及大模型部署与量化感知推理 [3] 人才招聘标准 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有发表成果的候选人 [4] 合伙人待遇与激励 - 为合伙人提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 公司提供创业项目合作与推荐机会 [5]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-18 00:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 12:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-09-02 11:14
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿技术领域[3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向也在招募范围内[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 拥有顶级会议论文发表经历者将获得优先考虑[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励方案[5] - 提供创业项目合作与推荐机会[5]
自动驾驶之心业务合伙人招募来啦!模型部署/VLA/端到端方向~
自动驾驶之心· 2025-08-28 16:17
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM及3D目标检测领域专家[3] - 需要世界模型、闭环仿真3DGS、大模型部署与量化感知推理等专业人才[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设立丰厚的现金激励方案[5] - 开放创业项目合作与推荐机会[5]