多模态信息

搜索文档
理想司机Agent的一些细节
理想TOP2· 2025-06-06 23:24
:基于2D/3D 信息编码整合进模型后,Agent 具备理解道路标牌【例如,出口,上下坡道,左右 转,电梯口,不允许通行,区域B12345,ABCDEFGG区 etc】的能力,和语音交互感知【左右转,靠边停 车,掉个头,快点慢点,甚至给出先去A区再靠边,或者掉头后再去C区】的能力。简单指令场景依赖的是 本地的多模态LLM,复杂指令是Token化后上云大参量的LLM,将任务拆解后转换成顺序任务后在本地LLM 执行。 :具备自建关联点的能力【我这里为什么不说建地图而是建关联点】有就几个原因:首先更多的 是行车的关联结构,而并非记忆了精准的道路结构。因此车辆在调用这个关联点记忆很像人在地下车库开 车【大概要往哪个地方开,而并非是像Hd map 具有严格的驾驶轨迹限定】,换句话说,关联点建好后。理 论上,给Agent 需求后,会直接进行关联点分析,规划出一条最近的【可以符合通行逻辑】的地下/园区驾 驶轨迹。 当然现在他能力还有限,还是偶尔会出现开错路,然后触发掉头再开【对因为行车模型化 后,理论上可以触发无限制掉头,几乎不会卡死】 :具备感知推理能力,而且怀疑整个AD Max Agent 场景是将行车感知摄像头和泊车 ...
无需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight
量子位· 2025-03-07 15:12
3D场景理解在具身智能、VR/AR等领域至关重要,帮助设备准确感知和解读三维世界。 人形机器人、VR/AR,以及自动驾驶汽车,都依赖于对3D场景的精确理解。 然而,这种精准的3D理解往往需要大量详细标注的3D数据,极大推高了时间成本和资源消耗。 Few-shot学习是一种有效的解决思路,但当前研究都局限于单模态点云数据,忽略了多模态信息的潜在价值。 对此,这项新研究填补了这一空白,文章已被ICLR 2025接收为Spotlight论文。 整合多模态信息,理解3D场景 只要极少量的标注样本,就能让模型精准分割3D场景? 来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员,提出了一个全新的多模态Few-shot 3D分割设定和创新方法。 无需额外标注成本 ,该方法就可以融合文本、2D和3D信息,让模型迅速掌握新类别。 △ 3D Few-shot分割结果示例 小q 投稿 量子位 | 公众号 QbitAI 然而,传统全监督模型虽在特定类别上表现出色,但其能力局限于预定义类别。 每当需要识别新类别时,必须重新收集并标注大量3D数据以及重新训练模型,这一过程既耗时又昂贵,极大地制约了模型的应用广度。 3D Few-sh ...