VGM)

搜索文档
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 08:54
通用视觉模型(VGM)研究背景 - 通用视觉模型(VGM)曾是计算机视觉领域的研究热点,旨在构建统一架构处理图像、点云、视频等多种模态输入及分类、检测、分割等多样化任务,目标是实现「视觉模型大一统」[1] - 随着大语言模型(LLM)的兴起,多模态大模型成为新趋势,视觉被视作语言模型的输入模态之一,其独立性被重新定义,传统VGM研究面临边缘化风险[1] - 视觉数据具有结构化强、空间信息丰富等优势,但存在模态间差异大、难替代的挑战,如2D图像、3D点云和视频流的统一处理问题在当前多模态范式中未充分解决[1] VGM的核心能力与价值 - VGM通过广泛预训练和共享表示实现跨任务零样本迁移,无需为单一任务专门调整,解决了传统视觉模型任务专用化的局限性[7] - VGM具备多模态输入统一处理能力,能将图像、点云、视频等映射到共享特征空间,同时支持多任务并行处理(如图像识别与视频分析)[7][8] - 清华大学团队在IJCV发表的综述系统梳理了VGM研究进展,涵盖输入统一方法、任务通用策略等,为未来视觉模型发展提供参考[2] VGM的技术实现框架 - 编码式框架通过共享特征空间统一输入模态,使用Transformer编码不同数据(如图像、文本),最终生成统一输出[12] - 序列到序列框架借鉴NLP方法,将可变长度输入(如视频)转换为固定表示,适用于图像生成等任务[13] - 多任务学习、视觉-语言学习等技术被用于扩充VGM知识边界,相关领域研究为模型设计提供技术补充[13] VGM的数据与评测体系 - 训练采用大规模多模态数据集(图像/视频/点云),任务分为图像、几何、时间序列等四类,评测注重跨任务泛化能力[9] - 研究对比了主流VGM在22个基准数据集的表现,但未披露具体数据指标[14] VGM的挑战与未来方向 - 当前面临统一框架设计优化、训练效率提升和大规模数据处理等挑战,数据标注仍是发展瓶颈[16] - 自动化标注技术和大规模无监督学习将成为研究重点,需解决模型偏见、公平性等伦理问题[16] - 应用潜力覆盖智能监控、自动驾驶等领域,可扩展至视觉问答、图像-文本检索等复杂任务[16]
半年完成5亿元融资,阿里、蔚来、联想等投了人形机器人|早起看早期
36氪· 2025-03-13 08:01
公司融资与背景 - 逐际动力近期完成A+轮融资,半年累计完成5亿元A轮系列融资,获得头部机构战略支持[3] - 战略产业投资人包括阿里巴巴集团、招商局创投、尚颀资本、蔚来资本等,知名财务投资人包括高捷资本、绿洲资本等[3] - 公司成立于2022年,聚焦全尺寸通用人形机器人,核心技术包括本体硬件设计制造、基于强化学习的小脑全身运动控制和具身大脑模型训练策略[3] 产品与技术 - 公司推出多形态双足机器人TRON 1,采用"三合一"模块化足端设计,配备双点足、双足和双轮足三种足端,满足不同场景需求[7] - TRON 1已完成多个国家和地区的产品交付,实现设计、研发、量产和销售的商业化闭环[8] - 最新迭代的全尺寸人形机器人增加腰部自由度,提升重心调整、姿态控制和全身平衡能力[6] 技术创新 - 公司发布基于视频生成大模型的具身操作算法LimX VGM,可将人类操作视频数据转化为机器人操作策略及行为[5] - LimX VGM仅需场景图片和操作任务指令作为提示,即可实现任务理解与拆分、物体操作轨迹生成及机器人操作执行全流程[5] - 该技术是国内首次实现将人类操作数据直接应用于机器人操作,并支持多平台泛化[6] 市场应用 - 公司提供人形机器人本体软硬件系统和具身Agent开发工具链,面向企业客户、集成商与个人开发者[4] - 目标推动具身智能在科研、制造、商业、家庭等领域的广泛应用[4]
逐际动力张巍:人形机器人不进工厂,具身不堆真机数据丨具身智能对话#10
晚点LatePost· 2025-02-19 20:23
公司定位与战略 - 逐际动力定位为具身智能工具公司,提供机器人本体和AI软件工具链,服务各行业具身智能应用创新者[5][22][28] - 公司选择不做具体场景解决方案,而是聚焦标准化产品和工具链开发,类似具身智能领域的英伟达[18][22][33] - 明确不进工厂场景,因技术优势与工厂需求不匹配,且与通用机器人发展目标冲突[21] 技术路线与创新 - 行业最缺人形机器人小脑(运动控制)和具身大脑(泛化能力),这是公司重点研发方向[5][8] - 提出"具身模型工业母机"概念,强调模型生产效率比单一模型性能更重要[9][10] - 采用独特的数据策略:结合真机数据、仿真数据和互联网视频数据,尤其重视视频数据的低成本高转化率优势[11][14][16] - 基于视频生成大模型开发具身操作算法(LimX VGM),减少对真机数据依赖[5][16] - 重视仿真+强化学习(RL)方案,认为其模型生产效率可能远超端到端方案[17] 产品规划 - 已发布多形态双足机器人TRON 1,支持强化学习和移动算法开发[28] - 正在预研全尺寸人形机器人,计划2025年推出面向开发者的正式产品[29][31] - 长期产品将包括机器人本体和完整软硬件工具链(数据收集、处理、训练、部署等)[28] 行业观点 - 人形机器人全地形移动和全身控制是AI技术变革后路线开始收敛的方向[8] - 具身大脑应由多个任务耦合的具身模型组成,而非单一VLA模型[8] - 2025年行业将出现技术祛魅,更多企业入局,关注点从demo转向商业化[40] - 批评当前行业过热现象,称部分产品为"大炼机器人",仅能实现基础功能[36][37] - 认为特斯拉Optimus在工程化水平领先,但质疑其大规模收集真机数据的策略[38] 竞争优势 - 创业公司在大公司资源优势未确立的领域存在机会[6][24] - 软硬结合能力构成壁垒,需同时理解AI前沿技术、机器人设计和制造[32][33] - 跨领域技术整合能力是关键,需重新定义新兴技术组合方式[24] 市场展望 - 具身智能将颠覆传统制造业和服务业,市场规模可观且呈现百花齐放格局[27] - 2025年AI领域最大增量将是Agent技术,推动大模型落地[40] - 客户群体包括集成商、行业客户和个人开发者,不直接与场景解决方案商竞争[25][33]