Workflow
视觉语言模型
icon
搜索文档
全球工业机器人市场遇冷 中国逆势增长成最大亮点
第一财经· 2025-08-09 15:17
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52.3万台[1] - 亚欧美三大市场集体遇冷:亚洲下滑2% 欧洲萎缩6% 美洲跌幅达9%[1] - 中国市场逆势增长5%至29万台 全球份额从51%升至54%[1] - 中国连续12年保持全球最大工业机器人市场 2024年销量达30.2万套[2] 行业需求结构变化 - 电子行业略有增长 汽车行业出现较大下滑[1] - 金属和机械行业保持全球第三大客户地位[1] - 塑料、化学品、食品行业处于增长期[1] - 中国市场通用工业领域装机量占比从38%跃升至53% 电子行业份额从45%骤降至28%[1] 区域市场表现 - 日本工业机器人装机量下滑7%至4.3万台 仅汽车行业同比增长11%[4] - 美国市场萎缩9% 汽车业贡献近40%装机量[4] - 欧洲下降6%至8.6万台 创历史第二高位 塑料化工和食品行业成新增长极[4] - 德国装机量下降5%至2.7万台 机械与电子领域展现韧性[4] 机器人密度与技术创新 - 韩国(1012台/万人)新加坡(770台/万人)稳居机器人密度前两位[4] - 中国以470台/万人首超日本和德国跃居第三[4] - 行业聚焦人工智能融合 数字孪生技术突破训练瓶颈[4] - 视觉语言模型提升人机交互能力 AI编程重构生产流程[4] 中国机器人产业发展 - 工业机器人产量从2015年3.3万套增长至2024年55.6万套[2] - 服务机器人产量达1051.9万套 同比增长34.3%[2] - 中国专利申请量占全球机器人专利总量的2/3[2] 行业未来展望 - 亚洲2025年一季度订单呈个位数增长 电子业温和复苏[4] - 中国将持续引领全球机器人需求[4] - 人形机器人商业化关键在安全性与场景适配 物流与物料搬运或成早期落地领域[4] - 建筑业、实验室自动化、仓储物流等行业加速机器人渗透[4]
全球工业机器人市场遇冷,中国逆势增长成最大亮点
第一财经· 2025-08-09 15:13
全球工业机器人市场概况 - 2024年全球工业机器人新装机量下降3%至52.3万台,亚欧美三大市场集体遇冷:亚洲下滑2%,欧洲萎缩6%,美洲跌幅达9% [1] - 主要客户行业中,电子行业略有增长,汽车行业出现较大下滑,金属和机械行业为全球第三大客户,塑料、化学品、食品行业处于增长期 [1] 中国市场表现 - 中国2024年工业机器人新装机量逆势增长5%至29万台,全球份额占比从51%升至54% [1] - 结构性变化显著:通用工业领域装机量占比从38%跃升至53%,电子行业份额从45%骤降至28% [1] - 中国连续12年保持全球最大工业机器人市场,2024年销量达30.2万套 [2] - 中国机器人专利申请量占全球总量的2/3 [2] - 中国工业机器人产量从2015年3.3万套增长至2024年55.6万套,服务机器人产量1051.9万套(同比增长34.3%) [2] 其他区域市场对比 - 日本工业机器人装机量下滑7%至4.3万台,仅汽车行业同比增长11% [4] - 美国市场萎缩9%,汽车业贡献近40%装机量 [4] - 欧洲下降6%至8.6万台(历史第二高位),塑料化工和食品行业为新增点,德国装机量下降5%至2.7万台但机械与电子领域展现韧性 [4] 自动化程度与行业趋势 - 机器人密度排名:韩国(1012台/万人)、新加坡(770台/万人)、中国(470台/万人首超日德) [4] - 亚洲2025年一季度订单呈个位数增长,电子业温和复苏,中国将持续引领全球需求 [4] - 行业技术趋势:AI融合、数字孪生突破训练瓶颈、视觉语言模型提升交互能力、AI编程重构生产流程 [4] - 人形机器人商业化关键在安全性与场景适配,物流与物料搬运或成早期落地领域,建筑业、实验室自动化、仓储物流加速渗透 [4]
性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV'25)
自动驾驶之心· 2025-08-04 07:32
核心观点 - 上海科技大学与香港中文大学联合提出的ReAL-AD框架通过模拟人类"策略-战术-操作"三层级联推理机制,显著提升端到端自动驾驶的决策能力 [3] - 该框架引入视觉-语言模型(VLM)作为"副驾驶",将环境感知转化为结构化推理指令,实现从语义策略到可执行轨迹的分层解码 [3][5] - 在nuScenes和Bench2Drive数据集测试中,ReAL-AD的L2误差和碰撞率比基线模型降低超30%,驾驶评分提升11% [36][37][39] 技术架构 策略推理注入器 - 采用VLM生成驾驶策略文本(如"看到足球→可能有小孩→需减速避让"),通过预训练语言编码器映射至语义空间 [7][11] - 设计轻量级adaptor模块弥合语义空间与视觉特征的差距,使用余弦相似度损失确保策略语义与规划动态一致 [12] 战术推理整合器 - 将抽象策略转化为结构化指令,包括方向、紧急、车道、速度四类可执行命令 [15][17] - 通过正则表达式解析VLM输出,并采用类别特定编码器生成反应层(方向/紧急)与监管层(车道/速度)指令 [16][19] 分层轨迹解码器 - 第一层解码器基于反应级指令生成粗略运动模式(潜码z^ε),第二层融合监管级指令输出精细轨迹 [22][25] - 采用双潜变量流处理时间维度,粗粒度流预测宏观运动模式,细粒度流生成精确航点序列 [27] 性能表现 开环评估 - 在nuScenes数据集实现0.48米平均L2误差(行业基线0.72米)和0.15%碰撞率(基线0.22%) [36][38] - Bench2Drive数据集上达到0.84米L2误差,较VAD基线提升10.6% [39] 闭环评估 - 驾驶评分提升至41.17(基线39.42),成功率提高1.36个百分点 [39] - 使用Qwen-VL模型时保持0.87米L2误差,验证框架兼容性 [39] 技术创新 - 首创策略-战术双阶段指令生成机制,使VLM输出可直接指导轨迹规划 [14][19] - 分层变分解码器实现人类式"先直觉反应后精细调整"的决策过程,较传统MLP解码器降低7%轨迹误差 [25][41] - 复合损失函数整合策略语义对齐、轨迹编码监督和分层KL散度约束,优化端到端训练效果 [29][31][33]
自驾一边是大量岗位,一遍是招不到人,太魔幻了......
自动驾驶之心· 2025-07-26 10:39
自动驾驶行业现状 - 自动驾驶行业进入理性发展阶段,资本更加谨慎,公司首要目标是"活下去"和"跑通商业模式"[2] - 行业预计在未来1-3年将经历深度调整和洗牌[2] - 技术栈虽完备但距离大规模商业化落地仍有差距,实验室效果与真实路况表现存在工程鸿沟[3] 人才供需矛盾 - 行业出现"岗位虚位以待但人才难觅"现象,企业对顶尖人才和高度适配人才需求达到前所未有的高度[2][4] - 3-5年经验岗位薪资可达百万级别[2] - 求职者需具备过硬技术能力且适配前沿研究和量产方向[3] 技术社区发展 - 自动驾驶之心知识星球已成为国内最大自驾技术社区,拥有4000名成员和100+行业专家[7][9] - 社区提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等几乎所有子方向[9][69] - 与数十家自动驾驶公司建立内推渠道,简历可直接送达[10][67] 前沿技术方向 - 视觉大语言模型(VLM)成为研究热点,涉及预训练、迁移学习、知识蒸馏等多个技术领域[15][16][17] - 世界模型在自动驾驶中的应用日益广泛,如HERMES、DriveWorld等模型实现3D场景理解和生成[34][36] - 扩散模型在自动驾驶视频生成、数据增强等方面发挥重要作用[37][43] - 端到端自动驾驶成为重要研究方向,涉及感知、预测、规划等多个环节[31][49][52] 技术应用与数据集 - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等多个任务[25] - 语言增强的自动驾驶系统数据集快速发展,支持自然语言导航和空间推理等高级功能[26] - 智能交通领域应用包括车辆检索、视觉问答等实际场景[27] - 自动驾驶感知技术应用于行人检测、3D目标检测等具体任务[28] 行业挑战与解决方案 - 远距离Occupancy检测效果不佳,可能由激光雷达稀疏和监督真值空洞导致[100][101] - 地下车库自动泊车通过视觉传感器和建图技术实现定位[96] - 3D目标检测研究趋于成熟,建议从BEV感知入手学习前沿算法[96]
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心· 2025-07-25 18:47
核心观点 - 提出首个统一驾驶世界模型HERMES,实现3D场景理解与未来场景生成的协同优化 [1][3] - 通过BEV表示整合多视图空间信息,引入"世界查询"机制桥接理解与生成任务 [3][8] - 在nuScenes和OmniDrive-nuScenes数据集上,生成任务误差降低32.4%,理解任务CIDEr指标提升8.0% [4] 技术框架 核心创新 - BEV-based世界分词器:将多视图图像压缩为统一BEV特征,突破LLM的token长度限制并保留空间关系 [5] - 世界查询机制:从BEV特征初始化查询,通过LLM增强后与未来生成模块交互,实现知识注入 [8][15] - 统一模块设计:共享BEV特征与渲染器,通过"当前到未来链接"模块实现理解与生成的深度协同 [15] 关键组件 - **世界分词器**:CLIP图像编码器+BEVFormer处理多视图图像,输出压缩BEV特征 [14] - **渲染器**:基于隐式SDF场的可微分体渲染,通过三线性插值预测射线深度 [11][14] - **LLM处理**:BEV特征投影至语言空间,自回归完成场景描述/VQA等理解任务 [15] 性能表现 定量结果 - 生成任务:3秒内Chamfer距离显著低于4D-Occ和ViDAR [17] - 理解任务:CIDEr指标超过OmniDrive等方法8.0% [17] - 消融实验:世界查询使3秒点云预测误差降低10% [20] 参数优化 - BEV特征尺寸:50×50较25×25在CIDEr和0秒生成任务上分别提升7.3%和10% [23] - 查询初始化:BEV特征最大池化初始化的查询表现最优 [21] 应用场景 - 复杂场景中准确生成未来点云演化(如车辆运动跟踪) [24] - 精准理解场景语义(如识别商业标志物) [24] - 当前局限:复杂转向、遮挡及夜间场景仍有挑战 [24] 行业资源 - 覆盖30+自动驾驶技术栈学习路线(BEV感知、Occupancy、多传感器融合等) [25] - 提供端到端自动驾驶、大模型、仿真测试等专业课程 [28]
从“想得好”到“做得好”有多远?具身大小脑协同之路解密
具身智能之心· 2025-07-23 16:45
具身智能系统架构 - 具身智能系统由"大脑"、"小脑"和"身体"三部分组成,分别对应认知决策、运动控制和物理执行功能 [2] - "大脑"采用大语言模型和视觉语言模型,具备感知、理解、推理和规划能力,是系统的智慧核心 [2] - "小脑"运用运动控制算法和反馈控制系统,实现精准流畅的动作控制,被称为"动作艺术家" [2] - "身体"作为物理载体,负责将认知决策和运动指令转化为实际动作,完成"知行合一" [2] 当前技术挑战 - "大脑"需提升自主推理能力,实现无指令、无地图环境下的实时在线思考与路径规划 [3] - "小脑"需增强适应性,在复杂物理环境中实现类人类的直觉反应和精细操作 [3] - 系统需解决"大脑"与"小脑"的协同问题,目前存在信息传递延迟和动作响应滞后 [3] - 数据采集面临成本高、质量差等挑战,需构建真实多样且可迁移的训练数据集 [3] 行业技术进展 - 北京智源人工智能研究院和智元机器人正在开展具身智能相关研究 [3] - RoboBrain 2.0和RoboOS 2.0等系统展示了最新技术成果 [5] - 对抗性数据收集方法(Human-Collaborative Perturbations)可提升模仿学习效率与鲁棒性 [5] - 相关研究成果已在ArXiv等平台公开发表,涉及机器人操作系统和脑机协同等领域 [7] 未来发展方向 - 行业聚焦于提升具身智能系统的认知能力、运动控制精度和系统协同效率 [4] - 需建立更高效的数据获取与处理体系,解决数据质量与成本问题 [3] - 技术突破将推动具身智能向通用人工智能(AGI)方向发展 [3]
小米提出DriveMRP:合成难例数据+视觉提示事故识别率飙至88%!
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术研究 核心观点 - 提出DriveMRP框架,通过合成高风险运动数据(DriveMRP-10K)和视觉提示方案,显著提升视觉语言模型(VLM)在自动驾驶场景中的风险预测能力,事故识别准确率从27%提升至88% [1][7][8] - 创新性地将运动路点投影为视觉表示,结合BEV全局上下文和链条推理机制,解决传统VLM在模态差距和可解释性上的局限 [6][13] 现有方法局限 - 规则基方法依赖外部世界模型和预定义规则,对感知误差敏感且泛化性差 [2] - VLM基方法直接输入轨迹坐标文本,因模态差距导致空间关系理解不足 [4] 创新方案 数据集构建 - DriveMRP-10K包含10,000个高风险场景,通过多项式模拟生成三类风险轨迹(ego车辆行为/车辆交互/环境约束),结合GPT-4o生成多模态标注数据 [5] - 采用四阶段流程:高风险轨迹合成→自动标注→人工质检→文本生成,确保数据质量 [5] 模型架构 - DriveMRP-Agent以BEV布局、场景图像和运动路点为输入,通过LoRA微调Qwen2.5VL-7B模型 [6] - 关键组件:视觉提示方案(解决模态差距)、链条推理机制(场景理解→运动分析→风险预测)、CoT训练策略 [6] 性能表现 基准测试 - 在DriveMRP-10K上,ROUGE-1-F1达69.08,风险预测准确率88.03%(基线27.13%),F1分数89.12 [7][8] - 真实世界数据零样本评估中,准确率从29.42%提升至68.50% [9] 数据集有效性 - 微调后Llava-1.5-7B的F1分数从0.85提升至29.99,Qwen2.5-VL-7B的F1达89.12 [11] 组件分析 - 完整模型(视觉提示+链条推理+BEV)性能最优,F1分数89.12;移除BEV后降至83.47 [13] 技术应用 - 方案可增强现有VLM的"即插即用"能力,适用于端到端自动驾驶、BEV感知、轨迹预测等技术方向 [15][17]
AI们数不清六根手指,这事没那么简单
虎嗅· 2025-07-11 10:54
视觉语言模型的偏见问题 - 核心观点:视觉语言模型(VLMs)并非真正"看"图像,而是依赖记忆中的先验知识进行判断,导致对反常识图像的识别错误[19][20][38] - 实验证据:当展示6根手指图片时,包括GPT-4、Gemini-2.5 Pro、Claude 3.7等主流模型100%错误识别为5根[40][45][63] - 机制分析:模型通过高频关联建立强先验知识(如"阿迪达斯=三条纹"),当视觉输入与常识冲突时优先选择记忆而非真实观察[54][55][64] 行业应用风险案例 - 工业质检:AI可能将罕见零件缺陷误判为光学误差,导致安全隐患[72][73][74] - 医疗领域:肺癌筛查等医疗诊断仍需医生复核AI判断,显示可靠性存疑[77] - 自动驾驶:对非常规交通场景(如异常数量行人)的识别可能失效[77] 技术局限性数据 - 品牌标识测试:修改阿迪达斯条纹数量后,所有模型仍坚持回答3条[39][40] - 动物肢体测试:5腿狮子/3脚鸟等异常图片识别准确率仅2%[43][45] - 国旗测试:美国国旗条纹数识别错误率达92%(模型回答13条vs实际12/14条)[47] 底层机制解释 - 数据训练方式:模型通过吸收数百亿张图片建立关联记忆而非理解[50][51] - 决策冲突:视觉模块与知识模块产生矛盾时,后者权重显著更高[63][65] - 干预无效:明确要求模型"仅根据图片回答"仅提升2%准确率[67][68]
AI们数不清六根手指,这事没那么简单。
数字生命卡兹克· 2025-07-11 04:40
视觉语言模型的偏见问题 - 核心观点:当前主流视觉语言模型(如GPT-4、Gemini、Claude等)在图像识别中严重依赖先验记忆而非实际视觉分析,导致对反事实图像(如六指手、四条纹阿迪达斯鞋)的识别准确率极低[5][12][17] - 实验数据:模型在识别异常图像(五腿狮子、三脚鸟等)时平均准确率仅2.12%[15],数国旗条纹错误率超80%[16] - 机制解释:模型通过海量数据训练形成强关联性先验知识(如"狗=四条腿"、"阿迪达斯=三条纹"),视觉输入与记忆冲突时优先选择记忆答案[23][25][26] 多模态模型测试结果 - 跨模型验证:OpenAI o3/o3 pro、豆包、Kimi、Gemini等模型对六指图像均错误识别为五指,仅Claude 4存在部分正确率[4][5] - 响应特征:模型在48秒推理后仍坚持错误结论,人工提示仅提升2%准确率[3][28] - 表格数据:阿迪达斯四条纹被100%错误识别为三条纹,PUMA标识错误率超75%[13] 工业应用风险 - 质检场景:AI可能因罕见缺陷(如零件裂缝)不符合先验知识而误判合格,潜在导致安全事故[30][32] - 医疗领域:肺癌筛查等场景需医生二次验证AI判断,反映模型可靠性存疑[34] - 交通隐患:对异常目标(夜间行人、突发障碍物)的识别可能受偏见影响[35][36] 技术本质分析 - 训练缺陷:模型通过记忆数百亿图片文本建立知识库,而非真正理解视觉元素[18][19] - 认知类比:与人类"雷碧"误认现象类似,依赖快速模式匹配而非细节分析[11][12] - 矛盾机制:视觉模块与知识模块冲突时,模型优先选择高概率常识答案[24][25] 行业启示 - 当前局限:视觉语言模型在反事实识别、细节观察等场景存在系统性缺陷[37][38] - 应用建议:关键领域需保留人工复核机制,不能完全依赖AI视觉判断[34][39] - 发展需求:需突破基于记忆的推理框架,建立真正的视觉理解能力[26][38]
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 16:59
核心观点 - 游戏代码可自动合成视觉推理数据,提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势:规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对,覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建:LLM自动生成完整游戏逻辑(如推箱子) [13] - QA模板设计:从代码提取推理模式并设计任务模板 [14] - 数据引擎构建:自动化生成问答实例且保证正确性 [15] - 数据集特点:细粒度难度控制(Easy/Medium/Hard三级) [20] - 对比实验:5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%,Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%,仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%,超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板,易混淆物体高度关系 [42] - 非网格化场景(如祖玛)中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足,缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%,文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]