Workflow
Multimodal Large Model
icon
搜索文档
自动驾驶之『多模态大模型』交流群成立了!
自动驾驶之心· 2025-06-26 20:56
自动驾驶技术平台 - 自动驾驶之心是国内领先的自动驾驶技术交流平台 [1] - 平台关注自动驾驶前沿技术、行业动态及职场成长 [1] - 平台覆盖具身智能、视觉大语言模型、世界模型等前沿技术方向 [1] - 涉及端到端自动驾驶、扩散模型、车道线检测等核心技术 [1] - 包含2D/3D目标跟踪、检测、BEV感知等多模态感知技术 [1] - 涵盖多传感器融合、transformer、大模型等AI技术 [1] - 涉及点云处理、在线地图、SLAM等空间感知技术 [1] - 包含光流估计、深度估计、轨迹预测等环境理解技术 [1] - 覆盖高精地图、NeRF、Gaussian Splatting等建模技术 [1] - 涉及规划控制、模型部署落地等应用技术 [1] - 包含自动驾驶仿真测试、产品经理、硬件配置等产业环节 [1] - 提供AI求职交流等职业发展支持 [1]
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 19:59
核心观点 - 上海人工智能实验室联合多所高校研究团队提出首个专为开放世界移动操作(OWMM)设计的多模态智能体架构OWMM-Agent,首次实现全局场景理解、机器人状态跟踪和多模态动作生成的统一建模 [1] - OWMM-Agent在真实环境测试中零样本单步动作预测准确率达90%,展现出强大的泛化能力 [2][12] - 该研究通过仿真数据合成方案微调多模态大模型OWMM-VLM,在模拟环境和真实环境中均取得突破性进展 [8][9][12] 问题背景 - 传统移动抓取机器人在处理开放指令时依赖预先构建的场景3D重建或语义地图,耗时且难以应对动态环境 [5] - OWMM任务面临三大核心难点:全局场景推理、具身决策闭环和系统整合问题 [5] 技术方案 多模态Agent架构 - 将OWMM问题建模成多轮多图推理和定位问题,实现端到端的感知-推理-决策-状态更新过程 [6] - 通过函数调用传统路径规划器和机械臂运动规划器,不依赖预定义策略技能库 [8] 数据合成方案 - 基于Habitat仿真平台设计数据合成方案,解决VLM基座模型在机器人领域的"幻觉"问题 [8] - 利用143个仿真场景、157种可抓取物体和1471个容器,采集20万+条多图加文本数据集 [9] - 通过GPT-4o重写思维链和文字总结内容,引入机器人第一视角图像增强数据多样性 [9] 模型表现 模拟环境测试 - OWMM-VLM-38B模型在单步动作决策、图像检索和动作定位三项任务上准确率分别达97.85%、87.54%和88%,远超GPT-4o和模块化方案 [15] - 在308次模拟测试中,OWMM-VLM-38B完成长序移动抓取任务成功率达21.9%,且零死循环,而基线模型成功率低于1%且频繁陷入死循环 [15] 真实环境测试 - 在Fetch机器人上仅通过模拟数据训练即实现90%的零样本动作生成成功率(30次测试中27次成功) [12] - 在"将豆奶盒从书桌移至会议桌"任务中展现出强泛化能力,能准确检索目标位置、规划导航路径并生成机械臂抓取坐标 [12] 未来展望 - 该研究首次证明通过大规模模拟数据微调的VLM模型可成为开放世界移动操作的通用基础模型 [14] - 为"会听、会看、会做"的通用家庭助手奠定关键技术基础,有望实现"一句话指挥机器人完成家务"的智能生活 [15]
2025年全球多模态大模型行业发展现状 AI服务器和算力发展推动市场爆发式增长【组图】
前瞻网· 2025-04-22 15:44
全球多模态大模型行业发展历程 - 人工智能学科诞生于1956-2005年的早期探索期 神经网络模型开始发展 [1] - 2006-2019年进入快速成长期 深度学习概念被重新引入 Transformer等模型推动行业进步 [1] - 2020-2022年为大模型兴起期 参数规模迅速扩大 2022年被视为大模型元年 [1] - 2023年起进入广泛应用期 各领域深度应用不断拓展 [1] 全球人工智能服务器现状 - 全球人工智能硬件市场(服务器)规模将从2022年195亿美元增长至2026年347亿美元 五年CAGR达17.3% [3] - 生成式AI服务器占比将从2023年11.9%提升至2026年31.7% [4] 全球大模型算力需求情况 - ChatGPT的GPT-3模型训练参数量达1750亿 算力消耗3640PF-days 需至少1万片GPU支撑 [5] - 模型参数扩大十倍时 算力投入增幅超十倍 受模型架构/优化效率/并行处理能力/硬件能力等因素影响 [5] 全球大模型市场规模情况 - 2023年全球大模型市场规模达210亿美元 [7] - 2024年市场规模预计280亿美元 同比增长33% [7] 全球多模态大模型竞争格局 - GPT-4o以81分领跑SuperCLUE基准测试 是唯一超过80分的全球模型 [10] - 中国6个大模型超过GPT-4-Turbo-0409 绝大部分闭源模型已超越GPT-3.5-Turbo-0125 [10]
招生 | 人大信院AIM3实验室招收人工智能方向学生
量子位· 2025-03-16 13:37
文章核心观点 介绍中国人民大学AIM3实验室的相关信息,包括实验室概况、导师、科研成果、学生培养、氛围、招生计划和申请条件等,吸引有科研热情的人加入 [1][3][4][5][8][11] 实验室概况 - 隶属于中国人民大学信息学院-计算机系-感知与交互智能计算研究室,研究多模态智能计算,关注大语言模型等方向 [1] - 中国人民大学是“985工程”“211工程”重点建设大学,信息学院计算机专业是国家级特色专业建设点,在教育部第五轮学科评估中评为A,在国际计算机学科排行榜CSRankings统计中,在人工智能和数据库等领域排名位居世界前列 [2] 导师介绍 - PI金琴老师毕业于清华大学和卡内基梅隆大学,现为人大信息学院教授,在顶会顶刊发表论文百余篇,谷歌学术引用超8000次,入选人工智能全球女性学者榜单等 [3] - 青年教师王文轩老师2024年毕业于香港中文大学,研究方向为人工智能大模型,博士期间发表顶会论文二十余篇,指导本科生经验丰富 [3] 科研成果 - 近三年在人工智能顶会上发表论文五十余篇,课题组成员多次进行学术报告 [4] - 积极参与国际权威比赛并获诸多奖项,如蝉联CVPR 2018 - 2020 ActivityNet视频描述挑战赛冠军等 [4] 学生培养 - 组内学生成果突出,近三年7人次获国家奖学金,2人次获百度奖学金 [5] - 毕业生去向良好,主要前往知名科研院所继续科研或互联网大厂从事算法研究 [5] 实验室氛围 - 研究氛围好,学生可自主选课题,经费充足,显卡资源丰富,提供设备支持研究 [5] - 与头部互联网企业和海外院校保持合作,学生可前往实习访问 [5] - 导师重视学生成长,定期组织运动和团建,成员自主设计实验室周边 [6] 招生计划 - 2026年可招收并指导博士生2名、学硕3名、专硕3名、访问生若干,可联系金琴老师或王文轩老师 [8] 申请条件 - 双一流或同等水平学校学生,综合排名前20%,有科研经历优先 [11] - 对科研有热情,踏实专注有毅力,有良好自主学习能力,具备扎实英语功底和编程能力 [11]