Multimodal Large Model
搜索文档
AI需求侧核心逻辑正式向多模态大模型延展:国产算力认知强化!Tokens消耗
东吴证券· 2025-10-08 09:27
行业投资评级 - 电子行业评级为增持(维持)[1] 核心观点 - 国产算力投资逻辑从供给侧向需求侧延展,AI应用需求成为国产算力新引擎[1] - 多模态能力突破带动C端付费意愿提升,AI正从生产力工具加速演进为内容与交互的基础平台[5] - 国内头部厂商快速补齐多模态生成与理解关键环节并在国际基准测试中崭露头角[5] - 随着多模态生成与实时推理场景丰富,国产算力有望进入内生驱动的新一轮成长周期[1] 国产算力投资逻辑演进 - 国产算力崛起标志是适配工作渗透到AI大模型研发更早期阶段[1] - DeepSeek于9月30日发布DeepSeek-V3.2-Exp,DSA架构使推理成本更低,支持更长上下文,并实现与寒武纪、海光、昇腾等芯片的首日适配[1] - 智谱于9月30日开源GLM-4.6,代码生成性能已对齐Claude Sonnet 4,并完成与国产GPU联合优化[1] - 阿里巴巴于10月4日发布开源的Qwen3-VL系列多模态模型实现昇腾芯片0Day适配[1] - 投资逻辑从H20限售驱动的供给侧替代演进为多模态能力突破带来的需求侧拉动[1] 海外多模态进展 - OpenAI于10月1日上线Sora 2/Pro App,支持最长15秒文生视频,发布三天后登上美区App Store第一名[5] - OpenAI于10月7日开发者大会宣布ChatGPT可直接调用第三方应用,推出GPT-5 Pro、Sora 2 API等工具,标志从单一对话工具向AI应用及社交平台转型[5] - xAI于10月6日推出视觉生成模块Imagine,Grok由问答助手升级为多模态创作AI,构建社交+搜索+创作一体化平台[5] - Anthropic于9月30日发布Claude Sonnet 4.5编程模型,强调构建生产就绪级AI Agent能力[5] 国内多模态进展 - 快手可灵2.5 Turbo于10月2日在全球视频生成模型榜单中登顶图生视频与文生视频双榜首[5] - 字节跳动与UCLA推出Self-Forcing++视频生成技术,可生成4分15秒高清视频,视觉稳定性提升至2.6倍[5] - 字节跳动豆包1.6-Vision模型于9月30日更新,通过工具调用将图像融入思维链提升视觉理解精度[5] - 腾讯于9月28日推出并开源混元图像3.0,作为业界首个开源工业级原生多模态生成模型,快速登顶Hugging Face热榜[5] 投资建议 - 云端算力:推荐寒武纪、海光信息、芯原股份、盛科通信、兆易创新,建议关注翱捷科技、裕太微等[2] - 端侧算力:推荐晶晨股份、瑞芯微、恒玄科技,建议关注乐鑫科技等[2] 重点公司估值 - 寒武纪-U总市值5,543.14亿元,2025年预测EPS为4.07元/股,预测PE为325.55倍[7] - 海光信息总市值5,871.28亿元,2025年预测EPS为1.23元/股,预测PE为205.37倍[7] - 芯原股份总市值962.06亿元,2025年预测EPS为-0.19元/股[7] - 兆易创新总市值1,423.30亿元,2025年预测EPS为2.48元/股,预测PE为86.01倍[7] - 晶晨股份总市值468.18亿元,2025年预测EPS为2.52元/股,预测PE为44.12倍[7] - 瑞芯微总市值948.95亿元,2025年预测EPS为2.53元/股,预测PE为89.15倍[7] - 恒玄科技总市值500.89亿元,2025年预测EPS为5.14元/股,预测PE为57.88倍[7]
合伙人招募!4D标注/世界模型/VLA/模型部署等方向
自动驾驶之心· 2025-09-28 07:33
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互等技术 [3] - 其他关键方向包括联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS以及大模型部署与量化感知推理 [3] 人才招聘要求 - 合伙人岗位要求应聘者来自QS200以内高校,并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与激励 - 合伙人将获得自动驾驶领域的资源共享,包括求职、读博及出国留学推荐等支持 [5] - 公司提供丰厚的现金激励以及创业项目合作与推荐机会 [5]
打算招聘几位大佬共创平台(4D标注/世界模型/VLA/模型部署等方向)
自动驾驶之心· 2025-09-25 15:36
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 人才招聘要求 - 合伙人岗位要求应聘者来自QS200以内高校,并拥有硕士及以上学历 [4] - 在顶级学术会议发表过论文的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
招聘几位大佬,打算共创平台(模型部署/VLA/端到端)
自动驾驶之心· 2025-09-04 16:42
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、视觉语言模型(VLA)、端到端自动驾驶系统[3] - 涵盖具身交互、联合预测、SLAM技术、3D目标检测、世界模型等前沿领域[3] - 涉及闭环仿真3D高斯溅射(3DGS)技术及大模型部署与量化感知推理[3] 人才资质要求 - 要求候选人来自QS世界大学排名前200高校[4] - 优先考虑硕士及以上学历且拥有顶级会议论文发表记录的专家[4] 合作激励机制 - 提供自动驾驶行业资源共享包括求职推荐、读博及出国留学支持[5] - 设立具有竞争力的现金激励方案[5] - 开放创业项目合作与推荐渠道[5]
又有很多自动驾驶工作中稿了ICCV 2025,我们发现了一些新趋势的变化...
自动驾驶之心· 2025-08-16 08:03
多模态大模型 & VLA - 多模态大模型和VLA是当前最热门的赛道,主流范式遵循『预训练-微调-强化学习』三阶段,但通用自动驾驶VLM基础模型仍缺失 [5] - 华科与小米联合推出ORION框架,通过视觉语言指令生成动作实现端到端自动驾驶 [5] - 中山大学与美团合作开发All-in-One大型多模态模型DriveMM,整合多任务处理能力 [6] - 重庆大学提出MCAM模型,通过多模态因果分析理解自车级驾驶视频 [8] 闭环仿真 & 世界模型 - 基于世界模型和3DGS的闭环仿真成为行业刚需,聚焦车道线、红绿灯等细粒度性能优化 [5] - 清华大学与旷视科技推出DiST-4D模型,实现4D驾驶场景的时空解耦生成 [34] - 美团与中山大学开发RoboTron-Sim,通过模拟极端案例提升实车驾驶性能 [17] - 清华大学与地平线合作Epona模型,采用自回归扩散方法构建世界模型 [47] OCC与3D重建 - 丰田利用大规模二值占用数据开发语义占用预测模型B2S-Occupancy [52] - 清华大学团队提出GS-Occ3D,基于高斯泼溅技术扩展纯视觉占用重建 [51] - Valeo AI推出GaussRender,通过高斯渲染学习3D占用 [60] - 慕尼黑工业大学开发SceneDINO,实现无监督语义场景补全 [56] 目标检测 - 新加坡国立大学提出Perspective-Invariant 3D检测方法PI3Det,提升视角不变性 [68] - 韩国庆熙大学开发SFUOD框架,解决无源未知物体检测问题 [71] - 南京理工大学推出OcRFDet,基于物体中心辐射场实现多视角3D检测 [75] 数据集与评估 - 加州大学欧文分校发布DriveBench工具包,评估VLM在自动驾驶中的可靠性 [76] - 卡内基梅隆大学推出ROADWork数据集,专注施工区域驾驶场景 [79] - 中国科大与华为联合开发VLADBench,细粒度评估大视觉语言模型 [87] 端到端与轨迹预测 - 香港科技大学与滴滴合作强化轨迹预测模型,引入奖励启发机制 [29] - 韩国DGIST实验室利用可控扩散模型解决长尾轨迹预测问题 [30] - 中科院自动化所与理想汽车推出World4Drive,通过意图感知潜变量模型实现端到端驾驶 [32] 其他技术方向 - 浙江大学与中兴通讯开发Dynamic-DINO,实时开放词汇检测 [93] - 新加坡国立大学团队提出LiMA框架,跨视角蒸馏提升LiDAR表征 [97] - 复旦大学与萨里大学合作DriveX,在自由轨迹上生成驾驶视图 [37]
自动驾驶之『多模态大模型』交流群成立了!
自动驾驶之心· 2025-06-26 20:56
自动驾驶技术平台 - 自动驾驶之心是国内领先的自动驾驶技术交流平台 [1] - 平台关注自动驾驶前沿技术、行业动态及职场成长 [1] - 平台覆盖具身智能、视觉大语言模型、世界模型等前沿技术方向 [1] - 涉及端到端自动驾驶、扩散模型、车道线检测等核心技术 [1] - 包含2D/3D目标跟踪、检测、BEV感知等多模态感知技术 [1] - 涵盖多传感器融合、transformer、大模型等AI技术 [1] - 涉及点云处理、在线地图、SLAM等空间感知技术 [1] - 包含光流估计、深度估计、轨迹预测等环境理解技术 [1] - 覆盖高精地图、NeRF、Gaussian Splatting等建模技术 [1] - 涉及规划控制、模型部署落地等应用技术 [1] - 包含自动驾驶仿真测试、产品经理、硬件配置等产业环节 [1] - 提供AI求职交流等职业发展支持 [1]
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 19:59
核心观点 - 上海人工智能实验室联合多所高校研究团队提出首个专为开放世界移动操作(OWMM)设计的多模态智能体架构OWMM-Agent,首次实现全局场景理解、机器人状态跟踪和多模态动作生成的统一建模 [1] - OWMM-Agent在真实环境测试中零样本单步动作预测准确率达90%,展现出强大的泛化能力 [2][12] - 该研究通过仿真数据合成方案微调多模态大模型OWMM-VLM,在模拟环境和真实环境中均取得突破性进展 [8][9][12] 问题背景 - 传统移动抓取机器人在处理开放指令时依赖预先构建的场景3D重建或语义地图,耗时且难以应对动态环境 [5] - OWMM任务面临三大核心难点:全局场景推理、具身决策闭环和系统整合问题 [5] 技术方案 多模态Agent架构 - 将OWMM问题建模成多轮多图推理和定位问题,实现端到端的感知-推理-决策-状态更新过程 [6] - 通过函数调用传统路径规划器和机械臂运动规划器,不依赖预定义策略技能库 [8] 数据合成方案 - 基于Habitat仿真平台设计数据合成方案,解决VLM基座模型在机器人领域的"幻觉"问题 [8] - 利用143个仿真场景、157种可抓取物体和1471个容器,采集20万+条多图加文本数据集 [9] - 通过GPT-4o重写思维链和文字总结内容,引入机器人第一视角图像增强数据多样性 [9] 模型表现 模拟环境测试 - OWMM-VLM-38B模型在单步动作决策、图像检索和动作定位三项任务上准确率分别达97.85%、87.54%和88%,远超GPT-4o和模块化方案 [15] - 在308次模拟测试中,OWMM-VLM-38B完成长序移动抓取任务成功率达21.9%,且零死循环,而基线模型成功率低于1%且频繁陷入死循环 [15] 真实环境测试 - 在Fetch机器人上仅通过模拟数据训练即实现90%的零样本动作生成成功率(30次测试中27次成功) [12] - 在"将豆奶盒从书桌移至会议桌"任务中展现出强泛化能力,能准确检索目标位置、规划导航路径并生成机械臂抓取坐标 [12] 未来展望 - 该研究首次证明通过大规模模拟数据微调的VLM模型可成为开放世界移动操作的通用基础模型 [14] - 为"会听、会看、会做"的通用家庭助手奠定关键技术基础,有望实现"一句话指挥机器人完成家务"的智能生活 [15]
2025年全球多模态大模型行业发展现状 AI服务器和算力发展推动市场爆发式增长【组图】
前瞻网· 2025-04-22 15:44
全球多模态大模型行业发展历程 - 人工智能学科诞生于1956-2005年的早期探索期 神经网络模型开始发展 [1] - 2006-2019年进入快速成长期 深度学习概念被重新引入 Transformer等模型推动行业进步 [1] - 2020-2022年为大模型兴起期 参数规模迅速扩大 2022年被视为大模型元年 [1] - 2023年起进入广泛应用期 各领域深度应用不断拓展 [1] 全球人工智能服务器现状 - 全球人工智能硬件市场(服务器)规模将从2022年195亿美元增长至2026年347亿美元 五年CAGR达17.3% [3] - 生成式AI服务器占比将从2023年11.9%提升至2026年31.7% [4] 全球大模型算力需求情况 - ChatGPT的GPT-3模型训练参数量达1750亿 算力消耗3640PF-days 需至少1万片GPU支撑 [5] - 模型参数扩大十倍时 算力投入增幅超十倍 受模型架构/优化效率/并行处理能力/硬件能力等因素影响 [5] 全球大模型市场规模情况 - 2023年全球大模型市场规模达210亿美元 [7] - 2024年市场规模预计280亿美元 同比增长33% [7] 全球多模态大模型竞争格局 - GPT-4o以81分领跑SuperCLUE基准测试 是唯一超过80分的全球模型 [10] - 中国6个大模型超过GPT-4-Turbo-0409 绝大部分闭源模型已超越GPT-3.5-Turbo-0125 [10]
招生 | 人大信院AIM3实验室招收人工智能方向学生
量子位· 2025-03-16 13:37
文章核心观点 介绍中国人民大学AIM3实验室的相关信息,包括实验室概况、导师、科研成果、学生培养、氛围、招生计划和申请条件等,吸引有科研热情的人加入 [1][3][4][5][8][11] 实验室概况 - 隶属于中国人民大学信息学院-计算机系-感知与交互智能计算研究室,研究多模态智能计算,关注大语言模型等方向 [1] - 中国人民大学是“985工程”“211工程”重点建设大学,信息学院计算机专业是国家级特色专业建设点,在教育部第五轮学科评估中评为A,在国际计算机学科排行榜CSRankings统计中,在人工智能和数据库等领域排名位居世界前列 [2] 导师介绍 - PI金琴老师毕业于清华大学和卡内基梅隆大学,现为人大信息学院教授,在顶会顶刊发表论文百余篇,谷歌学术引用超8000次,入选人工智能全球女性学者榜单等 [3] - 青年教师王文轩老师2024年毕业于香港中文大学,研究方向为人工智能大模型,博士期间发表顶会论文二十余篇,指导本科生经验丰富 [3] 科研成果 - 近三年在人工智能顶会上发表论文五十余篇,课题组成员多次进行学术报告 [4] - 积极参与国际权威比赛并获诸多奖项,如蝉联CVPR 2018 - 2020 ActivityNet视频描述挑战赛冠军等 [4] 学生培养 - 组内学生成果突出,近三年7人次获国家奖学金,2人次获百度奖学金 [5] - 毕业生去向良好,主要前往知名科研院所继续科研或互联网大厂从事算法研究 [5] 实验室氛围 - 研究氛围好,学生可自主选课题,经费充足,显卡资源丰富,提供设备支持研究 [5] - 与头部互联网企业和海外院校保持合作,学生可前往实习访问 [5] - 导师重视学生成长,定期组织运动和团建,成员自主设计实验室周边 [6] 招生计划 - 2026年可招收并指导博士生2名、学硕3名、专硕3名、访问生若干,可联系金琴老师或王文轩老师 [8] 申请条件 - 双一流或同等水平学校学生,综合排名前20%,有科研经历优先 [11] - 对科研有热情,踏实专注有毅力,有良好自主学习能力,具备扎实英语功底和编程能力 [11]