多模态大模型

搜索文档
全球最强AI模型?马斯克发布Grok 4!重仓国产AI产业链的589520单日吸金3922万元!
新浪基金· 2025-07-11 09:17
行业动态 - 马斯克旗下xAI发布Grok 4模型 在"人类的最后考试"中取得25 4%准确率 超过谷歌Gemini 2 5 Pro的21 6%和OpenAI o3的21% 被称为"世界上最强AI模型" [1] - 华泰证券指出 多模态大模型和应用发展奇点将至 多模态能力将推动算力和应用两方面的投资机会 [1] - 华安证券认为 包括AI在内的泛科技板块下半年可能出现催化事件 如DeepSeek和OpenAI新版模型发布 英伟达新型计算平台推出 苹果秋季发布会等 板块或呈现"先抑后扬"走势 [1] 市场表现 - 英伟达登顶4万亿市值带动"AI投资热"升温 科创人工智能ETF华宝(589520)7月10日获资金净流入3922万元 近10个交易日中有8日净流入 累计金额5065万元 [2] - 市场分析人士指出 人工智能技术发展迅速 应用场景拓展 长期有望推动相关企业业绩增长 [4] 国产替代 - 国产DeepSeek实现弯道超车 打破海外算力封锁 奠定国产AI公司后来居上基础 [5] - 科创人工智能ETF华宝(589520)重点布局国产AI产业链 标的指数均衡配置应用软件 终端应用 终端芯片 云端芯片四大环节 有望受益端侧芯片/软件AI化提速 [5]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 20:40
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术栈涉及多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂且知识碎片化 [3] 技术课程核心内容 - 课程直击学习痛点 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [4] - 构建端到端自动驾驶研究框架 帮助学员分类论文 提取创新点 形成研究体系 [5] - 理论结合实践 涵盖PLUTO(二段式) UniAD(一段式感知) OccWorld(世界模型) DiffusionDrive(扩散模型) VLA(大模型)等主流技术 [6] 课程大纲与关键技术 - 第一章概述端到端发展历史 模块化到端到端的演变 一段式 二段式 VLA范式优缺点及工业界应用 [8] - 第二章重点讲解背景知识 包括VLA涉及的大语言模型 扩散模型 强化学习 以及BEV感知 为未来两年高频面试技术 [8][9] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner Plan-R1等工作的优缺点 [9] - 第四章深入一段式端到端与VLA 涵盖UniAD PARA-Drive(感知) Drive-OccWorld OccLLaMA(世界模型) DiffusionDrive DiffE2E(扩散模型) ORION OpenDriveVLA ReCogDrive(VLA)等前沿工作 [10] - 第五章大作业为RLHF微调实战 涉及预训练和强化学习模块搭建 可迁移至VLA算法 [12] 行业趋势与人才需求 - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 技术上限高且工业界需求旺盛 [2][10] - 扩散模型与VLA结合成为热点 多模轨迹预测适应自动驾驶不确定性环境 多家公司尝试落地 [10] - 主机厂加速布局端到端算法预研和量产 如小米ORION等开源项目推动技术发展 [10][13]
商汤科技李星冶:多模态大模型“所见即所得”让人机交互更顺畅
贝壳财经· 2025-07-10 19:49
人工智能技术演进 - 人工智能从1.0时代(计算机视觉技术为主)向2.0时代(多模态交互技术为主)转型 [1] - 公司在大模型技术兴起后推动多模态交互创新,整合视频、图像、语音等多种模态实现实时互动 [1] - 技术应用理念为"所见即所得",改变传统文字指令识别模式 [1] 多模态交互技术应用 - 在教育领域开发"所见即所得"交互设备,实时感知手写解题过程并识别错误,支持指读绘本转化为互动故事 [2] - 已与10所左右学校合作打造智能校园助手,处理课程安排、成绩查询等功能 [2] - 在仓库租赁场景中,算法分析行业数据辅助BD销售并生成租约管理方案 [2] - 与知名运营商合作打造高效智能客服,在智能家居领域提供家庭互动功能 [2] 技术展示案例 - 现场展示通过绘制"太乙真人"卡通形象唤起语音并实现实时互动的场景 [1] - 多模态大模型优势在于通过视觉等多维度信息提升人机交互流畅度 [2]
有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位!
具身智能之心· 2025-07-10 11:36
多模态大模型职位 - 工作地点为北京和深圳,月薪范围为40k-80k [2] - 研究方向包括移动操作、导航和VLA(视觉语言行动) [2] - 职责涵盖具身智能大模型框架设计、模型优化及下游任务训练部署 [2] - 要求计算机/人工智能/机器人相关专业硕士学历,具备机器人感知/导航/操作或AI大模型经验 [3] - 优先考虑有NaVid/MobilityVLA等机器人导航领域算法落地经验者 [3] - 加分项包括顶级会议论文发表、熟悉Transformer/RLHF算法、多模态数据处理经验 [4] 强化学习职位 - 工作地点为北京,月薪范围为40k-80k [5] - 研究方向包括强化学习和VLA [5] 具身导航算法职位 - 工作地点为深圳,月薪范围为30k-60k [6] - 研究方向包括多模态和VLN(视觉语言导航) [6] - 职责涉及多模态数据到规划的端到端映射及世界模型应用 [6][7] - 要求计算机/自动化/电子相关专业,具备机器学习/深度学习/强化学习基础 [7] - 优先考虑有ICLR/NeurIPS等论文发表或ACM/ICPC竞赛获奖者 [7] 岗位咨询方式 - 可通过添加微信Remix-clover咨询多模态导航移动基础模型相关岗位 [9] - 咨询需备注"具身之心+具体岗位" [9]
华泰证券今日早参-20250710
华泰证券· 2025-07-10 09:44
宏观 - 6月中国CPI同比0.1%好于预期,环比降幅收窄;PPI同比-3.6%不及预期,环比持平,下半年PPI降幅有望收窄 [2] - 6月全球制造业PMI明显上行重回荣枯线以上,服务业PMI小幅降温 [2] 策略 - 6月全行业景气指数有所回升,非金融行业景气指数下行斜率放缓 [4] - 基本面建议关注二季报业绩改善或高增、受益反内卷政策、出口链相关行业 [4] - 配置上战术维持哑铃配置,战略看好大金融、创新药、军工等 [4] 固定收益 - 新一轮行业去产能工作加速推进,CPI和PPI存在企稳修复预期 [5] - 前端价格关键在需求端,短期价格弹性待观察,预计CPI至Q4小幅抬升至0.5%附近,PPI磨底后小幅修复至-2%至-1%区间 [5] - 30年国债ETF久期长、弹性大,可作股债对冲利器,有多种投资策略和广阔应用前景 [12] 有色金属 - 美国将对铜加征50%关税,短期LME/SHFE铜价或回调但幅度有限,看好铜价上行趋势 [5] 机械设备 - 6月挖掘机销量同比+13.3%,内销和出口增速均较5月回升 [8] - 看好二手挖机出口对国内更新需求的拉动及国产品牌海外份额提升 [8] 农林牧渔 - 生猪养殖行业“反内卷”引导短期利好猪价,中长期或提升行业盈利能力 [9] - 建议关注生猪养殖板块,推荐低成本、优质猪企 [9] 建材 - 光伏玻璃“反内卷”迫切性较强,实现再平衡或需更长时间 [14] 重点公司 - 招金矿业多个项目爬产或临近投产,预计25 - 27年自产金产量CAGR为22.08%,首次覆盖给予买入评级 [15] - 哈尔滨电气业务涵盖多领域,预计新增装机回升,业绩与估值或将持续修复,首次覆盖给予买入评级 [15] - 美高梅中国“小而美”,博彩和非博彩业务表现良好,重申“买入” [17] - 预计港铁公司1H25经常性利润同比增长4.8%,维持“增持” [18] - 大金重工25H1业绩预增,看好全球海风高景气下公司订单放量,维持“增持” [19] - 圣泉集团25H1净利预增,电子材料持续放量,维持“增持” [20] 评级变动 - 招金矿业、哈尔滨电气、华丰科技等多家公司有首次评级变动 [22]
模式识别与人工智能前沿探讨专题论坛召开
环球网资讯· 2025-07-09 16:43
行业前沿动态 - 中国科协主办的第二十七届科协年会专题论坛聚焦模式识别与人工智能前沿技术,汇聚近20位专家学者与企业代表探讨发展方向[1] - 论坛主题包括新质生产力培育、学科交叉融合、科研创新与学术期刊协同发展[1] 企业技术报告 - 华为田奇教授提出"面向任意稀疏数据的3D/4D内容创建"技术方案[5] - 清华大学周杰教授研究"无人系统视觉感知"技术[7] - 大连理工大学卢湖川教授探讨"视觉内容感知生成"方法[9] 学术研究方向 - 王耀南院士团队开发"情智兼备的具身智能机器人"[5] - 清华大学黄民烈教授同步研究具身智能机器人技术[11] - 北京交通大学于剑教授分析具身模式识别中的理论挑战[11] 跨学科应用 - 华中科技大学白翔教授开发人工智能辅助的甲骨文破译方法[13] - 天津大学胡清华教授研究大规模复杂任务的社会化学习理论[13] 技术发展趋势 - 圆桌讨论聚焦多模态大模型与生成式人工智能的新趋势,包括科研范式转型、人才培养变革[15] - 重点探讨垂类多模态大模型构建路径、具身智能应用挑战[15] - 分析Transformer架构演进、骨干网络发展趋势及知识图谱融合方式[15]
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 15:30
核心观点 - 字节与南洋理工大学联合开发的MMSearch-R1系统通过强化学习训练多模态模型实现自主按需搜索能力 在知识密集型视觉问答任务中性能超越同规模传统RAG模型 并减少32 9%搜索次数[1][3][21] - 该系统集成图像和文本搜索工具 采用GRPO强化学习算法 通过奖励函数优化搜索行为 构建了搜索需求均衡的FVQA数据集进行训练[11][13][14][15][17] - 实验显示7B参数的MMSearch-R1模型在FVQA-test和InfoSeek等任务中平均准确率比同规模RAG基线高3 同时达到32B模型RAG基线的性能水平[21][22] 研究方法 多模态搜索工具 - 集成Google Lens图像搜索工具 可匹配网页标题和缩略图以识别视觉元素[13] - 文本搜索工具链路由Google Search JINA Reader和语言模型组成 可获取相关网页内容摘要[13] 强化学习训练 - 采用GRPO算法实现多轮对话与搜索的Rollout过程 模型可选择调用搜索工具或直接回答[14] - 奖励函数包含0 9权重的准确性得分和0 1权重的格式得分 对依赖搜索的正确答案施加0 1惩罚因子[15] 数据集构建 - FVQA数据集通过MetaCLIP元数据采样 GPT-4o生成问答对 InfoSeek样本补充等方式构建 包含3400个需搜索样本和1600个无需搜索样本[17][19][20] 实验结果 - 7B模型在减少32 9%搜索次数(SR)情况下 准确率(Acc)达到54 6 超过同规模RAG基线51 6 接近32B模型RAG基线55 1[21][22] - 强化学习相比监督微调能以更少训练样本获得更大性能提升 搜索惩罚机制有效塑造按需搜索行为[24][25] - 模型同时提升RAG工作流性能(左图)和自主回答能力(右图) 显示更强的知识挖掘与结果处理能力[22]
Z Tech|全球领先的多模态大模型VAST顶薪招募,定义未来十年的技术范式
Z Potentials· 2025-07-08 10:50
招聘信息 - 公司正在招募新一期的实习生 [2] - 公司正在寻找有创造力的00后创业者 [4] 公司介绍 - 公司名称为Z Potentials [5]
复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!
机器之心· 2025-07-06 14:06
机器人空间指代技术突破 - 现实环境复杂多变,机器人需应对杂乱无序、物体种类繁多的场景,远超实验室可控环境[2] - 空间指代任务要求机器人理解"最远""第二列""等间距"等空间关系,动态定位交互目标[3][5] - 当前多模态大模型难以准确理解三维场景并动态推理交互位置,存在单步空间理解和多步空间推理两大挑战[6] RoboRefer模型核心能力 - 采用全参数微调(SFT)实现89.6%空间理解成功率,强化学习微调(RFT)在RefSpatial-Bench基准上超越Gemini-2.5-Pro达17.4%[8][22] - 集成独立图像编码器和深度图编码器,支持定量(物体距离)和定性(方位判断)空间问答[12] - 突破性实现多空间关系组合推理,如准确定位"笔筒与键盘中间且水瓶logo正对"的位置[13] 技术创新路径 - SFT阶段引入深度编码器增强三维感知,RFT阶段采用GRPO强化学习结合过程奖励函数提升泛化能力[15][17] - 创新设计过程奖励函数监控中间推理质量,显著提升多步指代任务精度[17] - 模型可集成至UR5机械臂、G1仿人机器人等平台,实现真实场景精准执行[9] RefSpatial数据集特性 - 包含250万样本、2000万问答对,规模达同类数据集两倍[20] - 标注31种空间关系(行业最高15种),支持5步复杂推理链[20] - 覆盖室内外多场景,通过层级描述确保复杂环境下的表述清晰度[20] 性能基准对比 - RoboRefer-8B-SFT在CV-Bench达到98.33%准确率,显著领先GPT-4o(86.50%)和Gemini-2.5-Pro(91.00%)[21] - RGB-D输入模式下,2B-SFT版本在RoboSpatial任务取得82%成功率,超越专用模型SpatialBot-3B(63.33%)[21] - 在Where2Place基准上,RFT版本以71%准确率大幅领先Gemini-2.5-Pro(11.8%)[23]
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
机器之心· 2025-07-04 16:59
核心观点 - 游戏代码可自动合成视觉推理数据,提升AI几何与图表推理能力 [1][4] - 游戏具备三大优势:规则明确、因果推理链完整、LLM生成成本低 [12] - Code2Logic方法通过LLM三步骤转化游戏代码为多模态推理数据 [13][14][15] - GameQA数据集含14万问答对,覆盖4类认知能力与30种游戏 [18][21] - 游戏数据训练使模型在域外任务和通用基准上均获显著提升 [24][25][26] 研究方法 - 游戏代码构建:LLM自动生成完整游戏逻辑(如推箱子) [13] - QA模板设计:从代码提取推理模式并设计任务模板 [14] - 数据引擎构建:自动化生成问答实例且保证正确性 [15] - 数据集特点:细粒度难度控制(Easy/Medium/Hard三级) [20] - 对比实验:5K GameQA样本效果优于8K几何数据集 [28][29] 数据集表现 - 人类在域内游戏测试准确率达84.75%,Claude-3.5仅47.69% [22] - Gemini-2.5-Pro表现最佳达58.95%,仍显著低于人类 [22] - 开源模型Qwen2.5-VL-7B训练后平均提升2.33% [25][26] - InternVL3-8B在MathVista达73%,超几何数据集67.63% [26][29] - 游戏多样性提升域外泛化效果1.80% [37] 模型能力分析 - 3D空间感知是最大短板,易混淆物体高度关系 [42] - 非网格化场景(如祖玛)中模式识别困难 [43] - 多次识图易受文本干扰导致图文不符 [44] - 策略规划能力不足,缺乏直觉剪枝能力 [45] - GRPO训练后视觉感知提升10.94%,文本推理提升14.95% [32] 行业意义 - 首次验证游戏作为可验证环境提升通用智能的潜力 [48] - 低成本可扩展数据合成方法突破多模态数据稀缺瓶颈 [4][19] - 游戏认知多样性能迁移至数学等非对口领域 [29] - 揭示当前VLMs在3D感知和策略规划的根本缺陷 [42][45] - 为多模态大模型训练评估提供理想数据源 [48]