Workflow
多模态大模型
icon
搜索文档
多模态大模型崛起:华泰证券预测应用奇点即将到来
搜狐财经· 2025-07-14 07:44
多模态大模型发展趋势 - 多模态大模型正迅速接近关键转折点,是大语言模型(LLM)演进的必然趋势 [1][5][6] - 原生多模态架构(MLLM)因全模态同步训练在性能、延时、部署上优势显著,但算力要求严苛,OpenAI和Google处于领先地位 [1][6] - 技术迭代推动图像生成转向易用性,视频生成在时长、清晰度、一致性持续突破,语音、音乐、3D领域同步拓展 [2][4] 商业化进展 - 全球商业化呈现三大趋势:海外快于国内、一级市场公司快于二级市场、多模态产品快于文本产品 [1][7] - 海外Chatbot类产品(如OpenAI、Anthropic)年化收入(ARR)超10亿美元,国内Chatbot商业化仍较初期 [1][7] - 国内年收入超1亿美元的AI公司(美图、快手、睿琪软件)均聚焦多模态产品 [1][7] 视频生成赛道表现 - 国内厂商在视频生成赛道全球化与商业化最成熟,字节Seedance 1.0、快手可灵(Kling)、MiniMax Hailuo 02位列全球榜单前列 [8] - 快手可灵上线10个月ARR突破1亿美元,标志国内视频生成从单点突破进入多点突破阶段 [2][8] 投资机会 - 算力侧:原生多模态模型及视频推理需求激增,视频Agent落地进一步催生算力需求 [9] - 应用侧:广告、零售、创作等领域AI化需求释放,国内视频生成模型领先 [9] - 推荐标的包括国产算力链(沪电股份、生益科技)及应用产业链(微软、奥多比、金山办公等) [9][14] 行业共识与未来方向 - 多模态大模型将成为行业核心发展方向,融合图像、视频、语音数据以拓宽AI应用场景 [4][15] - 原生多模态架构主流化及一级市场公司进展需重点关注,与市场认知存在差异 [5][7]
面试了很多端到端候选人,发现还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-13 21:18
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可达百万年薪 [2] - 端到端系统实现从传感器输入到车辆规划/控制信息的直接建模 避免模块化方法间的误差累积 BEV感知打通模块化壁垒 UniAD统一感知和规划任务 [2] - 学术界和工业界聚焦端到端技术 衍生出多种算法流派 UniAD并非最终解 新算法不断涌现 [2] 端到端技术发展现状 - 技术方向包括多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂 论文数量繁多 知识碎片化 [4] - 高质量文档缺乏 提高入门难度 学习目标驱动导航需结合实战 但缺乏系统指导 难以从理论过渡到实践 [4] - 最新技术流派包括:PLUTO为代表的二段式端到端 UniAD为代表的基于感知的一段式端到端 OccWorld为代表的基于世界模型的一段式端到端 DiffusionDrive为代表的基于扩散模型的一段式端到端 [9] 端到端课程体系 - 课程特点:直击痛点快速入门 构建领域框架提升研究能力 理论结合实践学以致用 [5][6][7] - 课程大纲:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA 课程大作业 [11][12][13][15] - 重点章节:一段式端到端与VLA为课程精华 涵盖基于感知/世界模型/扩散模型/VLA的四大子领域 [13] 技术深度解析 - 二段式端到端:分析PLUTO CarPlanner Plan-R1等经典与前沿工作 对比一段式优缺点 [12] - 一段式端到端:UniAD和VAD为奠基作 PARA-Drive为最新进展 世界模型应用广泛 扩散模型实现多模轨迹预测 VLA为当前技术皇冠 [13] - 关键技术:Transformer CLIP LLAVA BEV感知 扩散模型 RLHF GRPO等构成完整技术栈 [14] 课程实施细节 - 开课时间8月15日 三个月完成 采用离线视频教学+VIP群答疑+三次线上答疑模式 [20] - 学员需自备4090及以上GPU 具备自动驾驶基础 熟悉Transformer 强化学习 BEV感知等技术概念 [22] - 预期成果:达到1年经验算法工程师水平 掌握端到端技术框架 可复现主流算法 应用于实际项目 [22]
通信行业周报(20250707-20250713):博通管理层会议指引积极,Grok4正式发布,建议关注海外算力链景气度机遇-20250713
华创证券· 2025-07-13 16:33
报告行业投资评级 - 推荐(维持),预期未来 3 - 6 个月内该行业指数涨幅超过基准指数 5%以上 [1][27] 报告的核心观点 - 博通管理层会议释放 AI 推理需求快速放量信号,或推动公司利润结构与产业产能重估,非 AI 业务现复苏迹象;xAI 发布 Grok 4 模型,性能达通用大模型前列水平;建议关注海外算力链景气度机遇及相关标的 [1][5][13] 根据相关目录分别进行总结 本周行情回顾(2025/7/7 - 2025/7/13) - 通信板块整体行情走势:本周通信行业(申万)涨 2.13%,跑赢沪深 300 指数 1.31 个百分点,跑输创业板指数 0.23 个百分点;今年以来涨 9.54%,跑赢沪深 300 指数 7.51 个百分点,跑赢创业板指数 6.48 个百分点;本周涨幅在所有一级行业中排第 11,全年涨幅排第 10 [6][7] - 个股表现:本周通信板块涨幅前五为三川智慧(+27.91%)、国源科技(+27.72%)、博创科技(+19.84%)、仕佳光子(+14.85%)、中新赛克(+12.46%);跌幅前五为有方科技(-18.52%)、瑞斯康达(-13.48%)、旋极信息(-7.31%)、合众思壮(-5.09%)、润泽科技(-4.10%) [10] 博通管理层会议要点整理 - AI 推理需求显著超预期:近两月推理侧需求急剧上升,超现有产能,未计入 2027 年市场规模预测,预示盈利上修可能 [13] - 芯片开发:正与四个 AI 客户合作开发第一代定制 AI XPU 芯片,预计今年完成两个客户流片;推进 2nm、3.5D 封装的 AI XPU 芯片开发,预计今年完成流片 [13] - 网络产品:AI 推理负载对网络要求提高,公司网络产品营收占比持续提升,计算与网络设备支出比例约为 3:1;纵向扩展网络产品价值高于横向扩展网络 5 - 10 倍 [14] - 新技术:评估共封装光学(CPO)方案在数据中心落地路径,光学器件 5% - 8%的故障率可能制约其规模化部署 [14] - 非 AI 业务:非 AI 业务出现“U 型”复苏迹象,订单回暖或推动明年 EPS 积极修正;VMware 平台预计至 2026 - 2027 年年化收入达 200 亿美元,之后回归中高个位数增长 [14] Grok 4 发布 - 性能表现:在多项通用基准测试中刷新历史成绩,整体性能达当前通用大模型前列水平 [17] - 功能特点:支持多模态输入,具备实时接入 X 平台数据能力;新增 Eve 语音模型,实现自然语言生成与情绪表达,秒级响应;能在真实复杂任务中独立完成工作链条 [17] - 技术路线与定价:基于 Grok 3 训练,使用 10 倍规模强化学习策略;Grok 4 Heavy 版本实现多智能体架构;8 月将发布面向编程的模型,9 月上线多模态智能体架构,10 月推出视频生成模型;当前模型上下文长度为 256K,API 已开放;Super Grok 版本 30 美元/月,Grok 4 Heavy 版本 300 美元/月 [18] 投资建议 - 运营商:重点推荐中国移动、中国电信、中国联通 [21] - 光模块光器件光芯片:重点推荐新易盛、天孚通信、中际旭创,建议关注源杰科技、仕佳光子 [21] - 军工/卫星通信:重点推荐海格通信、上海瀚讯、七一二,建议关注臻镭科技、震有科技 [21] - 设备商:推荐共进股份,建议关注紫光股份、中兴通讯、锐捷网络 [21] - 光纤光缆:建议关注长飞光纤、亨通光电、中天科技 [21] - AIDC:推荐润泽科技,建议关注奥飞数据、光环新网、科华数据 [21] - 物联网模组:重点推荐广和通,建议关注美格智能 [21] - 控制器:重点推荐拓邦股份、和而泰 [21] - 算力芯片:重点推荐盛科通信 [21] - 射频器件:建议关注灿勤科技 [21]
头部互联网具身实验室招募:多模态大模型、机器人多模态交互、强化学习等算法岗位
具身智能之心· 2025-07-13 13:03
招聘岗位概述 - 头部大型互联网具身实验室正在招聘具身多模态大模型、机器人多模态交互、强化学习等方向的研究员 岗位base北京 薪资open [1] 具身多模态大模型研究员 职位描述 - 主导具身智能大模型的核心算法研发 包括多模态感知(视觉、语言、动作)、强化学习策略优化、世界模型构建等方向 [1] - 研究传统仿真与生成式仿真相结合的数据合成方案 构建机器人及具身智能领域的新型数据范式 [1] - 跟踪学术界与工业界最新进展(如VLA、具身智能等) 保持技术领先性并推动团队技术迭代 [1] - 推动模型在机器人场景的落地 解决实际应用中的挑战 [1] 职位要求 - 计算机科学、人工智能、数学、机器人学等相关专业 博士学位优先 5年左右大模型相关工作经验 [2] - 熟悉机器人学、强化学习、多模态融合(VLA)等技术 具备学术敏感度与工程化思维 [2] - 对具身智能、通用机器人方向有浓厚兴趣 具备优秀的逻辑表达与跨团队沟通能力 [2] - 在顶会(CVPR、ICLR、ICRA等)发表过相关论文或主导过开源项目 [2] 机器人多模态交互算法研究员 职位描述 - 研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术 推动机器人交互技术创新 [3] - 探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用 参与研发下一代智能机器人系统 [3] 职位要求 - 硕士研究生及以上学历 具备优秀的代码能力、数据结构和基础算法功底 [4] - 在大模型、多模态、NLP、CV、强化学习等领域有一定研究基础或项目经验 [4] - 主导过相关重要项目或在顶会(CVPR、ACL、NeurIPS等)发表过论文者优先 [4] - 具备良好的沟通协作能力 能够与团队紧密合作推进项目 [4] 强化学习研究员 职位描述 - 探索多模态大模型、VLA等前沿技术方向 [5] - 推动世界模型、强化学习在具身智能的应用 参与研发下一代智能机器人 [5] 职位要求 - 计算机、自动化、电子等相关专业 [6] - 扎实的机器学习、深度学习、强化学习基础 [6] - 在具身智能、多模态、大模型等领域有研究基础或项目经验 在顶会发表过论文 [6] - 具备良好的沟通协作能力 能推进技术进步 [6] 加分项 - 动手能力和代码能力强 ACM、ICPC等比赛获奖者优先 [9] - 对机器人技术有浓厚兴趣 参加过机器人比赛者优先 [9] - 熟悉物理仿真和常见的虚拟仿真环境 [9]
具身智能之心多模态大模型交流群成立啦!
具身智能之心· 2025-07-12 21:59
具身智能技术交流群 - 该群专注于多模态大模型技术交流 包括视觉+语言(V+L) 视觉+语言+触觉(V+L+触觉)等方向 [1] - 目标人群为从事具身智能模型微调 部署 量化 轻量化等工作的研究人员 [1] - 提供微信交流群加入渠道 并设有严格的广告管理规则 [1] - 群满后可联系助理CLmovingup 需备注"具身大模型+入群"申请加入 [1] 技术研究方向 - 重点关注具身智能相关模型的优化与应用 包括模型微调 部署实施 量化处理 轻量化设计等 [1] - 交流内容涵盖多模态大模型的前沿技术 特别是视觉与语言 触觉等多感官融合领域 [1]
VLM岗位面试,被摁在地上摩擦。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业,在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展,长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域,未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型,分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法,是业务模型落地的关键[6][15] - 大模型存在幻觉问题,解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导,分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-07-12 13:41
业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点招募领域涵盖大模型/多模态大模型、扩散模型、VLA等前沿技术方向[3] - 涉及端到端自动驾驶、具身交互、联合预测等关键技术[3] - 包含SLAM、3D目标检测、世界模型等感知技术[3] - 关注闭环仿真3DGS、大模型部署与量化感知推理等应用方向[3] 人才要求 - 候选人需具备QS200以内高校硕士及以上学历[4] - 拥有顶会论文发表经历者优先考虑[4] 合作待遇 - 提供自动驾驶领域资源共享包括求职、读博、留学推荐等[5] - 设置丰厚现金激励机制[5] - 可获得创业项目合作与推荐机会[5]
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 12:57
多模态大模型视觉推理能力评测 - 清华大学团队开发EscapeCraft 3D密室逃脱环境,用于评估多模态大模型在复杂视觉任务中的推理能力,该论文入选ICCV 2025 [2][3][4] - 环境支持自由配置难度等级,通过调整道具链长度、线索位置(如从出口附近移至远处)测试模型适应性,GPT-4o在线索位置变化后表现显著下降 [6][7][8] - 评测聚焦模型探索决策过程,包括道具获取、视角调整、意图一致性等,而非仅关注最终结果 [16] EscapeCraft环境设计特点 - 环境灵感源自密室逃脱游戏,支持自动生成3D场景,模型需完成找钥匙、解密码等多步骤任务,整合视觉、空间、逻辑信息 [4] - 任务设计高度灵活,可扩展至问答、逻辑推理等方向,为智能体、强化学习研究提供基础平台 [5] - 创新指标包括意图-结果一致性(Intent-Outcome Consistency)、道具获取率(Prop Gain)等,量化模型交互质量与推理效率 [17] 主流模型表现对比 - GPT-4o综合表现最佳,平均逃脱成功率(ER)达81.36%,但在高难度任务中仅26.5%子目标为理解后完成,多数为偶然成功 [17][19][21] - 国产模型Doubao 1.5 Pro在简单关卡中逃脱成功率(91.91%)超越Gemini 1.5 Pro(81.82%)和Claude 3.5(72.73%),交互成功率(Grab SR)达44.68% [19][21] - Gemini 1.5 Pro与Claude 3.5在相同逃脱成功率下行为差异显著:前者交互率高(0.44 vs 0.17)、步数少,后者交互成功率更高但步数多 [21] 模型失败案例与错误类型 - 常见错误包括误判可交互物体(如试图抓取沙发)、视角控制失败(关键道具移出视野)等 [18] - 错误分类显示Claude 3.5的61.1%为推理逻辑错误(目标设定或动作意图不符),38.9%为视觉感知错误 [18] - 多房间设定下模型学习能力有限,仅当房间结构相似时经验可复用 [22] 研究价值与行业应用 - 弥补传统以结果为导向的评估缺陷,强调中间推理过程,推动多模态模型向"类人推理"发展 [16] - 开源环境与数据可支持智能体、强化学习等领域研究,项目已发布GitHub与论文 [22] - 评测揭示当前模型局限:即使视觉输入正确,仍可能因逻辑缺陷失败,体现"看到≠想清"的行业挑战 [18][21]
新股消息 | 传智谱考虑将IPO地点由内地改为香港 或筹集约3亿美元
智通财经网· 2025-07-11 16:31
IPO计划 - 公司考虑将IPO地点由内地改为香港 可能筹集约3亿美元(约23 4亿港元) 相关事宜仍在考虑中 尚未做出最终决定 [1] - 公司最终也可能选择在内地上市 [1] 战略投资 - 上市辅导前夕 公司密集收获多地国资战略投资 包括浦东创投集团和张江集团总额10亿元的投资 [1] - 上海仪电 浦发集团 公司三方将携手在浦东建设人工智能新型基础设施 [1] - 3月3日 公司完成超过10亿元战略融资 参与者包括杭州城投产业基金及上城资本 [2] - 3月12日 珠海华发集团战略投资公司5亿元 [2] - 3月19日 成都高新区宣布战略投资公司3亿元 [2] 产品与技术 - 公司发布并开源视觉语言大模型GLM-4 1V-Thinking 支持图像 视频 文档等多模态输入 专为复杂认知任务设计 [1] - 公司推出全新生态平台"Agent应用空间" 并开启"Agents开拓者计划" 投入数亿资金扶持AI Agents创业团队 [1]
报名开启|7月27日,世界人工智能大会腾讯论坛邀您共探AI新纪元
腾讯研究院· 2025-07-11 15:20
人工智能发展趋势 - 人工智能已从理论设想发展为变革世界的核心力量,驱动产业升级、革新用户体验、重构人机协同[1] - 2024年生成式AI实现深化融合与爆发式应用,多模态大模型和具身智能等新范式拓宽AI能力边界[1] - 2025年人工智能将进一步突破认知极限,更深度助力千行百业并塑造科技未来[1] 2025世界人工智能大会腾讯论坛 - 论坛将于7月27日在上海举办,由腾讯华东总部、腾讯优图实验室等多家腾讯系机构联合支持[1] - 主题为"智能涌现",聚焦AI技术与产业深度融合趋势,围绕大模型垂直落地、场景创新突破、生态共建协同三大议题[2] - 将系统展示腾讯在多元场景中的AI应用成果,体现"科技向善"的立体化实践[2] - 腾讯将分享Agent领域最新进展,与行业领军人物共话智能时代新机遇[2] 腾讯AI布局 - 腾讯通过优图实验室、Robotics X实验室等机构在AI领域进行多维度布局[1] - 公司在AI应用场景中已取得显著成果,涉及云智能、游戏、浏览器、输入法等多个产品线[1][2]