多模态大模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态大模型

搜索文档

多模态大模型崛起：华泰证券预测应用奇点即将到来

搜狐财经· 2025-07-14 07:44

多模态大模型发展趋势 - 多模态大模型正迅速接近关键转折点，是大语言模型（LLM）演进的必然趋势 [1][5][6] - 原生多模态架构（MLLM）因全模态同步训练在性能、延时、部署上优势显著，但算力要求严苛，OpenAI和Google处于领先地位 [1][6] - 技术迭代推动图像生成转向易用性，视频生成在时长、清晰度、一致性持续突破，语音、音乐、3D领域同步拓展 [2][4] 商业化进展 - 全球商业化呈现三大趋势：海外快于国内、一级市场公司快于二级市场、多模态产品快于文本产品 [1][7] - 海外Chatbot类产品（如OpenAI、Anthropic）年化收入（ARR）超10亿美元，国内Chatbot商业化仍较初期 [1][7] - 国内年收入超1亿美元的AI公司（美图、快手、睿琪软件）均聚焦多模态产品 [1][7] 视频生成赛道表现 - 国内厂商在视频生成赛道全球化与商业化最成熟，字节Seedance 1.0、快手可灵（Kling）、MiniMax Hailuo 02位列全球榜单前列 [8] - 快手可灵上线10个月ARR突破1亿美元，标志国内视频生成从单点突破进入多点突破阶段 [2][8] 投资机会 - 算力侧：原生多模态模型及视频推理需求激增，视频Agent落地进一步催生算力需求 [9] - 应用侧：广告、零售、创作等领域AI化需求释放，国内视频生成模型领先 [9] - 推荐标的包括国产算力链（沪电股份、生益科技）及应用产业链（微软、奥多比、金山办公等） [9][14] 行业共识与未来方向 - 多模态大模型将成为行业核心发展方向，融合图像、视频、语音数据以拓宽AI应用场景 [4][15] - 原生多模态架构主流化及一级市场公司进展需重点关注，与市场认知存在差异 [5][7]

多模态大模型

大语言模型（LLM）

多模态大型语言模型（MLLM）

可灵（Kling）

多模态大模型

大语言模型（LLM）

多模态大型语言模型（MLLM）

可灵（Kling）

面试了很多端到端候选人，发现还是有很多人搞不清楚。。。

自动驾驶之心· 2025-07-13 21:18

端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向是当前薪资最高的算法岗位之一 3-5年经验可达百万年薪 [2] - 端到端系统实现从传感器输入到车辆规划/控制信息的直接建模避免模块化方法间的误差累积 BEV感知打通模块化壁垒 UniAD统一感知和规划任务 [2] - 学术界和工业界聚焦端到端技术衍生出多种算法流派 UniAD并非最终解新算法不断涌现 [2] 端到端技术发展现状 - 技术方向包括多模态大模型 BEV感知强化学习视觉Transformer 扩散模型等学习路径复杂论文数量繁多知识碎片化 [4] - 高质量文档缺乏提高入门难度学习目标驱动导航需结合实战但缺乏系统指导难以从理论过渡到实践 [4] - 最新技术流派包括：PLUTO为代表的二段式端到端 UniAD为代表的基于感知的一段式端到端 OccWorld为代表的基于世界模型的一段式端到端 DiffusionDrive为代表的基于扩散模型的一段式端到端 [9] 端到端课程体系 - 课程特点：直击痛点快速入门构建领域框架提升研究能力理论结合实践学以致用 [5][6][7] - 课程大纲：端到端算法介绍背景知识二段式端到端一段式端到端与VLA 课程大作业 [11][12][13][15] - 重点章节：一段式端到端与VLA为课程精华涵盖基于感知/世界模型/扩散模型/VLA的四大子领域 [13] 技术深度解析 - 二段式端到端：分析PLUTO CarPlanner Plan-R1等经典与前沿工作对比一段式优缺点 [12] - 一段式端到端：UniAD和VAD为奠基作 PARA-Drive为最新进展世界模型应用广泛扩散模型实现多模轨迹预测 VLA为当前技术皇冠 [13] - 关键技术：Transformer CLIP LLAVA BEV感知扩散模型 RLHF GRPO等构成完整技术栈 [14] 课程实施细节 - 开课时间8月15日三个月完成采用离线视频教学+VIP群答疑+三次线上答疑模式 [20] - 学员需自备4090及以上GPU 具备自动驾驶基础熟悉Transformer 强化学习 BEV感知等技术概念 [22] - 预期成果：达到1年经验算法工程师水平掌握端到端技术框架可复现主流算法应用于实际项目 [22]

端到端自动驾驶

多模态大模型

视觉Transformer

端到端自动驾驶

多模态大模型

视觉Transformer

通信行业周报（20250707-20250713）：博通管理层会议指引积极，Grok4正式发布，建议关注海外算力链景气度机遇-20250713

华创证券· 2025-07-13 16:33

报告行业投资评级 - 推荐（维持），预期未来 3 - 6 个月内该行业指数涨幅超过基准指数 5%以上 [1][27] 报告的核心观点 - 博通管理层会议释放 AI 推理需求快速放量信号，或推动公司利润结构与产业产能重估，非 AI 业务现复苏迹象；xAI 发布 Grok 4 模型，性能达通用大模型前列水平；建议关注海外算力链景气度机遇及相关标的 [1][5][13] 根据相关目录分别进行总结本周行情回顾（2025/7/7 - 2025/7/13） - 通信板块整体行情走势：本周通信行业（申万）涨 2.13%，跑赢沪深 300 指数 1.31 个百分点，跑输创业板指数 0.23 个百分点；今年以来涨 9.54%，跑赢沪深 300 指数 7.51 个百分点，跑赢创业板指数 6.48 个百分点；本周涨幅在所有一级行业中排第 11，全年涨幅排第 10 [6][7] - 个股表现：本周通信板块涨幅前五为三川智慧（+27.91%）、国源科技（+27.72%）、博创科技（+19.84%）、仕佳光子（+14.85%）、中新赛克（+12.46%）；跌幅前五为有方科技（-18.52%）、瑞斯康达（-13.48%）、旋极信息（-7.31%）、合众思壮（-5.09%）、润泽科技（-4.10%） [10] 博通管理层会议要点整理 - AI 推理需求显著超预期：近两月推理侧需求急剧上升，超现有产能，未计入 2027 年市场规模预测，预示盈利上修可能 [13] - 芯片开发：正与四个 AI 客户合作开发第一代定制 AI XPU 芯片，预计今年完成两个客户流片；推进 2nm、3.5D 封装的 AI XPU 芯片开发，预计今年完成流片 [13] - 网络产品：AI 推理负载对网络要求提高，公司网络产品营收占比持续提升，计算与网络设备支出比例约为 3:1；纵向扩展网络产品价值高于横向扩展网络 5 - 10 倍 [14] - 新技术：评估共封装光学（CPO）方案在数据中心落地路径，光学器件 5% - 8%的故障率可能制约其规模化部署 [14] - 非 AI 业务：非 AI 业务出现“U 型”复苏迹象，订单回暖或推动明年 EPS 积极修正；VMware 平台预计至 2026 - 2027 年年化收入达 200 亿美元，之后回归中高个位数增长 [14] Grok 4 发布 - 性能表现：在多项通用基准测试中刷新历史成绩，整体性能达当前通用大模型前列水平 [17] - 功能特点：支持多模态输入，具备实时接入 X 平台数据能力；新增 Eve 语音模型，实现自然语言生成与情绪表达，秒级响应；能在真实复杂任务中独立完成工作链条 [17] - 技术路线与定价：基于 Grok 3 训练，使用 10 倍规模强化学习策略；Grok 4 Heavy 版本实现多智能体架构；8 月将发布面向编程的模型，9 月上线多模态智能体架构，10 月推出视频生成模型；当前模型上下文长度为 256K，API 已开放；Super Grok 版本 30 美元/月，Grok 4 Heavy 版本 300 美元/月 [18] 投资建议 - 运营商：重点推荐中国移动、中国电信、中国联通 [21] - 光模块光器件光芯片：重点推荐新易盛、天孚通信、中际旭创，建议关注源杰科技、仕佳光子 [21] - 军工/卫星通信：重点推荐海格通信、上海瀚讯、七一二，建议关注臻镭科技、震有科技 [21] - 设备商：推荐共进股份，建议关注紫光股份、中兴通讯、锐捷网络 [21] - 光纤光缆：建议关注长飞光纤、亨通光电、中天科技 [21] - AIDC：推荐润泽科技，建议关注奥飞数据、光环新网、科华数据 [21] - 物联网模组：重点推荐广和通，建议关注美格智能 [21] - 控制器：重点推荐拓邦股份、和而泰 [21] - 算力芯片：重点推荐盛科通信 [21] - 射频器件：建议关注灿勤科技 [21]

博通(US:AVGO)

多模态大模型

多模态大模型

头部互联网具身实验室招募：多模态大模型、机器人多模态交互、强化学习等算法岗位

具身智能之心· 2025-07-13 13:03

招聘岗位概述 - 头部大型互联网具身实验室正在招聘具身多模态大模型、机器人多模态交互、强化学习等方向的研究员岗位base北京薪资open [1] 具身多模态大模型研究员职位描述 - 主导具身智能大模型的核心算法研发包括多模态感知（视觉、语言、动作）、强化学习策略优化、世界模型构建等方向 [1] - 研究传统仿真与生成式仿真相结合的数据合成方案构建机器人及具身智能领域的新型数据范式 [1] - 跟踪学术界与工业界最新进展（如VLA、具身智能等）保持技术领先性并推动团队技术迭代 [1] - 推动模型在机器人场景的落地解决实际应用中的挑战 [1] 职位要求 - 计算机科学、人工智能、数学、机器人学等相关专业博士学位优先 5年左右大模型相关工作经验 [2] - 熟悉机器人学、强化学习、多模态融合（VLA）等技术具备学术敏感度与工程化思维 [2] - 对具身智能、通用机器人方向有浓厚兴趣具备优秀的逻辑表达与跨团队沟通能力 [2] - 在顶会（CVPR、ICLR、ICRA等）发表过相关论文或主导过开源项目 [2] 机器人多模态交互算法研究员职位描述 - 研究多模态智能体、多模态推理规划、流式音视频对话模型等前沿技术推动机器人交互技术创新 [3] - 探索多模态大模型、强化学习算法、大模型Agent在机器人上的创新应用参与研发下一代智能机器人系统 [3] 职位要求 - 硕士研究生及以上学历具备优秀的代码能力、数据结构和基础算法功底 [4] - 在大模型、多模态、NLP、CV、强化学习等领域有一定研究基础或项目经验 [4] - 主导过相关重要项目或在顶会（CVPR、ACL、NeurIPS等）发表过论文者优先 [4] - 具备良好的沟通协作能力能够与团队紧密合作推进项目 [4] 强化学习研究员职位描述 - 探索多模态大模型、VLA等前沿技术方向 [5] - 推动世界模型、强化学习在具身智能的应用参与研发下一代智能机器人 [5] 职位要求 - 计算机、自动化、电子等相关专业 [6] - 扎实的机器学习、深度学习、强化学习基础 [6] - 在具身智能、多模态、大模型等领域有研究基础或项目经验在顶会发表过论文 [6] - 具备良好的沟通协作能力能推进技术进步 [6] 加分项 - 动手能力和代码能力强 ACM、ICPC等比赛获奖者优先 [9] - 对机器人技术有浓厚兴趣参加过机器人比赛者优先 [9] - 熟悉物理仿真和常见的虚拟仿真环境 [9]

多模态大模型

Artificial Intelligence

具身多模态大模型

机器人多模态交互算法

多模态大模型

Artificial Intelligence

具身多模态大模型

机器人多模态交互算法

具身智能之心多模态大模型交流群成立啦！

具身智能之心· 2025-07-12 21:59

具身智能技术交流群 - 该群专注于多模态大模型技术交流包括视觉+语言(V+L) 视觉+语言+触觉(V+L+触觉)等方向 [1] - 目标人群为从事具身智能模型微调部署量化轻量化等工作的研究人员 [1] - 提供微信交流群加入渠道并设有严格的广告管理规则 [1] - 群满后可联系助理CLmovingup 需备注"具身大模型+入群"申请加入 [1] 技术研究方向 - 重点关注具身智能相关模型的优化与应用包括模型微调部署实施量化处理轻量化设计等 [1] - 交流内容涵盖多模态大模型的前沿技术特别是视觉与语言触觉等多感官融合领域 [1]

多模态大模型

多模态大模型

VLM岗位面试，被摁在地上摩擦。。。

自动驾驶之心· 2025-07-12 20:00

自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业，在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展，长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域，未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型，分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法，是业务模型落地的关键[6][15] - 大模型存在幻觉问题，解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导，分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]

多模态大模型

多模态大模型

之心急聘！25年业务合伙人招聘，量大管饱~

自动驾驶之心· 2025-07-12 13:41

业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点招募领域涵盖大模型/多模态大模型、扩散模型、VLA等前沿技术方向[3] - 涉及端到端自动驾驶、具身交互、联合预测等关键技术[3] - 包含SLAM、3D目标检测、世界模型等感知技术[3] - 关注闭环仿真3DGS、大模型部署与量化感知推理等应用方向[3] 人才要求 - 候选人需具备QS200以内高校硕士及以上学历[4] - 拥有顶会论文发表经历者优先考虑[4] 合作待遇 - 提供自动驾驶领域资源共享包括求职、读博、留学推荐等[5] - 设置丰厚现金激励机制[5] - 可获得创业项目合作与推荐机会[5]

多模态大模型

扩散模型等

自动驾驶相关课程

多模态大模型

扩散模型等

自动驾驶相关课程

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

量子位· 2025-07-12 12:57

多模态大模型视觉推理能力评测 - 清华大学团队开发EscapeCraft 3D密室逃脱环境，用于评估多模态大模型在复杂视觉任务中的推理能力，该论文入选ICCV 2025 [2][3][4] - 环境支持自由配置难度等级，通过调整道具链长度、线索位置（如从出口附近移至远处）测试模型适应性，GPT-4o在线索位置变化后表现显著下降 [6][7][8] - 评测聚焦模型探索决策过程，包括道具获取、视角调整、意图一致性等，而非仅关注最终结果 [16] EscapeCraft环境设计特点 - 环境灵感源自密室逃脱游戏，支持自动生成3D场景，模型需完成找钥匙、解密码等多步骤任务，整合视觉、空间、逻辑信息 [4] - 任务设计高度灵活，可扩展至问答、逻辑推理等方向，为智能体、强化学习研究提供基础平台 [5] - 创新指标包括意图-结果一致性（Intent-Outcome Consistency）、道具获取率（Prop Gain）等，量化模型交互质量与推理效率 [17] 主流模型表现对比 - GPT-4o综合表现最佳，平均逃脱成功率（ER）达81.36%，但在高难度任务中仅26.5%子目标为理解后完成，多数为偶然成功 [17][19][21] - 国产模型Doubao 1.5 Pro在简单关卡中逃脱成功率（91.91%）超越Gemini 1.5 Pro（81.82%）和Claude 3.5（72.73%），交互成功率（Grab SR）达44.68% [19][21] - Gemini 1.5 Pro与Claude 3.5在相同逃脱成功率下行为差异显著：前者交互率高（0.44 vs 0.17）、步数少，后者交互成功率更高但步数多 [21] 模型失败案例与错误类型 - 常见错误包括误判可交互物体（如试图抓取沙发）、视角控制失败（关键道具移出视野）等 [18] - 错误分类显示Claude 3.5的61.1%为推理逻辑错误（目标设定或动作意图不符），38.9%为视觉感知错误 [18] - 多房间设定下模型学习能力有限，仅当房间结构相似时经验可复用 [22] 研究价值与行业应用 - 弥补传统以结果为导向的评估缺陷，强调中间推理过程，推动多模态模型向"类人推理"发展 [16] - 开源环境与数据可支持智能体、强化学习等领域研究，项目已发布GitHub与论文 [22] - 评测揭示当前模型局限：即使视觉输入正确，仍可能因逻辑缺陷失败，体现"看到≠想清"的行业挑战 [18][21]

多模态大模型

类人推理过程

多模态大模型

类人推理过程

新股消息 | 传智谱考虑将IPO地点由内地改为香港或筹集约3亿美元

智通财经网· 2025-07-11 16:31

IPO计划 - 公司考虑将IPO地点由内地改为香港可能筹集约3亿美元(约23 4亿港元) 相关事宜仍在考虑中尚未做出最终决定 [1] - 公司最终也可能选择在内地上市 [1] 战略投资 - 上市辅导前夕公司密集收获多地国资战略投资包括浦东创投集团和张江集团总额10亿元的投资 [1] - 上海仪电浦发集团公司三方将携手在浦东建设人工智能新型基础设施 [1] - 3月3日公司完成超过10亿元战略融资参与者包括杭州城投产业基金及上城资本 [2] - 3月12日珠海华发集团战略投资公司5亿元 [2] - 3月19日成都高新区宣布战略投资公司3亿元 [2] 产品与技术 - 公司发布并开源视觉语言大模型GLM-4 1V-Thinking 支持图像视频文档等多模态输入专为复杂认知任务设计 [1] - 公司推出全新生态平台"Agent应用空间" 并开启"Agents开拓者计划" 投入数亿资金扶持AI Agents创业团队 [1]

多模态大模型

GLM - 4.1V - Thinking

Agent应用空间

多模态大模型

GLM - 4.1V - Thinking

Agent应用空间

报名开启｜7月27日，世界人工智能大会腾讯论坛邀您共探AI新纪元

腾讯研究院· 2025-07-11 15:20

人工智能发展趋势 - 人工智能已从理论设想发展为变革世界的核心力量，驱动产业升级、革新用户体验、重构人机协同[1] - 2024年生成式AI实现深化融合与爆发式应用，多模态大模型和具身智能等新范式拓宽AI能力边界[1] - 2025年人工智能将进一步突破认知极限，更深度助力千行百业并塑造科技未来[1] 2025世界人工智能大会腾讯论坛 - 论坛将于7月27日在上海举办，由腾讯华东总部、腾讯优图实验室等多家腾讯系机构联合支持[1] - 主题为"智能涌现"，聚焦AI技术与产业深度融合趋势，围绕大模型垂直落地、场景创新突破、生态共建协同三大议题[2] - 将系统展示腾讯在多元场景中的AI应用成果，体现"科技向善"的立体化实践[2] - 腾讯将分享Agent领域最新进展，与行业领军人物共话智能时代新机遇[2] 腾讯AI布局 - 腾讯通过优图实验室、Robotics X实验室等机构在AI领域进行多维度布局[1] - 公司在AI应用场景中已取得显著成果，涉及云智能、游戏、浏览器、输入法等多个产品线[1][2]

腾讯控股(HK:00700)

多模态大模型

Software and Internet

腾讯云智能

多模态大模型

Software and Internet

腾讯云智能