多模态大模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态大模型

搜索文档

商汤CFO王征亲述：“Re-CoFound”200多天后，“1+X”交出怎样的答卷？

第一财经· 2025-08-06 20:53

公司战略调整 - 公司完成"1+X"战略重组246天后，内部发生显著变化，包括财务造血能力激活、创业精神重生和年轻力量崛起[3][5] - "1+X"架构将业务分为核心业务"1"和生态业务"X"，"1"聚焦AI云、基础模型和CV应用，"X"包括医疗、零售等长周期高潜力业务[11][12] - 近期提出"Re-CoFound"(二次联合创业)概念，旨在全公司上下重新激发创业精神，90后、95后开始担任产品线负责人[6][14][15] 组织架构与管理 - 新组建五人执行委员会(EC)作为高效决策机构，成员包括徐立、王晓刚、林达华、杨帆和王征[6][7] - "X"业务设立独立法人主体，拥有自主激励系统和CEO，目前已孵化6家生态企业[9][14] - 王征作为CFO同时负责战略投资、香港公司和创新业务集群(EIBG)，职责远超传统CFO范畴[9] 业务发展 - "X"生态企业累计融资超20亿元，集团持有生态企业股权价值约100亿元[17][18] - 已披露融资的生态企业包括AI芯片公司商汤曦望、AI医疗公司商汤善萃和AI零售公司商汤善惠[18] - 计算机视觉(CV)业务进入收获期，香港地区增长明显，海外客户增加，有望成为首批专注AI盈利的业务[22] 技术优势 - 大装置总算力规模超23000 Petaflops，同比增长92%，覆盖国内重点区域[23] - 计算机视觉积累为多模态大模型提供优势，最新发布的日日新6.5大模型实现三倍性价比提升[24][27] - 突破图文交错思维链技术，强化多模态推理能力，认为多模态是通向AGI的必经之路[25] 运营成效 - "X"业务CEO开始主动关注财务状况，精细化管理现金流，部分提出搬迁至低成本办公室[3][15][16] - 架构调整后母公司现金流立即改善，"X"业务设立第二天母公司现金流基本转正[17] - 内部形成创业文化，年轻人才快速成长，90后、95后开始扛起产品线大旗[5][15]

商汤(HK:00020)

二次联合创业

多模态大模型

日日新多模态大模型

二次联合创业

多模态大模型

日日新多模态大模型

“AI”之眼，一场视觉智能的进化 | 2025 ITValue Summit前瞻WAIC现场版：AI落地指南系列

钛媒体APP· 2025-08-06 19:39

行业趋势与市场观察 - WAIC 2025展会人气显著提升参与者背景更加多元化大公司AI单点应用深度令人印象深刻 AI应用与产业结合更加紧密 [1] - 头部科技企业如阿里巴巴和蚂蚁集团突破单纯AI模型展示深度融合云计算与大数据技术国家电网展示AI与核心业务深度融合范例消费级AI硬件展区呈现大模型技术生活化应用路径 [7] 技术演进与产品发展 - 格灵深瞳从2019年开始布局视觉大模型基座推出Glint-MVT视觉基础模型产品具备持续成长性从通用工具升级为个性化智能体Agent [8][12] - 多模态技术成为明确趋势视觉是多模态AI的核心感知入口需与语言等模态融合公司团队更加年轻化保持开放心态拥抱各种技术 [12][28] 商业模式与收费挑战 - AI行业收费标准非常离散面临三重困境：定价标准缺失商业模式模糊双向预期偏差本质是产业成熟度问题需经历服务定价帕累托优化过程 [2][23] - 收费模式从按许可证付费演变为按效果和性能付费服务价值缺乏行业基准客户对效果认知不统一供应商服务成熟度待验证 [2][23] 应用场景与行业深耕 - 公司聚焦四大优势领域：金融泛安防政务体育金融客户对AI技术热忱提出更深层跨领域融合需求 [14][15] - 在视频分析处理和理解领域深度布局计划下半年发布Glint-MVT视觉基础模型新版本在垂直细分工具和模型精炼上具有自身特点 [20][21] 客户合作与实施挑战 - 针对不同客户采用差异化策略：对前瞻型客户采用共创研发模式对入门级客户提供直效型标准化产品分阶段实现从可用到好用的体验演进 [19] - 实施过程中面临硬件适配（如GPU适配）数据采集与持续优化认知偏差服务模式错位等挑战需要与客户共同解决问题和成长 [16][25] 技术战略与生态合作 - 公司坚持技术自主权深入研发Glint-MVT视觉基础模型和多模态大模型同时保持与生态合作互助互利的开放态度 [3][20] - 决策框架基于三要素评估：资金规模人才储备时间成本在视频领域深度布局其他方面依靠生态合作 [21] 人才与认知挑战 - AI落地最缺对目标的耐心最怕一鼓作气再而衰关键痛点集中在人才瓶颈和目标管理两大维度 [27][23] - 缺乏兼具决策能力与落地经验的复合型人才需要业务专家与AI专家的双重属性融合需要培育AI原生思维 [23][32]

格灵深瞳(SH:688207)

Artificial Intelligence

多模态大模型

Artificial Intelligence

Glint - MVT视觉基础模型

Artificial Intelligence

多模态大模型

Artificial Intelligence

Glint - MVT视觉基础模型

这几个方向，从自驾转大模型会比较丝滑......

自动驾驶之心· 2025-08-06 19:25

大模型技术方向 - 大模型技术分为四大模块：大模型RAG、大模型AI Agent、多模态大模型（预训练、微调、强化学习）和大模型部署推理优化 [1] - 多模态大模型方向包括视觉语言模型、预训练数据集、PEFT、微调及部署推理优化 [2] 大模型RAG - RAG核心组件包括检索器、增强器和生成器如何利用知识库提升性能是重点 [1] - RAG子领域快速发展：Graph RAG、视觉理解应用、Knowledge-Oriented RAG、多模态RAG、Reasoning Agentic RAG [1] - 业内已建立多种评测方法和数据集用于RAG性能评估 [1] AI Agent - AI Agent是当前最热门方向涵盖单智能体、多智能体、智能体强化学习 [1] - 研究方向包括Agent通信效率优化、自进化Agent、RAG与Agent结合 [1] 技术社区 - 大模型之心Tech社区致力于构建国内最大大模型技术社区持续输出产业学术信息 [3] - 社区通过知识星球平台培养人才快速搭建技术模块 [3]

大模型AI Agent

多模态大模型

自动驾驶VLA

大模型AI Agent

多模态大模型

自动驾驶VLA

具身智能之心招募科研辅导老师了！学术圈的大佬看过来~

具身智能之心· 2025-08-06 16:30

招募科研辅导老师 - 具身智能方向招募科研辅导老师旨在带动学术界发展 [1] - 研究方向包括VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型仿真运动控制目标导航等 [2] - 要求博士及以上学历包含在读需有2篇A会或一区以上期刊/会议有辅导经验者优先 [3] - 提供行业资源共享论文署名与现金激励 [4]

多模态大模型

多模态大模型

大模型究竟是个啥？都有哪些技术领域，面向小白的深度好文！

自动驾驶之心· 2025-08-06 07:32

大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型，核心能力在于理解并生成自然语言文本，参数量通常达数十亿至数千亿级别，训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面，技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础，由Google于2017年提出，包含Encoder和Decoder两部分，关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分，典型代表是BERT模型，适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择，如GPT系列、Llama系列，适合文本生成任务[11] LLM核心能力 - 文本生成与创作：如GPT-4可生成技术文档，Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程：Claude 4 Opus在SWE-bench测试中得分80.2%，Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理：Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换：Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理：前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列：由OpenAI开发，GPT-3有1750亿参数，GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列：由Meta开发的开源模型，Llama 4首次采用MoE架构，包含三个版本[17][21] - Qwen系列：阿里巴巴开发的中国最具影响力开源大模型，已开源200多款模型[18][22] - DeepSeek系列：以创新架构设计和高效推理著称，DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型，参数规模庞大，训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主，采用序列到序列结构，如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心，不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]

大语言模型（LLM）

视觉基础模型

语音大模型

多模态大模型

推理大模型

大语言模型（LLM）

视觉基础模型

语音大模型

多模态大模型

推理大模型

Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布

机器之心· 2025-08-06 02:56

大语言模型多模态离散化技术综述 - 核心观点：Discrete Tokenization成为多模态LLM统一建模的关键技术，通过向量量化将非文本模态转化为LLM可处理的离散表示，实现跨模态理解与生成[2][8][39] - 首次系统化梳理八类向量量化方法，构建完整技术地图[7][8][14] - 按输入模态组织内容结构，覆盖单模态到多模态应用全景[6][39] 核心技术体系 - 八大类向量量化方法：VQ（经典码本）、RVQ（残差量化）、PQ（乘积量化）、AQ（加性量化）、FSQ（有限标量量化）、LFQ（无查表量化）、BSQ（球面二值量化）、GART（图锚点关系量化）[9][14][16] - 不同方法在码本构建（显式/隐式）、梯度传播、量化精度等方面存在显著差异[10][14] - FSQ/LFQ/BSQ等隐式码本方法天然避免码本坍塌问题[16] 码本坍塌挑战 - 核心问题：训练中码字收敛到极少数，导致利用率下降与多样性不足[12] - 解决方案：码本重置、线性再参数化、软量化、正则化等[15] - VQ/RVQ等显式码本方法坍塌风险较高，需额外缓解措施[16] 早期单模态应用 - 图像领域：VQ-VAE/VQGAN实现高效视觉表示[3] - 音频领域：SoundStream/Encodec构建语音离散单元[6] - 视频领域：VideoGPT/MAGVIT支持帧级量化[6] - 图结构：NodePiece等降低图数据存储开销[6] LLM驱动的单模态建模 - 图像：SPAE/LlamaGen等将视觉特征映射到LLM词表空间[23][25] - 音频：TWIST/JTFS LM实现语音离散化处理[25] - 图结构：NT-LLM/Dr.E通过量化支持图节点分类[25] - 推荐系统：LC-REC/LETTER量化用户行为特征[25] LLM驱动的多模态融合 - 双模态组合：Text+Image（SEED/LaVIT）、Text+Audio（AudioPaLM/SpeechGPT）成为主流方向[26][28][34] - 三模态及以上：AnyGPT（文本+图像+音频）、VideoPoet（文本+图像+音频+视频）展现扩展性[29][34] - 统一token机制实现跨模态语义对齐与任务协同[27][30] 未来研究方向 - 技术瓶颈：码本利用率、信息损失、梯度传播、粒度对齐等[36][40] - 突破方向：自适应量化、统一框架、生物启发码本、可解释性提升[37] - 模态扩展：向触觉、嗅觉等更复杂模态延伸[39]

Discrete Tokenization（离散化）

多模态大模型

Vector Quantization（向量量化）

大语言模型（LLM）

Discrete Tokenization（离散化）

多模态大模型

Vector Quantization（向量量化）

大语言模型（LLM）

快手：用大模型点燃北京AI第一城的生产力

北京商报· 2025-08-05 17:28

北京AI产业发展现状 - 北京AI企业数量超过2400家核心产业规模接近3500亿元占全国近四成备案上线大模型 [1] - 算力供给总规模超3.3万P 预计年底将超4.5万P 朝阳区酒仙桥数字经济算力中心提供每秒百亿亿次计算能力 [10][11] - 形成"技术突破—产业应用—创新消费"发展闭环通过多政策协同推进各领域应用场景开放 [1][12] 快手可灵AI业务表现 - 全球用户规模突破2200万累计生成1.68亿个视频和3.44亿张图片服务超过1万家企业客户 [5][15] - 2025年一季度营收超过1.5亿元 4月和5月月度付费金额均超1亿元 ARR超1亿美元 [9][15] - 产品迭代升级30余次发布多图参考和灵动画布等功能拥有AI图片视频和音频多模态能力 [3][15] AI技术应用成效 - 视频大模型使影视制作周期从3-6个月缩短至2个月制作团队从100多人减少至零真人拍摄 [3] - AI大模型降低短视频营销素材制作成本60%-70% 广告短片可节省约90%成本 [4][15] - AI医院2天完成三甲医院2-3年诊断量诊断准确率超过96% [6] 商业化应用案例 - AI试衣功能实现任意衣服任意身材任意动作的虚拟试穿保留衣物图案文字细节 [7][8] - AIGC短视频营销素材日均广告消耗达3000万元虚拟数字人直播解决方案日均消耗突破3000万 [8] - "灵蛇奇遇"主题活动总曝光量4亿 AI概念视频播放量超1000万三大品牌单日GMV破历史峰值 [9] 技术创新与研发 - 智源研究院推出"悟界"系列大模型 RoboOS 2.0将代码量降至传统方式的1/10 [11] - 可灵AI团队两年发表超80篇国际顶刊论文获得超过3万次引用 [15] - 采用双轨技术路线：精耕现有成熟技术路线与前瞻探索未来技术路线 [16] 产业生态建设 - 算力中心吸引AIGC视听产业创新中心落地推出虚拟制片工具包 [10] - 与中日友好医院共建医疗可信数据空间开发樱智医疗大模型 [10] - 头部企业聚焦底层技术突破中小企业开发细分场景应用消费端完成价值验证 [12]

Artificial Intelligence

多模态大模型

Artificial Intelligence

悟界系列大模型

Artificial Intelligence

多模态大模型

Artificial Intelligence

悟界系列大模型

重金研发“拥抱”AI时代，安防龙头海康威视市值迈向3000亿元

每日经济新闻· 2025-08-03 15:41

业绩表现 - 公司上半年实现营业收入418.18亿元，同比增长1.48%；归母净利润56.57亿元，同比增长11.71%，净利润增速显著高于营收增速 [1][2] - 经营现金流净额从去年同期的-1.9亿元大幅改善至53.4亿元，增长幅度高达2917.5% [3] - 管理费用同比下降5.33%，费用管控初见成效 [5] 业务结构 - 传统安防业务仍是基本盘，但创新业务实现收入117.66亿元，同比增长13.92%，占营收比重28.14% [3] - 海康机器人、萤石网络、海康汽车电子、海康微影等创新业务已在各自领域取得领先地位 [3] - 国内传统安防业务营收占比跌破50% [4] 研发投入与技术成果 - 上半年研发投入56.7亿元，研发费用占营收13.56% [3] - 从2020年至今累计研发费用超过500亿元，研发费用率从11%提高至12.8% [6] - 发布"观澜"大模型，构建物联感知大模型、语言大模型和多模态大模型能力 [6] - 推出数百款大模型产品，应用于工业制造、电力行业、城市治理和交通管理等领域 [7] 海外市场挑战 - 欧美等核心市场损失难以完全弥补，部分国家对中国监控设备出台移除政策 [5] - 加拿大市场收入占比不足0.3%，加拿大政府要求停止运营对业绩直接影响有限 [5] - 通过拓展发展中国家市场使海外业务收入保持一定增长 [5] 战略转型与市场表现 - 从"安防设备龙头"向"AIoT解决方案服务商"战略升级进入收获期 [2] - 市值正重新迈向3000亿元大关 [1][8] - 积极把握AI大模型技术突破带来的发展机遇，驱动业务势能持续释放 [6]

海康威视(SZ:002415)

多模态大模型

海康机器人

多模态大模型

海康机器人

智元机器人罗剑岚老师专访！具身智能的数采、仿真、场景与工程化~

自动驾驶之心· 2025-08-02 00:03

具身智能数据讨论 - 公司与多家传感器供应商合作，重点研发视觉触觉与高密度传感器，并构建跨平台数据采集API以实现标准化数据输入[2] - 机器人应用需达到95%成功率才能满足家庭场景需求，当前性能优化是主要门槛[2] - 仿真数据用于模型迭代但大模型训练100%使用真机真实数据，仿真流水线在扩展性上存在瓶颈[2][3] - 合成数据仅用于工程迭代与模型调试，发布与部署阶段完全依赖真实场景数据[3][4] - 真实数据成本核心在于缺乏标准化机制，公司尝试通过远程摇操、自动部署机器人等方式建立自动化数据采集闭环[6] - 机器人数据瓶颈与自动驾驶不同，需解决数据稀缺、性能优化及工程伦理等多方面挑战[7] 具身大模型评估 - 行业缺乏通用benchmark，公司计划搭建统一真机测试场供不同模型评估[8][9] - 评估维度包括具身技术路线与性能表现，当前从Demo炫技转向产业闭环但仍面临工程复杂性等挑战[9] - 公司世界模型基于统一平台，能生成视频、评测模型并训练策略，处理复杂场景能力较强[10] - VLA路线需结合大模型与优化策略，机器人执行要求远高于ChatGPT的50%-60%准确率[11] - 中美差异：美国重算法创新与开源生态，中国在工程集成与规模部署上更具优势[12] 遥操作vs自主决策 - 自主决策需机器人理解世界、生成策略并执行任务，关键技术门槛在于多模态信息融合与高成功率[13][14] - 当前"失控"问题源于软件设计不完善而非机器人意识，公司通过模拟测试与安全机制确保安全[14] - 数据积累路径从垂直场景逐步过渡到通用场景，无法直接实现通用能力[15] 具身智能应用场景与落地 - 场景部署流程分为任务建模、场景迁移、场景适配与安全验证四步，强调软硬件协同与人机安全[17][18] - 工业结构化环境更易落地，需满足近乎100%的性能要求，家庭场景因复杂性长期市场更大[20][21] - 工业场景中VLA需结合大模型与优化策略，相比传统方案具备更强泛化能力与更低调试成本[23] - 人形机器人技术路线未收敛，公司同时依赖外部厂商与自研技术探索模块化标准[23] - 家庭环境异质性带来工程挑战，需通过垂直场景数据积累逐步演化通用能力[23] - 执行速度慢源于模仿学习局限，需引入专门优化训练而非仅模仿原始操作[24] 具身未来展望 - 追求DeepSeek moment即高成功率+泛化能力+速度的统一提升，而非ChatGPT式低成功率泛化[26] - 数据驱动成为科学范式，通过大规模数据与统计验证建立结论[27] - 未来架构可能超越Transformer，类脑架构更贴近生物大脑处理模型[28] - 传感器选择关键在"对的传感器"而非数量，方法论与算法架构更重要[28] 具身软硬件协同 - 公司构建平台化操作系统（类似"机器人Android"）为硬件与传感器提供统一接口[30] - 行业需开放合作共建生态，单靠操作系统无法推动性能级模型创新[31][32]

多模态大模型

平台化操作系统

多模态大模型

平台化操作系统

从Figma到中国垂类应用全球崛起

格隆汇APP· 2025-08-01 13:27

美股科技股年内最大IPO之一：Figma - Figma成立于2012年，以22亿美元的前端设计软件市场为起点，目标扩展至330亿美元的全流程产品开发生态 [2] - 核心产品Figma平台凭借轻量化、社区繁殖和协同办公三大优势在全球设计工具市场占据重要地位 [2] - 借助AI编程能力，Figma切入程序员协同办公场景，未来有望向"无人开发"方向拓展 [4] 全球AI应用发展的奇点将至 - 多模态大型语言模型（MLLM）的诞生解决了单模态局限，成为场景扩张的关键 [5][6] - 多模态应用的变现能力显著优于纯文本产品，如Midjourney年收入5亿美元，Runway付费用户超百万，付费转化率比纯文本Chatbot高2-3倍 [7] 中国视频生成：全球化商业化的突围样本 - 国内厂商在视频生成领域实现全球化突破，美图、快手、睿琪软件年化收入超1亿美元 [8] - 美图AI设计工具在东南亚电商渗透率达25%，快手可灵视频生成工具上线10个月ARR破1亿美元 [8] - 多模态能力在短视频、电商、内容创作等高频场景中成为打开付费意愿的关键 [8] 投资逻辑：中美共振下的价值重构 - 海外用户AI付费意愿显著高于国内，如可灵海外订阅转化率8.7%，是国内的3倍，美图海外ARPU较国内高40% [9] - Figma通过覆盖全流程构建生态优势，国内企业需在垂直领域建立"AI+行业know-how"双重壁垒，如美图AI功能将商拍成本降低60% [10] - 中国政府发布《数字中国建设2025年行动方案》，支持AI应用发展，同时整治技术滥用 [10] 结语：从工具革命到产业重构 - Figma的崛起与多模态大模型的爆发代表生产力工具的范式迁移，需要底层架构创新与垂直场景深度解构 [12] - 中美AI商业化共振下，能将技术优势转化为全球市场份额的公司将创造新的商业传奇 [12]

多模态大模型

软件与服务

可灵（Kling）视频生成工具

美图AI设计工具

多模态大模型

软件与服务

可灵（Kling）视频生成工具

美图AI设计工具