多模态模型

搜索文档
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-02 07:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]
Diffusion 一定比自回归更有机会实现大一统吗?
机器之心· 2025-08-31 09:30
Diffusion架构与自回归架构在多模态大一统模型中的对比 - 多模态能力被视为实现人类级别智能的必要条件 构建大一统模型成为关键目标 旨在用单一架构统一处理文本 图像 音频 视频 3D模型及机器人动作信号等异构数据类型[8] - 自回归架构长期主导多模态领域 Transformer系列LLM从NLP扩展至多模态 催生LLaVa Qwen-VL InternVL Ovis和GPT4等模型[8] - 扩散架构原主要应用于视觉生成领域 如Stable Diffusion和DiT 但近期扩散语言模型在NLP任务突破 重新引发对其实现多模态大一统潜力的关注[8] Diffusion架构的理论优势与潜力 - 扩散范式天然支持并行生成 精细化控制和动态感知 这些是自回归模型难以实现的能力[9] - 离散扩散架构被强调为替代自回归实现多模态统一处理的潜在方案[9] - 扩散语言模型通过并行生成和迭代式去噪解决自回归模型推理速度瓶颈 具有扩展至其他模态的潜力[9] 生成式建模的信息论基础 - 自回归模型本质是预测下一个token 通过最小化序列描述长度实现无损压缩 尤其适应NLP任务[9] - 多模态自回归模型需将输入转换为一维序列 早期使用双编码器架构分别处理图像文本 后转向仅解码器架构并通过连接器转换图像嵌入[10] - 扩散架构本质是纠错机制 正向加噪和反向去噪过程同样构成强大压缩框架 且支持两种压缩模式[11]
中信建投 TMT周观点
2025-08-24 22:47
纪要涉及的行业和公司 - **行业**:AI、电影、国防军工、PCB、覆铜板 - **公司**:微软、Salesforce、Adobe、Applovin、多邻国、Snowflake、Elasticsearch、MongoDB、Unity、谷歌、苹果、字节跳动、快手、英伟达、亚马逊、猫眼娱乐、上海电影、阿里影业、生益电子、沪电股份、生益科技 纪要提到的核心观点和论据 AI 应用端公司 - **微软**:2025 财年 AI 应用收入预计接近 120 亿美元,Copilot 业务预计收入 20 亿美元,GitHub 贡献约 6 亿美元,均超预期[1][2] - **Salesforce**:Einstein Automate 营收超 1 亿美元,略低于预期,Data Cloud 营收 10 亿美元,同比增长 120%;以 80 亿美元收购云数据库公司增强数据基础能力,预计 2026 年产生影响[1][2][3] - **Adobe**:4 月 Figma 使用量达 220 亿次,纯 AI 业务占比低但增速显著,预计 2025 年 Q4 翻倍[3] - **Applovin**:财报表现良好,但成本上升红利期接近尾声,三方成交广告地位稳固但增长空间受限[3] - **多邻国**:最新季度 Maxim 渗透率达 7%,用户约 70 万,总体渗透率预计达 15%,Maxim 净收入占比可达 15%-20%[3] AI 基础设施公司 - **Snowflake**:营收同比增长 26%,利润同比增长 25%,上调全年预期;RPO 同比增长 34%,新增高价值客户 606 家;推出 Near Intelligence、OpenFlow 和 Cortex 新型 AI Circle 功能巩固领先地位[1][4] 其他公司动态 - **Unity**:处于困境反转阶段,广告业务受季节性因素有压力;7 月将推出 6.2 版本 AI 引擎,整合 Moses 和 Censusf 功能[7] - **谷歌**:多模态模型日均 TOKEN 消耗量约 16 万亿,VU3 正式版加速多模态商业化进程,VU3 定位服务专业创作者,面向美国 Ultra 订阅用户开放,月定价 249.99 美元[2][8][9] - **苹果**:WWDC 2025 大会预计展示新技术与产品更新,内部测试更强大的大模型,或支持端侧设备运行[1][11][12] - **字节跳动**:将在动力大会宣布豆包大模型家族升级,端侧 AI 产品有望加速落地[1][12] - **快手**:可灵 AI 年化收入运营率(ARR)在 2025 年 3 月突破 1 亿美元,连续两月突破 1 亿人民币营收,为 B 端用户提供服务并为超 1 万家企业客户提供 API 服务[10] 算力需求与应对 - **需求增加原因**:大厂与基础业务深度融合、大型 agent 涌现、多模态任务消耗大量算力[2][13] - **TOKEN 消耗与影响**:谷歌日均约 16 万亿,国内大厂年底预计达 40 - 60 万亿,今年 Q4 国内可能算力不足,国产算力产业链发展斜率更陡峭[2][14] - **海外应对措施**:72 机柜增量集中在铜线、电源、散热、PCB 升级,关注英伟达和亚马逊芯片配套;产业链库存下降,上游备库 1.3 倍,上游材料价格上涨[15][16] 电影行业 - **暑期档**:预期较低,但《姜元弄》《长安荔枝》等优质影片可能带动票房回暖[2][22] - **全年票房**:预计 2025 年可达 500 亿左右,关注底部标的猫眼娱乐[2][23] 其他行业 - **GW 星座卫星互联网项目**:第四批卫星 6 月 6 日成功发射,发射频率逐步加快,今年国防军工领域需求有望回暖[27] - **PCB 板块**:4 - 5 月高阶数通 PCB 订单能见度高,高端产能偏紧;产业链下行风险减弱,供需偏紧格局难缓解,关注 ASIC 产业链和高多层领域企业[28][29] - **覆铜板行业**:常规产品提价,汽车需求旺盛,6 月后涨价节奏趋缓;高速产品供不应求,关注高速覆铜板供应商[30] 其他重要但可能被忽略的内容 - **数据云和数据层面布局**:Snowflake、Elasticsearch 和 MongoDB 等公司持续投资,巨头收购趋势加强,数据咨询和数据标签订单加速增长[1][6] - **英伟达散热环节**:散热是技术路线升级关键,现有散热技术达极限,散热系统在 IMV 中价值占比高,中国厂商在冷板元器件及部件领域有发展空间[18][19][21] - **上海电影**:8 月 2 日定档《狼山小妖怪》,参投的 AI 玩具公司 6 月中旬发布首款玩具并发售,与卡牌和手办公司合作推出衍生品[24] - **阿里影业**:关注 IP 开发和线下演出市场,暑期或国庆档有望上映《东极岛》,今年有望业绩修复[25][26]
马斯克旗下xAI联合创始人伊戈尔·巴布什金离职,将投身AI安全风投领域
搜狐财经· 2025-08-14 13:40
公司动态 - 巴布什金作为xAI工程团队核心人物 主导技术架构搭建与超级计算集群建设 助力公司在两年内进入全球AI模型开发第一梯队 [1] - xAI已启动全球人才招募计划 重点补充AI安全与多模态模型领域专家 [1] - 马斯克公开感谢巴布什金对公司技术基础的贡献 承认其对公司成就的关键作用 [1] 行业动向 - 巴布什金将创立风险投资公司Babuschkin Ventures 专注投资AI安全研究及具有"推动人类进步 解锁宇宙奥秘"愿景的初创企业 [1]
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
机器之心· 2025-08-12 11:10
模型能力 - GLM-4.5V在「图寻」游戏全球积分赛中击败了99.99%的人类玩家,展现出超强视觉推理能力[9] - 模型能通过建筑风格、植被类型、道路标识等环境信息进行精准定位,甚至给出精确经纬度[20][21] - 在视觉错觉测试中,模型快速识别出穿蓝色上衣和白色裤子的人与穿紫色衣服的人[16] - 模型能准确读取模糊光线下的时钟时间,克服了AI系统读取时钟准确率仅38.7%的行业难题[38][41] - 对相似场景如慕田峪与八达岭长城,模型能根据墙体完整度和游客数量等细节精准区分[44][47] 技术架构 - GLM-4.5V采用106B总参数、12B激活参数的架构,支持64K多模态长上下文[127] - 视觉编码器采用AIMv2-Huge,通过三维卷积提升视频处理效率[127] - 引入二维旋转位置编码和双三次插值机制,增强高分辨率图像适应性[127] - 语言解码器采用3D-RoPE位置编码,提升多模态空间理解能力[127] - 训练采用三阶段策略:预训练、监督微调和强化学习,在41个公开视觉多模态榜单达到开源SOTA水平[128][129] 应用场景 - 在安防监控领域,模型能处理含视觉错觉和遮挡的图片,具备高准确率识别能力[19] - 前端开发中,模型可根据截图或视频复刻网页布局,实现可交互功能[87][91][93] - 教育领域能总结10分钟英文演讲视频,准确提取人物、地点和事件等关键信息[61][65] - 本地文档处理方面,模型能解读论文图表并理解数据逻辑关系[101][103] - 在景区寻人等场景,模型可精准识别特定特征的人员或宠物[112][113] 行业影响 - 模型开源策略推动行业从性能竞赛转向实用价值创造,提升开发者定制灵活性[132] - 在GUI Agent领域展现核心能力,如准确定位电商商品和PPT操作按钮[121][123] - 视觉推理能力覆盖复杂图表、多图长文本等实际任务,拓展多模态应用边界[10] - 相比闭源模型,开源方案提供更高透明度,促进AI技术在各行业落地[132] - 模型实战表现优于benchmark成绩,反映行业向真实场景效果评估的转变趋势[131]
刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。
数字生命卡兹克· 2025-08-11 22:20
模型发布与性能 - 智谱开源了当前最先进的多模态模型GLM-4.5V,采用GLM-4.1V-Thinking技术路线重新训练GLM-4.5-Air实现视觉多模态能力 [2] - 模型规模达106B总参数和12B激活参数,在开源多模态模型中属于较大规模 [3] - 在42个评测基准中取得41个SOTA(State-of-the-art)成绩,表现卓越 [4] - 模型支持"thinking"模式,在通用VQA、STEM、长文档、OCR与图表、视觉定位、空间识别与推理、GUI代理、编码、视频理解等多个领域表现优异 [5] 技术能力与测试 - 在视觉推理任务中表现突出,如游标卡尺读数和小猫摸球问题,能快速给出正确答案 [11][14][17][20] - 具备地理位置识别能力,能准确区分横店明清宫苑与故宫,展示出超越简单模式匹配的视觉推理能力 [25][27][31] - 支持原生视频理解功能,能分析《泰坦尼克号》混剪视频并准确识别关键画面及其时间点 [51][54][61][64][65] - 具备视觉定位功能,能根据指令在图片中精准标记目标,如识别人物或物体 [68][69][71][74][76] - 拥有网页复刻能力,可根据网页截图生成结构相似的网页代码 [79][80][81] 模型可用性与定价 - 模型已在GitHub和Hugging Face平台开源 [7][8] - 由于106B参数规模较大,消费级设备难以部署,建议使用智谱的z.ai平台 [8][9] - API定价具有竞争力,输入2元/M tokens,输出6元/M tokens [84] 行业影响与定位 - 智谱连续开源GLM-4.5和GLM-4.5V两款高性能模型,展示技术实力 [1][87] - 与海外闭源模型形成对比,体现开放精神和对AI民主化的追求 [90][93][94][96] - 在多模态开源模型领域树立新标杆,推动行业技术进步 [86][92]
对话邝子平:AI是最大的范式转变,造就下一代经典案例
搜狐财经· 2025-08-07 17:16
文 | 融中财经 股权投资行业在经历数年深度调整后,正迎来新一轮范式重构的窗口期。全球地缘政治波动、国内经济 转型升级、科技创新浪潮迭起,多重变量交织下,GP如何平衡短期生存与长期价值?国资主导的募资 生态中,市场化机构如何坚守投资本源?早期投资的护城河又该如何构建? 融中董事长朱闪与启明创投创始主管合伙人邝子平对以上问题展开了精彩讨论。 作为中国创投界的标杆人物,邝子平带领启明创投穿越多轮周期,斩获小米(第一笔500万美元投资回 报高达866倍)、文远知行、优必选、石头科技、云知声等经典案例,其"快半步"投资哲学与机构治理 理念,成为行业重要的方法论参照。 当国资LP在新设基金中出资占比飙升至75%以上,部分机构为满足招商诉求弱化回报追求时,邝子平旗 帜鲜明地赞同"为LP赚钱是永恒的必要条件"。在邝子平看来,政策性诉求与商业回报并非二元对立, 而是可以通过区域选择、基金规模调控,以及基金管理人的努力实现动态平衡。 以下为"融中对"环节的精彩发言,由融中财经整理,以飨读者: "既要"与"必要"间的平衡 朱闪:欢迎邝总!这是三天活动的第二天。昨日嘉宾们分享了今年股权投资行业形势。总体来看,大家 认为今年行业情况 ...
AI大潮下的具身和人形,中国在跟跑还是并跑?
观察者网· 2025-08-03 13:35
具身智能与人形机器人发展现状 - 具身智能被视为通往AGI的必经之路 特斯拉Optimus和波士顿动力Atlas的进展引发全球关注 [1] - 中国在具身智能领域已从"跟跑"转向与美国"并跑"甚至寻求"弯道超车" [1] - 行业讨论焦点集中在电机供应链 强化学习算法 落地场景与资本路径 [1] 美的集团机器人战略布局 - 2016年起通过收购库卡等企业布局To B业务 形成四大板块:楼宇科技 工业技术 机器人与自动化 新兴AI业务 [3][4] - 人形机器人业务2023年启动规划 2024年加速发展 依托电机 减速机等核心零部件技术积累 [4] - 库卡机器人主要服务汽车制造(60%) 3C(20%) 船舶/航空(15%)等工业领域 [4] 格灵深瞳技术路线 - 中国首家科创板AI上市公司 深耕计算机视觉12年 覆盖金融安防 智慧体育等场景 [5] - 推出视觉基础大模型MVT 1.5版本 实现图像到视觉token的转换 [5][32] - 探索视频模型技术 提升机器人对动态场景的理解能力 [36] 人形机器人技术演进 - 关节数量从传统200+缩减至现代40个(全身30个) 强化学习使复杂控制成为可能 [8][9] - 技术路线从液压传动(波士顿动力)转向电动传动(中国供应链优势) [12] - 控制方式从rule-base转向learning-base 提升任务泛化能力 [11][12] 形态路线争议 - 双足形态:适合动态复杂场景(工厂阶梯 火星移民) 具备动力学平衡优势 [16][18] - 轮式形态:平坦场景效率更高(家庭 标准工厂) 安全性更优 [13][15] - 混合形态:智元推出可折叠轮足机器人 尝试平衡效率与适应性 [20] 灵巧手发展路径 - 五指灵巧手:符合人机交互直觉 数据采集便利 但成本高达数万元 [22][25] - 两指夹爪:满足70%基础任务 成本优势明显 成为当前主流方案 [25][26] - 美的认为通用人形机器人必须配备五指手 工业场景则倾向专用末端 [22][23] 技术概念解析 - 具身智能:实现感知-决策-执行的完整闭环 需与物理世界持续交互 [30][33] - World Model:物理世界的数字重建 面临数据采集成本高难题 [40] - 强化学习:具身智能必备组件 但reward函数设计仍是关键挑战 [42][46] 中美产业对比 - 中国优势:机电产业链成熟(占全球人形机器人专利40%) 人才储备充足 政策支持力度大 [63][64] - 美国优势:AI基础研究领先 人力成本推动场景落地更快 [63][66] - 硬件创新中国占优(蔚小理等) 软件创新美国领先 全球市场成为共同目标 [66] 商业化落地展望 - 工业场景优先:上汽计划引入500台人形机器人 分阶段实现自动化 [9][60] - 家庭场景需突破:安全标准 隐私保护 个性化交互等核心问题 [61] - 数据采集瓶颈:需建立类似特斯拉FSD的规模化数据获取机制 [57]
商汤科技林达华:具身智能需数字空间与物理空间连接
21世纪经济报道· 2025-07-29 19:25
多模态AI发展趋势 - 大型语言模型正从单一模态向多模态融合演进 这是通向通用人工智能的必经之路[1] - 原生多模态架构如Gemini模型实现图像视频信息在预训练过程中的深度融合 形成更深层次跨模态建模能力[4] - 多模态模型在纯语言任务上表现已超越单一语言模型 国内厂商预计2025年下半年全面普及多模态架构[1][5] 技术突破方向 - 需将多模态融合从理解层面延伸至思考层面 结合逻辑思维与形象思维实现真正智能[4] - 推理能力需从单领域(如奥赛、编程)泛化至广泛生产生活场景 达到人类自由推理水平[7] - 空间感知能力是当前多模态模型明显短板 国际顶尖模型无法解决儿童可轻易完成的积木拼接等空间问题[7] 具身智能发展现状 - 具身智能被视为通用人工智能终极形态 商汤科技在2025世界人工智能大会正式发布"悟能"具身智能平台[2] - 数据获取存在物理瓶颈 机器人真机操作数据量远低于互联网数字数据 需借助互联网视频等多模态数据构建基座模型[8] - 空间感知能力缺失可能成为具身智能落地的关键障碍[2][7] Agent技术应用 - Agent作为大模型能力落地的关键技术载体 2025年被视为"元年"并迎来爆发[6] - 通用Agent在复杂实际场景中仍存在较大差距 需结合具体场景和行业知识进行迭代开发[6] - 实际落地中可靠性和成功率至关重要 若无法有效解决问题则无法体现价值[6]
21对话|商汤科技林达华:具身智能需数字空间与物理空间连接
21世纪经济报道· 2025-07-28 16:10
AI技术演进趋势 - 大型语言模型(LLM)已从单一语言模型迈向多模态融合阶段,这是通向通用人工智能(AGI)的必经之路[2] - 2025年下半年或将迎来多模态模型的全面普及,国内厂商正加速布局[2] - 原生多模态架构如Gemini模型已实现图像、视频信息在预训练过程的深度融合,形成更深层次跨模态建模能力[6] 多模态技术发展 - 未来多模态需从理解层面延伸到思考层面,实现逻辑思维与形象思维的结合[6] - 经过融合训练的多模态模型在纯语言任务上表现可超越单一语言模型,商汤日日新6.0已取消单独语言模型[6] - 语言模型是通向AGI的切入点,但最终需具备多模态能力才能完成对世界的完整理解和建模[4][5] 具身智能发展 - 具身智能被视为AGI终极形态,商汤已发布"悟能"具身智能平台正式入局[3] - 当前多模态模型空间感知能力不足,成为具身智能落地的关键障碍[8][10] - 具身智能数据获取存在物理瓶颈,需借助互联网多模态数据构建基座模型弥补真机数据不足[10] Agent技术应用 - 2025年被视为Agent技术"元年",其发展与大模型能力提升密切相关[7] - 通用Agent在复杂场景中仍存在差距,需围绕具体场景迭代并结合行业知识[7] - Agent的可靠性和成功率是价值落地的核心指标,无效Agent会增加用户负担[7] AGI实现路径 - AGI需突破推理能力从狭窄领域向广泛生活生产场景的泛化[8] - 当前技术需解决多模态模型空间理解能力不足的问题,该能力对具身智能至关重要[8] - 智能需走出数字空间实现与物理世界的连接,这是AGI的关键特征[10]