多模态
搜索文档
全球多模态基模抵近GPT3.5时刻,关注多模态产品化机会
国金证券· 2025-10-12 19:00
投资建议与核心观点 - 报告建议关注国内生成式大模型龙头科大讯飞[2] - AI硬件作为应用落地新载体,建议关注海康威视、虹软科技、禾赛等[2] - AI功能打磨有望带动付费率与Arpu值提升,建议关注迈富时等[2] - 计算机板块处于主业回暖改善、AI应用落地加速的周期[9] - 下半年经营强度预计在低基数和新技术落地加快背景下好于上半年[9] - AI落地进展相比前两年更多,下半年预计环比上半年有倍数增长[9] 行业关键事件与技术进展 - OpenAI于10月1日发布新一代AI视频模型Sora 2及社交应用Sora App,实现物理一致性、音画同步等重大突破[9] - 腾讯混元团队于10月5日发布开源文生图模型混元图像3.0,参数量达80B(推理激活13B),位列文生图综合榜与开源榜第一[9] - OpenAI在10月7日开发者大会发布多项更新,包括AgentKit、Codex正式版、Sora 2 API及GPT-5 pro API等[9] - Figure于10月10日发布新一代人形机器人Figure 03,具备感知3克压力的高精度触觉系统,可完成复杂家务任务[9] 细分行业景气度与市场表现 - 2025年高景气维持的赛道包括AI算力、激光雷达[9] - 加速向上的赛道有AI应用[9] - 稳健向上的赛道包括软件外包、金融IT、量子计算、数据要素、EDA、出海、信创[9] - 拐点向上的赛道包括教育IT、网安、企业服务[9] - 底部企稳的赛道包括智慧交通、政务IT、安防、建筑地产IT[9] - 略有承压的赛道包括工业软件、医疗IT[9] - 2025年9月29日至10月10日,计算机行业指数(申万)上涨1.47%,跑输沪深300指数0.88个百分点[11] - 同期A股日均成交额为2.6万亿元,同比上升36.3%,环比上升19.0%[18] - 截至2025年10月9日,两融余额为2.4万亿元,同比上升47.0%,环比上升0.05%[18] 重点事件前瞻 - 第十届中国国际人工智能大会暨人工智能算力算法高峰论坛将于2025年10月28日在上海举办[25] - 第二十七届中国国际高新技术成果交易会将于2025年11月14日在深圳举办,预计展示面积40万平米,其中人工智能与机器人产业链展超6万平米[25]
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录
AI科技大本营· 2025-10-10 17:52
对话一:语言对于智能到底意味着什么 - 语言在时间维度上对智能至关重要,语言模型本质是序列模型,处理时间序列是表达智能的重要组成部分 [6][7] - 语言经过人类编码压缩,在智能表征上比视觉更高效,语言边界就是世界边界 [7] - 训练语言数据非常方便,互联网有海量语言数据,用语言训练比用视频便宜得多 [8] - 语言模型会形成抽象概念,当用多种语言训练时,模型在抽象空间解决问题然后表达出来 [9] - 模型概念与人类概念可能存在差异,特别是在与物理世界紧密相关的领域 [10] 对话二:多模态与世界模型的挑战 - 现代大语言模型如GPT-4已经是多模态模型,能接收和生成图像音频,但模态间迁移水平不尽如人意 [12] - 当前多模态处理通过VQ-VAE编码器,感觉不令人满意,需要更深入融合到模型中 [13] - 语言对多模态非常重要,离开语言视觉只是像素信号,语言赋予视觉对象语义含义 [14] - 现代大语言模型在某种程度上就是世界模型,文本数学方面表现优异,但作为物理模型表现不如语言模型 [14] - 通过架构改进、更好数据将弥合世界模型与语言模型差距,Sora等模型显示正在取得重大进展 [15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔" - Transformer发明时已考虑自动化编程,认为比处理任意对话更容易 [17] - 语言模型将覆盖大量编程工作,但数学和编程语言是比纯自然语言更好的沟通工具 [19] - 未来复杂系统级软件需要专业程序员使用Copilot模式,应用软件可由大众用户自然语言编程完成 [20] - 编程重点在于沟通和抽象,不一定需要新编程语言,可以使用现有语言但要用得非常好 [20] - 新编程语言需求来自新计算架构,而非AI编程需求 [20] 对话四:Agent的泛化困境:是方法问题,还是根本限制 - Agentic Model缺乏坚实技术实体,指推理过程中调用外部工具的推理模型 [21] - 问题在于使用未经训练工具时缺乏学习信号,效果不好 [22] - 强化学习可泛化到更大系统,但需要训练期间接触所有工具,目前难以实现 [22] - 需要更多工作让系统可训练,即使没有太多训练也可能非常有用 [23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖 - 预训练Scaling Law和强化学习Scaling Law不完全是一回事,有不同限制 [25] - 预训练Scaling Law存在经济限制,离经济极限不远,可将大模型蒸馏成更小模型 [25] - 推理模型不增加参数数量,让模型运行更长时间会变得更好,但有架构限制 [27] - 推理Scaling Law与预训练Scaling Law有非常不同限制,呼唤新研究和不同架构 [28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异 - 具身智能将更接近当前LLM,物理世界数据比互联网少,但数据效率在提高 [29] - 需要从多模态模型开始,加入RL训练,允许模型在行动前进行推理 [30] - 现实障碍是推理速度太慢,需要层级式架构输出动作 [30] - 第一个版本建立在现有成果上做调整,之后会有新一代更高效模型 [31] 对话七:强化学习:是超级优化器,还是科学发现的引擎 - 推理模型看作新架构,有思维链推理过程,用强化学习方式可行 [32] - RL数据效率高得多,可从有限数据中学习,如1000道数学题 [33] - RL只得到一个奖励,没有约束,能很好优化就可以学习 [33] - 处于范式早期阶段,需要尝试发现改进才能更高效 [34] 对话八:AI的组织跃迁:如何实现大规模Agent协作 - 最大挑战是开发下一代推理模型,需要Transformer创新级别的推理模型 [35] - 需要更多并行性,不能等模型思考一周才得到奖励 [36] - 需要为并行过程提供更多信号,结合架构融入并行过程 [36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远 - 推理模型可使用工具访问记忆,通过RL训练会学得很好 [37] - 工具方式解决记忆问题对于大多数情况足够好,模型能区分互联网记忆和自己记忆 [37] - 未来架构可能做得更好,但目前有可行解决方案 [38] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习 - 利用上下文作为持续学习记忆是进展,但效率不高 [39] - 记忆工具正在出现,模型在推理中访问记忆 [40] - LoRA模块等经济方式修改权重已更可行,每个人可微调自己模型 [40] - 需要更优雅方式实现持续学习,涉及实践和研究考量 [41]
B端战场的AI叙事:一场极致的效率和场景争夺战|AI观察系列策划②
每日经济新闻· 2025-10-09 19:05
AI投资与商业化趋势 - AI领域投资重点转向B端项目,核心考量商业化闭环和变现能力[1] - Token调用量成为衡量AI公司实际采用规模与增长潜力的核心标尺,如同互联网时代的用户数[1] - 大模型调用场景发生显著变化,从离线的打标和娱乐性场景,转向在线任务大幅上升,互联网公司和消费电子企业的大部分交互已开始由大模型取代[1] Token消耗规模与增长 - 中国日均Token消耗量从2024年初的1000亿增长至2025年6月底的突破30万亿,一年半时间增长超过300倍[2][4] - 2025年上半年中国企业级大模型日均调用量较2024下半年大增363%,已超过10万亿Tokens[4] - 大模型企业级市场呈爆发式增长,调用量最大的公司是互联网和消费电子企业,其次制造业、传统企业、政府部门和金融机构的调用量也有增长[4] 大模型市场竞争格局 - 中国大模型市场前三名份额合计超40%,其中阿里通义占比17.7%,字节豆包占比14.1%,DeepSeek占比10.3%[4] - 企业正从追求单一最强模型,转向为特定业务场景寻求最优解,对不同模态、尺寸和落地场景匹配的需求将爆发[4] - 模型供给呈现丰俭由人态势,快速匹配多元化市场需求[5] 行业应用与AI Agent发展 - 中国AI应用以生产力工具为主导,垂类行业的B端需求强劲,AI+工业的政策空间和应用空间较大[5] - 企业基于业务需要和成本考量,更倾向选择适配自身需求的底层大模型,而非一味追求大尺寸和强性能[6] - AI Agent被视为有望替代原有SaaS系统的技术,企业正加大布局,中基宁波集团计划在内部搭建100个有效智能体[5][6][7] 企业选型考量与模型趋势 - 企业在模型侧的选择主要考量五个方面:稳定性、效率、成本、服务响应和易用性[6] - 模型小型化成为未来几年的关键趋势,务实和好用成为B端企业调用大模型的基本原则[6] - 对于需要快速识别的场景使用小模型以降低Token消耗成本,对于深度推理则使用满血版模型[6] SaaS行业变革与商业模式 - SaaS行业长期面临用户付费意愿低、企业盈利难的问题,AI浪潮下有望改善边际,通过帮客户创造新价值来分得更多利润[7] - 钉钉颠覆SaaS商业模式,推行按结果付费,发布十余款AI产品,强调商业结果可交付[9] - AI应用的竞争最终将回到行业认知、模型工程能力以及实际应用效果,用户只会为效果买单[11] 技术演进与未来挑战 - AI技术从单一的大语言模型向多模态演进,从Copilot切换到Agent,从纯软件端向软硬件一体摸索[1] - AI Agent在稳定性方面有严格要求,不同企业对智能体的算力部署方式会提出严格要求,能力还需不断迭代[6][10] - 垂类行业应用中,知识库和数据库的沉淀积累将成为AI Agent企业的护城河,从数据到语料的处理是主要挑战,50%至70%的客户指导时间用于处理此关系[8][12]
算法小垃圾跳槽日记 2024&2025版
自动驾驶之心· 2025-10-06 12:05
行业技术趋势 - 计算机视觉领域传统算法需求锐减,检测、分割等已被归类为传统算法,类似SVM、SIFT的地位 [8] - 市场需求高度集中于大模型、多模态、文生图/视频以及自动驾驶端到端大模型等前沿方向 [8] - 自动驾驶公司的感知岗位是计算机视觉领域内少数仍有需求的领域 [8] 企业招聘动态 - 2024年求职机会相比2021年显著增多,各大厂及知名中小厂均能提供较多面试机会 [8] - 面试流程密集,存在单日进行多达8场面试的情况,反映出招聘活动活跃 [4] - 企业招聘考核标准趋严,几乎所有公司都要求手写LeetCode代码题,高频题目包括实现NMS、MultiHeadSelfAttention、MLP的前向和反向、岛屿数量等 [9][11] 业务部门价值 - 公司中台部门业务价值受到质疑,缺乏自有业务,主要承接其他部门已深度优化的算法任务,难以形成系统性业务积累 [6] - 行业出现去中台化趋势,中台部门对求职者吸引力较低 [6] - 相比中台,拥有稳定业务的部门(如内容安全)更具吸引力 [6]
东方证券:维持快手-W(01024)“买入”评级 目标价99.07港元
智通财经网· 2025-10-02 16:39
财务预测与估值 - 东方证券预测快手25至27年经调整归母净利润分别为196亿元、230亿元和259亿元 [1] - 基于可比公司给予公司26年17倍市盈率估值,对应合理价值为3911亿元人民币,折合4281亿港元 [1] - 目标股价定为99.07港元/股,维持"买入"评级 [1] 多模态AI业务发展 - 快手可灵通过底模迭代保持领先优势 [1] - 2.5 Turbo版本采取性能升级与降价30%的组合策略,有望进一步带动用户增长和流水上行 [1] 核心主业AI赋能 - AI技术持续推动核心主业提效 [1] - 内容推荐系统OneRec为社区生态健康度提供支撑 [1] - 商业化系统的AI重构为主业稳健增长带来长效动能 [1]
XTransfer 发布自研外贸金融大模型 TradePilot 2.0,技术架构全面升级
AI前线· 2025-09-29 12:28
TradePilot 2.0 技术架构升级 - 技术架构进行系统性革新,通过稀疏激活、门控单元等技术提升计算与存储效率 [4] - 训练算法结合强化学习与对抗训练,增强模型稳定性并提升对低频长尾任务的处理能力 [4] - 采用高效并行计算架构,整合混合精度训练、分布式数据并行等策略,训练效率较上一版本显著提升 [4] - 采用训练-推理一体化设计,在训练阶段融入推理优化逻辑,使模型能以更低计算消耗实现更高处理吞吐量 [4] 数据体系构建 - 打造全流程自主数据生产体系,涵盖采集、清洗、增强等环节形成闭环 [5] - 数据来源涵盖外贸知识库、外贸金融数据、行业公开数据等,构建多模态数据池 [5] - 清洗环节结合自动化筛选与人工审核剔除低质量数据,增强阶段利用主动学习、数据合成技术扩大规模并优化分布 [6] 多模态能力与应用拓展 - 多模态能力实现质的飞跃,能高效识别和解析商品图片、发票、报关单、物流单据及合同文件等贸易相关视觉信息 [9] - 在反洗钱风控领域构建更严密的风险识别体系,依托强大的上下文推理和自然语言处理能力对交易信息进行深度解析 [9] - 采用多模态信息抽取技术,在企业客户认证阶段精准提取证件信息,在收款创建订单阶段自动化识别PI单据信息 [10] - 深度嵌入智能客服体系,实现语义识别和理解能力的飞跃,智能客服解答率从原本的13%大幅跃升至90% [10] 行业趋势洞察 - 专业化分叉是大模型演化的重要趋势,金融等高合规行业正构建针对具体任务的行业/专业大模型 [10] - 多模态跃迁正推动大模型迈向新阶段,从文本到视频与高精度传感器的多模态输入让模型能够"看见过程" [11] - 未来系统形态为"边缘感知+云端认知",企业的差异化优势将体现在感知侧覆盖、数据治理与端云协同能力上 [11]
打造人工智能产业高地!上海AI产业规模上半年同比增长12.3%
证券时报网· 2025-09-26 21:11
产业规模与增长 - 2024年上海人工智能产业规模突破4500亿元,今年上半年同比增长12.3%,已提前完成"十四五"目标 [1] 政策支持与发展方向 - 上海正着力打造人工智能"上海高地",坚持高质量发展导向,持续优化政策环境,夯实算力基础设施,强化模型与算法创新,构建开放协同的产业生态 [1] - 上海将进一步推动人工智能在更多场景实现规模化、商业化落地,为经济提质增效注入强大动力 [1] - 政策举措包括降低智能算力使用成本、扩大人工智能大模型应用、支持采购高质量语料等 [1] 技术前沿与生态建设 - 多模态被视为未来大模型发展的重要方向 [2] - 具身智能是人工智能发展的必然趋势,人形机器人是其重要载体 [2] - 华为将持续开放昇腾AI的基础软硬件平台,与运营商及产业链伙伴协同,共同推动智算服务高质量发展 [2] - 上海市已形成技术迭代、应用示范与产业升级相互促进的良性格局,并将继续推动人工智能与千行百业的深度融合 [2]
量子位「MEET2026智能未来大会」启动!
36氪· 2025-09-18 18:19
人工智能技术发展现状 - 人工智能技术已从工具发展为深度理解人类需求的智能伙伴 渗透进生产和生活 跨越软件 硬件 机器人等不同形态[1] - 多模态 AR/VR 空间计算等新兴技术涌现 数字世界与物理世界的界限正在逐步模糊并融合[1] - 人工智能正成为基础设施的一部分 重塑人类未来的工作 生活和社会运作模式 推动产业深度变革[3] MEET智能未来大会概况 - MEET2026智能未来大会以"共生无界 智启未来"为主题 将于2025年12月在北京举办[3][16] - 大会已举办七年 是年度影响力科技商业峰会 每年吸引上千名科技从业者参与 百万观众线上围观 近百家合作媒体联合曝光[6][9] - 大会将聚焦人工智能+ AI Infra 智能终端 智能驾驶 低空经济 能源电力等前沿科技话题[11] 参会嘉宾阵容 - 往届嘉宾包括李开复博士 张亚勤教授等产业领袖 倪光南院士 谭建荣院士等学术领路人[6] - 科技行业领军企业代表来自百度 阿里 腾讯 华为 京东 美团 小米 商汤等公司[6] 大会核心内容 - 将发布《2025年度AI十大趋势报告》 提名正在释放巨大潜力的十大AI趋势 并进行深入分析[14] - 报告将结合技术成熟度 落地现状 潜在价值等因素 提名代表机构和最佳案例[14] - 探讨方向包括人机共生 虚实结合 产业共生 AI不再局限于单一个体而是贯通产业链催生新业态[11]
量子位「MEET2026智能未来大会」启动!年度榜单征集中
量子位· 2025-09-18 16:00
技术发展趋势 - 人工智能正从工具演变为能深度理解人类需求的智能伙伴,跨越软件、硬件、机器人等形态 [2] - 多模态、AR/VR、空间计算等新兴技术正推动数字世界与物理世界的融合,界限逐步模糊 [4] - 智能技术已突破特定领域限制,跨越产业、学科和场景边界,催生全新生态和机遇 [3] 行业影响与变革 - 人工智能正成为基础设施的一部分,重塑人类未来的工作、生活和社会运作模式 [7] - 企业、技术与社会之间的连接与共生成为推动发展的核心动力 [5] - 技术不再局限于单一环节,而是贯通产业链,催生新业态和新生态 [14] MEET2026智能未来大会 - 大会主题为“共生无界,智启未来”,将于2025年12月在北京举办 [7][14][24] - 作为第七届年度科技商业峰会,将汇聚科技、产业、学术领域领军人物,探讨AI+、AI Infra、智能终端等前沿话题 [9][13] - 往届大会吸引上千名科技从业者现场参与,百万观众线上围观,近百家合作媒体联合曝光 [12] 2025人工智能年度榜单 - 榜单从公司、产品、人物三大维度评选五类奖项,包括领航企业、潜力创业公司、杰出产品等 [16][17][18] - 评选结果将在MEET2026大会上公布,报名截至2025年11月17日 [20] 2025年度AI十大趋势报告 - 量子位智库将在MEET2026大会上发布报告,提名十大释放巨大潜力的AI趋势 [22] - 报告将结合技术成熟度、落地现状和潜在价值,对趋势进行深入分析并提名代表机构 [22]
可感知 可交互 可延伸 文旅新消费 “玩”出科技感
中国青年报· 2025-09-16 09:01
行业核心观点 - 数字技术正深刻重塑文旅产业形态,科技创新成为破解发展痛点、激发消费活力的核心动力 [1] - 文旅消费正实现三大转向:从“走马观花”走向“深度沉浸”,从“单点服务”迈向“全域智能”,从“线下局限”跨入“跨域联动” [1] - 人工智能、虚拟现实、超高清、多模态等新技术作为“体验重构者”、“需求激活者”和“边界拓展者”,为旅游新消费注入强劲动能 [1] 沉浸式体验重构 - 超高清、VR、数字光影Mapping等技术构建“可进入、可互动、可感知”的沉浸式场景,将游客从“旁观者”变为“参与者”,带动门票、二次消费及复游率提升 [2] - 国家大剧院“第二现场”利用4K超高清技术覆盖全国31个省级行政区,联动200余家影剧院和高校,汇集超6万观众,打破演艺消费时空限制 [2] - 798超维视界·VR院线通过VR技术将“一次性体验”变为“可持续消费”,降低内容在不同场馆的适配和发行成本,实现内容跨空间、跨设备快速复制 [2] - 京东大溶洞应用数字光影Mapping与雷达交互技术,使岩壁成为“可对话”屏幕,游客挥手可触发地质演变动画,将游览时长从2小时延长至3小时 [3] - VITURE ONE的XR智能眼镜结合AI算法,将平面文旅纪录片转化为立体鲜活视觉效果,为文旅内容传播和景区数字展示提供新硬件解决方案 [3] 智能化服务渗透 - 人工智能、大数据技术打造“千人千面”的智能服务体系,将服务从“满足消费”升级为“激活消费” [4] - 科大讯飞“星火伴游”产品依托“三层知识架构”(目的地数据库+行业模型+通用大模型),在保证知识准确性的同时动态调整讲解策略,满足个性化深度了解需求 [4] - 猎户星空“豹小秘2”机器人在北京艺术中心部署3台,每月交互量达8000人次,公司共有超6万台机器人运行,日均交互量超1700万次,总服务人次达5.5亿 [4] - 中国联通为国家博物馆打造“中华文明云展”,对700多件文物进行数字化处理(其中600多件完成高精度扫描,60多件实现3D建模),并推出两位数智人提供全流程陪同讲解服务 [5] 跨域融合突破 - 新科技推动文旅与交通、游戏、内容创作等领域深度融合,形成“旅游消费+”新生态,使消费从“单点付费”延伸至“全链条买单” [5] - 中国旅游集团在“文旅+交通”实践中,依托列车数字运营系统和大数据技术推出“车票+X”组合(如景区门票、酒店套票),以一张车票串联多元主题旅行方式 [6] - 瀚翔科技通过自研游戏《逆境突破》实践“文旅+游戏”,在玩家密集地点通过动态广告牌展示长城、故宫等景点,玩家可主动互动并领取游戏装备折扣,将广告从干扰转变为价值点 [6] - 追星迹公司研发的360度球幕以东南亚为核心市场,球幕内部以超过1.9米的半球全面覆盖画面,实现真正意义上的360度环绕影像,推动旅游消费场景走向全球 [6]