Workflow
多模态
icon
搜索文档
起底「AI六小虎」最大融资幕后资本推手
36氪· 2026-01-26 19:16
公司近期重大融资与战略动向 - 阶跃星辰于2026年1月26日完成超50亿元人民币的B+轮融资,刷新了近12个月内大模型初创公司的单轮融资金额纪录 [3][4] - 参与B+轮融资的机构阵容庞大,包括上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资人,以及腾讯、启明创投、五源等老股东的进一步跟投 [5] - 公司同时宣布千里科技董事长印奇挂帅,担任阶跃星辰董事长,其技术、运营经验及商业资源将为公司发展提供支持 [8][10] 公司发展历程与战略定力 - 公司成立于2023年4月,但直至近一年后才在行业内现身,起步相对较晚 [22][23] - 公司首轮融资主要来自联创的“朋友圈”,包括红杉中国、启明创投以及IDG,并凭借此轮融资成为“六小虎”中唯一靠首轮融资就成为独角兽的公司 [24][26] - 公司自成立之初便确立了清晰的AGI技术路线:单模态—多模态—多模理解和生成的统一—世界模型—AGI,且从未改变 [25] - 在2024年行业普遍进行“投流大战”以获取C端用户时,公司基于对C端产品经济模型和模型训练助益的审慎分析,选择了克制态度,仅用很少资源进行产品验证,坚持聚焦于基础模型尤其是多模态的研发 [32][33][34] - 公司坚持“稳扎稳打”的策略,虽可能错过一些时间窗口,但被视为一种可贵的优势 [36] 技术路径与核心能力 - 阶跃星辰是“六小虎”中唯一真正聚焦多模态的公司 [15] - 公司从系统层面大规模自建AI Infra(人工智能基础设施),是唯一大规模投入于此的创业团队,这使得其模型推理效率极高 [36] - 2025年7月,公司发布第三代基座模型Step-3,这是一个融合了多模态能力的推理模型,其推理效率对比DeepSeek-R1达到后者的300% [36] - 公司拥有强大的核心技术团队,包括CEO姜大昕(前微软Bing等产品研发主导)、CTO朱亦博(前字节跳动AI Infra负责人)、首席科学家张祥雨(ResNet核心作者) [41] 独特的商业化定位与进展 - 公司选择了独特的“AI+终端”生态位,切入物理世界终端,其定位被形容为“中国的xAI+特斯拉” [2][16][17] - 公司通过理性排除法,未选择主流的ToC订阅/广告或ToB API售卖模式,而是确定了端侧落地和按效果付费的商业化路径 [44] - 公司选择与汽车、手机等行业的头部合作伙伴(如吉利汽车、OPPO)进行深度共创,而非浅尝辄止地赋能千行百业 [45][47] - 截至2025年底,公司终端API的调用量连续三个季度增长了近170% [48] - 在手机领域,已与国内60%的头部手机品牌达成深度合作,模型装机量超过4200万台,日均服务近2000万人次 [48] - 在汽车领域,公司设定了2026年模型上车达到100万台的目标 [48] 行业竞争格局与资本态度 - 随着智谱、MiniMax港股IPO,以及月之暗面、阶跃星辰获得大额融资,留在“决赛圈”的这四家公司账上现金储备相当 [7][39] - 一级市场对大模型初创公司的投资标准愈发严苛,核心考量在于独立大模型的生存空间、商业化逻辑的独特性及商业化质量的竞争力 [11][12] - 月之暗面在2024年凭借C端应用Kimi走红,通过滚动融资将估值拉至“六小虎”之最,其中年初由阿里巴巴领投的超10亿美元融资将其估值推高至25亿美元 [30][31] - 阶跃星辰的股东结构多元且平衡,包含美元基金、国资和产业资本三方,大部分股东要么在“六小虎”中只投了阶跃,要么在阶跃投入最多 [18][37] - 公司B轮以来的融资策略强调引入“聪明的、高质量的钱”,股东多自带产业或战略协同资源,例如华勤技术、厦门国贸、无锡国资及香港的HKIC等 [49][50] 未来展望与行业趋势 - 大模型赛道已从用漂亮数据装点的“表演赛”进入需要实打实业绩的“淘汰赛”阶段 [39] - 聚焦物理世界终端的Physical AI被视为一个极具想象力的市场,可能使智能终端成为下一代流量入口 [52] - 阶跃星辰在深度共创之外,内部也正在探索新的硬件产品 [52]
起底「AI六小虎」最大融资幕后资本推手
36氪· 2026-01-26 18:47
文章核心观点 - 阶跃星辰完成超50亿元人民币B+轮融资,创下近12个月大模型初创公司单轮融资纪录,标志着大模型赛道资本热度持续,一级市场仍有能力支持头部公司发展 [1][3] - 公司通过坚持聚焦多模态技术、深耕物理世界终端(AI+终端)的非共识战略,形成了独特的技术与商业化路径,从而在激烈的行业竞争中获得了多元资本的强力支持 [4][5][6][7][8] - 随着行业从表演赛进入淘汰赛,阶跃星辰凭借扎实的技术积累、清晰的AGI路线图以及与产业伙伴的深度共创,正为决赛阶段的商业化验证储备弹药 [23][27][30][33] 融资事件与资本格局 - 阶跃星辰完成超50亿元B+轮融资,参与方包括上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资人,腾讯、启明创投、五源等老股东跟投 [1] - 公司股东结构呈现美元、国资、产业三方资本多元平衡的特点,大部分股东要么在“六小虎”中只投了阶跃,要么在阶跃投入最多 [7][24] - 此次融资距离启动仅半年,与月之暗面在2025年底官宣的5亿美元融资相继发生,显示一级市场对大模型赛道仍持乐观态度 [1][3] 公司战略与技术路径 - 公司是“六小虎”中唯一真正聚焦多模态的AI公司,其技术路线图从单模态到多模态,再到多模理解生成统一、世界模型,最终通向AGI,自成立起未变 [4][12] - 公司选择了一条“非共识”道路,不过度参与2024年的C端投流大战,而是坚持聚焦基础模型尤其是多模态的研发,认为C端投流经济模型不成立且对模型训练助益不大 [18][19][20] - 公司是唯一大规模投入自建AI基础设施(AI Infra)的创业团队,其第三代基座模型Step-3因系统层特殊设计,推理效率达到当时红极一时的DeepSeek-R1的300% [23] 商业化模式与进展 - 公司商业化独特性在于切入物理世界终端,走“AI+终端”路线,自称更像是“中国的xAI+特斯拉”,而非单纯追求做“中国的OpenAI” [5][6][28] - 公司通过理性排除法选择了端侧落地和按效果付费的商业模式,避开了其认为在国内天花板不高的ToC订阅、易陷价格战的ToB API售卖以及难以规模化的定制化项目 [29][30] - 商业化已取得初步成果:截至2025年底,终端API调用量连续三个季度增长近170%;与国内60%的头部手机品牌(如OPPO)深度合作,模型装机量超4200万台,日均服务近2000万人次;2026年汽车领域模型上车目标为100万台 [32] 团队与治理 - 旷视科技及千里科技创始人印奇以董事长身份加入,为公司带来技术、运营及商业资源,标志着公司进入更坚定、为长线作战准备的决赛模式 [3][27] - 公司核心技术团队实力雄厚,包括CEO姜大昕(前微软Bing等产品研发主导)、CTO朱亦博(前字节跳动AI Infra负责人)、首席科学家张祥雨(ResNet核心作者) [25] - 公司起步较晚,于2023年4月成立,但通过充分准备,首轮融资即成为“六小虎”中唯一靠首轮融资成为独角兽的公司,并用不到两个月训练出千亿参数模型Step-1 [9][11][13] 行业竞争与市场环境 - 大模型赛道经历三年试错,表演赛阶段结束,行业进入淘汰赛,智谱、MiniMax已港股IPO,阶跃星辰与月之暗面获得大额融资,留在决赛圈的四家公司现金储备相当 [3][27] - 一级市场投资标准愈发严苛,最大考量在于独立大模型是否有生存空间,以及商业化逻辑的独特性和质量竞争力 [3] - 市场观点认为,聚焦物理世界终端的Physical AI是一个鲜有公司踏足但极具想象力的市场,可能是下一代流量入口 [33]
OiiOii:一张通往“超级动画导演”的入场券 |「锦供参考」Vol.02
锦秋集· 2026-01-26 17:13
文章核心观点 - AI技术正在显著降低动画创作的门槛,使动画产业从传统的重资产、工业化流水线模式,向“意图主导”和“单人工作室”模式转变 [4][5] - OiiOii公司通过构建一个以用户为“导演”、多个AI Agent为协作系统的产品,旨在服务中国泛ACG领域约180万个活跃创作者,释放其创造力并极大提升内容生产效率 [4][31] - 视频AI模型将呈现多元化发展,垂直领域的AI Agent(如动画)因其对特定工作流和审美的深度理解,拥有独立于大模型厂商的生存和发展空间 [49][50][51] AI动画行业变革 - **传统流程复杂**:传统3D动画制作链条长,涉及剧本、角色设计、建模、分镜、贴图、灯光、渲染、剪辑等多个高度工业化的复杂环节 [8][9] - **AI压缩流程**:AI技术显著压缩了传统动画制作流程,尤其是模型层工作(如灯光、渲染),但核心创作逻辑(故事、角色设计、场景)并未改变 [10][11][12] - **降低门槛与改变角色**:AI使得产业链上原本只负责单一环节的专业人士(如建模师)有机会成为“导演”,完成个人创作,动画创作从集体重资产消耗进入“意图主导”时代 [5][13] - **提升行业产能**:AI有望缓解动画行业因高昂单位成本和漫长制作周期导致的产能不足问题,例如将现有账号的更新频率从周更提升至日更 [13][31] - **技术发展路径**:视频生成模型可能通过学习大量优秀动画内容直接生成结果,而非必须完全解决底层物理问题,这为动画AI发展提供了新路径 [17] - **中外技术氛围差异**:与美国(如迪士尼与高校深度合作)不同,中国动画行业与顶级高校间的技术合作几乎缺失,技术氛围尚未建立 [18] OiiOii产品战略与用户洞察 - **产品定位与理念**:产品定位为服务PUGC(专业用户生产内容)创作者,采用AI Agent模式,将用户设定为“导演”,AI Agent作为其执行团队,旨在增强用户对作品的“拥有感” [23][26] - **目标用户规模**:核心目标用户是中国泛ACG领域约180万个活跃账号,这些账号通常由2-3人维护,周更一次,使用工具后有望实现日更甚至更高频更新 [31] - **用户画像扩展**:工具不仅服务现有动画创作者,也吸引了大量无动画经验的潜在用户,包括性格内敛的北漂者、小学老师、专业插画师、父母等,用于制作Vlog、教学课件、个人故事和儿童内容 [4][41][42][43] - **效率提升显著**:对于目标用户群体,使用工具后内容生产效率成本预计能降低百倍 [32] - **技术架构挑战**:产品在平衡小白用户“一键生成”的惊喜感与专业用户“高度自由编辑”需求上面临挑战,技术架构已迭代多次以寻求稳定工作流与自由编辑的兼顾 [33] - **分镜生成优势与难点**:产品成熟度最高的环节是分镜Prompt扩写,能帮助用户用一句话表现故事性和情绪性;当前主要痛点是平衡分镜间的连贯性与场景切换带来的故事起伏感 [34] - **用户反馈与社区运营**:通过“听劝周报”等形式高度响应用户反馈,与用户“共建”产品,但有时过度听劝也可能导致产品调整失误 [35][36] - **海内外用户差异**:日本等海外用户更关注视觉精美度和风格多样性,而国内用户更注重故事信息量和“梗”,容易产出爆款内容 [38] AI视频领域竞争格局与Agent价值 - **对“一句话生成视频”的看法**:该模式对于20-30秒的简单视频成立,但对于4-5分钟的长创作不成立,且会削弱创作者的参与感和作品“拥有感” [48] - **垂直Agent的生存空间**:视觉模型因数据、标注标准和训练流程的细微差异会导致结果显著不同,因此很难一家独大,会呈现风格和领域专精的多元化格局,这为垂直领域Agent提供了发展机会 [49][50] - **模型与产品的边界**:在多模态领域,模型与产品之间有较清晰界限。视频创作需要多个模型协作和复杂的前置任务编排,这类高质量流程数据需通过产品在真实交互中积累,短期内模型厂商难以直接覆盖 [54][55] - **未来生态类比**:基础模型提供“食材”,而垂直Agent则是决定风味的“菜谱”或“餐馆”,未来视频Agent生态将像“小吃街”一样百花齐放,各自服务不同的内容形态和人群需求 [51][53] 创业与投资视角 - **创业体验**:创业者(CEO)会经历独特的孤独感,并在应对公司困境的过程中获得对抗焦虑的“抗体”,勇气和深度反思是推动迭代的关键力量 [56][57][58] - **投资动力**:投资人的核心动力包括好奇心(探索未知领域)、与优秀创始人交流获得的启发以及陪伴企业成长的过程 [61][62] - **2026年AI趋势展望**: - 模型智能与人类认知的差距将越来越小,推动大量可落地产品出现 [66] - 资本侧利好(如并购、上市)增强了创业者信心,AI行业目前受宏观经济影响较小,但最终将融入更广阔的科技生态 [67] - 看好的应用方向包括:新型多模态内容消费平台(探索互动性、模糊视频与游戏边界)以及主动式AI(能够理解上下文并进行预判) [68][69]
阶跃星辰完成超50亿人民币B+轮融资 印奇出任董事长
凤凰网· 2026-01-26 14:20
公司核心人事与战略变动 - 千里科技董事长印奇正式出任AI创业公司阶跃星辰董事长 将同时执掌一家头部大模型公司和一家聚焦“AI+车”的智能化企业 [1] - 印奇将站在产业整合者的位置 推动两家公司深度协同 加速大模型能力走向物理世界 [1] 公司融资与市场地位 - 阶跃星辰已于近期完成B+轮融资 金额为数十亿元人民币 [1] - 阶跃星辰自2023年创立以来 一直被视为中国AGI赛道的重要玩家 [1] - 公司汇聚了微软前全球副总裁姜大昕 ResNet作者张祥雨 AI Infra专家朱亦博等顶尖人才 [1] 公司技术与产品进展 - 阶跃星辰的Step系列大模型在多项国际评测中表现突出 因坚持原生多模态 快速搭建全模态矩阵 在业内有“多模态卷王”之称 [1] - 2026年1月 阶跃星辰原生语音推理模型 Step-Audio-R1.1登顶全球知名权威大模型评测榜单Artificial Analysis Speech Reasoning榜首 超越Grok Gemini等主流一线模型 [2] - 2025年12月 阶跃星辰开源了Step-GUI系列模型 [2]
李飞飞世界模型公司一年估值暴涨5倍,正洽谈新一轮5亿美元融资
36氪· 2026-01-26 08:45
公司融资与估值动态 - World Labs正以约50亿美元估值进行新一轮融资,融资规模最高可达5亿美元 [1] - 若融资完成,公司估值将从2024年的10亿美元跃升至50亿美元,实现一年多时间5倍增长 [2] - 此前公司已完成累计2.3亿美元融资,估值达到10亿美元 [3] - 公司成立于2024年4月,当月完成首轮融资,估值约2亿美元 [3] - 2024年6-7月,公司完成由NEA领投的1亿美元融资,估值超10亿美元,跻身独角兽 [6] 投资方背景 - 早期投资方包括Andreessen Horowitz (a16z) 和 Radical Ventures [6] - 后续融资投资方包括英伟达、沙特Sanabil Investments、新加坡淡马锡 [6] - 个人投资者包括Google首席科学家Jeff Dean、演员兼投资人Ashton Kutcher、AI教父Geoffrey Hinton [6] 技术路线与产品 - 公司核心研发方向为“世界模型”,旨在构建能在三维世界中导航和决策的AI系统,即“大世界模型” [6] - 世界模型致力于让AI理解真实物理世界的结构与演化方式,而非仅生成图像 [6] - 公司已推出首款3D世界生成模型Marble,可根据文本或图像提示生成可探索的3D世界 [7][9] - Marble采用3D高斯溅射技术,用数百万计的半透明点表示场景结构,兼顾渲染效率与视觉效果 [9] - 该模型同时输出“碰撞网格”,专用于物理仿真和机器人模拟 [9] - 公司提供Chisel工具,允许用户先用简单几何体搭建骨架,再生成不同风格的细节版本 [9] - 公司近期开放了World API,开发者可通过文本、图像或视频在应用中生成可探索的3D世界 [9] 战略愿景与行业定位 - 公司创始人认为世界模型是实现空间智能的关键,是继大语言模型之后AI下一个十年的核心主线 [10] - 具备空间智能的世界模型需拥有三种能力:生成遵守物理定律的世界、处理多模态输入、预测世界随时间演变或互动的状态 [11] - 世界模型被视为“基础设施型能力”,其影响将扩散至多个方向 [12] - 应用方向包括AIGC(如3D资产生成、游戏世界构建、影视制作)和具身智能(如机器人、仿真环境) [12][13] - 在具身智能领域,世界模型提供对环境的可预测表示,是叠加有效决策与控制的基础 [13] 行业竞争格局 - 世界模型领域存在不同技术路线,前Meta首席科学家Yann LeCun创办的AMI Labs正以约35亿美元估值进行融资 [15] - LeCun的路线采用隐式世界模型,基于联合嵌入预测架构在抽象潜在空间中预测世界演化,而非还原每个像素 [16] - 当前世界模型版图大致分为三层:可观看编辑的世界界面(如Marble)、可反复试错的模拟器、以状态与预测为核心的认知世界模型(如JEPA路线) [18] - 资本押注反映了对不同世界模型技术路径的前瞻性布局 [18]
学界大佬吵架金句不断,智谱和MiniMax太优秀被点名,Agent竟然能写GPU内核了?!
AI前线· 2026-01-23 17:18
文章核心观点 - 文章围绕“通用人工智能(AGI)能否成为现实”展开了一场深度辩论,两位来自学术界与产业界的一线研究者基于对算力、模型架构、应用落地的不同理解,阐述了各自对AGI定义、发展现状及未来趋势的判断 [6][7] - 尽管对AGI的实现路径存在分歧,但双方均认为,相较于抽象定义,AI技术(尤其是智能体)的实际“实用性”及其对工作方式的变革才是关键,并一致看好小模型、开源模型、新硬件及多元化架构的未来发展 [15][23][55] 关于AGI定义的争论 - **定义视角**:AGI的定义主要有两种主流视角,一种关注模型覆盖的认知任务广度,另一种则从经济角度出发,看其是否引发新的工业革命并改变生产方式 [14][35] - **共识与分歧**:双方达成共识,认为AGI的具体定义并不重要,关键在于它是否改变了人类的工作方式 [15][55]。丹·傅认为,以5-10年前的标准看,当前的语言模型在写代码、生成语言等方面已实现早期设想的AGI,并可能引发软件工程领域的工业革命 [34]。蒂姆·德特默斯则认为,当前关于AGI的狂热预测源于特定社群的信息茧房,缺乏对计算现实的考量 [36] 算力增长的潜力与极限 - **算力极限论**:蒂姆·德特默斯认为“计算是物理的”,内存迁移、带宽、延迟及冯·诺依曼瓶颈决定了算力不可能无限扩张,指数增长终将放缓,Scaling Law也不例外 [10][37]。他指出,从DRAM到HBM等硬件创新已接近物理极限,量化技术(如4位精度)也已发展至尽头,功能和硬件潜力均已被充分挖掘 [40][42][43] - **算力潜力论**:丹·傅认为当前谈“算力见顶”为时过早,现实系统中算力被严重低估和浪费,大量性能消耗在内核调度与系统开销上 [12]。他指出,当前评测的“最强模型”多基于一两年旧的算力集群训练,未能代表当下硬件的真实上限 [12][49]。通过新一代硬件(性能提升约2–3倍)、系统与工程优化(算力利用率提升约3倍)及更大规模集群(规模效应约10倍)三者叠加,理论上可用算力有接近90倍的提升空间 [13][18][46] 智能体(Agent)的发展与应用 - **拐点时刻**:丹·傅指出,2025年6月是Agent发展的关键拐点,当时代码智能体成功攻克了被视为编程领域终极难题之一的“GPU内核编程”,使其个人工作效率提升了5倍,其团队也能快速完成原本需耗时数月的复杂系统开发 [17][20][62][63] - **高度通用性**:蒂姆·德特默斯认为代码Agent本身就是高度通用的Agent,因为代码几乎可以描述和解决所有数字化问题,并断言超过90%的代码和文本本应由Agent生成 [20][66] - **应用与管理范式**:双方将Agent比作“需要精细化管理的实习生”,人类需提供明确背景、拆解任务并设定约束,而将注意力聚焦在方向把控与结果校验上 [21]。丹·傅强调,专业知识越深厚的专家,Agent能为其创造的效率增量就越显著 [21][74] - **必备技能**:蒂姆·德特默斯强调“要么善用Agent,要么被时代淘汰”,使用Agent并有效检查、编辑其输出(约10%的工作)将成为未来核心技能,能带来巨大的生产效率提升 [20][67][68] 人工智能行业未来趋势预判 - **小模型与开源模型**:双方均认为小模型将成为行业新热点,针对特定领域数据训练的小模型部署难度低、性能出色,将更具吸引力 [23][81]。开源模型(如GLM-4.7)的能力将进一步飞跃,并开始媲美最优秀的前沿模型 [23][26][83] - **硬件多元化与专业化**:硬件赛道将走向多元化发展,训练与推理环节的专业化分化会加剧 [23][24]。推理芯片将更侧重在手机、笔记本电脑等终端设备本地运行 [61] - **架构创新**:Transformer架构独霸天下的时代将落幕,状态空间模型(SSM)、线性注意力及各类混合架构等新架构将登上舞台 [25][84][86]。中国团队在架构创新上更敢于探索多种可能性,通过架构创新或极致性能让开源模型脱颖而出 [26][85] - **多模态与端侧AI**:多模态领域(如视频生成)及端侧AI(在笔记本电脑、手机等设备上运行的AI)预计将有进一步发展 [23][83] - **中美发展路径差异**:相比美国“先做出最强模型,再等待应用出现”的思路,中国模型团队的发展思维更务实,更关注模型能否真正落地并在现实场景中产生价值 [26][55]
软件ETF(515230)涨超1.6%,近10日净流入超28亿元,海外多模态有望在2026年进一步迭代
每日经济新闻· 2026-01-22 12:58
软件ETF表现与资金流向 - 1月22日,软件ETF(515230)当日价格上涨超过1.6% [1] - 从资金面看,该ETF近10日净流入资金超过28亿元 [1] 多模态AI技术发展前景 - 多模态技术被认为是2026年AI应用竞争的关键 [1] - 该技术的主要直接受益领域是AI视频以及机器人/自动驾驶 [1] - 在AI视频领域,受益于Sora2和Veo3解决了物理一致性问题,该领域已于2025年第四季度进入生成环境 [1] - 随着国产多模态大模型在2026年第一季度追赶,AI视频领域发展有望进一步加速 [1] - 从长远看,以多模态为基础的AI视频将为人类提供丰富的“精神养料” [1] - 在机器人/自动驾驶领域,随着谷歌Genie和特斯拉等世界模型的迭代,预计2026年相关技术有望在试验环境落地 [1] - 海外多模态技术有望在2026年进一步迭代,视觉、音频、文本将被统一Token化并向世界模型发展 [1] 相关产业链受益机会 - 算力与存储领域有望持续受益于多模态、长记忆等AI应用的落地 [1] 软件ETF及跟踪指数概况 - 软件ETF(515230)跟踪的是中证软件指数(H30202) [1] - 该指数主要反映软件行业上市公司的整体表现 [1] - 指数成分股涵盖从事系统软件、应用软件开发及相关服务的企业 [1] - 该指数侧重于信息技术领域,具有较高的成长性和创新性特征 [1]
魔都美术馆迎来首个官方AI讲解员
第一财经· 2026-01-21 20:44
豆包AI导览合作案例 - 字节跳动旗下豆包与上海浦东美术馆达成合作,成为两项国际大展的官方AI讲解员,通过独家数据合作和定向搜索优化提升识别与讲解准确性[3] - 在实际观展中,用户可让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度解读作品,旨在通过共情式提问和启发式对话,调动用户已有感受,形成更有参与感的理解过程[5] - 博物馆场景运用AI讲解的最大挑战是保证内容准确性,模型需能区分外观高度相似的文物、理解小众展品,并在观众移动观展时保持稳定识别,相关视频讲解功能主要基于Seed1.8模型的视频理解能力[5] 多模态大模型技术发展 - 多模态大模型的“感知-推理-动作”能力在真实世界场景的闭环验证与数据反哺,是AI能力的场景化落地与技术迭代的关键驱动[3] - 字节跳动于2025年12月发布通用Agent模型Seed1.8,核心定位是打通“感知-推理-动作”全链路,可直接执行复杂任务,聚焦真实世界多模态交互与任务执行[6] - 多模态代表着模型应用进入更深领域,因许多输入内容带有视觉因素,且处理任务需调用工具,工具返回结果也常是视觉化的,因此需要视觉化理解能力[6] - 行业普遍认为多模态是步入AGI的必经之路,智谱创始人唐杰表示2025年是“适应年”,而多模态感统将成为2026年的热点和重点,是完成人机GUI交互与AI进入物理世界的关键[7] 世界模型的技术趋势与行业动态 - 多模态是世界模型的核心技术基座与信息输入输出载体,世界模型则是多模态能力的高阶进化形态[8] - 2026年1月以来,行业内关于多模态与世界模型的动态增多,例如中科院自动化研究所与CreateAI提出NeoVerse,爱诗科技发布支持1080P分辨率的通用实时世界模型PixVerse R1[8] - 字节跳动暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环[8] - 智源研究院院长王仲远表示,大语言模型技术路线已相对收敛,但多模态与世界模型暂未统一,未来可能组成“多模态世界大模型”这一统称[9] AI向理解物理世界规律演进 - 行业对世界模型讨论增多的原因,在创新奇智CTO张发恩看来,是明确了物理AI的大方向,其主战场具身智能快速发展,但多模态数据采集成本高、周期长,因此希望先做世界模型来自动产出多模态数据,用于训练VLA模型[10] - 世界模型的核心是要理解物理世界规律,如重力、摩擦力、易碎材料等,Google DeepMind CEO德米斯·哈萨比斯曾表示世界模型是打开AGI之门的钥匙,旨在让AI理解物理世界的底层规律、因果关系并进行长期规划[10] - 当前人工智能正从功能模仿转向理解物理世界规律,这一根本转变意味着AI发展路径日益清晰,即真正融入实体世界,解决系统性挑战[10] - 世界模型对“预测世界下一状态”的核心诉求,正倒逼多模态技术从早期的跨模态识别、生成,向更复杂的时空一致性整合、因果逻辑对齐演进[11] 多模态模型的技术现状与挑战 - 多模态模型理解与生成逐渐实现一体化是2026年的一个明显趋势,例如谷歌的Gemini 3展示了强大的图片编辑能力[11] - 多模态与世界模型均面临技术成熟度不够、成本高昂、商业化应用率较低等问题,限制多模态发展的主要原因在于技术路线没有收敛,许多模型仍分为多模态理解与多模态生成,且模型记忆问题未得到很好解决[11]
魔都美术馆迎来首个官方AI讲解员
第一财经资讯· 2026-01-20 21:17
豆包AI导览合作案例 - 字节跳动旗下豆包与上海浦东美术馆达成合作,成为两项国际大展的官方AI讲解员,通过独家数据合作和定向搜索优化提升讲解准确性 [1] - 在实际观展中,用户可让豆包从艺术风格、历史背景、创作技法与文化意义等多个维度对作品进行解读,并通过共情式提问和启发式对话增强用户参与感 [3] - 豆包相关视频讲解功能主要基于Seed1.8模型的视频理解能力,在博物馆场景中应用的最大挑战是保证内容准确性,需能区分外观高度相似的文物、理解小众展品,并在观众移动时保持稳定识别 [3] 多模态技术发展现状与趋势 - 多模态代表着模型应用进入更深领域,因许多输入内容(如车内、质检、餐饮场景)和工具返回结果带有视觉因素,模型需具备视觉化理解能力 [5] - 行业普遍认为多模态是步入AGI的必经之路,2025年是“适应年”,而多模态感统将成为2026年的热点和重点,是完成人机GUI交互与AI进入物理世界的关键 [6] - 多模态领域一个明显趋势是模型理解与生成逐渐实现一体化,例如谷歌的Gemini3展示了强大的图片编辑能力 [11] 世界模型的技术定位与行业动态 - 世界模型是多模态能力的高阶进化形态,其核心是要理解物理世界规律(如重力、摩擦力),旨在让AI理解物理世界的底层规律、因果关系,并进行长期规划和模拟推演 [10] - 当前人工智能正从功能模仿转向理解物理世界规律,发展路径日益清晰,即真正融入实体世界,解决系统性挑战 [10] - 今年以来行业内关于多模态与世界模型的动态增多,例如1月5日中科院与CreateAI提出NeoVerse,1月13日爱诗科技发布支持1080P分辨率的通用实时世界模型PixVerse R1 [8] 字节跳动的技术布局与战略 - Seed1.8是字节跳动于2025年12月发布的通用Agent模型,核心定位是打通“感知-推理-动作”全链路,可直接执行复杂任务,聚焦真实世界多模态交互与任务执行 [4] - 公司暂未对外明确发布独立世界模型研发路线,但正尝试将世界理解能力融入通用大模型(Seed系列)与多模态生态,通过感知、推理、动作的能力叠加,逐步构建“世界建模-交互-执行”的闭环 [8] - 公司Seed多模态交互与世界模型团队致力于研发具备人类水平的多模态理解与交互能力的模型,并推动多模态助手类产品的探索和研发 [8]
未知机构:弘则研究科技国内外AI应用冰火两重天模型和应用的矛盾加剧发布于2026年-20260120
未知机构· 2026-01-20 10:40
行业与公司 * 行业:全球人工智能产业,涵盖上游算力、中游模型与下游应用[1] * 公司:涉及海内外多家科技公司,包括Anthropic、OpenAI、Google、字节跳动、腾讯、阿里巴巴、美图等[1][3][5][6][7] 宏观趋势与市场分化 * 中美AI应用市场呈现“冰火两重天”格局[1] * 美股软件股自2026年1月以来大幅下跌,主要原因是Anthropic发布具备全自动工作流能力的Agent产品,引发市场对软件开发成本和功能价值被颠覆的担忧[1] * 中国AI应用生态更偏向“闭环整合”,头部厂商依托自有流量与生态快速落地Agent功能[2] * 自2025年8月起,上游算力(芯片、设备、存储)持续走强,下游应用侧(互联网、软件公司)表现疲软[2] * 市场对短期算力资本开支确定性高,但担忧中长期需求可持续性[3] 技术演进与模型格局 * 基础模型进入线性增长阶段,未出现突破性跃迁,整体能力稳步提升[3][4] * 第一梯队模型包括Anthropic、OpenAI、Gemini[3] * 第二梯队模型包括Grok、智谱、Kimi[3] * 国内通义千问版本滞后,Deepseek V4有望冲击第一梯队[3] * 多模态成为关键突破点,例如Google的NanoBanana等图像编辑模型具备视觉交互能力,显著提升Agent在浏览器自动化、GUI操作、机器人、医疗影像等场景的连续任务执行能力[4] * 垂直模型转向“后训练+强化学习”模式,不再依赖RAG外挂检索,而是将专家思维链内化至模型,实现类人推理[4] * 医疗、金融、编程等领域需大量专家标注数据支撑[5] 国内外AI应用落地对比 * **国内(闭环生态驱动)**: * 字节跳动:豆包手机采用“OS+APP”模式,通过读屏理解操作APP,但效率偏低[5] * 腾讯:开放小程序生态,将小程序转化为Agent(“超级应用+Agent”)[5] * 阿里巴巴:通义千问新版本深度整合阿里生态(飞猪、饿了么等),实现无需跳转的闭环服务,被视为首个真正落地的C端Agent,显著提升其AI叙事确定性[5] * **海外(平台+第三方生态)**: * Anthropic:聚焦编程工作流,实现“仅需产品设计即可自动生成完整产品”,颠覆传统软件开发逻辑[5] * OpenAI /JIMI:仍以Chatbot为主,侧重一次性输出,缺乏任务规划能力[5] * Google:拥有自有模型,推出Sketch(对标Figma)、Opa Notebook等工具,但偏C端,专业场景影响有限[5] 投资逻辑与标的推荐 * **上游(受益明确)**:存储(DRAM/HBM/SSD)、半导体设备、电力设备——受益于AI推理需求迁移与台积电扩产(2026年CAPEX预计增长30%-40%)[5] * **平台型公司(生态+模型+流量)**: * 海外:Google[6] * 国内:阿里巴巴(已验证闭环)、腾讯(待观察)、快手[6][7] * **终端场景类(AI赋能而非替代)**:推荐美图、Roblox、Reddit[7] * **ToB工具类(存在错杀机会)**:Adobe、Figma等正与大模型公司合作转型,需观察2026年Q1产品落地与业绩兑现[7] 核心判断与展望 * 2026年是“第三个Agent元年”,但成败未定,市场给予极高溢价[7] * Agent的核心竞争力从“通用对话”转向“自动化工作流执行”,尤其在编程、医疗等垂直领域[7] * 国内AI应用因生态闭环+快速迭代,在C端落地速度领先;海外则在B端工作流自动化上更具颠覆性[7] * 存储需求正从训练侧向推理侧迁移,SSD作为“个人记忆体”将成为下一代Agent基础设施[7] * 总结:AI产业正经历从“模型竞赛”到“应用落地”的关键转折,中美路径分化明显,技术突破(多模态、强化学习)与生态整合能力成为胜负手[7]