Workflow
多模态技术
icon
搜索文档
喝点VC|a16z复盘消费级AI:为什么还没有AI社交软件?2026年多模态与应用生成为破局关键
Z Potentials· 2026-01-22 11:58
2025年消费级AI市场格局 - 市场呈现“赢家通吃”或“赢家通吃大部分市场”的早期迹象,在ChatGPT、Gemini、Claude 3和Cursor中,仅有9%的用户会为超过一款产品付费 [3] - ChatGPT是绝对领跑者,周活跃用户达8亿至9亿,Gemini网页端用户规模约为ChatGPT的35%,移动端约为40%,其他产品如Claude 3、Grok和Perplexity使用率仅在8%至10%之间 [4] - 竞争格局变化迅速,例如Gemini桌面端用户数量同比增长155%,而ChatGPT同比增长率仅为23% [6] 核心模型与产品创新 - 图像与视频生成模型是2025年最受消费者追捧的突破,OpenAI的ChatGPT-4o图像功能和Sora 2,以及Google的VO系列、Nano Banana和Nano Banana Pro均迅速走红 [8] - 多模态模型在真实感和推理能力上取得长足进步,能处理多张输入图像和文本指令,生成具有连贯性的内容,例如生成市场格局图或信息图表 [10] - 模型风格差异依然存在,Midjourney在特定美学领域地位无可替代,而ChatGPT的图像生成模型在保持角色形象和艺术风格一致性方面表现突出 [9][11] - 模型与搜索功能的整合成为关键创新,例如Nano Banana Pro能通过搜索获取准确信息并融入图像生成,提升了任务的准确性 [12] 产品设计与用户体验 - OpenAI倾向于将功能整合到ChatGPT主界面,而Google更倾向于推出独立产品,后者能为不同类型产品打造更具针对性的定制化界面 [9] - 产品细节设计至关重要,ChatGPT的TikTok风格界面通过展示热门主题、简化操作步骤,有效降低了用户尝试门槛并促进持续使用 [25] - 专业级用户是重要目标群体,ChatGPT用户每周使用频率约25次,高活跃度为整合用户数据、提供主动推送服务奠定了基础 [16][19] - 部分功能因执行或易用性问题被低估,例如OpenAI的“连接器”功能潜力巨大但可靠性有待提升,Claude的功能强大但操作门槛对普通消费者过高 [18][34] 细分赛道竞争与挑战者 - 顶尖图像和视频生成模型需求旺盛,能吸引专业用户和普通消费者,是挑战者实现赶超的关键领域之一 [21] - Gemini借助谷歌的渠道分发优势,在安卓端用户规模已达ChatGPT的50%,但ChatGPT作为品类代名词的地位仍是其超越的巨大障碍 [23] - Perplexity通过Comet浏览器等产品在专业级用户界面创新上表现出色,其发布时的流量峰值和用户留存率超过了ChatGPT的Atlas浏览器 [20] - Claude在技术用户中深受喜爱,但其产品设计更偏向工程师群体,在美国青少年中的使用率远低于Character AI [34][35] - Meta的SAM 3系列模型技术强大但多面向开发者,其消费级成功案例是Instagram的AI翻译功能;Grok则在Agent、多模态生成领域发展迅猛,并采用基础模型与娱乐布局并行的策略 [37][38][39] 2026年趋势预测与发展方向 - 头部实验室可能在企业级市场持续发力,ChatGPT企业用户同比增长了七八倍,这可能反哺其消费级用户增长 [40] - 应用生态和SDK变得至关重要,ChatGPT整合多工具的工作流程能力可能对SaaS生态系统产生深远影响 [41] - 决定产品竞争力的关键可能从纯模型性能转向风格化设计和模板打造,开发者有机会在先进模型基础上打造以视频为核心的创新产品 [42][43] - “万物皆可多模态”或“任意输入,任意输出”是重要趋势,实验室正致力于打造能处理多种内容输入并生成丰富输出的“超级模型” [44] - 头部实验室在打造独立消费级AI产品上优势减弱,其组织架构更倾向于渐进式创新,这为初创企业留下了巨大发展空间 [45][47] - 头部实验室面临算力资源在训练与推理、不同应用场景间分配的内在矛盾,而应用层初创企业无此困扰 [48] - 专业级用户是推动AI领域发展的核心力量,消费级AI产品通过订阅叠加按量付费的模式,实现了超过100%的收入留存率 [49][50] 值得关注的产品推荐 - **Pomelli**:谷歌实验室产品,展示Agent与生成式模型结合的潜力,能分析网站并生成全套品牌营销方案 [50] - **Krea**:创意工具平台,支持使用所有主流高性能模型,并提供更完善的交互界面如元素保存功能 [51] - **11 Labs Reader**:将文字内容转化为音频,帮助用户高效利用碎片时间消费内容 [52] - **Gamma**:幻灯片生成工具,可根据文本或文档快速生成并灵活调整幻灯片 [53] - **Granola**:笔记工具,随着使用记录增多,能基于上下文更好地理解会议内容 [54] - **Comet浏览器**:Perplexity推出的AI原生工作平台,内置Agent并支持自定义工作流 [20][54] - **Wabby**:为应用生成技术设定合理约束,确保生成应用的实用性和用户体验 [55] - **Cursor中的GPT-5.2**:在代码生成乃至知识型工作(如撰写论文)中展现出强大能力 [55]
AI应用竞争正式迈入“超级Agent”时代,软件ETF(159852)获资金踊跃布局
新浪财经· 2026-01-22 11:19
市场表现 - 2026年1月22日早盘,软件开发、互联网服务等板块涨幅居前,截至10:48,中证软件服务指数(930601)强势上涨1.34% [1] - 指数成分股中,深信服上涨11.06%,中国软件上涨5.79%,用友网络上涨4.70%,奇安信、金山办公等个股跟涨 [1] 行业指数与产品 - 截至2025年12月31日,中证软件服务指数前十大权重股合计占比60.89%,包括科大讯飞、金山办公、同花顺、指南针、恒生电子、拓维信息、润和软件、三六零、软通动力、深信服 [2] - 软件ETF(159852)跟踪中证软件服务指数,是投资计算机软件行业的工具 [2] - 场外投资者可通过软件ETF联接基金(012620)布局AI软件投资机遇 [3] AI应用与行业动态 - 阿里旗下千问App全面接入淘宝、支付宝、飞猪等核心生态业务,上线超400项AI办事功能,实现“搜索-决策-支付-履约”全链路闭环 [1] - 国泰海通证券表示,千问C端月活已突破1亿,成为全球首个具备实际执行能力的AI助手,标志着AI应用竞争进入“超级Agent”时代 [1] - “最强模型+最富生态”的深度融合构建了极高的竞争壁垒,或将引领国内互联网大厂加速推进AI生态内循环建设 [1] 技术趋势与投资机会 - 天风证券指出,多模态技术是2026年AI应用的胜负手,其直接受益者主要是AI视频和机器人/自动驾驶 [1] - 海外多模态有望在2026年进一步迭代,视觉、音频、文本被统一Token化向世界模型进发 [1] - 算力/存储有望持续受益于多模态、长记忆在内的应用落地 [1]
港股异动 | 喜相逢集团(02473)再涨超9% 公司拟控股旷时科技 切入毫米波雷达赛道
智通财经网· 2026-01-16 11:53
公司股价与市场反应 - 喜相逢集团股价大幅上涨 截至发稿时股价上涨8.4% 报9.29港元 成交额达5350.79万港元[1] - 股价上涨与公司宣布的战略合作计划直接相关[1] 公司战略动向 - 公司宣布与厦门旷时科技签署谅解备忘录 计划通过股权收购或增资扩股方式获取其51%的控股权[1] - 此举被视为公司从传统汽车流通领域向智能驾驶前沿核心技术产业链发起的战略性深度进军[1] 合作方业务与技术实力 - 厦门旷时科技是国内领先的毫米波雷达智慧感知方案提供商[1] - 旷时科技拥有芯片、算法、模组、整机、系统平台全链条产品 结合人工智能与多模态技术[1] - 其产品面向智慧健康、智能家居、辅助驾驶、智慧物联四大领域 覆盖健康养老、消费、医疗、工业、汽车及软件与服务等多个领域[1] - 旷时科技多款产品填补国内空白 处于行业领先地位[1]
喜相逢集团(02473)附属拟透过股权收购或增资扩股方式取得旷时科技51%的股权
智通财经网· 2026-01-12 19:25
核心交易公告 - 喜相逢集团的间接全资附属公司喜运地空与厦门旷时科技签订谅解备忘录,拟通过股权收购或增资扩股方式取得旷时科技51%的股权 [1] - 潜在交易的具体安排、核心条款(包括代价及支付方式)尚未确定,将基于尽职调查结果及先决条件完成后在正式协议中约定 [1] 交易标的公司概况 - 旷时科技是一家于2020年在中华人民共和国注册成立的公司 [1] - 旷时科技是国内领先的毫米波雷达智慧感知整体方案提供商 [1] - 旷时科技拥有芯片、算法、模组、整机、系统平台全链条产品 [1] - 旷时科技结合人工智能、多模态技术,向辅助驾驶、智能物联等领域的客户提供高性能产品及整体解决方案 [1] 交易战略协同与动机 - 喜相逢集团凭借全国化的自营销售网络体系、车辆运营及管理方面的丰富经验,正在积极深入进行无人车业务领域探索 [1] - 旷时科技在毫米波雷达智慧感知方面的研发及解决方案在智能驾驶领域具备广阔应用前景,与集团的无人车业务具有显著协同效应 [1] - 董事会认为,潜在交易落实将有助于集团拓展智能驾驶汽车产业链业务 [2] - 潜在交易预期将增强集团的技术储备与产品竞争力,落实集团在该业务领域的战略布局 [2] - 潜在交易预期将提升集团的业务创新能力,强化集团的持续增长能力 [2]
喜相逢集团附属拟透过股权收购或增资扩股方式取得旷时科技51%的股权
智通财经· 2026-01-12 19:12
潜在交易概述 - 喜相逢集团的间接全资附属公司喜运地空与厦门旷时科技有限公司签订谅解备忘录,拟通过股权收购或增资扩股方式取得旷时科技51%的股权 [1] - 潜在交易的具体安排、核心条款(包括代价及支付方式)尚未确定,将基于尽职调查结果及先决条件完成后在正式协议中约定 [1] 交易标的公司情况 - 旷时科技是一家于2020年在中华人民共和国注册成立的公司,是国内领先的毫米波雷达智慧感知整体方案提供商 [1] - 旷时科技拥有芯片、算法、模组、整机、系统平台全链条产品,结合人工智能、多模态技术,向辅助驾驶、智能物联等领域的客户提供高性能产品及整体解决方案 [1] 交易战略动机与协同效应 - 喜相逢集团凭借全国化的自营销售网络体系、车辆运营及管理方面的丰富经验,正在积极深入进行无人车业务领域探索 [1] - 旷时科技在毫米波雷达智慧感知方面的研发及解决方案在智能驾驶领域具备广阔应用前景,与喜相逢集团的无人车业务具有显著协同效应 [1] - 董事会认为,潜在交易若落实,将有助于集团拓展智能驾驶汽车产业链业务,增强技术储备与产品竞争力,落实集团在该业务领域的战略布局 [2] - 潜在交易预期将提升集团业务创新能力,强化集团持续增长能力 [2]
喜相逢集团(02473.HK)拟透过股权收购或增资扩股方式取得旷时科技51%股权
格隆汇· 2026-01-12 19:09
潜在交易概述 - 喜相逢集团间接全资附属公司喜运地空与厦门旷时科技签订谅解备忘录,拟通过股权收购或增资扩股方式取得旷时科技51%的股权 [1] - 潜在交易的具体安排、核心条款(包括代价及支付方式)尚未确定,将基于尽职调查结果及先决条件完成后在正式协议中约定 [1] 交易标的公司情况 - 旷时科技是一家于2020年在中华人民共和国注册成立的公司,是国内领先的毫米波雷达智慧感知整体方案提供商 [1] - 旷时科技拥有芯片、算法、模组、整机、系统平台全链条产品,结合人工智能、多模态技术,向辅助驾驶、智能物联等领域客户提供产品及解决方案 [1] 交易战略动机与协同效应 - 喜相逢集团凭借全国化的自营销售网络体系、车辆运营及管理经验,正在积极深入探索无人车业务领域 [1] - 旷时科技在毫米波雷达智慧感知方面的研发及解决方案在智能驾驶领域具备广阔应用前景,与集团的无人车业务具有显著协同效应 [1] - 董事会认为,潜在交易落实将有助于集团拓展智能驾驶汽车产业链业务,增强技术储备与产品竞争力,落实集团在该业务领域的战略布局 [2] - 预期交易将提升集团业务创新能力,强化集团持续增长能力 [2]
吴晓波年度演讲中最重要的30句话
吴晓波频道· 2025-12-30 08:29
AI时代趋势与浪潮 - 世界进步已不能仅靠互联网革命推动,当前正进入第四次浪潮——人工智能革命 [14] - 人工智能趋势感召了现场4000多名观众及数千万直播间观众,相关实践才刚刚开始 [3][8] - 选择大于努力,趋势大于选择,应率先使用AI工具 [128][130] 中美AI发展格局与竞争 - 中美作为全球人工智能未来十年最重要的两个决赛选手,正走上两条不同的发展道路 [26] - 2025年全世界大模型的数量,中国和美国合计将占全球80%以上,人工智能产业未来没有第三个主角 [30][31] - 2023年中美顶级大模型能力差距为20%,到2025年初已缩小至0.3% [44] - AI的尽头是算力,算力的尽头是电力:中国的新增发电能力是美国的3倍 [35][37] - DeepSeek很Deep,OpenAI不Open,致敬DeepSeek这类改变世界的看不见的力量 [24][40][41] 技术演进与核心特征 - 涌现意味着技术的指数级增长,而泛化让技术像洪水一样涌到每个角落 [19] - 多模态技术进化意味着“硅基人类”的内容生产能力是“碳基人类”的100倍甚至100倍以上 [53][55] - 具身智能机器人与互联网最大区别在于:它将算法、算力、感知与执行能力,与实体硬件结合成真实产品 [92] AI对产业与工作的影响 - 拥抱并使用AI工具的企业,将成为人工智能时代的新主角 [65][66] - 像机器一样工作的人,都将被机器人替代 [70][71] - AI不会替代人,但是正在重新定义“AI时代下的人的能力” [74][75] - 现在做事情的逻辑变了,不是先想“我要做这件事,该怎么去做”,而是先问“有没有什么工具能帮我做到” [60] - 如果人工智能仅仅是一次工具革命,人都是被革命者;但如果它是一个科学革命的工具,每个普通人都有机会成为工具的主人 [50][51] 中国制造业与智能化升级 - 新能源汽车为中国制造业续命十年,而在下一个十年,要依靠具身智能机器人继续支撑中国制造业升级 [97] - 中国三分之二的具身智能机器人公司是在最近三年创办的,联合创始人包括70后、80后、90后甚至00后,未来属于年轻人 [85][86] - 过去10年,中国是全球最激进的产业智能化试验场;未来10年(2025-2035年),中国将构建全球最先进的人工智能工厂集群 [110][111] - 中国新工厂正在打破制造业规模化、定制化和低成本的“不可能三角” [114][117] - 非常有信心告诉全世界一个正在发生的事实:中国人开始定义工业5.0 [122] - 从事制造业不要迷信断崖式创新,必须坚持可持续的迭代 [104][105] 创业生态与未来展望 - 2026年很可能会成为中国改革史中的第六次创业窗口期 [126] - 每一次失败都是一次上升的台阶;0.1%毫米的进步,就是科技的进步 [82] - 给每一位摔跤的机器人公司以掌声,技术进步从一次次摔跤开始 [79]
稀宇科技冲击全球大模型第一股 成立四年用户超2亿腾讯阿里入局
长江商报· 2025-12-23 08:13
公司上市进程与市场地位 - 稀宇科技已通过港股聆讯,有望成为“全球大模型第一股”及从成立到IPO历时最短的AI公司 [2] - 同为“AI六小虎”的智谱AI也已通过港股聆讯,两家公司无论谁先挂牌都将成为“大模型第一股” [2] - 公司成立于2021年12月,截至2025年9月30日,已完成多轮融资,估值达300亿元人民币 [2] 融资历程与资金状况 - 公司累计完成7轮融资,累计融资额约15.5亿美元 [3] - 2023年6月完成2.5亿美元融资,估值超12亿美元,晋升独角兽 [4] - 2024年3月获6亿美元融资,投后估值25亿美元,由阿里巴巴领投 [5] - 2025年7月完成近3亿美元新一轮融资,投后估值超过40亿美元(约合人民币300亿元) [6] - 截至2025年9月30日,公司现金结余约为10.46亿美元,包括现金及现金等价物约3.63亿美元,金融资产6.44亿美元,未动用银行融资3940万美元 [6] - 累计融资15.5亿美元,现金结余10.46亿美元,表明公司仅花费约5亿美元 [6] 业务与产品发展 - 公司专注于研发文本、语音、视觉多模态融合的通用人工智能技术 [7] - 2023年8月,ABAB大模型获批上线;2023年12月宣布将发布国内首个MoE大模型 [7] - 2025年1月,发布并开源Text-01和VL-01系列模型;2025年9月,发布Music1.5音乐生成模型 [7] - 公司推出了ABAB系列大模型及Glow、海螺AI等应用产品 [8] - 公司定位为全球化AI大模型公司,产品已覆盖超200个国家及地区 [9] - 公司自主研发多模态通用大模型,推出系列AI原生产品,包括MiniMax Agent、海螺AI、MiniMax Audio、星野等 [9] 用户与市场表现 - 截至2025年9月30日,公司拥有超2亿个人用户及13万企业客户 [2] - 具体用户构成:MiniMax用户1905.7万名,海螺AI用户4234.8万名,Talkie/星野用户1.47亿名 [9] - 公司海外市场收入贡献占比超70% [9] - 公司是全球少数几家在全模态(文本、语音、视频)领域均进入第一梯队的大模型公司之一 [9] - 其语音模型Speech-02、视频模型Hailuo-02及文本模型MiniMax M2在权威评测中位列全球前列 [9] - 公司采用混合专家(MoE)等先进架构,在保持性能领先的同时优化了训练成本 [9] 财务与运营数据 - 2024年营业收入0.31亿美元,同比增长7.82倍;2025年前三季度营业收入0.53亿美元,同比增长1.75倍 [2] - 2022年至2025年前九个月,营业收入分别为0美元、0.03亿美元、0.31亿美元、0.53亿美元 [10] - 2024年及2025年前三季度,营业收入同比增速分别高达782.17%、174.68% [10] - 同期,公司净利润分别亏损7370万美元、2.69亿美元、4.65亿美元及5.12亿美元 [10] - 截至2025年9月,公司员工总数仅385人,平均年龄29岁,其中284人从事研发,占比达73.77% [10] 研发投入与行业对比 - 2022年至2025年前三季度,公司研发投入分别为1060万美元、7000万美元、1.89亿美元及1.8亿美元 [6] - 研发投入主要用于模型训练涉及的云服务费用 [6] - 对比OpenAI同期的400亿美元至550亿美元累计花销,稀宇科技的资金投入不到OpenAI的1% [8] - 公司以较少投入构建了覆盖文本、语音、图像与视频的全模态大模型公司,并在多个细分能力上跻身全球第一梯队 [8] 行业前景 - 大模型市场正以前所未有的速度发展,到2030年,全球大模型市场规模预计将超过3000亿美元 [6]
信仰与突围:2026人工智能趋势前瞻
腾讯研究院· 2025-12-22 16:33
文章核心观点 文章回顾了人工智能行业自ChatGPT发布三年来的发展历程,指出当前大模型性能差距缩小、发展面临天花板质疑,但同时产业对AGI的信仰与探索依然坚定[2] 展望2026年,行业在焦虑与分歧中,有望在技术路径、多模态、研究范式、数据生成、行业应用及新硬件等多个方向实现突围[2] 1. 规模法则的演进与争议 - **对规模法则的质疑声增大**:随着大模型智能升级放缓及数据枯竭论出现,业界对Scaling Law的质疑增多,认为其可能接近极限,真正的智能需要抽象化、因果建模等能力,而非简单扩展规模[3] - **规模法则现阶段依然有效且演进**:在底层架构无颠覆性创新的背景下,Scaling Law因其能力提升可预测、产业投入可评估、人才工程体系可延续等优势,仍是可靠的工程化增长路径[4] 谷歌Gemini 3和DeepSeek V3.2的表现印证了其现阶段有效性[4] - **向“新规模法则”时代迈进**:未来的发展将不仅是堆砌算力,而是向数据数量扩大与质量提升两个方向扩展,结合世界模型、具身智能等结构性创新,以寻求底层突破[5][7] 2. 多模态技术的突破与意义 - **迎来“多模态的ChatGPT时刻”**:谷歌Gemini、OpenAI Sora等模型已能深度理解并生成多模态内容,标志着关键突破[8] - **多模态是智能非线性跃升的关键**:类比生物进化中视觉的出现触发了认知能力跃迁,多模态技术让AI从学习“二手”文本世界转向感知更接近真实世界的结构性约束,为形成稳健的世界模型提供了可能[8][12] - **开启“感知-决策-行动”闭环**:多模态与工具使用、机器人控制结合,使AI能在环境中通过反馈持续优化,实现智能跃升[13] 3. 研究探索与组织创新 - **研究驱动与赛马机制**:以小团队开展多方向并行实验是OpenAI等机构的有效组织方式,契合技术快速迭代的特点[15] - **涌现多元化的前沿实验室**:包括聚焦安全超智能的SSI(已融资30亿美元)、专注可靠性的Thinking Machines Lab、研究空间智能的World Labs、追求高级机器智能的AMI以及研发超级Agent的H Company等[16] - **底层架构与训练范式创新活跃**:如Sakana AI探索演化式模型与群体智能以降低算力依赖;Liquid AI开发可连续演化的液体神经网络;谷歌提出嵌套学习以解决灾难性遗忘问题[17] - **评测范式向动态与复杂任务演进**:为解决静态刷榜和数据污染问题,行业正构建围绕Agent能力、需要多步规划与长期记忆的评测体系,如SWE-bench、AgentBench等[17] 4. 仿真数据在物理AI中的核心作用 - **仿真数据成本优势显著**:机器人真机采集一条数据成本在1-10美元,而仿真生成边际成本趋近于零,且能并行运行数万实例[19] - **仿真数据覆盖长尾场景并具可复现性**:能以指数级低成本覆盖极端光照、稀有故障等长尾场景,并锁定变量,便于问题诊断与回归测试[20] - **产学研实践验证其有效性**:上海人工智能实验室的InternData-A1数据集包含63万条轨迹,基于其训练的模型在多项仿真与真实任务上表现与官方模型相当;银河通用发布的DexonomySi数据集包含超950万条抓取姿态,并基于此开发了端到端具身大模型[20] - **形成“仿真主供给、真机强纠偏”工业范式**:在物理AI研发中,仿真预计承担90%以上的数据与验证工作,真机数据则用于物理锚定与最终验收,该范式已在NVIDIA、DeepMind等公司实践[23] 5. AI for Science 迈向系统工程化 - **从模型突破转向科研生产力**:AI4S正从AlphaFold式的象征性成果,转向系统工程化的科研生产力提升,这是行业被真正改变的前兆[24] - **AI嵌入自动化实验闭环**:谷歌DeepMind计划2026年建立AI自动化科研实验室,AI将负责假设生成与实验编排,与机器人执行形成可规模化的闭环,首次让AI从建议者变为执行者[25] - **国家战略推动数据与资源整合**:美国通过《启动创世纪任务》行政令,将AI4S上升为国家战略,旨在整合联邦科研数据、超算资源训练科学基础模型,解决高质量数据匮乏的痛点[28] - **2026年可能成为研发模式转折起点**:虽难言全面商业落地,但某些领域研发周期可能出现数量级压缩,自动化实验与AI工作流成为头部机构标准配置[29] 6. 模应一体与智联网雏形 - **大模型缺乏原生网络效应**:ChatGPT周活近10亿,但用户交互是一次性、私有的,难以形成反馈闭环与用户间连接,AI是生产力工具而非平台[31][32] - **模型与应用一体化是破局点**:当模型拥有稳定身份和长期记忆,并深度参与用户工作流时,才具备成为平台的基础[32] 探索方向包括模型接入更多应用(如GPT的智能购物、群聊功能)以及构建以Agent为节点的智联网[32][34] - **智联网可能催生多种网络效应**:包括交易型网络(Agent间形成服务双边市场)、知识型网络(用户打磨的技能经验共享)、工作流型网络(生产范式持续进化)以及社交型网络(AI成为超级连接器)[35][36] 7. 软件生产进入个性化时代 - **AI编程接近普适生产力**:Anthropic CEO预测未来12个月内几乎所有的代码都可能由AI编写;美团内部已有52%的代码由AI生成;腾讯超过90%的工程师使用AI编程助手,50%的新增代码由AI辅助生成[37] - **软件生产核心瓶颈转移**:从编码能力转向问题定义能力,自然语言成为主要编程接口,出现“vibe coder”[40] - **激活长尾需求与实现软件平权**:极低的构建成本使软件能千人千面,满足曾因市场规模小而被忽略的个性化、情景化需求,软件成为人类表达与解决问题的基本媒介[40][41] 8. 行业落地聚焦性价比与ROI - **企业关注点转向可衡量业务价值**:AI行业应用的第一性问题从技术先进性转向投资回报率与性价比[43] - **规模化部署仍存差距但使用量增长**:麦肯锡报告显示,88%的企业至少在一个职能中使用AI,但进入规模化阶段的比例很低,AI高绩效企业仅6%[43] OpenAI调研显示,ChatGPT Enterprise周消息量增约8倍,75%的员工认为AI提升了工作速度或质量,重度用户每周可节省超10小时[44] - **应用深入流程中后段并重构工作范式**:AI正从边缘任务深入核心业务流程,未来收益将来自流程再造、智能体协同等领域[44] 工作最小单元可能变为“一个人+N个智能体”,企业管理逻辑将转向以结果交付为中心[45] 9. AI眼镜迈向千万台临界点 - **出货量有望突破千万台分水岭**:预测Meta Ray-Ban等产品在2026年单品牌销量有望冲击1000万台;巴克莱预测2035年销量达6000万副;制造商依视路计划实施年产能1000万件的生产计划[45] - **“硬件减法”策略成功**:Meta通过放弃高成本显示模组,将眼镜重量控制在50克以内,结合大模型多模态能力,优先作为穿戴拍照设备,降低了制造难度与用户门槛[47] - **重塑交互逻辑与软件生态**:交互从以应用为中心转向以意图为中心,自然语言为主导;技能商店可能取代应用商店;摄像头产生的第一视角数据将赋能空间智能研发并可能催生新的推荐与广告模式[48] 10. AI安全成为研发与应用必选项 - **公众信任度下降凸显安全重要性**:全球调研显示,尽管66%受访者经常使用AI,但超半数(58%)认为其不可信赖,信任度较2022年呈下降趋势[50] - **安全算力投入成为热点**:预计超10%的算力将投入安全评估、对齐实验等领域;伊利亚成立的SSI公司已融资30亿美元,专注超智能安全;欧美法规可能使安全算力成为刚性成本[53] - **企业建立深度嵌入的治理机构**:如Google DeepMind的Responsibility & Safety团队、微软的Aether委员会、Anthropic的长期利益信托与宪法AI机制,将安全深度嵌入研发全流程[54] - **安全演变为基础性要素**:可信安全机制成为进入关键行业的前提,监管框架使安全实践从最佳实践变为准入门槛[55]
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 15:53
文章核心观点 - 2026年将是多模态技术大年,视频生成将快速进步并推动应用大规模落地,世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线:一条以实时视频生成为核心,服务文娱、游戏等面向人类的消费者场景;另一条以显式3D结构为中心,服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型,需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律,并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势:语言作为有损压缩的智能进步遇到局限,空间成为下一个重要智能来源;自回归Transformer与扩散模型的算法进步及融合,使生成模型具备智能层面的扩展定律;具身智能的需求倒逼,机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - **长时记忆**:需生成持续、连贯的长时间世界,保持全局一致性,当前视频模型通常只能生成十秒级片段 [6] - **交互性**:需支持在任意帧动态注入动作指令以影响后续画面,训练数据需同时包含视频帧序列和对应动作 [7][8] - **实时性**:交互式应用要求低延迟,游戏需低于0.1秒,VR理想情况应低于0.01秒,当前扩散模型推理难达30FPS以上,业界通过蒸馏和架构改进(如DMD将50步扩散压缩为4步)来提升实时性 [12] - **物理合理性**:对自动驾驶、机器人等高风险领域,模拟结果必须符合真实物理规律,当前模型在极端物理条件下易出现幻觉,研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - **路线一:实时视频世界模型**:以实时性为核心优化目标,适用于文娱、游戏等to C场景,包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - **路线二:3D/4D结构化世界模型**:以物理准确性为核心,采用NeRF、3D高斯散点等显式3D表示,优势在于3D一致性强,适用于机器人、自动驾驶等for AI的领域,劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式(左侧Video-based,右侧3D/物理结构),纵轴表示服务对象(上部分面向人类,下部分面向AI与机器人) [24] - **World Labs**:位于右下象限,强调3D一致性与持久性,估值超10亿美元,融资总额约2.3亿美元,核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - **General Intuition**:位于左上象限,作为公益性公司,专注于利用游戏数据训练能进行时空推理的agent,其关联平台Medal每年可获得约20亿个游戏视频片段,拥有1000万MAU,公司已完成1.34亿美元种子轮融资 [24][33][35][38] - **Decart**:位于左下象限,推出可交互“开放世界”AI模型Oasis,该模型以Minecraft游戏视频训练,可实现端到端实时闭环,生成速度约25帧/秒,公司已完成3200万美元A轮融资,投后估值超5亿美元 [24][39][41][44] - **Odyssey**:位于右下象限,追求极致真实感与可编辑性,采用重装备采集数据和3D高斯泼溅技术,其Explorer模型可将单图像转化为高保真3D场景资产,公司已完成1800万美元A轮融资 [24][45][47][48]