生成式AI
搜索文档
Gemini推出购物功能,AI重塑消费入口的1000天
36氪· 2026-01-15 08:27
AI竞赛焦点延伸至电子商务领域 - 2026年初,沃尔玛与谷歌宣布计划将商品整合进谷歌的Gemini,谷歌同时发布通用商业协议,用户可在Gemini对话框内浏览并购买商品[4] - 此前,OpenAI于2025年9月底在ChatGPT推出“即时结账”功能,实现了从对话到下单的完整购物闭环[5] - 2025年黑色星期五,美国在线消费额达创纪录的118亿美元,同比增长9.1%,AI正成为购物链条中的重要变量[5] - 购物平台、搜索引擎公司与大模型厂商正围绕交易入口展开三方博弈[5] - 相较之下,国内大模型商业化竞争仍主要在既有平台生态内部,围绕“跨平台入口”的正面交锋尚未完全展开[6] 从搜索到支付的入口争夺战 - OpenAI推出“即时结账”功能,用户无需跳转第三方平台即可在ChatGPT内完成询问、下单与支付,形成购物闭环[9] - 此举被视为对OpenAI约7亿周活跃用户进行商业化的重要落子,可能从谷歌搜索广告手中撬走市场份额[9] - 谷歌大部分收入依赖“搜索-广告”模式,若用户购物旅程始于外部AI提问,谷歌将损失流量和潜在高利润广告费[10] - 自ChatGPT发布后,谷歌迅速发布“红色警报”并召回创始人应对,微软则率先在Bing中嵌入OpenAI功能推出NewBing[11] - 谷歌在2023年3月推出大模型Bard反击,但因演示错误导致股价大跌7.68%,市值蒸发约1056亿美元[12] - 2024年,谷歌推出AI Overviews功能,OpenAI则推出SearchGPT,使ChatGPT具备实时联网搜索能力,谷歌股价当日跌幅超3%[13] - 人工智能搜索引擎Perplexity也于2024年11月进军电商,在搜索结果中提供购物推荐并支持直接下单[14] 科技巨头的应对与竞争升级 - 2025年11月,谷歌发布Gemini 3模型,以1501分登顶LMArena排行榜,并率先应用于核心搜索业务[14] - Gemini 3能够完成复杂任务,谷歌CEO称其目标是让用户把任何想法变成现实[15] - OpenAI创始人表示公司会保持警惕,并估计每年会进行一到两次红色警报以保持领先地位[15] - 2025年8月,亚马逊在robots.txt文件中新增六个AI相关爬虫程序,阻止Meta、谷歌等公司访问其平台数据[17] - 亚马逊正开发自己的AI购物工具,如2024年推出的Rufus助手和2025年测试的“Buy For Me”功能[17] - 2025年11月,亚马逊起诉Perplexity,指控其AI原生浏览器Comet违反平台条款并绕过技术检测在亚马逊购物[18] - 与亚马逊不同,Shopify采取合作策略,要求AI购物代理保留人工确认环节,并希望交易通过其结账系统完成[19] - Shopify通过Agentic Storefronts计划,将商家商品推送至ChatGPT、Perplexity等对话式AI界面[20] 行业影响与未来展望 - AI购物功能尚不成熟,“幻觉”问题可能导致推荐不存在的商品,许多用户仍需返回谷歌或亚马逊决策[21] - 分析认为,虽然OpenAI正深化电商功能嵌入,但尚未看到谷歌搜索量大规模流失的现象[21] - 技术变革的结果往往是互补与共生,未来搜索、交易与决策的边界将被重新划分[21] - AI购物代理对商业结构的冲击已初现端倪,在这场变革中没有参与者能够独善其身[22]
Elastic (NYSE:ESTC) FY Conference Transcript
2026-01-15 03:32
涉及的行业与公司 * 公司:Elastic (一家专注于处理非结构化数据的平台公司,核心业务包括搜索、可观测性和安全) [1][4] * 行业:网络安全、基础设施软件、生成式人工智能(AI)、可观测性、企业搜索 [1][4][10] 核心观点与论据 **1 公司定位与产品演进** * Elastic 是一个为处理非结构化数据而构建的平台,擅长数据摄入、管理和搜索 [4] * 公司从核心搜索能力演进,发现了可观测性(日志、指标、APM)和安全(SIEM、XDR)等高货币化、可重复的用例 [4][5] * 在生成式AI革命之前,公司已深耕向量搜索和向量数据库多年,因此能很好地进行定位和差异化竞争 [5][6][9] * 随着生成式AI向智能体模型演进,提供相关性和上下文的能力变得至关重要,这正是Elastic的优势所在 [7][8] **2 生成式AI驱动搜索业务增长** * 生成式AI是推动搜索业务加速增长的主要动力,搜索已成为公司多个季度以来增长最快的业务部分 [11] * 客户范围广泛,包括小型AI原生公司、ISV以及金融、医疗等大型机构,用于构建内部或面向外部的应用程序 [11] * 目前生成式AI支出更多与模型训练相关,应用程序的广泛部署仍处于早期阶段,但已带来积极影响和收入 [12] * 生成式AI提升了与客户的对话层级(董事会、C级高管关注),并吸引了新客户以及对公司未来路线图感兴趣的合作伙伴 [18][19] **3 安全业务表现强劲,具备置换机会** * 安全业务(SIEM和XDR)表现优异,在最近两个季度的预订量方面做得非常好 [48] * 公司赢得了一个价值超过2000万美元的新客户交易,置换了一个竞争对手,并在SIEM和XDR解决方案上击败了八家公司 [21] * 公司认为其XDR能力已准备好与任何对手正面竞争 [21] * 安全市场存在巨大的置换机会,公司正在积极调整市场策略以支持置换场景,例如通过提供优惠帮助客户过渡,避免长期承担双重成本 [22][23] * 置换交易需要长期关系建设和迁移路径,一些交易可能需要多个季度甚至多年才能完成 [25][26] **4 可观测性与安全融合的验证** * 市场开始出现安全与可观测性的整合(如Palo Alto收购Chronosphere),这验证了Elastic多年来的观点,并有利于公司发挥优势 [28] * Elastic的差异化在于其拥有跨安全和可观测性的统一数据平台,能提供效率优势,而通过收购整合的公司通常面临两个独立的数据平台 [28][29] **5 市场策略调整与成效** * 公司在2025财年初进行了市场策略调整,重新细分客户,让销售代表更专注于高购买倾向的核心客户,减少了每位代表负责的账户数量 [32] * 这一调整导致2025财年第一季度销售活动放缓,但自2025财年第二季度以来,新策略开始见效,交易管线推进顺利,公司看到了更多积极迹象 [33][34] * 公司目前的市场机制运行良好,被视为可投资领域,并正在增加销售产能投入 [37] * 公司建立了专门的“绿地”团队积极开拓新客户,并在核心业务(新客户与扩展)上同时进行投资 [40][42] * 建立了安全专家团队,有助于与安全领域的客户和决策者进行有效沟通,提升竞争力和胜率 [46][47] **6 交易规模扩大与财务指引** * 公司交易规模显著增长,现在处理更多500万至1000万美元以上的大额交易,这反映了公司业务的成熟和市场的认可 [51][52] * 公司将部分大额交易视为额外的上行机会,而非业绩指引的核心,以管理相关不确定性 [54] * 销售激励措施(包括加速激励机制)鼓励达成大额交易 [56] * 公司更看重年度合同价值(ACV)和承诺水平,对合同期限持灵活态度 [57][58] * 在2025财年第二季度财报发布后,公司将全年营收指引上调了3400万美元(约2个百分点),源于业务强劲势头和管线需求 [72] **7 关键业务指标与产品部署** * 公司强调“销售主导的订阅收入”作为核心指标,该指标包含所有订阅收入,但排除了月度云业务(主要为SMB自助服务业务),因为这是公司可直接控制和投入资源的领域 [67] * 公司提供云、无服务器和自托管多种部署选项,以满足客户不同需求,这种灵活性在AI时代对公司有利 [65][69] * 约20%的客户使用多种解决方案,贡献了约80%的年度经常性收入(ARR),公司市场策略的重点是向现有客户销售更多产品 [63] 其他重要内容 **1 联邦政府业务与特定交易** * 公司的联邦政府业务敞口与其他基础设施软件公司类似 [73] * 2023年10月的联邦政府停摆导致部分交易延迟,但这些交易随后已经完成 [73] * 公司与网络安全和基础设施安全局(CISA)签署了一项价值2600万美元的云服务承诺合同,该合同允许CISA在一年内部署,并在部署后一年内使用这些服务 [80][82] **2 竞争格局** * 在可观测性领域,Chronosphere(被Palo Alto收购)的核心是指标解决方案,与Elastic在日志方面的核心优势直接竞争较少 [92] **3 业务运营假设** * 公司业绩指引已考虑了联邦政府可能再次停摆的风险(持续决议截至1月30日) [74] * 公共部门业务需求环境保持积极 [87] * 公司通过产品改进(如无服务器服务)使SMB客户更易使用,但市场投入重点仍在于销售主导的订阅业务 [88][89]
腾讯研究院AI速递 20260115
腾讯研究院· 2026-01-15 00:03
美国对华AI芯片出口管制政策调整 - 美国商务部工业和安全局修改出口管制条例,将高性能芯片限制放宽至TPP低于21000和DRAM带宽低于6500GB/s,为英伟达H200和AMD MI325X对华出口创造了法律空间 [1] - 新规要求申请人证明美国市场有足够供应且对单一国家出口不超过美国总销量的50%,预计到2026年,H200芯片可为英伟达贡献超过476亿美元营收,其中中国市场贡献近160亿美元 [1] - 美国众议院以369票通过《远程访问安全法案》,限制通过云平台远程接入获取先进算力以训练AI模型,此举可能冲击海外合建数据中心项目 [1] 全球AI视频生成技术竞争加剧 - 谷歌Veo 3.1实现重大升级,新增“素材生视频”功能,通过上传图片和文本指令即可生成高质量视频,角色一致性达到新高度,并支持原生9:16竖屏输出及1080p、4K超分辨率技术,直接适配移动端平台 [2] - 爱诗科技发布全球首个支持最高1080P分辨率实时生成的世界模型PixVerse R1,用户可通过文字或语音实时干预视频生成过程,将视频生成从“固定片段”转变为“无限可视化流” [4] - Vidu AI开放平台推出“一键生成MV”功能,用户提交音乐、参考图像与文本指令后,系统可全自动输出叙事连贯、音画同步的MV,其“多图参考生视频”技术允许上传至多7张参考图,在长达五分钟的视频中精确复刻人物特征与美学风格 [5][6] 中国AI模型与算力自主化进展 - 智谱AI联合华为开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas 800T A2设备和昇思MindSpore框架完成全流程训练,是首个在国产芯片上完成的SOTA多模态模型,在相关榜单获得开源第一,中文文字渲染成绩达0.979 [3] - GLM-Image模型API调用生成一张图片成本仅需0.1元,特别擅长海报、PPT、科普图等知识密集型场景及汉字生成任务 [3] 具身智能与机器人技术突破 - 1X公司为其家用人形机器人NEO发布全新“大脑”1X World Model,该模型通过观看海量网络视频和人类第一视角实操录像来理解物理世界,基于140亿参数生成式视频模型,采用多阶段训练策略 [7] - 该模型的逆动力学模型在400小时未经过滤的机器人数据上训练,能从生成的视频中提取对应动作轨迹,官方推文浏览量已突破500万 [7] AI在游戏与医疗领域的应用与影响 - 《英雄联盟》韩服出现神秘玩家,在51小时内完成56局对局,取得52胜4败、综合胜率92%的战绩,登顶时胜率高达95%,该账号使用了22名不同英雄,对线胜率86%断层领先,引发关于其是否为AI的广泛猜测 [8] - 谷歌发布MedGemma 1.5 4B版本,首次支持CT和MRI三维体数据以及全切片数字病理图像等高维医学影像分析,将MRI疾病发现分类准确率从51%提升至65%,解剖结构定位精度从3%跃升至38% [9] - 同步推出的MedASR语音识别模型,在胸部X光报告口述场景中词错误率仅5.2%,比通用模型Whisper低82% [9] AI对软件工程行业的结构性冲击 - 谷歌Cloud AI总监提出AI时代软件工程面临的五个关键问题,涉及初级工程师需求、基本功价值、职业角色转变、专才风险及大学计算机专业必要性 [10] - 哈佛研究显示,公司引入生成式AI后,初级开发者岗位数量在六个季度内下降约9%-10%,而高级工程师就业几乎没有变化,大型科技公司招聘应届生数量减少50% [11] - 建议初级工程师构建AI集成作品集并手动编写关键算法,资深工程师需注重架构审查以适应“代理式”工程环境,通才将比专才更具竞争力 [11]
Definitive Healthcare (NasdaqGS:DH) FY Conference Transcript
2026-01-14 23:32
公司概况 * 公司为Definitive Healthcare (NasdaqGS:DH),是医疗保健市场数据和分析领域的领导者,拥有专有的SaaS平台[5] * 公司服务于三大客户群体:生命科学公司、医疗保健服务提供商以及“多元化”客户(即所有其他希望向医疗保健生态系统销售产品的公司)[5] * 公司的数据主要用于支持商业化、产品与战略方面的决策[5] * 公司拥有高经常性收入基础,约95%的收入为经常性收入[6] * 公司拥有强劲的调整后EBITDA利润率,在高20%的范围内[6] * 公司能将绝大部分调整后EBITDA转化为现金流[6] 战略支柱与业务进展 * 公司制定了四大战略支柱:数据差异化、无缝集成、客户成功、创新[10] * 公司引入了了解数据领域并懂得规模化运营业务的新领导层,与公司内部深厚的领域专业知识相结合,形成了强大动力[9][10] * 公司在四大战略支柱上实现了更强的公司内部协同和更快的决策速度[10] 数据差异化 * 公司的参考和关联数据是“皇冠上的明珠”,是理解医疗保健生态系统及其复杂性的基础组件[12] * 将参考关联数据与医疗保健索赔数据结合,能提供市场动态和趋势的可靠视图[12] * 公司新增了医疗高管和医疗服务提供者的手机号码数据,获得了客户的积极反馈[12] * 为应对2024年的行业动荡,公司引入了新的索赔数据源,其中一个已在2025年第三季度末/第四季度初上线产品,另一个将在几周内准备就绪[12] * 公司已建立更重要的KPI追踪体系,以衡量数据集的体量、质量和完整性,从而指导投资方向并确保为客户提供最高质量、最具可操作性的数据[13] 无缝集成 * 公司过去收购的资产(如Monocl, Analytical Wizards, Populi, CareVoyance)在后台或用户体验方面整合不足,但已在2025年通过统一数据源等工作取得了重大进展[19] * 客户可以通过SaaS平台直接、CRM集成或链接到链接的方式访问公司数据[19] * 集成客户的留存率比未集成客户高出约15个百分点,这是公司的一个重要关注点[20] * 公司希望将更多客户群转向集成模式,让数据直接进入客户的工作流程,这有助于客户更快、更容易地获取价值并提高粘性[20] * 公司在2025年第四季度推出了HubSpot集成选项,并开始在Salesforce集成中试点增加医生数据,计划在未来几周更广泛地推广[20][21] 客户成功 * 客户成功是公司过去一年的重点领域,公司进行了端到端的客户旅程映射[26] * 2025年,公司将客户成功激励计划与总美元留存率挂钩,以稳定留存率;2026年计划将其与净美元留存率挂钩,从稳定转向优化[26] * 公司通过监控客户健康评分、参与度和采用水平,能更好地把握与客户沟通的时机和内容(稳定、价值实现或扩展讨论)[27] * 公司最近将客户成功团队并入商业部门,以促进跨职能协作的文化[27] * 赢回客户并非一次性事件,而是将嵌入公司的运营方式,包括赢回流失客户和应对生命科学领域的降级销售压力[28] * 公司正在对销售团队进行价值销售和清晰阐述投资回报率的再培训,强调客户投资的是结果而非功能[29] 创新与数字合作伙伴关系 * 生成式AI是内部和客户对话中的热门话题[31] * AI和机器学习一直是公司数据和技术方法的一部分,用于数据聚合和模型构建,公司正在探索扩展应用[32] * 从运营角度看,2026年的一个关键重点是在客户成功和支持领域部署生成式AI[32] * 公司正在进行现代化改造其旗舰View平台的工作,以加入生成式AI功能,旨在让平台更易于客户使用,初期阶段主要是“桌面筹码”,后续阶段可能带来更多货币化机会[33] * 在早期阶段,生成式AI主要用于增加平台价值、改善留存率,而非作为独立的定价单元[34][35] * 数字激活(数字合作伙伴关系)是公司一个令人兴奋的增长领域,业务从近乎零起步,目前规模尚小,但被视为未来的增长动力[37][38] * 公司目前约有23家代理合作伙伴,其中相当一部分已开始激活活动,但规模较小[36][38] * 代理渠道不仅服务于生命科学领域的大型生物制药公司(它们可能没有内部团队而直接与广告代理合作),也通过代理机构接触到其客户,从而在多元化领域开辟机会[40] 财务与运营状况 * 公司2025年收入同比下降,但保持了有吸引力的利润率,调整后EBITDA利润率略高于20%的高位[50] * 公司的成本结构主要是数据和人员[50] * 让业务恢复收入增长是获得利润率扩张的最佳途径[50] * 公司对投资评估采取了审慎的方法,新管理团队具备运营和战术能力,能够推动健康的投资优先级讨论和权衡决策[51] * 公司拥有净零杠杆,资产负债表上有超过1.85亿美元的现金,这提供了很大的灵活性[61] * 资本配置是管理层和董事会定期积极讨论的话题,评估标准包括是否能增强核心业务(数据差异化、易于使用)以及是否属于相邻的增长领域[61] * 公司已大约两年未进行并购,目前并购门槛相当高,近期更专注于重启有机创新引擎[62] 市场需求与销售环境 * 公司业务构成:约40%来自生命科学领域,约10%来自医疗服务提供商,其余约50%来自多元化领域[45] * 过去一年,生命科学领域面临更多挑战,公司对该领域仍持更谨慎态度[45] * 公司当前的核心重点是持续推动留存率的改善,这将是最终推动增长的关键[45] * 在经历了相当长时间的销售周期延长后,过去两个季度销售周期开始略有缩短,这是一个令人鼓舞的迹象[46] * 公司正在密切关注生命科学领域的临床活动水平,因为当其进入商业化阶段时,公司将有能力捕捉部分需求[47] * 公司对CRM(客户关系管理)系统持中立态度,支持Salesforce和Veeva的集成,让客户能按自己选择的方式将数据融入工作流程[49] 内部效率与生产力 * 公司正在部署工具(包括生成式AI)来处理“低垂的果实”,并将资源重新部署到更高价值的工作上,例如客户成功和支持领域,包括自动化客户业务回顾摘要和创建展示价值的仪表板[54] * 公司认为在G&A(一般及行政)职能方面总有提升效率的空间[56] * 从损益表表面看,销售和营销支出的效率比率(EDRs)略高,因此公司正在审慎调整投资领域,例如减少了在生命科学领域小型增长账户的投入,并基于投资回报情况重新配置资源[56]
金融大家评 | 李礼辉:金融智能体应用的三道“必答题”
清华金融评论· 2026-01-14 20:34
文章核心观点 - 金融智能体是依托行业最佳流程与数据、具备专业水准的金融代理人,其应用不应局限于低价值劳动密集型领域,而更适用于高价值技术密集型领域[4][9] - 金融智能体的广泛应用需解决三大核心问题:明确应用领域与法律地位、筑牢可靠性与经济性基石、破解数据数量与质量的瓶颈[4] AI前沿技术的迭代创新 - 技术迭代从单模态迈向多模态,最新大模型能处理文本、视觉、语音等多模态数据,生成新的非结构化内容,突破了文本交互的局限性[5] - 发展路径从AI助理演进至AI代理,具身智能体集成多种技术,能培育感知、学习、交互、行动和决策的代理能力,金融智能体可培育专业水准的金融代理人[5] - 模型训练从高能耗转向低能耗,以DeepSeek-V3为例,其性能与GPT-4o相当,但训练成本远低于后者,中国科技巨头正完善独立自主的AI生态[6] 金融智能体的应用领域与法律地位 - 生成式AI在金融业能创造直接商业价值,已在银行、保险、证券、基金、财富管理等机构部署,替代人类员工的部分岗位,且替代趋势正从劳动密集型延伸至知识密集型岗位[7] - 应用案例显示,百度的数字信贷经理智能体撰写尽职调查报告,时长从1天减少到1小时,数据准确性超过98%[9] - 金融智能体更适用于高价值技术密集型领域,如市场分析、风险评估、投资顾问、财富管理、量化交易等,智能投资顾问可能替代60%以上的投资顾问岗位[9] - 应用将改变金融业人力资源结构:增加懂AI与金融的复合型管理人才;更多专业、技术性岗位被金融智能体替代;更多操作性、劳动密集型岗位外包给数字化服务企业[9] - 必须尽早确立金融智能体的法律地位,明确其行为边界、与客户的法理关系、管理者的决策责任,并建立评估审核制度[10] 金融智能体的可靠性与经济性基石 - 人工智能仍存在未能消解的安全风险,如数据投毒、参数窃取等,以及技术缺陷,如模型幻觉、模型歧视、算法共振、隐私泄露等[11] - 金融智能体应用的基石是可信任,需满足高可靠性、可解释性、经济性与合规性要求[11][12][13] - 高可靠性要求部署先进安全工具,在市场分析中克制模型幻觉,在客户筛选中避免模型歧视,在量化交易中防止算法共振,在身份验证中抵抗AI虚假,在客户服务中消解机器冰冷,在账务处理中达成零误差[12] - 可解释性要求模型能展现基本推理路径和逻辑,实现从结果正确向过程可解释的跨越[12] - 经济性可通过预训练行业级模型再调适企业级模型来实现,以降低边际成本,提高投入产出比[12] - 合规性监管应遵循“高中初小”原则,即占领技术高地、形成中国方案、将风险消灭在萌芽、实现风险概率与成本最小化,并构建价值共生生态,促进科技企业与金融机构深度合作[13] 金融智能体的数据数量与质量瓶颈 - 金融是数据密集型行业,当前数据共享存在三大短板:公共数据局部行政分割;非公共数据局部流通不畅;行为数据集开发应用不足[14] - 全国移动支付用户超过9亿,数字化支付是主要数据入口,但数据大户与金融机构间的数据共享尚未形成成熟模式[14] - 解决数据问题需从三方面着手:公共数据开放共享,以“原始数据不出域、数据可用不可见”为原则,通过模型、核验等形式提供,地方政府如上海、浙江、福建、深圳已建立数据共享平台[15] - 非公共数据共同使用,需创新技术手段推动私密信息匿名化,按市场化方式建立“共同使用、共享收益”的新模式,支持金融机构与互联网平台、物流企业等“数据大户”建立数据分享机制[15] - 建设专业化的产业数字金融数据库,需涵盖足够数量的公共与非公共数据、结构完整的交易与行为数据、质量达标的结构化与非结构化数据、统计准确的周期性与即期数据、专业细分的多维度与多模态数据,一家互联网大厂正策划牵头兴建金融业一体化数据库[16]
让AI融入游戏剧情和玩法,怎样才能少走弯路?
36氪· 2026-01-14 20:26
文章核心观点 - 当前生成式AI在游戏中的应用,特别是在NPC对话生成方面,普遍存在质量低下、对话平淡、脱离游戏世界观等问题,导致玩家体验受损 [1][4] - 多位行业专家认为,将大语言模型驱动的聊天机器人简单粗暴地塞入现有游戏品类,主要是出于削减成本的动机,这通常会导致游戏质量下降 [5][8] - 尽管当前应用存在诸多问题,但专家们认为,若能围绕大语言模型的核心能力进行原生游戏设计,或将其作为游戏系统的组件之一,生成式AI仍有潜力开辟全新的游戏品类和体验 [8][9] - 行业需要正视AI技术带来的变革,进行建设性对话,探讨如何平衡技术应用与人类创造力、版权保护及就业等问题,而非一味抵制 [12][13] AI在现有游戏中的应用现状与问题 - 2025年,生成式AI已渗透主流游戏,但在《Arc Riders》、《纪元117:罗马和平》、《堡垒之夜》等游戏中出现了读错台词、生成劣质图像、配音质量差等问题 [1] - 许多游戏仅将AI用于生成次要NPC的对话,但玩家反馈这些对话平淡无奇甚至荒谬可笑,被部分玩家贬为“游戏内Siri” [1] - 目前基于大语言模型的聊天机器人生成的对话被评价为“既糟糕又无聊”,是程序化生成领域“最无趣、最耗费资源,最受企业控制的版本” [4] - AI聊天机器人虽然能回答玩家任何问题,但这弊大于利,因为它破坏了游戏通过精心设计的限制来传达世界观和故事意义的方式 [4][5] - AI生成的对话缺乏真实意图和作者性,削弱了优秀叙事设计中的作者意图,使玩家难以感受到与创作者之间的联系 [5] 对生成式AI应用的批评与担忧 - 应用生成式AI和聊天机器人可能带来数据中心能耗、用户隐私风险、创作者作品被无偿用于训练模型以及AI幻觉导致信息失真等伦理问题 [5] - 企业高管对生成式AI的兴趣主要出于削减成本的目的,但这种策略几乎总是导致游戏质量下降 [8] - 游戏编剧担忧生成式AI会加大能源消耗、引发版权争议、造成结构性失业风险并拉大企业管理层与员工间的价值观差异 [11] - 大规模使用生成式AI会造成“灾难性的能源消耗”,且训练数据来源的创作者目前无法获得报酬 [16] - 依赖AI生成NPC对话可能导致游戏公司裁员和专业知识的系统性流失,减少游戏中人类精心创作的内容 [18] AI在游戏中的潜在机遇与发展方向 - 生成式AI更适合用于打造“AI原生游戏”,即围绕大语言模型的核心玩法循环来设计全新体验,例如《1001夜》和沙盒游戏《无限工艺》 [8] - 开发者可以将大语言模型用作“玩家开放式输入的解读器”,而非简单的聊天机器人,这有望开辟一个全新的游戏品类 [8] - 设计师可将大语言模型作为游戏系统的众多组件之一,为玩家提供类似经典互动故事游戏《Façade》风格的即兴玩法体验 [9] - 通过精心调教,为AI聊天机器人设定角色背景、性格特征,并用特定提示词引导其生成符合游戏世界观和特定风格(如仿狄更斯文风)的对话,可能获得更有趣的内容 [12] - 未来,AI系统或能生成非常有趣且契合游戏世界观的对话,但这背后仍需人类创作者在系统中做出大量决策和努力 [16] 行业与从业者的应对策略 - 游戏编剧需要适应从写作到策划、筛选和展示内容的“文化转变”,以更好地利用生成式AI工具 [12] - 程序员需要改进技术,将聊天机器人更好地集成到游戏中,确保NPC能对玩家的游戏内行为做出反应 [12] - 行业应进行建设性对话,探讨如何保住工作、留住创造力、防止版权侵犯,并在规则约束下使用AI技术 [13] - 完全由人类编剧创作的工作室可能因此脱颖而出,部分玩家愿意为这类“纯手工”游戏支付溢价 [13] - 从业者应保持开放心态,广泛涉猎不同领域知识,寻找AI无法模仿的原创故事和微妙细节,以人类独有的方式讲述故事 [13] - 行业需要放慢脚步,先充分了解生成式AI技术本身的局限性、成本和影响,才能真正“驯服”这项技术 [16]
让AI当「动作导演」:腾讯混元动作大模型开源,听懂模糊指令,生成高质量3D角色动画
量子位· 2026-01-14 19:19
行业背景与痛点 - 3D角色动画创作领域长期面临高质量动作资产匮乏的制约,游戏、动漫、影视与数字人等产业面临高昂的成本困局,专业动捕采集起步价为数万元,动画师手工精修骨骼动画以“天”为单位 [1] - 生成式AI领域的文生动作(Text-to-Motion)因高质量数据稀缺与计算范式局限,长期处于“小模型”阶段,难以根据复杂的自然语言指令生成正确动作 [1] - 部分研究尝试通过大语言模型扩展词表进行动作生成,模型规模得以扩大,但由于采用离散的动作Tokenizer,生成的动作质量往往不理想 [1] 核心解决方案与发布 - 腾讯混元团队借鉴其在视频生成大模型上的成功经验,提出了一套全新的文生动作解决方案,旨在突破当前瓶颈 [2] - 该方案通过构建严格的数据处理与标注管线,覆盖大规模预训练、高质量精调、强化学习对齐的全阶段训练流程,并将Diffusion Transformer模型扩展至10亿级别参数量 [2] - 成功研发了混元Motion 1.0这一业界领先的动作生成基础模型,并于2025年12月30日对外开源 [2] - 核心思路是将动作生成任务从“手工作坊”式训练升级为“现代化工业”级别的大模型构建范式,在规模上实现里程碑式突破,并通过全链路算法创新确立新的技术范式 [2] 核心技术:数据引擎 - 构建了标准化的数据处理管线,沉淀出总计超过3000小时的动作数据,以支持10亿参数模型的性能 [4] - 整合了单目视频动捕、光学动捕及艺术家手K动画资产等多源数据,以平衡模型的泛化能力与生成质量 [6] - 通过自动化工具进行数据清洗与标准化,将所有异构数据统一重定向至一套标准骨骼,剔除异常片段,最终统一为30fps对齐的切片数据 [6] - 采用“渲染→VLM初标→人工校验→LLM结构化扩写”的标注闭环流程,利用视频多模态模型捕获语义,结合人工修正,最后通过LLM进行描述多样性扩充 [6] - 数据覆盖基础移动、日常生活、社交休闲、健身户外、体育竞技、游戏角色动作6大领域,超过200个细分动作类别 [6] 核心技术:生成管线 - 设计专门的LLM Prompt Engineering模块,用于用户Prompt改写及动作时长估计,充当“动作导演”角色 [7] - 构建了包含{用户指令,优化指令,动作时长}的三元组数据集,利用Gemini-2.5-Pro模拟海量真实、模糊的用户Prompt,并与高质量描述及真实时长进行精准对齐 [7] - 采用两阶段微调:SFT阶段基于Qwen3-30B-A3B进行微调,使模型具备将多语言模糊指令转化为“结构化英文描述+精确时长”的能力;GRPO强化学习阶段引入Qwen3-235B作为奖励模型,从“语义一致性”与“时序合理性”维度进行打分优化 [7] - Prompt Engineering模块最终将用户的中文或模糊指令转化为“英文动作描述+精确时长”,显著提升生成的可控性 [8] 核心技术:模型设计 - 核心生成架构采用Diffusion Transformer结合Flow Matching [10] - 模型结构采用“双流→单流”的混合架构,在双流阶段动作Latent和文本Token独立处理并通过self-attention交互,在单流阶段两者拼接为统一序列进行深度多模态融合 [12] - 针对长序列生成中的逻辑崩坏与动力学断裂,通过“语义防污染”与“局部约束”双管齐下,确保动作演进既符合指令逻辑又满足物理连续性 [12] 核心技术:全流程训练 - 将LLM领域的RLHF范式完整迁移到动作生成中,完整跑通“Pre-train->SFT->RLHF”三阶段训练 [13] - 大规模预训练阶段:在3000小时全量数据上进行,让模型学会各种动作的基本范式 [15] - 精细化微调阶段:筛选400小时的精标高质量数据进行微调,显著减少动作抖动和滑步,提升画质 [15] - 强化学习阶段:采用“DPO + Flow-GRPO”策略,并引入非对称掩码机制与窗口注意力机制 [15] - DPO阶段基于超过9千对偏好数据,通过最大化优胜样本似然差,解决“动作像不像”的审美对齐问题,大幅提升生成Pass Rate [16] - GRPO阶段引入包含语义一致性与物理约束的奖励函数,强化动作的物理真实感 [16] 模型性能表现 - 得益于参数规模及数据质量提升,HY-Motion 1.0在SSAE(语义结构自动评测)指标上达到78.6%,指令遵循能力远超SOTA模型 [17] - 在人工5档打分中,HY-Motion 1.0在多个类别及平均分上均领先于MoMask、GoToZero、DART、LoM等对比模型,平均分达到3.43 [18] - 模型在复杂时序逻辑(如“行走中突然停下惊恐环顾”、“跑酷跳跃后翻滚”)、动作覆盖度(如“跳舞扭胯”、“张弓搭箭”)及细粒度控制(如“顺时针绕圈行走”、“举右手挥手同时左手插口袋”)等维度上均有实测表现展示 [19][21][22][23][24][25] 社区反响与应用 - 自开源发布以来,HY-Motion 1.0在各平台热度持续上升 [26] - 游戏开发者、AI设计师、动画师、影视/广告创意导演等相关从业者纷纷投入使用并分享实测效果 [27] - 游戏开发者将其集成至ComfyUI等主流AI工作流中,实现3D动作资产的“即插即用”;社区涌现一系列自动化重定向脚本与工具,支持将生成动作一键映射至用户自定义角色 [27][29][31] - 有开发者尝试将模型输出作为视频生成模型的控制信号,使生成的动作更可控和可编辑 [31][33] 行业影响与展望 - HY-Motion 1.0的研发模式依托腾讯在游戏、数字内容等领域深厚的业务场景,真实且高标准的落地需求驱动模型在视觉美感与工业精度上不断对齐 [33] - 对社区及个人创作者而言,该模型使其在缺乏高昂动捕设备的情况下,依然能产出高质量动作资产,为产业上下游提供了更具性价比的AI解决方案 [33] - 当前的3D动作生成模型仍面临滑步处理、极端物理交互等行业性难题 [34] - 腾讯选择将核心能力开源,旨在通过技术普惠激发社区共建力量,在真实产业应用中迭代,共同推动3D角色动画制作从“手工精修”向“智能生成”的范式转型 [34]
观察 | 从“百模大战”到首家上市:大模型行业迎来分水岭
搜狐财经· 2026-01-14 18:32
公司上市与市场表现 - 智谱于2026年1月8日在香港联交所主板上市,成为“全球大模型第一股” [1] - 上市首日股票报收131.5元,涨幅达13.17%,总市值达522亿元人民币 [1] - 公司是备受关注的“大模型六小虎”中第一家成功登陆资本市场的公司 [2] 公司背景与融资历程 - 公司成立于2019年,由清华大学计算机系知识工程实验室(KEG)技术成果转化而来,创始团队源自该实验室 [3] - 成立当年获得4000万元天使轮融资,投资方为清华大学资管和中科创星 [3] - 成立6年间累计融资超8轮,总融资额超过83亿元人民币 [3] - 融资历程显示,公司投前估值从天使轮的3.8702亿元人民币,增长至B6轮融资后的243.7699亿元人民币 [4] - 公司此前曾以220亿元人民币估值位列《2025胡润全球独角兽榜》第331位 [2] 业务规模与市场地位 - 根据招股书,公司2024年收入为3.12亿元人民币,是中国最大的独立大模型厂商 [6] - 公司在中国大模型市场的占有率达到6.6% [6] - 截至2025年9月30日,公司GLM模型拥有全球12000家企业客户、超过8000万台终端用户设备及超4500万名开发者,是中国赋能终端设备最多的独立通用大模型厂商 [6] - 截至2025年9月30日止九个月,公司拥有超过12000名机构客户,较截至6月30日止六个月大幅增加 [6] - 2025年11月,公司日均token消耗量为4.2万亿 [6] - 公司模型已应用于金融、工业制造、能源电力等20多个关键行业 [6] 股东与投资者构成 - 公司投资者阵容强大,包括美团、蚂蚁、阿里、腾讯、小米、金山、Boss直聘、好未来等产业资本 [6] - 投资方还包括君联、红杉、高瓴、启明创投、顺为等一线风险投资机构,以及多家地方政府国资 [6] 行业背景与发展阶段 - 2022年底至2023年初,ChatGPT引发国内“百模大战”,生成式AI成为最热门的投资赛道 [8] - 2022年全球投资圈向生成式AI公司共投入13.7亿美元,几乎达到过去5年的总和 [8] - 2022年全球生成式AI领域发生78起融资事件 [8] - 行业初期经历狂热,后因大模型研发投入大、盈利周期长的特点显现,市场回归理性 [8] - 随着阿里、字节等大厂入局以及DeepSeek的出现,行业逻辑改变,一级市场资金流向发生变化,形势变得严峻 [10] 同业公司对比与行业分化 - 2026年初,智谱与MiniMax先后通过港交所聆讯,成为冲刺资本市场的第一梯队 [10] - MiniMax招股书显示,其2025年前三季度收入约3.76亿元人民币,同比增长175%,毛利率从2023年的-24.7%提升至2025年前三季度的23.3%,AI原生产品付费用户数增至约177.16万名 [10] - 与智谱、MiniMax坚持自研超大参数基础模型不同,其他公司选择了差异化路径 [10] - 百川智能在2024年年中明确聚焦医疗领域,收缩战线 [10] - 零一万物明确不再做万亿以上参数的模型,转而聚焦To B领域,拥抱开放模型战略 [10] - 基础模型研发是只有少数玩家能承受的游戏,收缩业务战线、探索可行盈利模式成为许多创业公司的选择 [10] 行业未来展望 - 尽管面临盈利挑战,但市场长远空间依然被看好 [11] - 全球大模型迭代仍在提速而未现放缓迹象 [11] - AI模型调用量预计2026年仍会持续高增长,且增长可能因爆款应用的出现而呈现跃迁式增长 [11] - 上市意味着中国第一批AI大模型公司迎来“成年礼”,进入资本验证的新阶段 [11] - 未来唯有能持续技术创新并找到可持续商业模式的企业,才能最终穿越周期成为赢家 [11]
Gemini登陆iPhone:谷歌夺下15亿移动入口,苹果赢得时间,OpenAI遭分流
新浪财经· 2026-01-14 18:20
合作核心内容 - 苹果与谷歌正式达成一项重要人工智能合作协议 将谷歌的Gemini大模型深度集成至苹果生态系统 为升级版Siri及其他Apple Intelligence功能提供核心技术支持[1] - 苹果经过慎重考虑 认定谷歌的人工智能技术为Apple Foundation Models提供了最强大的基础 新版Siri将基于Gemini 3模型运行[3] - 尽管具体财务条款未公开 但据彭博社此前报道 苹果每年可能向谷歌支付约10亿美元[3] 对谷歌的影响 - 此次合作是谷歌AI战略的重大胜利 巩固了Gemini作为移动设备领先大语言模型提供商的地位[3] - 合作有望通过全球约15亿iPhone用户拓展其AI服务的分发渠道 甚至推动Gemini应用预装于iOS设备[3] - 随着Gemini 3在性能、稳定性和多模态能力上的显著提升 加之其自研TPU芯片在成本与效率上的优势 谷歌已重新确立其在AI领域的地位[3] 对苹果的影响 - 借助Gemini可加速兑现其2026年全面推出Apple Intelligence的承诺 提升Siri的对话理解与上下文感知能力[4] - 合作凸显苹果在自研大模型方面仍面临技术瓶颈 当前仍需依赖外部合作伙伴 尽管公司长期目标是实现完全端侧运行的轻量化AI模型[4] - 分析机构Futurum Group指出 2026年将是苹果AI战略的成败之年 此次合作或为其争取关键技术突破的时间窗口[4] 对OpenAI的影响 - 随着Gemini成为Siri的核心引擎 OpenAI在苹果生态中的战略地位明显削弱[4] - 失去苹果这一关键分发平台 对OpenAI的用户增长和品牌认知构成挑战[5] - 若iPhone用户普遍将Gemini视为更流畅、更集成的AI体验 市场对AI即ChatGPT的固有印象或将松动[5] - OpenAI的ChatGPT拥有超8亿周活跃用户 但近期增长已显疲态[5] 行业竞争格局 - 苹果与谷歌的合作并非排他性协议 目前iPhone用户仍可通过Siri调用OpenAI的ChatGPT处理部分查询[4] - 作为回应 OpenAI正加速推进由前苹果首席设计师Jony Ive参与打造的新型AI硬件设备 计划于2026年发布 意图构建独立于智能手机的AI交互入口 并与苹果形成直接竞争[4] - 此次合作对估值高达5000亿美元的人工智能独角兽OpenAI构成显著影响[1]
满屏涨停再现!AI应用概念24股涨停,省广集团4连板
21世纪经济报道· 2026-01-14 16:43
市场表现与板块动态 - 1月14日A股市场冲高回落,沪指午后翻绿,此前一度涨幅超过1% [2] - AI应用概念板块表现强势,利欧股份实现9天6板,省广集团实现4连板,浙文互联、外服控股、天下秀、云鼎科技、用友网络等共计24只股票涨停 [2] 政策驱动与行业目标 - 工业和信息化部于1月13日印发《推动工业互联网平台高质量发展行动方案(2026—2028年)》 [2] - 政策目标为到2028年,工业互联网平台高质量发展取得积极成效,形成“专业型+行业型+协作型”多层次平台体系 [2] - 目标为具有一定影响力的平台数量超过450家,工业设备连接数突破1.2亿台(套),平台普及率达到55%以上 [2] - 目标为基本建成泛在互联、数智融合、深度协同、开源开放的新一代工业互联网平台生态 [2] 机构观点与投资逻辑 - 华源证券研报认为,AI仍是全球产业叙事中最重要的方向,应重视产品落地且有收入结构的应用方向 [3] - 生成式AI产品(如豆包、千问、元宝等)正逐渐成为信息获取核心入口,引发流量新迁移 [3] - 搜索引擎优化(GEO)有望适配AI新入口时代的新型营销范式,通过优化内容提升品牌信息在AI生成答案中的引用率、权威性与可见度 [3] - 该模式仍处于早期阶段,建议关注快速推进布局的公司 [3]