Workflow
腾讯研究院
icon
搜索文档
信息论如何成为复杂系统科学的核心工具
腾讯研究院· 2025-12-24 16:33
信息论作为复杂系统研究的基石 - 文章核心观点:信息论因其能跨领域量化组件、系统与环境、整体与部分之间的互动,正成为描述、量化和理解复杂系统(如气候变化、金融市场、大脑认知)不可或缺的普适数学语言和工具箱 [2] - 本文旨在对一篇发表于《Physics Reports》的重要综述进行解读,系统阐述信息理论为何及如何成为复杂系统科学的基石,并详解其核心概念、进阶工具与实际应用 [2] 信息理论的基石:核心概念与直觉构建 - 熵是信息论最基础的概念,由香农提出,用于量化不确定性 [3] - 香农熵的数学定义为 H(X) = -Σp(x)logp(x),单位通常为比特,衡量在得知结果前对随机变量取值的“惊讶”程度期望值 [5][7] - 熵在多个领域有应用:神经科学中衡量神经元放电序列的可变性,生态学中反映物种空间分布的不确定性,金融学中表征股票价格的波动性 [8] - 联合熵 H(X,Y) 衡量两个随机变量联合分布的不确定性,总是大于等于单个变量的熵,但小于等于二者熵之和 [9] - 条件熵 H(Y|X) 表示在已知 X 取值的情况下,对 Y 仍存在的不确定性,若 X 和 Y 完全独立则 H(Y|X) = H(Y),若 Y 完全由 X 决定则 H(Y|X) = 0 [9] - 互信息 I(X;Y) 是信息论的核心度量,衡量通过观察一个变量能获得的关于另一个变量的平均信息量,量化统计依赖性 [10] - 互信息能捕捉任何形式的统计依赖(包括非线性、非单调关系),而皮尔森相关系数只能捕捉线性关系,例如 Y = X² 的关系相关系数可能为0但互信息值很高 [10] - 互信息在脑网络中可表示两个脑区活动的同步性,在基因调控网络中可表示两个基因表达水平的协同变化 [10] - 相对熵(Kullback-Leibler散度)衡量两个概率分布 p 和 q 之间的“距离”,互信息 I(X;Y) 等于联合分布 p(x,y) 与假设独立时的分布 p(x)p(y) 之间的相对熵 [13] 信息论如何直接描摹复杂系统的动态特征 - 信息动力学旨在量化信息在系统内部及与环境之间的产生、存储、传递和修改 [15] - 传递熵是互信息在时间序列上的推广,衡量定向信息流,即在已知 Y 自身过去历史的情况下,X 的过去历史能为预测 Y 的当前状态提供多少额外信息 [16] - 在神经科学中,传递熵可用于推断脑区间因果关系的方向,强于格兰杰因果的非方向量化 [16] - 主动信息存储衡量系统组成部分的过去历史与其当前状态相关的信息量,量化系统内部记忆或信息存储的能力 [18] - 在金融市场中,若有效市场假说成立,股价收益率序列接近随机游走,计算出的主动信息存储值会非常低接近零,反之若某只股票的主动信息存储值持续较高,则可能意味着存在可预测的模式 [18] - 整合信息论由神经科学家 Giulio Tononi 提出,试图度量意识,其核心思想是系统的意识程度取决于其各部分整合信息的程度,即整个系统产生的信息大于其各部分信息之和的程度 [20] - 例如,高分辨率数码相机传感器各部分间几乎没有因果相互作用,整合信息 Φ 非常低,而大脑不同区域以复杂方式相互作用,整合信息 Φ 被认为非常高 [20] - 整合信息论最大的问题在于 Φ 的计算在实践上对于像大脑这样的系统极其困难,因此存在巨大争议 [21] - 统计复杂性衡量系统为准确预测未来必须记住的关于过去的最小信息量,一个具有中等统计复杂性的系统通常具有丰富的内部结构和动态模式 [25] 信息分解:解开信息的协同与冗余 - 部分信息分解旨在将互信息 I(S; X,Y) 分解为冗余信息、由 X 和 Y 各自提供的特有信息以及协同信息四个部分 [29][30][31][32] - 当源数量 N>2 时,部分信息分解迅速复杂化,Williams & Beer 引入了冗余格来枚举所有信息分配的可能“原子” [33] - 在神经科学中,使用部分信息分解可以研究神经元群体是如何冗余地编码刺激以提高鲁棒性,又是如何协同地编码更复杂的特征 [35] - 部分信息分解为从数据中重建网络结构推断提供了工具,能够发现非线性相互作用,且对数据的分布假设要求较低 [35] - 部分熵分解是部分信息分解的自然推广,直接分解联合熵 H(X1,…,XN),无需区分输入与输出 [36] 从成对关系到信息网络 - 网络是复杂系统建模的通用语言,可分为物理网络和统计网络 [40] - 统计网络中的边对应统计依赖性,需从数据推断,可使用信息论中的互信息等度量刻画 [40] - 统计网络按是否包含方向分为两类:功能连接网络由无向图构成,边权重为变量间的互信息,刻画瞬时共变;有效连接网络由有向图构成,边权重为变量之间的传递熵,刻画定向信息流 [40] - 当系统中存在协同或冗余时,常规的基于成对相互关系的二元网络将无法描述,此时需引入超图或单纯流形 [40] 用信息论刻画复杂系统的整合与分离 - 复杂系统的核心特征在于其可“整合”或“分离”,这种平衡对于健康的大脑功能、成功的公司运营乃至全球政治都至关重要 [42][43] - Tononi、Sporns 与 Edelman 提出的 TSE-复杂性通过遍历所有可能的子系统划分,检测“部分”与“剩余”之间的互信息分布,来衡量系统的整合与分离平衡 [44] - 具有模块化网络(模块内高整合、模块间弱连接)的系统,其互信息随子系统大小非线性上升,TSE 达到峰值,表明系统处于信息处理能力最强的临界态 [44] - Rosas 等人提出的 O-信息与 S-信息进一步分解复杂性的成分:O-信息 > 0 表示系统以冗余主导,对应稳健性高、适应性低;O-信息 < 0 表示系统以协同主导,对应灵活性高、脆弱性高 [45] - Balduzzi 和 Tononi 提出的集成信息度量 Φᵣ 旨在捕捉系统“整体大于部分之和”的不可还原性信息结构,是系统“因果不可还原性”的量化指标 [46] - Φᵣ 可作为人工系统(如大语言模型、机器人)是否具备“统一认知架构”的可操作检验 [46] - 对于多组件系统,可通过最小信息分割遍历所有二分划分来计算 Φᵣ 的最小值,该值反映系统最脆弱的整合环节,是整体整合能力的下界 [47] 使用信息论的实际困难 - 实际应用时需从有限数据中估计概率分布与信息量,估计偏差会影响数值精度并系统性扭曲高阶结构推断 [49] - 离散情况下的插件估计存在系统偏倚,会导致熵被低估而互信息被高估,应对方法包括 Miller–Madow 校正、置换 null 模型、贝叶斯估计器 [49] - 连续数据计算更复杂,主流方法包括粗粒化直方图分箱、点过程、序数嵌入,其中粗粒化方法易用但信息损失严重已不推荐 [49] - 连续数据计算中,参数法仅捕获线性依赖,非参数密度法基于 k-近邻距离,无需假设分布,支持局部信息量估计,并可扩展至条件互信息、部分信息分解局部项 [50] - 信息论衡量的有向指标不代表因果关系,而依赖先验知识提供的因果图假设,多个不同因果图可产生相同信息结构 [50] - 信息论是关于不确定性中推理的数学,描述我们如何减少不确定性,信息总是相对于观察者模型,无绝对“系统自身的信息” [50] 未来方向与总结 - 在大数据时代,需要新方法来学习元素组之间的信息依赖关系,神经信息估计器使用神经网络来估计信息论指标,代表了一种在复杂性科学中尚未得到充分探索的新方法 [52] - 在机器学习中,信息论是实现学习高效算法的工具,而在复杂系统中,信息论度量是描述系统结构的描述性统计量,并且本身可以是最终目标 [53] - 用 Φᵣ、O-信息等引导进化算法,通过信息量作为目标函数是复杂系统与信息论结合的未来研究方向 [53] - 总结来看,从香农熵到整合信息分解/部分熵分解,信息理论提供了统一语言来刻画复杂系统的多尺度过程,是理解复杂系统结构和动态的自然工具 [53]
腾讯研究院AI速递 20251224
腾讯研究院· 2025-12-24 00:01
生成式AI产品与功能更新 - ChatGPT官方首次面向美国、英国、加拿大、新西兰和澳大利亚用户推出“Your Year with ChatGPT”年度回顾功能,为用户提供发送消息数、聊天总数等数据,并颁发趣味奖项,许多用户发现自己的活跃度排名在前1% [1] - 智谱AI发布并开源GLM-4.7模型,其在Code Arena全球编码评测中位列开源第一、国产第一,表现超过GPT-5.2,SWE-bench-Verified达到73.8%的开源SOTA水平 [2] - GLM-4.7模型显著提升了多语言编码、终端智能体效果、前端审美、工具调用和推理能力,并引入新的思考机制,响应速度提升且Token消耗下降 [2] - MiniMax发布M2.1模型,系统性提升了Rust、Java、Golang、C++等多语言编程能力,在SWE-bench多语言版达到66.7% [3] - MiniMax M2.1模型显著加强了原生Android和iOS开发能力,在VIBE综合榜单以88.6分展现接近Claude Opus 4.5的全栈构建能力,几乎所有子集均超过Claude Sonnet 4.5 [3] AI在企业级应用与商业模式演进 - 钉钉发布为AI打造的工作智能操作系统Agent OS和钉钉ONE界面,其通用任务处理Agent“悟空”实现从“对话者”向“执行者”进化 [4] - 钉钉发布DingTalk Real AI主机作为Agent OS物理载体,并将DingTalk A1升级为团队工作助理,支持录音数据直接导入业务系统成为结构化资产 [4] - 钉钉的商业模式从按功能收费转向结果付费,其AI差旅等产品明确提出“帮助企业降本15%”等业务成果,预示AI To B行业从销售功能转向销售结果 [4] - 创业孵化器Y Combinator指出,AI经济已从“安装阶段”过渡到“部署阶段”,形成了模型层、应用层、基础设施层三层清晰结构 [9] AI芯片与硬件生态竞争 - 硅谷投资大佬Peter Thiel预测AI芯片最终将变成白菜价,认为英伟达过去几年的暴利本质来自CUDA生态绑定和缺乏替代品的“垄断红利” [7] - AMD硬件性能已追平甚至局部反超GPU,ASIC效率碾压通用GPU,谷歌Gemini 3全部运行在TPU上,Anthropic大量训练跑在Trainium上 [7] - 外媒揭秘“英伟达循环贷”模式,企业用GPU抵押借钱再购买更多GPU,CoreWeave融资规模超过120亿美元,GPU债务市场规模突破200亿美元 [7] AI行业竞争格局与开发者偏好 - 根据Y Combinator年终复盘,Anthropic用户增长52%,超越OpenAI成为YC创业者最常使用的API,Claude Sonnet成为代码生成和AI Agent任务首选 [9] - 创业公司基于Evvals选择模型而非盲目跟随,Gamma公司以50人团队做到1亿美元年度经常性收入,AI工具极大提升单个开发者生产力 [9] 前沿科技进展 - 长征十二号甲遥一运载火箭成功发射并实现二级入轨目标,但一级火箭未能成功回收,该火箭采用液氧甲烷推进剂,起飞质量433吨,近地轨道运载能力12吨 [5][6] - 这是国家航天体系在“入轨级可回收运载火箭工程化应用”方向的关键一步,体现了“举国体制+市场机制”的模式创新 [6] AI学术与理论争议 - Meta首席AI科学家LeCun认为“通用智能”不存在是胡说八道,强调人类智能高度专用化,只能在能构想的问题上“通用” [8] - DeepMind掌门人Hassabis反驳LeCun,认为其混淆了“通用智能”和“普适智能”,指出人类大脑和AI基础模型近似图灵机,理论上什么都能学 [8] - 这场争论反映了对AGI发展路径的不同判断:Hassabis关注通用架构规模化后的潜力上限,LeCun强调现实环境中可扩展可学习的具体机制 [8]
大模型的2025:6个关键洞察
腾讯研究院· 2025-12-23 16:33
文章核心观点 - 2025年标志着大语言模型训练哲学从“概率模仿”向“逻辑推理”的决定性跨越,其核心驱动力是基于可验证奖励的强化学习的成熟[2] - 行业对大语言模型潜力的挖掘尚不足10%,正处于从“模拟人类智能”向“纯粹机器智能”跨越的临界点,未来竞争将转向对核心逻辑范式的深度挖掘[3][4][25] 基于可验证奖励的强化学习 - 基于可验证奖励的强化学习在2025年脱颖而出,成为大语言模型生产堆栈中事实上的核心新阶段,它通过在数学、代码等可自动验证奖励的环境中训练,迫使模型自发形成近似人类“推理”的策略[6][7] - 该技术具备极高的“能力/成本比”,占用了原本用于预训练的大量计算资源,成为2025年模型能力提升的主要来源,模型参数规模未显著变化,但强化学习训练周期大幅延长[8] - OpenAI的o1模型是该技术的首次公开亮相,而2025年初o3模型的发布成为直观感受模型能力质性飞跃的明确拐点[9] 智能的本质与性能特征 - 大语言模型的智能形态本质被比喻为“被召唤出的幽灵”,而非“逐步进化成长的动物”,其优化目标与生物智能演化逻辑截然不同[10][11] - 在可验证奖励强化学习的驱动下,模型能力呈现“锯齿状性能特征”:在特定领域能力“爆发式增长”,表现如天才博学家,但在基础常识上可能脆弱如孩童,甚至可能被“越狱指令”诱导[12] - 2025年行业对各类基准测试失去兴趣与信任,因为其构建逻辑基于“可验证环境”,极易被针对性训练“攻击”,“针对测试集进行定向训练”已成为一种新型技术操作[12][13] 应用层的新范式与竞争格局 - Cursor的爆发式增长揭示了大语言模型应用的一个全新层级,其核心价值在于为特定垂直领域整合并编排大语言模型调用逻辑,包括处理上下文工程、编排复杂调用、提供人机回圈界面及自主权控制[14][15] - 行业围绕该应用层的“厚度”展开讨论:大语言模型实验室倾向于培育“通识能力极强的大学生”式模型,而垂直应用则通过整合私有数据、传感器等,将这些模型组织成特定领域的“专业团队”[15] 本地化智能体的实用化趋势 - Claude Code的问世令人信服地展现了大语言模型智能体的核心能力,其关键特点是本地化运行模式,可直接访问用户电脑的本地环境、私有数据与上下文[16][17] - 核心差异并非运算位置,而是对已启动设备、预装环境、本地上下文、私有数据及低延迟交互的利用,这重塑了AI的用户认知,使其从需要主动访问的网站转变为“栖息”在用户电脑中的智能实体,标志一种全新交互范式的诞生[18] 氛围编程的兴起与影响 - 2025年,AI突破关键能力阈值,使得“氛围编程”兴起,普通人仅凭自然英语就能构建功能强大的程序,编程成为通用能力[19][20] - 大语言模型正在逆转技术普及的传统逻辑,普通人从中获得的收益超过专业人士、企业与政府,氛围编程让代码变得廉价、即时、可塑,支持“用完即弃”的轻量化使用场景,将彻底改造软件开发生态并重新定义相关职业的核心价值[20][21] 大语言模型图形界面的演进 - 与大语言模型的“文本对话交互”类似20世纪80年代的电脑终端指令模式,并非人类最易接受的交互形式,人类更倾向于通过视觉化、空间化的方式获取信息[23][24] - 大语言模型应采用人类偏好的格式进行交互,如图像、信息图、幻灯片等可视化形态,谷歌Gemini Nano Banana是未来“大语言模型图形界面”的早期雏形,其核心价值在于文本生成、图像生成与世界知识的联合建模能力[24]
腾讯研究院AI速递 20251223
腾讯研究院· 2025-12-23 00:08
生成式AI模型性能与架构创新 - 谷歌Gemini 3 Flash模型在SWE-Bench Verified测试中获得78%的分数,超越了Pro版的76.2%,其速度是Gemini 2.5 Pro的3倍,且Token消耗量减少30% [1] - Gemini Flash集成了大量Agentic RL研究成果,通过后训练算法实现小模型“降维打击”,而Pro版的主要作用是蒸馏Flash [1] - 帕累托前沿反转现象表明,参数规模不再是衡量模型性能的唯一标准,更便宜、更快的模型现在也可以是更聪明的模型 [1] - MiniMax开源其海螺视频底层技术VTP(视觉分词器预训练框架),在AI视觉生成领域发现了Scaling Law,破解了“第一阶段训练越好第二阶段反而变差”的悖论 [3] - VTP通过重建、CLIP图文对比和自监督学习三管齐下的训练方案,使视觉分词器学会理解而非只会重建,算力扩大10倍性能提升65.8% [3] - 通义千问推出Qwen-Image-Layered图像生成模型,采用自研架构将图片拆解成多个RGBA图层,每层可独立操作而不影响其他内容 [4] - 该模型核心技术包括RGBA-VAE和VLD-MMDiT,支持重新着色、物体替换、缩放移动、干净删除等操作,分层结构天然支持高保真编辑 [4] 自动驾驶技术路线与挑战 - 旧金山一场大停电导致红绿灯熄灭,Waymo无人驾驶出租车因系统无法确认安全边界而集体停摆,秒变路障 [2] - 事件凸显了Waymo与特斯拉技术路线的差异:Waymo依赖多传感器融合和高精地图,而特斯拉FSD依赖视觉和AI,后者在此次事件中完全未受影响 [2] - 该事件暴露了L4级无人驾驶在突发城市基础设施异常状况下的脆弱性 [2] AI公司发展与资本市场动态 - AI公司MiniMax正式冲刺港股“大模型第一股”,公司成立于2022年初,拥有385人团队,平均年龄29岁 [5] - 公司累计消耗5亿美元,约为OpenAI开销的不到1% [5] - 2025年前9个月,MiniMax营收达5344万美元,同比增长超170%,海外收入占比超70% [6] - MiniMax拥有超2.12亿个人用户和13万家企业客户 [6] - 公司股东阵容包括米哈游、阿里、腾讯、小红书、高瓴、红杉等,董事会平均年龄32岁 [6] - MiniMax是全球唯四全模态进入第一梯队的大模型公司 [6] 前沿硬件与计算技术突破 - 上海交大陈一彤团队推出全光生成式AI芯片LightGen,首次将光子计算拓展至大模型语义媒体生成领域,研究登上《Science》 [7] - LightGen由光子编码器、光学潜在空间和光子生成器构成,能实现512×512高分辨率图像生成、3D生成、高清视频生成及语义调控 [7] - 该系统速度达3.57×10^4 TOPS,能效达6.64×10^2 TOPS/W,计算密度达2.62×10^2 TOPS/mm²,整体性能比英伟达A100高出两个数量级以上 [7] AGI发展路径与安全框架 - DeepMind发布研究提出,AGI极可能通过多个次级AGI智能体协作与拼凑率先涌现,而非单一庞大模型 [8] - 论文提出了包含市场设计、基线智能体安全、监控与监督、监管机制的四层深度防御框架 [8] - 研究强调“拼凑型AGI”假设此前受关注甚少,建议构建虚拟智能体沙盒经济以解决智能体共谋等分布式风险 [8] 创业经验与团队管理 - ElevenLabs和Lovable的CEO建议创业前积累7-8年工作经验,包括在优秀公司的任职经历和对用户痛点的深刻理解 [9] - 高速扩张的关键在于保持“创始人模式”与“管理模式”的平衡,团队构成建议一半内部培养一半外部资深人士,并采用高强度工作模式 [9] - 欧洲创业虽缺乏成熟创业网络和资深高管,但人才优秀且忠诚度高,时区优势可同时对接全球市场 [9]
信仰与突围:2026人工智能趋势前瞻
腾讯研究院· 2025-12-22 16:33
文章核心观点 文章回顾了人工智能行业自ChatGPT发布三年来的发展历程,指出当前大模型性能差距缩小、发展面临天花板质疑,但同时产业对AGI的信仰与探索依然坚定[2] 展望2026年,行业在焦虑与分歧中,有望在技术路径、多模态、研究范式、数据生成、行业应用及新硬件等多个方向实现突围[2] 1. 规模法则的演进与争议 - **对规模法则的质疑声增大**:随着大模型智能升级放缓及数据枯竭论出现,业界对Scaling Law的质疑增多,认为其可能接近极限,真正的智能需要抽象化、因果建模等能力,而非简单扩展规模[3] - **规模法则现阶段依然有效且演进**:在底层架构无颠覆性创新的背景下,Scaling Law因其能力提升可预测、产业投入可评估、人才工程体系可延续等优势,仍是可靠的工程化增长路径[4] 谷歌Gemini 3和DeepSeek V3.2的表现印证了其现阶段有效性[4] - **向“新规模法则”时代迈进**:未来的发展将不仅是堆砌算力,而是向数据数量扩大与质量提升两个方向扩展,结合世界模型、具身智能等结构性创新,以寻求底层突破[5][7] 2. 多模态技术的突破与意义 - **迎来“多模态的ChatGPT时刻”**:谷歌Gemini、OpenAI Sora等模型已能深度理解并生成多模态内容,标志着关键突破[8] - **多模态是智能非线性跃升的关键**:类比生物进化中视觉的出现触发了认知能力跃迁,多模态技术让AI从学习“二手”文本世界转向感知更接近真实世界的结构性约束,为形成稳健的世界模型提供了可能[8][12] - **开启“感知-决策-行动”闭环**:多模态与工具使用、机器人控制结合,使AI能在环境中通过反馈持续优化,实现智能跃升[13] 3. 研究探索与组织创新 - **研究驱动与赛马机制**:以小团队开展多方向并行实验是OpenAI等机构的有效组织方式,契合技术快速迭代的特点[15] - **涌现多元化的前沿实验室**:包括聚焦安全超智能的SSI(已融资30亿美元)、专注可靠性的Thinking Machines Lab、研究空间智能的World Labs、追求高级机器智能的AMI以及研发超级Agent的H Company等[16] - **底层架构与训练范式创新活跃**:如Sakana AI探索演化式模型与群体智能以降低算力依赖;Liquid AI开发可连续演化的液体神经网络;谷歌提出嵌套学习以解决灾难性遗忘问题[17] - **评测范式向动态与复杂任务演进**:为解决静态刷榜和数据污染问题,行业正构建围绕Agent能力、需要多步规划与长期记忆的评测体系,如SWE-bench、AgentBench等[17] 4. 仿真数据在物理AI中的核心作用 - **仿真数据成本优势显著**:机器人真机采集一条数据成本在1-10美元,而仿真生成边际成本趋近于零,且能并行运行数万实例[19] - **仿真数据覆盖长尾场景并具可复现性**:能以指数级低成本覆盖极端光照、稀有故障等长尾场景,并锁定变量,便于问题诊断与回归测试[20] - **产学研实践验证其有效性**:上海人工智能实验室的InternData-A1数据集包含63万条轨迹,基于其训练的模型在多项仿真与真实任务上表现与官方模型相当;银河通用发布的DexonomySi数据集包含超950万条抓取姿态,并基于此开发了端到端具身大模型[20] - **形成“仿真主供给、真机强纠偏”工业范式**:在物理AI研发中,仿真预计承担90%以上的数据与验证工作,真机数据则用于物理锚定与最终验收,该范式已在NVIDIA、DeepMind等公司实践[23] 5. AI for Science 迈向系统工程化 - **从模型突破转向科研生产力**:AI4S正从AlphaFold式的象征性成果,转向系统工程化的科研生产力提升,这是行业被真正改变的前兆[24] - **AI嵌入自动化实验闭环**:谷歌DeepMind计划2026年建立AI自动化科研实验室,AI将负责假设生成与实验编排,与机器人执行形成可规模化的闭环,首次让AI从建议者变为执行者[25] - **国家战略推动数据与资源整合**:美国通过《启动创世纪任务》行政令,将AI4S上升为国家战略,旨在整合联邦科研数据、超算资源训练科学基础模型,解决高质量数据匮乏的痛点[28] - **2026年可能成为研发模式转折起点**:虽难言全面商业落地,但某些领域研发周期可能出现数量级压缩,自动化实验与AI工作流成为头部机构标准配置[29] 6. 模应一体与智联网雏形 - **大模型缺乏原生网络效应**:ChatGPT周活近10亿,但用户交互是一次性、私有的,难以形成反馈闭环与用户间连接,AI是生产力工具而非平台[31][32] - **模型与应用一体化是破局点**:当模型拥有稳定身份和长期记忆,并深度参与用户工作流时,才具备成为平台的基础[32] 探索方向包括模型接入更多应用(如GPT的智能购物、群聊功能)以及构建以Agent为节点的智联网[32][34] - **智联网可能催生多种网络效应**:包括交易型网络(Agent间形成服务双边市场)、知识型网络(用户打磨的技能经验共享)、工作流型网络(生产范式持续进化)以及社交型网络(AI成为超级连接器)[35][36] 7. 软件生产进入个性化时代 - **AI编程接近普适生产力**:Anthropic CEO预测未来12个月内几乎所有的代码都可能由AI编写;美团内部已有52%的代码由AI生成;腾讯超过90%的工程师使用AI编程助手,50%的新增代码由AI辅助生成[37] - **软件生产核心瓶颈转移**:从编码能力转向问题定义能力,自然语言成为主要编程接口,出现“vibe coder”[40] - **激活长尾需求与实现软件平权**:极低的构建成本使软件能千人千面,满足曾因市场规模小而被忽略的个性化、情景化需求,软件成为人类表达与解决问题的基本媒介[40][41] 8. 行业落地聚焦性价比与ROI - **企业关注点转向可衡量业务价值**:AI行业应用的第一性问题从技术先进性转向投资回报率与性价比[43] - **规模化部署仍存差距但使用量增长**:麦肯锡报告显示,88%的企业至少在一个职能中使用AI,但进入规模化阶段的比例很低,AI高绩效企业仅6%[43] OpenAI调研显示,ChatGPT Enterprise周消息量增约8倍,75%的员工认为AI提升了工作速度或质量,重度用户每周可节省超10小时[44] - **应用深入流程中后段并重构工作范式**:AI正从边缘任务深入核心业务流程,未来收益将来自流程再造、智能体协同等领域[44] 工作最小单元可能变为“一个人+N个智能体”,企业管理逻辑将转向以结果交付为中心[45] 9. AI眼镜迈向千万台临界点 - **出货量有望突破千万台分水岭**:预测Meta Ray-Ban等产品在2026年单品牌销量有望冲击1000万台;巴克莱预测2035年销量达6000万副;制造商依视路计划实施年产能1000万件的生产计划[45] - **“硬件减法”策略成功**:Meta通过放弃高成本显示模组,将眼镜重量控制在50克以内,结合大模型多模态能力,优先作为穿戴拍照设备,降低了制造难度与用户门槛[47] - **重塑交互逻辑与软件生态**:交互从以应用为中心转向以意图为中心,自然语言为主导;技能商店可能取代应用商店;摄像头产生的第一视角数据将赋能空间智能研发并可能催生新的推荐与广告模式[48] 10. AI安全成为研发与应用必选项 - **公众信任度下降凸显安全重要性**:全球调研显示,尽管66%受访者经常使用AI,但超半数(58%)认为其不可信赖,信任度较2022年呈下降趋势[50] - **安全算力投入成为热点**:预计超10%的算力将投入安全评估、对齐实验等领域;伊利亚成立的SSI公司已融资30亿美元,专注超智能安全;欧美法规可能使安全算力成为刚性成本[53] - **企业建立深度嵌入的治理机构**:如Google DeepMind的Responsibility & Safety团队、微软的Aether委员会、Anthropic的长期利益信托与宪法AI机制,将安全深度嵌入研发全流程[54] - **安全演变为基础性要素**:可信安全机制成为进入关键行业的前提,监管框架使安全实践从最佳实践变为准入门槛[55]
腾讯研究院AI速递 20251222
腾讯研究院· 2025-12-22 00:01
摩尔线程新一代GPU与AI产品发布 - 发布新一代全功能GPU架构“花港”,算力密度提升**50%**,能效提升**10倍**,支持FP4到FP64全精度计算,可支撑**十万卡以上**智算集群 [1] - 即将发布“华山”AI训推一体芯片和“庐山”高性能图形渲染GPU,夸娥万卡智算集群算力达**10EFLOPS**,S5000单卡推理刷新国产GPU性能纪录 [1] - 发布搭载“长江”SoC芯片的AI算力本MTT AIBOOK,提供**50TOPS**异构AI算力,可本地运行最高**30B**端侧大模型,今日起在京东预售 [1] OpenAI与谷歌发布新一代AI模型与工具 - OpenAI发布GPT-5.2-Codex,在SWE-Bench Pro和Terminal-Bench 2.0基准测试中取得SOTA性能,相比GPT-5.2提升了指令遵循、长上下文理解和网络安全能力 [2] - OpenAI正式宣布Codex全面支持Agent Skills,接入Anthropic主导的全行业标准规范,支持显式调用和隐式调用,并提供内置工具自动生成或安装技能 [5][6] - 谷歌开源T5Gemma 2和FunctionGemma两款Gemma 3家族小模型,T5Gemma 2提供**270M-270M、1B-1B和4B-4B**三种规模,FunctionGemma专为函数调用优化,仅**2.7亿**参数可在手机等设备运行 [3] 英伟达与Luma AI发布创新AI应用 - 英伟达开源NitroGen基础模型,训练目标是玩**1000款以上**游戏,以游戏视频帧作为输入输出手柄操作信号,模型基于GR00T N1.5架构,采用**5亿**参数,从**4万小时**公开游戏视频中训练 [4] - Luma AI发布Ray3 Modify功能,主打“真人先行、AI跟随”的视频制作方式,支持关键帧控制和角色参考能力,已集成进Dream Machine平台,面向影视制作与广告创意 [7] 人形机器人商业化与AI编码能力进展 - 宇树G1人形机器人在王力宏演唱会完成高难度空翻表演,视频获**4000万**网友围观,G1机器人零售价**9.9万元**起,身高**132厘米**,小跑速度超**2m/s**,拥有**23至43个**关节 [8] - 人形机器人租赁市场**2024年**全球收入规模**112.2亿元**,预计**2031年**达**171.2亿元**,年复合增长率**6.1%** [8] - METR报告称Claude Opus 4.5的**50%**任务完成时间跨度约**4小时49分钟**,超越GPT-5.1-Codex-Max的**2小时53分钟**,AI编码智能体任务时长呈指数级增长 [9] AI行业趋势与关键人物 - Karpathy提出2025年六大转折,包括RLVR、Cursor成为应用层“包工头”、Claude Code作为“赛博幽灵”、Vibe Coding让编程门槛消失等,强调LLM是新操作系统 [10][11] - 谷歌AI产品负责人Josh Woodward通过Nano Banana功能让Gemini应用月活从**3月3.5亿**飙升至**10月6.5亿**,一度超越ChatGPT登顶App Store榜首,其推动NotebookLM等项目并强调AI创新与社会责任并重 [11]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-20 10:33
芯片领域动态 - 谷歌推出TorchTPU芯片 [3] - 苹果研发AI服务器芯片 [3] 大模型与算法进展 - 谷歌发布Gemini 3 Flash模型 [3] - 字节跳动发布Seed1.8模型 [3] - 小米发布MiMo-V2-Flash模型 [3] - 英伟达发布Nemotron 3模型 [3] - OpenAI研究Circuit-Sparsity模型稀疏化技术 [3] - Thinking Machines发布Tinker模型 [3] - OpenAI可能正在开发GPT-5.2模型 [3] - OpenAI建立科学能力基准 [4] AI应用与产品发布 - OpenAI计划推出ChatGPT应用商店 [3] - 阶跃星辰发布Step-GUI应用 [3] - xAI为Grok推出Grok Voice功能 [3] - 行业在开发Agent API [3] - 苹果规划AI眼镜产品 [3] - OpenAI推出ChatGPT Images功能 [3] - Meta发布SAM Audio应用 [3] - 腾讯发布混元世界模型1.5 [3] - Vidu发布Vidu Agent应用 [3] - 谷歌推出Super Gems应用 [3] - 腾讯元宝推出写作模式 [3] - 通义万相推出角色扮演功能 [3] - 字节跳动发布Seedance 1.5 pro应用 [3] - 长安汽车与北汽集团推进L3级自动驾驶 [3] - Manus发布Manus 1.6应用 [3] - 谷歌推出NotebookLM应用 [3] - 通义发布Fun语音模型 [4] - Zoom推出Zoom AI功能 [4] - 行业出现医学版ChatGPT应用 [4] - Gemini推出Deep Research Agent [4] - Runway发布GWM-1应用 [4] - 谷歌将翻译功能融合进Gemini [4] - 拓竹科技与混元合作推出「印你」应用 [4] - 宇树科技推出机器人应用商店 [4] 前沿科技与行业观点 - Harmonic研究Erdos1026问题 [4] - 风险投资机构a16z提出AI泡沫判断标准 [4] - OpenAI研究记忆系统 [4] - 谷歌研究递归自我改进技术 [4] - 多款AI模型面临“AI手指”生成难题 [4] - 媒体披露OpenAI的Sora模型开发内幕 [4] - 行业关注AI生成的成人内容市场 [4] - DeepMind对AGI(通用人工智能)到来做出预测 [4] - 数据分析公司Similarweb揭示AI用户趋势 [4] - OpenAI与迪士尼探讨合作 [4]
“作品灵魂的关键在于作家本身,AI永远无法替代优秀作家”|破晓访谈
腾讯研究院· 2025-12-19 17:12
文章核心观点 生成式人工智能正在深刻变革文化产业,引发全行业对价值链、商业模式与内容生态重塑的思考[2] 网络文学作为重点领域之一,其发展路径体现了GenAI作为强大辅助工具在赋能创作、提效IP开发等方面的巨大潜力,但行业的核心竞争力与价值源泉始终在于人的创意、情感与精品化导向,AI无法替代优秀作家的灵魂与个性表达[6][7][8] 目前GenAI在网络文学领域的应用环节与工具 - 公司已推出覆盖创作到IP改编全链路的AI助手,包括作者助手“妙笔通鉴”、漫剧助手和版权助手,核心功能是辅助创作与提升效率[9] - “妙笔通鉴”为作者提供从世界观设定、错别字检查到人物关系梳理等全流程辅助,并能通过对话激发创作灵感,面向全体作家开放[9] - 漫剧助手是一套基于AIGC的生成工作流系统,能辅助拆解作品大纲、总结章节、整理人物小传,基本覆盖漫剧行业标准流程,提升编剧效率[10] - 版权助手支持作品资料展示,并能快速抽象出故事大纲、人物关系、核心冲突等关乎作品独创性的关键要素,帮助作者梳理内容卖点[10] - 公司推出的AI助手对作品的理解能力及生成内容的辅助效能均高于行业平均水平[10] GenAI对网络文学作家生态与创作结构的影响 - 未来网文生态结构可能更趋近于“橄榄型”,而非金字塔型,即中间具备一定质量水准的作品数量会因AI辅助而快速扩大,但底层低质内容和顶层头部作品规模相对较小[12] - AI作为“辅助轮”,主要作用是壮大和优化“中腰部”作家群体,帮助他们补足创作短板,使叙事表现更趋完善[6][13] - 冲击头部阵营依然依赖于作家自身的天赋、创造和努力,创意产业本质上是天赋驱动,难以通过AI实现作品的普遍升维[6][13] - 文学的本质是个性化情感表达以引发共鸣,当前AIGC生成的内容仍难以具备人类作家自然且富有情感的感染力,作品灵魂的关键在于作家本身[11] 文字创作与视频创作的关系及网络文学形态演进 - 文字创作与视频创作在表现形式、载体、渠道和受众群体上存在结构性本质差异,两者“完全融合”或“完全合一”的可能性极低[6][13] - 文字通过激发读者想象构建精神世界,视频则由外向内直接呈现内容,限缩想象空间,因此文字小说仍将作为独立形态持续存在[13] - 网络文学与AI短剧、漫剧的联动与融合非常快速,证明网络文学可能向以文字为核心、融合多模态元素的增强形态演进[6][15] - 未来多模态表达可能成为网络文学重要特征,例如在文本中插入AI生成的短视频、加入音效或嵌入可视化面板等[15] - 网文领域培养的大量内容人才中,会有相当一部分人转向视频创作并成为中坚力量,当前漫剧与短剧行业超过半数的创作者源自网文领域,但这不意味着所有作家都会成为“视频作家”[14][15] GenAI对网络文学IP开发与运营的影响 - GenAI是赋能网文IP视觉化、释放大量作品潜在价值的革命性工具,解决了传统改编模式“产能不足”的核心痛点[7][16] - 技术显著降低了视觉内容制作门槛,为众多长期排队等候或久未开发的网文作品提供了视觉化机遇,视觉内容在用户覆盖与传播穿透力方面具有显著优势[16] - 在IP开发中,人的艺术眼光和商业匹配度决策是永远的核心,AI无法替代人类对内容创造性、独特性的评价,也无法对其市场价值进行前瞻性判断[7][17] - AI可以作为辅助内容管理工具深化应用,用于网文IP潜力预估、选题辅助以及内容监测、数据跟踪等领域,但作品IP价值取决于多种因素,难以公式化计算[7][17] 当前AI内容的质量评估、用户接受度与行业导向 - 当前AI仍处于通用人工智能早期阶段,主要依赖对已有内容的总结归纳,缺乏前瞻性与创造性预判,尚不具备识别作品个性与创新特质的能力[18] - 文化产业的核心竞争力在于精品化和个性化,而非标准化和效率最大化,更应投入时间精心打磨作品质量,满足读者对高质量故事和情感连接的深层需求[8][18] - 大量低质AI内容的生产会对用户产生驱赶效应,文学作品需要满足用户的“期待视野”[19] - 当前用户对AI创作内容的接受度呈现阶段性差异,部分用户存在明显心理障碍,期望阅读来自有情感作家的创作;更多用户主要关注故事本身,可能未意识到内容由AI生成,但其行为(如不评论、直接划走)反映了对质量不足内容的自然选择[20] GenAI为网络文学出海带来的新机遇 - 视觉化是网络文学出海的重要方向,视觉内容在渗透海外市场方面具有显著优势,能触达规模远超阅读人群的非阅读人群[21][22] - 网络文学的核心优势在于丰富的故事储备和成熟的创作者生态,可通过IP授权输出文字作品,并借助视觉化转型扩大受众[22] - AIGC内容支持实时编辑调整,通过持续测试和优化,能为不同用户群体提供定制版本,其强大的批量修改能力可大幅提升内容本地化效率[22]
腾讯研究院AI速递 20251219
腾讯研究院· 2025-12-19 00:01
谷歌与Meta合作挑战英伟达CUDA生态 - 谷歌推进代号"TorchTPU"战略行动,旨在让PyTorch框架能在其TPU芯片上流畅运行,以消除开发者的迁移门槛,并考虑将部分软件开源 [1] - 谷歌与Meta商讨合作协议,Meta有望获得更多TPU使用权,Meta通过推动软件适配TPU来降低推理成本并减少对英伟达的依赖 [1] - 华尔街分析师认为CUDA是英伟达最坚固的护城河,而谷歌过去依赖内部Jax框架的做法拉大了与外部客户实际使用习惯的鸿沟 [1] OpenAI推出ChatGPT应用商店并寻求融资 - ChatGPT应用商店正式上线,按精选、生活方式、工作效率等分类列出Adobe Photoshop、Canva、Figma等应用,用户可通过"@应用名"的方式触发使用 [2] - 开发者可在OpenAI开发者平台提交应用审核发布,OpenAI提供了包括最佳实践指南、开源示例应用、UI库和测试阶段Apps SDK在内的完整资源体系 [2] - OpenAI计划以约7500亿美元估值筹集新一轮资金,最高可能达1000亿美元,试图在AI时代复刻苹果App Store的商业模式 [2] Google发布高速低成本模型Gemini 3 Flash - Google发布Gemini 3 Flash模型,在Humanity's Last Exam基准测试中得分为33.7%,其性能介于Gemini 3 Pro的37.5%和GPT-5.2的34.5%之间 [3] - 该模型延续Flash系列极致原生速度,性能超越Gemini 2.5 Pro的同时速度提升3倍,定价为输入每百万token 0.50美元、输出每百万token 3美元 [3] - Gemini 3 Flash已成为Gemini应用和搜索AI模式的默认模型,响应速度基本在1秒以内,并通过Google AI Studio、Vertex AI等渠道全球开放 [3] 字节跳动发布通用Agent模型Seed1.8 - 字节跳动发布通用Agent模型Seed1.8,集成了搜索、代码与GUI Agent能力,支持三种思考模式可根据任务复杂度自动调整处理方式 [4] - 在GUI Agent评测中超越Seed1.5-VL,在电脑、网页、移动端三类环境中展现多步任务可靠性,BrowseComp-en基准测试得分67.6 [4] - 该模型在ZeroBench评测中获得11.0最高分,在VideoMME长视频理解评测中得87.8分,并加入了"VideoCut"视频工具调用能力 [4] 阶跃星辰升级并开放GUI Agent模型 - 阶跃星辰Step-GUI云端模型全量上新,支持200+任务场景、手机PC汽车多端可用,最短10分钟即可部署一台"AI手机" [5] - 该模型具备更长推理步骤、更强语义理解和泛化能力,当用户指令模糊不足以支撑任务执行时会自主提问 [6] - 公司开放了GUI-MCP协议以实现端云协同,其API限时免费开放,技术报告全公开,并发起"星际探索官"召集令邀请用户创作和二次开发 [6] xAI发布Grok Voice Agent API - xAI正式发布Grok Voice Agent API,首次将Grok的实时语音能力以API形式向开发者开放,主要面向语音优先的应用场景 [7] - API内置Sal、Rex、Eve、Leo等多种声音,支持Mika、Valentin等陪伴型人格,开发者可精细化控制系统指令和行为参数 [7] - 采用流式音频设计支持实时语音识别与合成,可在对话中开启搜索能力实时查询公开网页或X平台数据,显著降低交互延迟 [7] 苹果产品路线图曝光:转向AI眼镜 - MacRumors曝光苹果未来2年产品路线图共39款产品,折叠iPhone将于2026年9月发布采用书页式设计,iPhone 18则推迟至2027年 [8] - 苹果已全面暂停AR/VR头显项目,转而专注AI智能眼镜开发,预计2027年或2026年底推出,停售4年多的iMac Pro或将于2026年回归并搭载M5 Max芯片 [8] - 苹果计划在2027年推出20周年纪念版iPhone,采用前后壳体弯曲包裹设备边缘的设计,前置摄像头移至屏下,成为没有显示屏开孔的iPhone [8] a16z报告观点:AI泡沫尚未发生 - a16z合伙人认为当前AI领域并非泡沫,因为泡沫尚未破裂,企业若停止开发更大模型仅靠现有模型运营,按当前利润率很快就能实现盈利 [9] - 报告认为纯软件奇点很难实现,要推进研发必须进行更多实验,目前实验算力投入规模与最终发布模型训练运行投入相当甚至更多 [9] - 预测到2030年AI可能推动GDP增长几个百分点,若实现能完成任何远程工作的AGI,30%的GDP增长是合理下限,但结果要么是疯狂增长要么彻底崩溃 [9]
十年谣言治理之路:从信息净化到信任重构2015-2025|腾讯新闻较真十周年谣言治理白皮书
腾讯研究院· 2025-12-18 20:21
文章核心观点 - 报告系统回顾了2015至2025十年间中国网络谣言生态的演变历程,揭示了谣言在形态、传播渠道、生产动机及公众认知方面的阶段性变迁 [13] - 面对AIGC技术带来的“概率真相”挑战,传统的“事后辟谣”模式已难应对,行业需构建“主动免疫”的下一代辟谣体系,从技术、生态和公众素养三个维度提升社会整体对不实信息的抵御能力 [9][118] 十年谣言生态演变 - **第一阶段(2015-2019)**:谣言以食品安全、健康养生等“伪科学”内容为主导,具有“小切口、高频次、强关联”特点,主要通过图文和“震惊体”文章在熟人社交圈传播,辟谣工作侧重于基础科学常识的普及 [20][22] - **第二阶段(2020-2022)**:重大公共卫生事件使谣言焦点转向国家政策、公共卫生等“宏大叙事”,短视频成为主流形态,其直观性和强感染力使得谣言的传播速度与破坏力达到顶峰 [23][26] - **第三阶段(2023-2025)**:AI技术深度介入内容生产,谣言焦点回归经济、民生等多元领域,并可通过深度伪造技术制作高度拟真的音视频,鉴别难度极大提升,信息生态进入“概率真相”时期 [27][28] - **生产动机演化**:谣言生产从早期的情绪宣泄和非理性恐慌,转向以流量变现为核心的商业目的驱动,在AI时代,经济利益驱动占比高达71%,呈现出明显的产业化趋势 [34][36] - **传播形态升级**:谣言形态从早期的文本、图文,演进到短视频主导,最终在AIGC推动下走向智能化、跨模态原生造假,传播策略也日益专业化,出现“伪权威、伪逻辑、伪科学”的“三伪”手法 [31][32][33] 传播方式与公众认知变迁 - **传播渠道革命**:经历了从门户网站、微博的“文本与弱关系链”扩散,到社交媒体“强关系圈层”传播,再到短视频平台“算法裂变”,最终迈向AIGC带来的“裂变式、精准化、多元化”挑战的深刻转变 [13][46][56] - **公众心态三阶段变化**: - **2015-2019**:生活焦虑驱动,在食品安全、健康等领域,“宁可信其有”的心理导致信息判断滞后于情绪反应,熟人信任链降低了甄别阈值 [58] - **2020-2022**:重大公共事件下产生“信息饥渴”,公众分享行为更谨慎,但对官方和专家信源的依赖增强,也给冒充权威的谣言提供了空间 [59] - **2023-2025**:AI伪造内容动摇了“眼见为实”的传统认知,公众需要付出额外思考成本来判断信息真伪,部分用户开始尝试使用技术工具辅助验证 [60][61] - **公众谣言辨识能力画像**:基于对1181名网民的调研,整体辨识能力较强,87.56%的受访者答对半数以上题目,但对健康类谣言的判别能力最薄弱,有55.63%的受访者得分偏低 [62][63] - **信息应对模式**:近半数(47%)网民属于“主动查证”型,是主流群体,但仍有9%的网民属于“相信并扩散”型,健康类信息中,有18%的人会未经核实就主动向身边人分享,成为重要扩散节点 [73][76] 辟谣策略与生态演进 - **治理主体多元化**:从早期平台独立探索(如腾讯新闻较真平台2015年成立),发展为“监管+平台+社会”多方协同的治理生态,例如中国互联网联合辟谣平台于2018年上线 [91][94] - **辟谣技术三阶段跃迁**: - **1.0人工核验时代**:依赖专家智库进行专业事实查证,以图文辟谣文章为主要形态 [99][100] - **2.0工具赋能时代**:引入算法识别能力与大数据,通过H5、小程序等多种产品形态提升辟谣覆盖与效率 [101] - **3.0智能进化时代**:AI技术驱动实时识别与闭环治理,例如腾讯的较真AI能将查证效率提升90% [14][104] - **辟谣效能量化评估**:通过构建“辟谣社会价值评估模型”量化辟谣效果,数据显示在疫情期间,辟谣内容使社会恐慌情绪降低了36.5%,有效对冲阻断谣言传播达54.5%,舆论对辟谣治理行为的整体认可度达69.3% [108][109] - **“预辟谣”策略有效性**:政策类谣言因高关联公众利益且可证伪,适合“预辟谣”,长期治理已使公众形成免疫力,例如2025年调研显示,高达92%的受访者不相信“扫码领五险一金补贴”的传闻 [110][112] 未来挑战与应对策略 - **五大未来挑战**: 1. **AIGC内容规模化冲击**:AI降低了虚假信息生产门槛,支持常态化、批量化的“内容农场”式生产,辟谣工作需从“应对偶发”转向“抵御洪流” [120][121] 2. **多模态内容鉴别难关**:深度伪造(Deepfake)等音视频内容逼真度极高,挑战人类感官信任,而鉴别技术存在追赶生成技术的“代差” [122] 3. **事实核查“时间差”困境**:虚假信息传播速度比真相快六倍,具有天然“先发优势”,辟谣常陷入“事后补救”的被动局面 [122][123] 4. **跨平台与私域传播隐蔽性**:虚假信息向微信群等私域空间迁移,传播路径复杂、来源隐蔽,传统事实核查难以有效触达 [124] 5. **用户认知惰性与辟谣疲劳**:公众存在认知惰性,易接受简单煽动的内容,同时海量信息导致“辟谣疲劳”,可能引发对所有信源的不信任 [125] - **三大应对策略体系**: 1. **搭建智能辟谣系统**:利用AI技术实现海量信息实时监测与风险评分,并研发针对多模态内容的鉴别工具(如区块链溯源、AI水印)以构建“事前预警”能力 [127] 2. **构建全链路信息信任生态**:扩大跨领域权威机构合作以提升核查公信力,同时优化用户举报反馈机制,将公众转化为信息生态的第一道防线 [129] 3. **推广媒介素养教育**:针对不同群体(如青少年、老年人)定制化、趣味化地开展教育,从澄清事实延伸到普及信息鉴别方法论,培养公众的批判性思维 [130]