腾讯研究院
搜索文档
腾讯研究院AI速递 20251219
腾讯研究院· 2025-12-19 00:01
谷歌与Meta合作挑战英伟达CUDA生态 - 谷歌推进代号"TorchTPU"战略行动,旨在让PyTorch框架能在其TPU芯片上流畅运行,以消除开发者的迁移门槛,并考虑将部分软件开源 [1] - 谷歌与Meta商讨合作协议,Meta有望获得更多TPU使用权,Meta通过推动软件适配TPU来降低推理成本并减少对英伟达的依赖 [1] - 华尔街分析师认为CUDA是英伟达最坚固的护城河,而谷歌过去依赖内部Jax框架的做法拉大了与外部客户实际使用习惯的鸿沟 [1] OpenAI推出ChatGPT应用商店并寻求融资 - ChatGPT应用商店正式上线,按精选、生活方式、工作效率等分类列出Adobe Photoshop、Canva、Figma等应用,用户可通过"@应用名"的方式触发使用 [2] - 开发者可在OpenAI开发者平台提交应用审核发布,OpenAI提供了包括最佳实践指南、开源示例应用、UI库和测试阶段Apps SDK在内的完整资源体系 [2] - OpenAI计划以约7500亿美元估值筹集新一轮资金,最高可能达1000亿美元,试图在AI时代复刻苹果App Store的商业模式 [2] Google发布高速低成本模型Gemini 3 Flash - Google发布Gemini 3 Flash模型,在Humanity's Last Exam基准测试中得分为33.7%,其性能介于Gemini 3 Pro的37.5%和GPT-5.2的34.5%之间 [3] - 该模型延续Flash系列极致原生速度,性能超越Gemini 2.5 Pro的同时速度提升3倍,定价为输入每百万token 0.50美元、输出每百万token 3美元 [3] - Gemini 3 Flash已成为Gemini应用和搜索AI模式的默认模型,响应速度基本在1秒以内,并通过Google AI Studio、Vertex AI等渠道全球开放 [3] 字节跳动发布通用Agent模型Seed1.8 - 字节跳动发布通用Agent模型Seed1.8,集成了搜索、代码与GUI Agent能力,支持三种思考模式可根据任务复杂度自动调整处理方式 [4] - 在GUI Agent评测中超越Seed1.5-VL,在电脑、网页、移动端三类环境中展现多步任务可靠性,BrowseComp-en基准测试得分67.6 [4] - 该模型在ZeroBench评测中获得11.0最高分,在VideoMME长视频理解评测中得87.8分,并加入了"VideoCut"视频工具调用能力 [4] 阶跃星辰升级并开放GUI Agent模型 - 阶跃星辰Step-GUI云端模型全量上新,支持200+任务场景、手机PC汽车多端可用,最短10分钟即可部署一台"AI手机" [5] - 该模型具备更长推理步骤、更强语义理解和泛化能力,当用户指令模糊不足以支撑任务执行时会自主提问 [6] - 公司开放了GUI-MCP协议以实现端云协同,其API限时免费开放,技术报告全公开,并发起"星际探索官"召集令邀请用户创作和二次开发 [6] xAI发布Grok Voice Agent API - xAI正式发布Grok Voice Agent API,首次将Grok的实时语音能力以API形式向开发者开放,主要面向语音优先的应用场景 [7] - API内置Sal、Rex、Eve、Leo等多种声音,支持Mika、Valentin等陪伴型人格,开发者可精细化控制系统指令和行为参数 [7] - 采用流式音频设计支持实时语音识别与合成,可在对话中开启搜索能力实时查询公开网页或X平台数据,显著降低交互延迟 [7] 苹果产品路线图曝光:转向AI眼镜 - MacRumors曝光苹果未来2年产品路线图共39款产品,折叠iPhone将于2026年9月发布采用书页式设计,iPhone 18则推迟至2027年 [8] - 苹果已全面暂停AR/VR头显项目,转而专注AI智能眼镜开发,预计2027年或2026年底推出,停售4年多的iMac Pro或将于2026年回归并搭载M5 Max芯片 [8] - 苹果计划在2027年推出20周年纪念版iPhone,采用前后壳体弯曲包裹设备边缘的设计,前置摄像头移至屏下,成为没有显示屏开孔的iPhone [8] a16z报告观点:AI泡沫尚未发生 - a16z合伙人认为当前AI领域并非泡沫,因为泡沫尚未破裂,企业若停止开发更大模型仅靠现有模型运营,按当前利润率很快就能实现盈利 [9] - 报告认为纯软件奇点很难实现,要推进研发必须进行更多实验,目前实验算力投入规模与最终发布模型训练运行投入相当甚至更多 [9] - 预测到2030年AI可能推动GDP增长几个百分点,若实现能完成任何远程工作的AGI,30%的GDP增长是合理下限,但结果要么是疯狂增长要么彻底崩溃 [9]
十年谣言治理之路:从信息净化到信任重构2015-2025|腾讯新闻较真十周年谣言治理白皮书
腾讯研究院· 2025-12-18 20:21
文章核心观点 - 报告系统回顾了2015至2025十年间中国网络谣言生态的演变历程,揭示了谣言在形态、传播渠道、生产动机及公众认知方面的阶段性变迁 [13] - 面对AIGC技术带来的“概率真相”挑战,传统的“事后辟谣”模式已难应对,行业需构建“主动免疫”的下一代辟谣体系,从技术、生态和公众素养三个维度提升社会整体对不实信息的抵御能力 [9][118] 十年谣言生态演变 - **第一阶段(2015-2019)**:谣言以食品安全、健康养生等“伪科学”内容为主导,具有“小切口、高频次、强关联”特点,主要通过图文和“震惊体”文章在熟人社交圈传播,辟谣工作侧重于基础科学常识的普及 [20][22] - **第二阶段(2020-2022)**:重大公共卫生事件使谣言焦点转向国家政策、公共卫生等“宏大叙事”,短视频成为主流形态,其直观性和强感染力使得谣言的传播速度与破坏力达到顶峰 [23][26] - **第三阶段(2023-2025)**:AI技术深度介入内容生产,谣言焦点回归经济、民生等多元领域,并可通过深度伪造技术制作高度拟真的音视频,鉴别难度极大提升,信息生态进入“概率真相”时期 [27][28] - **生产动机演化**:谣言生产从早期的情绪宣泄和非理性恐慌,转向以流量变现为核心的商业目的驱动,在AI时代,经济利益驱动占比高达71%,呈现出明显的产业化趋势 [34][36] - **传播形态升级**:谣言形态从早期的文本、图文,演进到短视频主导,最终在AIGC推动下走向智能化、跨模态原生造假,传播策略也日益专业化,出现“伪权威、伪逻辑、伪科学”的“三伪”手法 [31][32][33] 传播方式与公众认知变迁 - **传播渠道革命**:经历了从门户网站、微博的“文本与弱关系链”扩散,到社交媒体“强关系圈层”传播,再到短视频平台“算法裂变”,最终迈向AIGC带来的“裂变式、精准化、多元化”挑战的深刻转变 [13][46][56] - **公众心态三阶段变化**: - **2015-2019**:生活焦虑驱动,在食品安全、健康等领域,“宁可信其有”的心理导致信息判断滞后于情绪反应,熟人信任链降低了甄别阈值 [58] - **2020-2022**:重大公共事件下产生“信息饥渴”,公众分享行为更谨慎,但对官方和专家信源的依赖增强,也给冒充权威的谣言提供了空间 [59] - **2023-2025**:AI伪造内容动摇了“眼见为实”的传统认知,公众需要付出额外思考成本来判断信息真伪,部分用户开始尝试使用技术工具辅助验证 [60][61] - **公众谣言辨识能力画像**:基于对1181名网民的调研,整体辨识能力较强,87.56%的受访者答对半数以上题目,但对健康类谣言的判别能力最薄弱,有55.63%的受访者得分偏低 [62][63] - **信息应对模式**:近半数(47%)网民属于“主动查证”型,是主流群体,但仍有9%的网民属于“相信并扩散”型,健康类信息中,有18%的人会未经核实就主动向身边人分享,成为重要扩散节点 [73][76] 辟谣策略与生态演进 - **治理主体多元化**:从早期平台独立探索(如腾讯新闻较真平台2015年成立),发展为“监管+平台+社会”多方协同的治理生态,例如中国互联网联合辟谣平台于2018年上线 [91][94] - **辟谣技术三阶段跃迁**: - **1.0人工核验时代**:依赖专家智库进行专业事实查证,以图文辟谣文章为主要形态 [99][100] - **2.0工具赋能时代**:引入算法识别能力与大数据,通过H5、小程序等多种产品形态提升辟谣覆盖与效率 [101] - **3.0智能进化时代**:AI技术驱动实时识别与闭环治理,例如腾讯的较真AI能将查证效率提升90% [14][104] - **辟谣效能量化评估**:通过构建“辟谣社会价值评估模型”量化辟谣效果,数据显示在疫情期间,辟谣内容使社会恐慌情绪降低了36.5%,有效对冲阻断谣言传播达54.5%,舆论对辟谣治理行为的整体认可度达69.3% [108][109] - **“预辟谣”策略有效性**:政策类谣言因高关联公众利益且可证伪,适合“预辟谣”,长期治理已使公众形成免疫力,例如2025年调研显示,高达92%的受访者不相信“扫码领五险一金补贴”的传闻 [110][112] 未来挑战与应对策略 - **五大未来挑战**: 1. **AIGC内容规模化冲击**:AI降低了虚假信息生产门槛,支持常态化、批量化的“内容农场”式生产,辟谣工作需从“应对偶发”转向“抵御洪流” [120][121] 2. **多模态内容鉴别难关**:深度伪造(Deepfake)等音视频内容逼真度极高,挑战人类感官信任,而鉴别技术存在追赶生成技术的“代差” [122] 3. **事实核查“时间差”困境**:虚假信息传播速度比真相快六倍,具有天然“先发优势”,辟谣常陷入“事后补救”的被动局面 [122][123] 4. **跨平台与私域传播隐蔽性**:虚假信息向微信群等私域空间迁移,传播路径复杂、来源隐蔽,传统事实核查难以有效触达 [124] 5. **用户认知惰性与辟谣疲劳**:公众存在认知惰性,易接受简单煽动的内容,同时海量信息导致“辟谣疲劳”,可能引发对所有信源的不信任 [125] - **三大应对策略体系**: 1. **搭建智能辟谣系统**:利用AI技术实现海量信息实时监测与风险评分,并研发针对多模态内容的鉴别工具(如区块链溯源、AI水印)以构建“事前预警”能力 [127] 2. **构建全链路信息信任生态**:扩大跨领域权威机构合作以提升核查公信力,同时优化用户举报反馈机制,将公众转化为信息生态的第一道防线 [129] 3. **推广媒介素养教育**:针对不同群体(如青少年、老年人)定制化、趣味化地开展教育,从澄清事实延伸到普及信息鉴别方法论,培养公众的批判性思维 [130]
腾讯研究院AI速递 20251218
腾讯研究院· 2025-12-18 00:01
行业核心动态:AI模型与产品密集迭代升级 - OpenAI推出全新图像生成模型ChatGPT Images,图像生成速度提升4倍,API价格比前代降低20% [1] - Meta开源音频分割模型SAM Audio,支持文本、视觉和时间跨度提示,在超过1亿条视频上训练,运行速度快于实时处理 [2] - 小米开源大模型MiMo-V2-Flash,总参数3090亿,活跃参数150亿,在SWE-bench Verified得分73.4%超越所有开源模型 [3] - 腾讯混元世界模型1.5开源,支持创建实时交互3D世界,以24FPS速度生成720P高清视频 [4] - 谷歌在Gemini中深度整合Opal工作流,推出Super Gems功能和新工作流构建器 [7] - OpenAI发布专家级科学能力评估基准FrontierScience,包含700余道题目,GPT-5.2在奥赛赛道得分77% [8] 模型性能与技术创新 - ChatGPT Images支持添加、删减、组合、融合等多种编辑,文本渲染能力增强,内置数十种预设滤镜和提示词 [1] - SAM Audio核心引擎PE-AV基于Perception Encoder扩展,实现多模态融合,在多种音频分离任务上达到SOTA水平 [2] - MiMo-V2-Flash采用5比1混合滑动窗口注意力机制,使KV缓存减少近6倍,轻量级多Token预测使推理速度提升2-2.6倍 [3] - 腾讯混元世界模型1.5核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案和基于3D的自回归扩散模型强化学习 [4] - Vidu Agent具备分镜级可控力,能保持产品人物场景在15-30秒视频中的一致性,并支持精细化编辑 [5][6] - FrontierScience基准的研究赛道采用基于量规的10分制评估,关注推理步骤正确性,揭示模型存在推理逻辑错误等问题 [8] 商业化与成本策略 - ChatGPT Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供 [1] - MiMo-V2-Flash后训练采用多教师在线策略蒸馏,仅需传统方法1/50算力达到教师性能峰值,API限时免费开放,成本为每百万token输入0.1美元输出0.3美元 [3] - Vidu Agent首推多模态Agent API,为企业提供端到端交付结果,支持上传爆款视频和产品图批量产出同类高质量视频 [5][6] - 谷歌Gemini的新工作流可直接生成可分享链接并公开发布,不再依赖Google Drive权限设置 [7] 行业战略与研发投入 - 原DeepSeek成员罗福莉加入小米并发表演讲,强调AI进化的下个起点是能与物理世界交互的模型,认为真正护城河是科学研究文化与将未知问题转化为可用产品的能力 [9] - 罗福莉提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径 [9] - 小米未来五年研发投入预计超2000亿元,2026年预计投入约400亿元 [9]
这里有一个向顶尖社会学者提问的机会,你想问什么?
腾讯研究院· 2025-12-17 17:23
文章核心观点 - 文章旨在邀请读者向剑桥大学知名学者阿兰·麦克法兰教授提问,问题可围绕人工智能时代、社会或个人困惑展开,优秀问题将有机会获得教授的视频答复、收录至新书或获得赠书[4][5][6][7] 活动参与方式与详情 - 参与方式为在文章评论区直接提交1至3个问题[5] - 问题征集截止日期为2025年12月27日[6] - 精选问题将由麦克法兰教授录制视频亲自答复,并于2026年1月27日在腾讯研究院科技向善创新节公开放出[6] - 提问者的问题有机会被收录进麦克法兰教授的新书[7] - 将从所有提问者中抽选5位,赠送麦克法兰教授的经典著作一本[8] 人物背景介绍 - 阿兰·麦克法兰教授是社会人类学学家、历史学家、剑桥大学国王学院终身院士及英国国家学术院院士,以跨学科研究社会长期演化著称[2] - 教授长期关注中国技术与经济发展,在中国社交媒体平台拥有接近百万粉丝,因其在书房录制的亲切形象而被粉丝称为“从霍格沃茨走出的教授”[3] - 教授通过视频内容解答粉丝关于人工智能技术的疑惑与人生问题[3]
我们一起,定义真正以人为尺度的AI丨「AI向善语料库」招募朋友啦!
腾讯研究院· 2025-12-17 17:23
项目概述 - 腾讯研究院联合多家机构于2024年8月发起“AI向善语料库”社会共创行动,旨在为商业环节中失声的人群构建更具人文关怀的AI语料库,推动AI为人类福祉发挥更大价值 [2] - 项目首期以“老年人”为主题,汇聚了百余家社会组织参与,共收集8047条专家级问答语料和1408条由老年人撰写的优质语料,成为国内外首个通过公益共创构建的AI训练公共语料库 [3] - 项目第二期将目光投向“困境儿童青少年”,旨在通过语料共创探索AI在该群体的应用 [7] 第二期项目焦点与目标 - 项目通过集合二十余位一线专家并进行系统性测评,锁定了两个对AI极具挑战性和重要性的议题:儿童青少年性教育支持与留守儿童成长支持 [11] - 在性教育方面,目标是塑造AI成为合格的“引路人”,提供专业、温情、不羞耻的成长支持,并探索如何把握聊天尺度及最小化潜在伤害 [13][14] - 在留守儿童方面,目标是补充AI的“处境化知识”,使其建议更具针对性,并探索真实需求场景及产品落地的可行性 [16][17] - 项目当前处于寻求战略合作伙伴以共同锚定方向的阶段 [19] 战略合作伙伴招募 - 项目正在寻找三类“战略合作伙伴”参与前期脑暴研讨会,共同探索行动路径 [20][21] - 第一类合作伙伴需“懂人”,即深耕儿童青少年性教育或留守儿童领域的公益组织、高校或社会企业团队 [21] - 第二类合作伙伴需“懂技术”,即熟悉LLM、RAG、SFT等技术,并有相关数据处理、模型调优或AI公益应用经验的团队或个人 [22] - 第三类合作伙伴需“懂生态”,即致力于开源技术赋能社会,有搭建或运营开源社区经验的团队 [23] - 项目鼓励以组织或团队为单位报名,但也欢迎有强大组织动员能力的个人贡献者 [28] 合作伙伴权益 - 战略合作伙伴将最早获得“AI向善语料库”(儿童库)所有资源,语料库完成后将首先开源给所有参与共创的组织 [29] - 合作伙伴将享有项目全套传播资源,包括参与沙龙、座谈及录制专访的机会 [29] - 项目将辅助有兴趣的合作伙伴使用语料库成果打造定制化智能体或产出前沿研究 [29] - 合作伙伴将获得定制证书和感谢信,并根据实际合作需要匹配相应的经济与其他资源 [29]
腾讯研究院AI速递 20251217
腾讯研究院· 2025-12-17 00:32
苹果AI芯片战略 - 苹果正开发首款代号"Baltra"的AI服务器芯片,与博通合作开发网络技术,采用台积电3nm工艺,预计2027年部署 [1] - 苹果已放弃自建大模型,转而每年支付约10亿美元使用谷歌定制的1.2万亿参数Gemini模型,Baltra芯片主要用于满足庞大的AI推理需求 [1] - 芯片架构将注重时延与吞吐量优化,采用INT8等低精度运算,可能采用64颗芯片互连配合大容量LPDDR内存的方案 [1] 大模型技术进展 - 英伟达推出Nemotron 3系列开源模型,包含Nano、Super和Ultra三种规模,采用突破性异构混合专家架构 [2] - Nemotron 3 Nano的吞吐量比上一代高4倍,在大规模多智能体系统中实现领先的每秒生成token数,推理效率显著提升 [2] - 模型通过先进强化学习技术和大规模并行多环境后训练实现卓越准确率,并提供完整的训练数据集和强化学习库 [2] - 逆向工程发现ChatGPT记忆系统采用四层架构:会话元数据、用户记忆、近期对话摘要和滑动窗口,未使用向量数据库或RAG检索 [3] - ChatGPT通过预生成的轻量级摘要和显式保存的结构化信息实现记忆,GPT-4最大上下文窗口为128k token,超出后最前面的内容会被遗忘 [3] AI应用与内容生成 - 腾讯元宝上线写作模式,支持自动补全剧情人设大纲并一键生成成稿,单次可直出数万字文本 [4] - 元宝可在约14分钟生成约3万字,半小时写出5万字,并支持将长稿一键导出至本地文档或腾讯文档 [4] - 通义万相2.6成为国内首个支持角色扮演的视频模型,支持音画同步、多镜头生成及声音驱动 [5] - 视频生成支持15秒长视频、多镜头叙事和自然音画同步,能参考输入视频角色外观和音色实现单人、多人合拍 [5] - 图像生成升级包括艺术风格高度美学可控、真实人像质感提升、文字生成图表插画、图文混排输出和多图融合生成等功能 [6] - 字节跳动发布Seedance 1.5 pro音视频联合生成模型,支持精准音画同步、多语言方言、电影级运镜和15秒长视频生成 [7] - 模型采用MMDiT架构实现视听流精准协同,原生支持中英日韩等多语种及四川话粤语等方言,音频指令遵循处于业内头部水平 [7] 自动驾驶进展 - 工信部附条件许可长安深蓝SL03和极狐阿尔法S两款L3级自动驾驶车型,成为我国首批获准入的L3车型 [8] - 深蓝SL03可在拥堵环境下最高时速50km/h实现单车道自动驾驶,仅限重庆内环等指定路段;极狐阿尔法S最高时速80km/h,仅限北京京台高速等路段 [8] - 两家企业已完成并通过产品测试与安全评估,将在指定区域开展上路通行试点 [8] AI行业趋势与挑战 - 谷歌前CEO Eric Schmidt提出"旧金山共识",认为语言智能体与推理能力结合将趋近人类核心能力,技术融合到一定阶段会出现AI递归自我改进 [9] - 他预测AI数学家将在未来一年内出现推动新数学理论诞生,行业普遍认为这一变革在2-4年内发生 [9] - 美中AI竞争路径分化:美国聚焦超级智能研发但电力不足,中国全力推动AI商业应用落地且电力充足,两国均依赖私营部门推动发展 [9] - 多款AI模型面对六指手图像无法正确数出手指数量,暴露出当前AI在视觉推理、因果关系理解上的缺陷 [10] - 问题根源在于训练数据中"人手=五指"的强关联和Transformer架构缺乏显式结构约束,单次前向传递无法追踪状态信息 [10]
AI只是可控工具: AI伦理学者乔安娜·布赖森谈AGI神话与未来治理
腾讯研究院· 2025-12-16 17:34
文章核心观点 - 人工智能本质上是一个可控的工具,其特殊性不应被过度强调,发展的核心在于确保透明度、问责制以及明确的责任链条[5][7][14][21] - 通用人工智能(AGI)的叙事可能被科技公司用于规避责任和推动市场集中,真正的挑战在于对复杂系统的管理和监管,而非技术本身具备自主意识[6][7][13][14] - 人工智能对就业的影响具有双重性,可能同时产生替代效应和增强效应,社会需要通过教育改革、技能再培训和社会保障体系的调整来应对经济转型[5][8][9] - 人工智能治理的关键在于建立有效的监管框架,明确产品责任,欧盟的《人工智能法案》是开创性的尝试,但执行和跨国监管面临挑战[7][15][19][20][22] - 全民基本收入(UBI)可能是一个过于简化的解决方案,解决财富不平等需要更系统的措施,如公共教育和适度的激励机制[17][18] AI的本质与定位 - 人工智能是加速科研进程的工具,与其他工具没有本质区别,不必过于强调其特殊性[5] - 人工智能与政府和公司类似,是一种通过技术和合作放大人类智能的复杂系统,问题核心在于如何管理和监管这些系统以确保透明与可问责[6] - 当前AI不具备人类意义上的“意识”,其与人类是异质性关系,目标由人类设定,缺乏真正的共同规划和决策[13] - AGI本质仍是工具,决策权始终在人类手中,如同计算器或抛硬币,责任在于背后的控制者[14] AI对经济与就业的影响 - 自动化引入可能产生两种经济效应:替代效应(减少劳动力需求)和增强效应(通过提高生产力创造就业)[5] - Oxford研究显示,英国目前未显现明显替代效应,反而在高生产力领域看到更多就业机会[5] - 工作的本质涉及权力集中,企业通过自动化用更少人完成更多工作,同时集中权力并雇佣高生产力员工以提升控制力[8] - 经济转型导致技能重新估值,旧技能价值可能降低,新技能需求出现,教育与社会保障体系需改革以帮助人们适应[9] - 未来若多数工作由AI完成,工作的定义可能转向社会联系、个人认同和自我价值实现,如餐饮、艺术等行业提供情感交流空间[10] AI风险、责任与治理 - AI的主要风险并非自主意识,而在于系统是否透明、可控及有明确的责任链条[7][14][15] - 必须确保AI产品有清晰的责任追溯机制,一旦出现问题能明确责任所在,责任模糊化不可接受[15][16] - 欧盟《人工智能法案》影响深远:明确AI产品法律地位,要求高风险系统严格记录,禁止某些不兼容服务(如社会信用评分),并要求明确标识AI性质[19] - AI治理的挑战在于法案的执行,尤其是在跨国监管和全球统一标准方面[20] - 监管大型AI平台及防止市场过度集中是关键,需确保技术像GPS一样得到合理监管以维持公平竞争[21][22] - 跨国科技公司的监管是被忽视的重要议题,需通过国际合作建立框架,应对其在全球数据使用和广告市场的主导地位对公共利益造成的冲击[22] 社会发展与政策应对 - 面对AI带来的变革,北欧国家提供了参考模式,即政府选择未来产业方向并通过劳动力再培训帮助人们适应新环境[9] - 社会保障体系需提供更多支持,防止因失业导致的身份认同危机和极端化行为[9] - 全民基本收入(UBI)理念存在争议,可能过于简化,解决财富不平等需要更系统的措施如公共教育和结构性支持[17][18] - 最理想的社会经济结构是保持适度的基尼系数(约0.27),过度平等或贫富差距过大均不利于社会稳定与发展[18] - AI监管应被视为对可控工程产品的监督,需建立明确机制并确保发展符合人类利益[23]
腾讯研究院AI速递 20251216
腾讯研究院· 2025-12-16 00:22
Manus 1.6 发布与AI Agent能力跃升 - Manus 1.6 Max发布,实现从“辅助工具”到“独立承包商”的质变,用户满意度提升19.2%,采用子Agent并行处理架构,能独立完成复杂Excel财务建模和数据分析 [1] - 新增移动开发功能,支持端到端App开发流程,用户只需描述需求即可生成可运行的iOS和Android应用 [1] - 推出Design View设计视图,实现局部修图、精准文字渲染和多图层合成,解决AI生图不可控的痛点 [1] OpenAI开源稀疏模型与可解释性研究 - OpenAI开源Circuit-Sparsity模型,参数量仅0.4B,强制99.9%权重为零仅保留0.1%非零权重,旨在解决模型可解释性问题 [2] - 该稀疏模型内部形成紧凑可读的“电路”,规模比密集模型缩减16倍,神经元激活具有明确语义,但运算速度慢100至1000倍 [2] - 研究团队提出“桥梁网络”方案,在稀疏模型与密集模型间插入编码器-解码器对,实现对现有大模型的可解释性行为编辑 [2] 模型微调与推理服务更新 - 前OpenAI CTO创办的Thinking Machines全面开放Tinker产品,这是一个用于帮助开发者微调语言模型的API [3] - Tinker新增支持Kimi K2 Thinking(万亿参数规模专为长链推理设计)和Qwen3-VL视觉输入(30B和235B两款模型)的微调 [3] - 提供兼容OpenAI API的全新推理接口,用户可即插即用接入任何兼容OpenAI API的平台,简化LLM后训练过程 [3] 谷歌产品整合与AI工具进化 - NotebookLM正式“接入”Gemini体系,用户可在Gemini对话中直接添加NotebookLM笔记作为数据源进行问答 [4] - Gemini成为连接多个NotebookLM笔记的“中枢”,解决了NotebookLM不支持笔记本合并的问题,可同时调用多个笔记进行查询 [4] - NotebookLM内容开始可与网络信息同时使用,实现“个人资料+全网信息”混合式分析,从“小众研究工具”融入谷歌核心AI产品线 [4] 通义语音与识别模型升级 - 通义百聆发布Fun-CosyVoice3模型升级,首包延迟降低50%,中英混字准确率翻倍,支持9语种18方言口音跨语种克隆与情感控制 [5] - Fun-ASR在噪声场景准确率达93%,支持歌词与说唱识别、31语种自由混说、方言口音覆盖,并将流式识别模型的首字延迟降低到160ms [5] - 开源Fun-CosyVoice3-0.5B提供zero-shot音色克隆能力,并开源Fun-ASR-Nano-0.8B轻量化版本以降低推理成本 [6] Zoom与AI模型在专业考试中的表现 - 视频会议公司Zoom宣称在“人类最后的考试”HLE基准测试上取得48.1%成绩,比Google Gemini 3 Pro的45.8%高出2.3个百分点 [7] - Zoom采用“联邦AI方法”,将自研小型语言模型与OpenAI、Anthropic、Google等公司的闭源和开源模型组合,通过Z-scorer评分系统选择输出 [7] - 该成绩未出现在HLE官方排行榜,发布当天Sup AI已宣布以52.15%准确率超越,Zoom正试图成为企业工作流中的AI中枢 [7] AI模型在金融专业资格考试中的突破 - 最新研究显示推理模型全部通过CFA三级考试,Gemini 3.0 Pro在一级考试中创下97.6%的历史最高纪录,GPT-5在二级考试中以94.3%领先 [8] - 在三级考试中,Gemini 2.5 Pro选择题达86.4%,Gemini 3.0 Pro问答题达92.0%,短短两年从“不及格”到“近乎满分” [8] - 专家指出会考试不等于能干活,AI在“道德伦理”类题目最吃力,且无法排除“数据污染”可能,不能替代分析师的战略思考和客户沟通 [8] 医疗AI公司估值与商业化进展 - OpenEvidence正在进行2.5亿美元股权融资,投后估值达120亿美元,较两个月前上一轮私募估值翻了一番 [9] - 该公司通过向制药公司出售聊天机器人广告位赚钱,目前年化广告收入约1.5亿美元,比8月份增长3倍,毛利率高于90% [9] - 根据OffCall调查,约45%美国医生使用OpenEvidence,每月回答来自美国医生约2000万个问题,使用医学期刊许可信息比通用聊天机器人更准确 [9] AI在软件开发中的深度应用 - OpenAI仅用4人工程团队与AI智能体Codex协作,在28天内完成安卓版Sora开发,消耗约50亿Token,约85%代码由AI完成 [10] - 团队采用“探索-验证-联邦”智能体工作流,Codex处理繁重编码任务,工程师专注架构、用户体验和质量把控,实现99.9%无崩溃率 [10] - Codex已承包OpenAI内部每周70%的PR,能监控自己训练过程并处理用户反馈,形成“AI迭代AI”的自我进化模式 [10] AI成人内容市场趋势与社会影响 - 到2025年AI成人内容市场规模将达约25亿美元,到2028年可能以每年约27%速度增长,OpenAI、Meta等巨头纷纷布局该领域 [11] - AI成人内容彻底颠覆传统生产方式,可按需定制性格、语气、外貌,研究显示人类会觉得AI生成的脸比真人脸“更真实” [11] - DeepFake技术成为校园霸凌和羞辱女性工具,仅需一张照片AI就能“脑补”裸体,专家警告AI正在制造隔离而非缓解孤独 [11]
如何度过技术变革的“乱纪元”?
腾讯研究院· 2025-12-15 18:18
文章核心观点 - AI的快速发展正引发深刻的技术与社会变革 当前硅谷的裁员潮虽非完全由AI引发 但AI在其中扮演了复杂的一体两面角色 既催化组织变革 也迫使企业进行战略聚焦和资源重配[2] - 应对AI带来的挑战 需要从个体和社会两个层面着手 个体需提升适应能力 社会则需构建制度化的韧性机制 以度过技术变革的“乱纪元”[3] - 回顾工业革命的历史经验 特别是对比英国的卢德运动与中国张謇的实践 能为应对当前AI冲击提供启发 关键在于如何协调技术进步与社会福祉[4][5][6][7] - 与历次技术革命相比 人工智能革命在速度、规模和影响上更为剧烈 对社会适应与协调能力提出了前所未有的挑战[9][11][13] - 在后AI时代 科技公司需要积极承担社会责任 从张謇精神中汲取智慧 秉持发展为先、以人为本、社会共生的理念 以引导技术向善[14][15][16][17] AI与当前就业市场动态 - 根据Layoffs.fyi统计 2024年已有超过218家科技公司进行裁员 总人数超过11万[2] - AI在本轮裁员中作用复杂 一方面是推动企业实质性组织变革的催化剂 另一方面其巨大的投入预期迫使企业进行战略聚焦和资源重新配置[2] - 部分企业在盈利增长下的反常规裁员操作 被视作AI就业替代的重要信号[2] 历史镜鉴:工业革命的启示 - 第一次工业革命初期 蒸汽机在提升效率的同时也带来了社会转型阵痛 引发了如1811年卢德运动等工人对抗[5] - 同期 经济学家David Ricardo(1821年)和哲学家Thomas Carlyle(1839年)已开始关注和批判机器对工人利益及社会结构的冲击[5] - 工业革命浪潮传入中国后 以张謇为代表的企业家采取了截然不同的路径 通过开办实业、发展教育、建设福利体系(如工人住宅、公园、医务室) 实现了工人、企业与社区的协同发展[6] - 张謇的模式使南通在数十年间从农业县转变为近代工商业城市 体现了企业效率与社会福祉兼顾的发展逻辑[7] - 工业革命时期 技术扩散受物理空间制约 社会有相对充裕的时间通过立法(如1833年英国《工厂法》)等机制适应调整 例如英国城市人口比重从1801年的33.8%增长到1851年的50.2%[10] AI技术革命的独特性与挑战 - AI革命触及的根本性问题在于可能取代人类思考 挑战人的主体性和意义感[9] - AI技术扩散速度远超以往:第一次工业革命普及持续近百年 电力需几十年 信息革命以年/月为单位 而AI则以天为节奏更新 有“大模型一天,人间一年”的说法[11] - 标志性产品用户积累时间急剧缩短:电话达到50%美国家庭普及用了50多年 广播吸引5000万听众用了38年 互联网时代的Meta达到1亿用户用54个月 移动互联网的TikTok用9个月 而AI时代的ChatGPT仅用2个月[11] - 麦肯锡全球研究院研究表明 以AI为代表的新兴科技促成的社会转变 与工业革命相比“发生的速度快10倍 规模大300倍 影响几乎大3000倍”[11] AI对就业的影响预测 - 世界经济论坛《2025年未来就业报告》预测 到2030年 AI将替代9200万个岗位 同时创造1.7亿个新岗位 净增7800万个就业机会[12] - 联合国国际劳工组织与波兰机构的联合研究显示 全球四分之一工作岗位可能受生成式AI影响 但最可能结果是岗位转型而非直接被取代[12] - DeepSeek研究员陈德里预测 AI影响就业分为三个阶段:3-5年短周期为人类与AI协作蜜月期;5-10年中期取代风险上升;10-20年长周期可能取代绝大多数人类工作 社会秩序面临较大挑战[12] 后AI时代的企业责任与发展理念 - 应对AI挑战需构建新的社会韧性机制 从社会系统再平衡高度进行整体思考[13] - 在技术变革的“乱纪元” AI企业需积极、主动探索社会议题解决方案 并反馈至产品责任与伦理规范[14] - 行业领先公司已开始探索:OpenAI创始人萨姆·奥特曼开启无条件基本收入(UBI)实验;谷歌正在物色“高级人工智能经济学家”以研究后AGI时代的经济学与资源分配[14] - 张謇精神对AI时代企业的现实启迪包含三点核心:1)发展为先的使命追求 以产业升级和社会进步为己任;2)以人为本的价值导向 技术发展必须服从人的价值与利益 保障人的主体性与尊严;3)社会共生的发展逻辑 构建跨越产业、文化和治理的系统性生态 推动形成丰裕、可持续的智能社会[15][16][17]
腾讯探元计划创新升级:重点破解“AI考古”与“活化利用”前沿难题
腾讯研究院· 2025-12-15 18:18
腾讯探元计划NextGen升级发布 - 腾讯于12月12日在北京举办探元创新大会,正式启动全新升级的“探元计划NextGen”[2][3] - 新计划将重点聚焦“AI考古”与“活化利用”两大赛道,旨在深度拓展AI等前沿技术应用,破解文化遗产保护与活化的前沿难题[2][3] - 该计划由腾讯SSV与腾讯研究院主办,联合北京大学文化产业研究院、山东大学文化遗产研究院等机构共同发起[4] AI考古赛道规划与目标 - “AI考古”赛道由山东大学文化遗产研究院联合发起,旨在将人工智能技术深度融入考古学研究与实践[3] - 该赛道计划评选2-3个标志性场景项目,每个提供百万元级资助;以及3-5个技术突破项目,每个提供30万元资助[3] - 赛道致力于解决传统考古耗时长、依赖专家经验、数据处理效率低等挑战,从文物智能复原、数据智能分析、古文字智能解读等层面推动行业进步[3] 活化利用赛道规划与目标 - “活化利用”赛道由北京大学文化产业研究院联合发起,目标是精准推动3个左右具有代表性的文化数智化场景落地,形成可复制、可推广的模式,并推动潜力项目走向国际[3] - 该赛道直面文化遗产资源数智活化痛点,发起三大议题以解决行业问题[5] - 议题一为“文化垂类多模态智能体”,解决通用大模型在文化遗产领域个性化和专业性不足的痛点[5] - 议题二为“沉浸式互动体验创新”,重点解决文化资源展示方式单一、故事讲述单调、互动体验不足的问题[5] - 议题三为“人机协同技艺传承与创新”,重点解决文化传承断层问题,通过对传承人技艺进行标准化、可量化分析和永久性数字化保存,实现活态传承[5] 探元AI技术平台与能力 - 腾讯SSV数字文化实验室在会上发布了面向文博场景的探元AI,致力于为行业痛点及公众体验提升提供系统化解决方案[2] - 探元AI基于混元和DeepSeek双引擎大模型,整合了腾讯多媒体实验室6DoF技术、混元图生文团队的AI多模态识别能力,并基于腾讯优图实验室、腾讯云智能等平台超过300项AI原子能力构建[7] - 平台构建了高质量的结构化数据和文物语料库,并面向行业开放知识库管理平台以及系列场景化的智能体开发支持[7] - 作为文博助手,探元AI将面向公众提供实景导览、文物讲解、拍照识文物、AIGC创作工具,以提升公众互动观展体验[7] 探元平台发展现状与愿景 - 目前已有全国超过600家博物馆入驻探元平台,并沉淀了包括甲骨文、北京中轴线、景德镇等在内的头部文化IP语料库[8] - 公司下一步将逐步开放探元AI工具平台,为更多文保机构提供技术支撑,助力构建全链条的数字化防护体系,并向中小博物馆推出低门槛的普惠解决方案[8] - 探元平台旨在以AI为内核,构建一个开源的社会文化服务平台,用AI驱动中华文化遗产的数智化转型,目标是“让真实的文明,被活在今天时代的人们,更真切的感知”[8] 2024年文化遗产数字化成果 - 2024年,探元计划在文化遗产数字化保护与活化方面取得系列突破性进展[11] - 运用AI大模型与太赫兹时域光谱技术,成功实现对克孜尔石窟烟熏壁画的智能识别与虚拟复原[11] - 攻克了龙门石窟微痕浅浮雕的高精度三维建模与纹饰解析瓶颈[11] - 微痕增强技术帮助研究人员更高效地释读安阳殷墟的甲骨文[11] - 在传承与传播方面,利用三维算法技术数字化再现了河南陈家沟陈氏太极拳的姿态动作[11] - 借助数字交互与动捕技术,使三星堆博物馆的数字IP“蜀堆堆”变得生动可爱,获得年轻游客欢迎[11] 行业背景与公司战略 - 2024年,中国博物馆的接待人次达到了14.9亿,但文博消费体验仍有很大提升空间,年轻用户渴望参与和共情,而非单向说教[7] - 腾讯公司副总裁表示,“科技向善”是公司长期坚守的使命,保护、传承传统文化,推动“科技+文化”融合发展是公司持续关注与投入的重要事业[12] - 腾讯探元计划持续搭建跨界对话平台,推进科技与文化融合,让技术方与场景方有效衔接,其成果已成功入选《世界互联网大会文化遗产数字化案例集(2025)》,获得国际认可[12]