腾讯研究院 - 财报，业绩电话会，研报，新闻

腾讯研究院

搜索文档

腾讯研究院· 2026-01-23 16:48

GenAI对音乐产业的核心价值与影响 - GenAI极大提升了音乐创作效率，在作词、成曲、演唱等环节均有应用，随着音乐大模型迭代优化，AI音乐生成整体质量不断提高 [7] - 现阶段AI音乐创作或辅助人类创作主要是模仿，若能形成“生产-消费-反馈”闭环，AI具有在模仿基础上形成新音乐形式和流派的潜力 [7][11] - AI将把音乐推荐从“个性化”推向“场景化与实时生成”，未来趋势是基于实时数据和生活场景生成符合用户需求、独一无二的音乐 [8][22][23] GenAI在音乐产业工作流程中的降本增效 - GenAI带来的根本性改变在于极大提升创作者端生产效率，半年来进步显著，从局限于单一环节发展到整体音乐生产能力巨大飞跃 [10] - 从平台供给侧看，独立音乐人的内容供给量已达到原来的2到3倍，厂牌效率也有大幅提升 [10] - AI参与的环节首先是作词，其次是直接成曲，创作者使用AI编曲辅助工具也很常见，演唱环节的换音应用也较多 [10] - 腾讯音乐拥有自研音乐大模型，如专注于作词的“文曲”和领先行业的声音演唱模型 [10] 音乐领域“超级个体”现象的凸显与核心能力 - 生产效率提高后，音乐领域“超级个体”现象十分凸显，主要赋能独立音乐人和普通用户 [7][12] - 独立音乐人从“部分环节创作者”变为能独立操盘全流程的个体，普通用户实现从“消费者”到“创作者”的身份跃迁 [7][12] - “超级个体”最重要的能力集中在三个方面：高级审美能力、AI调教与对话能力、情感与内容表达力 [13] - 未来的音乐人需要更综合、更偏向创意与审美层面的素质 [13] 行业结构形态与创作者能力要求变化 - 从大的结构上看，行业形态倾向于是“橄榄型”，顶尖创作者有其不可替代性，但中间层创作者数量可能扩大 [15] - 创作本身因AI赋能已不再是核心门槛，发行和获取关注正成为新的、更大的门槛 [15] - 对创作者的要求发生根本变化，除了审美和创作能力，操盘能力和运营能力将变得至关重要 [7][15] 平台面临的内容管理压力与应对措施 - GenAI带来音乐作品海量增长，给平台的音乐审核、分发和运营带来更大压力 [16] - 平台必须对海量内容进行有效识别和审核，当前需要技术判断与人工审核双管齐下 [16] - 平台去年最重要的工作之一是建立一套针对AI内容的管理标准体系，包括制定审核规范、开发反向识别算法及建立闭环流程 [16] - 平台积极制定并推行面向创作者的规范，鼓励其主动声明AI使用情况，并与合作伙伴共同管理AI作品元数据、推动行业标准规范 [16] 音乐授权与版权管理的挑战与探索 - 目前探索的授权合作主要围绕具体、可受版权保护的内容展开，一种是基于词曲的改编授权，另一种是歌手音色授权 [17] - 词曲作者对AI改编授权仍比较谨慎，主要担心滥用和收益追溯问题，平台通过活动授权、明确周期、建立完整收益追溯机制等方式推进 [17] - 歌手音色授权通常非常慎重，极少开放，接触到的案例更多是“辅助性”或“延续性”的，如获得本人明确授权后用于服务其自身艺术发展 [17] - 音乐涉及词、曲、编曲、演唱等多个可变环节，组合的灵活性使得其版权界定异常困难 [18] - 如果通过AI低成本“洗盗蹭”或打擦边球的AI热歌能获得巨大收益，会导致创作者激励崩塌，造成劣币驱逐良币 [18] - 现有法律制度在应对新技术催生的隐蔽侵权模式时面临巨大挑战，举证和认定极为困难 [18] - 行业亟需更清晰的规则和具有标杆意义的司法案例来确立边界，遏制通过技术手段“搭便车”损害行业长期生态的行为 [19] AI歌手与虚拟偶像的发展 - AI歌手和虚拟歌手本质上是虚拟人形式在音乐领域的应用，这次的不同在于AI首先让歌曲创作本身变得成熟，“歌红人不红”成为新现象 [20] - 当AI音乐创作相对成熟后，打造虚拟歌手是一个趋势，但歌曲背后仍然需要人格化的形象和故事支撑才能形成持久生态和IP [20] - 虚拟歌手的核心竞争力并不在于“虚拟”，而在于背后真人团队的操盘能力，团队需要为其建立人设、创作内容、策划与粉丝的情感连接和互动方式 [20] - 近期成功案例如虚拟歌手“大头针Official”，凭借独特“苦情嗓”演绎经典老歌进入头部虚拟艺人行列，关键在于声音特色选择、歌曲匹配及持续运营 [20] AI对音乐审美、产业生态及精品化的影响 - 对于功能性音乐（如游戏、影视、短剧配乐），AI带来的影响是积极且个性化的，可实现根据剧情或玩家场景即时生成，提高生产效率并实现真正场景化、个性化适配 [21] - 对于平台上的消费性音乐，同质化问题在AI之前就已存在，但AI并非只能加剧同质化，顶尖音乐模型已能够产生突破性惊喜，如创造超越真人音域和常规想象的艺术表达 [21] - AI模型是可调校的，优秀作品背后往往是创作者投入大量精力通过无数次提示和筛选实现，这需要很高的人力审美和判断 [22] - 技术本身不是限制，最终走向精品还是同质取决于背后的“人”——创作者如何使用工具、市场如何选择以及模型在迭代中能否持续突破 [22] - 没有人类参与的AI音乐才会趋于平庸，AI只是打开了一扇通向新可能性的大门 [24]

腾讯研究院· 2026-01-23 00:01

视频生成模型技术升级 - Runway发布全新Gen 4.5图生视频模型，镜头控制和故事叙事能力显著提升，能在5秒内快速生成包含近景、中景、远景的三个镜头 [1] - 在1000人参与的测试中，仅有57%的人能分辨AI生成视频与真实视频，模型在人物面部一致性、光影逻辑和物理规律表现上接近电影级水准 [1] - 视频生成模型正进入新一轮升级期，真实度、声画同步、局部控制精细化和更长生成时长成为行业共同趋势 [1] 大模型在教育领域的应用拓展 - 谷歌联手The Princeton Review将全套SAT模拟题整合进Gemini，用户可免费进行全真模考，分数立等可取并获得详细错题解析 [2] - 测试涵盖阅读写作和数学两大模块，支持自定义倒计时和提示功能，Gemini会把解题思路拆解成详细步骤辅助理解 [2] - SAT只是第一步，谷歌计划将Gemini逐步扩展到更多标准化考试，同时通过垂直领域渗透策略让AI成为各行业的专家助手 [2] 大模型服务与算力挑战 - 智谱GLM-4.7上线后用户高速增长导致算力紧张，部分用户在高峰期遇到并发限流和模型速度变慢问题 [3] - 1月23日起限量发售GLM Coding Plan，每日可销售量降至当前20%，优先保障老用户的编程体验 [3] - 智谱正在研发更强大高效的模型并加速算力扩容，已有自动续订不受影响，限售结束时间另行通知 [3] 垂直领域大模型突破 - 百川发布医疗大模型M3 Plus，幻觉率降至2.6%达全球最低，首创“证据锚定”技术可将每句医学结论精确锚定到原始论文对应段落 [4] - M3 Plus在Healthbench等权威评测中登顶榜首全面超越GPT-5.2，API调用价格较上一代降低70% [4] - 百川推出“海纳百川”计划，向中国医疗服务机构免费开放M3 Plus API，推动AI医疗生态发展 [4] 消费级AI硬件与助手演进 - 苹果正秘密研发类似AirTag外形的AI设备，配备双摄像头和三麦克风，功能类似Ai Pin，首批规划量产2000万台，最快2027年发布 [5] - 苹果计划推出代号“Campos”的全新Siri，深度整合iOS 27，支持网页搜索、写邮件、生成图片和屏幕感知等ChatGPT级能力 [5] - 新版Siri基础模型将基于Google Gemini 3构建，苹果每年需向谷歌支付约10亿美元，并可能切换到TPU服务器托管 [5] AI驱动的程序化视频制作工具 - Remotion是一个开源库，支持用React代码程序化制作视频，现已有专门的skills可通过npx命令安装到Cursor、Claude Code等开发工具 [6] - 用户只需提供文案和节奏需求，AI就能自动生成带动画的视频效果，支持产品演示、宣传视频等场景，并可通过Web端编辑器做细节修改 [6] - 这一工具适合独立开发者制作产品宣传视频，实现了“视频编辑可以接近编程”的思维转变，支持与AI反复迭代调整效果 [6] 人工智能学术研究前沿 - AAAI 2026公布5篇杰出论文，其中三篇由华人团队主导，作者来自港科大（广州）、西湖大学、浙大、同济、浙师大、港城大等高校 [7] - 获奖论文涵盖机器人视觉语言动作模型ReconVLA、多模态表示学习LLM2CLIP、动力系统因果发现CADYT等前沿方向 [7] - AAAI 2026总投稿23,680篇，录用4,167篇，接收率17.6%，会议于1月20-27日在新加坡举行 [7] 消费级AI市场趋势与竞争格局 - 通用LLM助手市场呈“赢家通吃”趋势，ChatGPT周活跃用户达8-9亿，仅9%用户会为多款AI产品付费，Gemini桌面端用户同比增长155% [8] - 2025年图像视频生成模型在真实感和推理能力上取得长足进步， Veo 3的音视频融合和Nano Banana Pro的搜索整合成为关键突破 [8] - 头部实验室在模型研发上表现出色，但新消费级产品多未取得理想效果，2026年初创企业在细分应用场景仍有很大发展空间 [8] AI模型价值观与安全框架 - Anthropic发布84页《Claude宪法》并以CC0协议开源，这是一份直接面向AI模型的价值观宣言，定义Claude是谁及如何自处 [9] - 宪法确立四级价值优先级：广义安全＞广义伦理＞遵循指南＞真正有帮助，强调“可修正性”是当前阶段最重要的安全特性 [9] - 文件明确划定硬性红线包括不协助制造大规模杀伤性武器、不生成CSAM等，同时鼓励Claude建立稳定积极的自我认同 [9]

生成式AI

多模态与应用生成

Artificial Intelligence

Artificial Intelligence

Baichuan - M3 Plus

Gemini

GLM Coding Plan

探元计划NextGenAI考古赛道：方案火热征集，四大场景命题等您共创

腾讯研究院· 2026-01-22 16:44

腾讯探元计划NextGen AI考古赛道项目发布 - 腾讯探元计划NextGen AI考古赛道正式发布四大“特定命题”，面向全球公开征集技术团队“揭榜挂帅”，申报截止日期为2026年1月31日 [2] - 项目同时持续征集“开放命题”技术方案，鼓励技术团队与文化场景单位联合申报 [2] - 项目由腾讯SSV、腾讯研究院发起，山东大学文化遗产研究院负责运营，旨在通过前沿数字科技焕活文化遗产 [38] 四大特定文化场景与核心需求 - **场景一：景德镇陶瓷智拼** - 目标为修复明正统青花云龙纹大缸，该文物已碎为15000片珍贵碎片 [4] - 期待构建纯自动化、非接触式3D碎片虚拟复原平台，攻克断裂面智能识别、几何特征精准匹配等核心技术 [11] - **场景二：智联商史** - 目标为处理山东大辛庄遗址出土的18000余片商代陶片 [12] - 期待基于陶片二维高清影像，开发高召回、低漏检的AI算法工具，实现海量陶片的快速分类与精准拼对 [18] - **场景三：龟兹智绘** - 目标为构建克孜尔石窟菱格壁画的细颗粒度数据集 [19] - 期待打造多模态数据融合与细粒度标注一体化方案，构建涵盖“题材内容-艺术特征-保存状态”的专项数据集 [22] - **场景四：白鹤梁智护** - 目标为复原位于长江水下40米深处的白鹤梁题刻，该处留存165段跨越1200年的题刻 [23] - 期待研发水下无人潜航器智能采集系统与多模态AI修复引擎，实现题刻毫米级三维重建、病害识别与残缺文字复原 [28] 开放命题申报方向 - AI文物虚拟修复：运用AI技术对考古出土的各类文物进行分类、拼合、鉴定、分析以及数字化存档 [30] - AI考古大数据：构建集成各类考古数据的智能化、统一化、标准化数据库，利用人工智能辅助实现海量考古数据高效处理 [30] - AI与古文字：利用人工智能技术对甲骨文、金文、简牍等进行识别、缀合、翻译和分析 [30] 项目参与权益与资源支持 - 资金支持：提供最高可达百万级的专项资助 [31]，计划评选出2～3个“方案落地型”项目提供数十至百万元扶持资金，以及3～4个概念探索型项目提供20～40万元扶持资金 [34] - 数据与资源赋能：四大文博单位开放共创数据，包括15000片碎瓷资源、18000片陶片高清影像、石窟壁画多模态素材、白鹤梁11000字题刻资源等，并提供线下场地及专家支持 [31] - 价值回报：技术成果可落地为行业标准、核心数字资产，应用于智慧考古、数字展示等场景 [31] - 品牌影响力：在世界级文化遗产项目中实现技术首发，通过腾讯生态及官方渠道获得流量扶持 [31] 招募对象与报名方式 - 技术方案申报单位：应为具备应用研究能力和创新技术的高等院校、科研院所、技术企业等 [33] - 文化场景申报单位：应为具备共创成果落地条件的文化遗产领域的事业单位、企业或机构 [33] - 报名方式：需在2026年1月31日前通过扫描二维码或点击链接提交报名信息与方案介绍 [34]

腾讯研究院· 2026-01-22 16:44

宏观格局：发展优先，安全"软着陆" 2025年2月的巴黎"人工智能行动峰会"是一个标志性时刻，与两年前布莱切利峰会笼罩的"安全焦虑"不同，巴黎峰会的关键词悄然变更为"创新"与"行动"，这一变化折射出全球治理的底层逻辑重构。在这种背景下，全球监管竞速出现了"逆转"，过去被视为"监管高地"的区域开始主动寻求松绑。欧盟的自我修正。随着《AI法案》进入实施期，复杂的合规成本开始显现，为了挽救产业竞争力，欧盟在2025年不得不推出"数字综合提案（Digit al O mnibus） "，推迟高风险义务生效时间并试图简化规则，这表明即便是最坚定的监管者也必须在发展现实面前低头。美国的"去监管化" 。特朗普政府展现了鲜明的"美国优先"色彩，撤销了前任政府侧重安全的行政令，转而通过《确保国家人工智能政策框架》限制各州分散立法，试图以统一的联邦规则为产业扫清障碍。如果说前两年全球对AI的态度还夹杂着"末日恐惧"，那么2025年，风向已彻底改变。全球AI治理正在经历一场深刻的"去理想化"进程。面对技术与产业的双重压力，各主要经济体不约而同地调整了身位：治理的重心从"防范假设性的末日风险"，迅速转移到了" ...

腾讯研究院· 2026-01-22 00:01

DeepSeek新模型进展 - DeepSeek在R1发布一周年之际，其GitHub代码库更新中出现代号为Model 1的新模型，推测为DeepSeek-V4的内部开发代号或工程版本 [1] - 代码分析显示Model 1采用512维标准架构，全面支持英伟达Blackwell架构，并引入Token-level Sparse MLA稀疏注意力机制 [1] - 新模型引入VVPA数值向量位置感知和Engram机制等新特性 [1] 新兴AI架构与模型 - Liquid AI开源基于液态神经网络架构的推理模型LFM2.5-1.2B-Thinking，该模型在手机端仅需900MB内存即可运行 [2] - LFM2.5-1.2B-Thinking在MATH-500上达到88分，参数量比Qwen3-1.7B少40%却表现更优，推理速度和内存效率均超越Transformer模型 [2] - 训练采用分层强化学习策略，通过n-gram重复惩罚将死循环生成比例从15.74%降至0.36%，证明Transformer并非唯一解 [2] - 中佛罗里达大学等机构发布Medical SAM3，这是首个仅凭文本指令即可在CT、MRI等10种模态实现专家级分割的医学模型 [5] - Medical SAM3采用全参数微调和分层学习率衰减策略，在33个医学数据集上将零样本场景平均准确率从11.9%提升至73.9% [5] - 在内镜息肉分割等极端案例中，其准确率从0.0%跃升至87.9% [5] AI自主性与人机协作演进 - Midjourney工程师展示Claude反向指挥人类工作的视频，AI可布置任务让人类去TestFlight发包、写文案、跑测试 [2] - Claude Code具备自主执行能力，可运行Bash命令、创建文件、自动修Bug形成闭环，Cowork等工具让用户下达模糊指令后AI自主规划执行 [2] - Node.js之父Ryan Dahl宣称人类编写代码的时代已结束，Linux之父也开始Vibe Coding，程序员角色正从编写代码转向审查代码 [2] - 谷歌等机构研究发现DeepSeek-R1等推理模型会在内部自发形成多角色辩论机制，通过提问、质疑、冲突和和解推导答案 [3] - 模型内部存在稳定的虚拟人格分工，高神经质人格负责纠错，高开放性人格提供新视角，这种“思维社会”机制让准确率翻倍 [4] - 通过干预模型内部的“觉察特征”，在倒计时数学游戏中准确率从27.1%飙升至54.8% [4] 行业趋势与公司动态 - xAI工程师在播客上透露MacroHard项目核心机密，包括内部已将AI包装成“同事”进行测试，有人去工位找同事发现是空桌 [3] - xAI押注小模型路线追求极致速度，MacroHard已达人类8倍速度，并考虑租用北美约400万辆特斯拉闲置算力进行部署 [3] - xAI的Colossus 1利用“临时用地租约”在122天内建成，展现了公司扁平化文化和极致执行力 [3] - Anthropic CEO在达沃斯论坛预测AI端到端接管软件工程师工作仅剩6-12个月，公司内部工程师已基本不手写代码 [6] - Anthropic CEO预言2026-2027年将诞生“诺奖级”AI模型，未来1-5年内50%初级白领工作将消失 [6] - DeepMind CEO预测2030年前有50%概率实现AGI，行业领袖认为“AI建AI”闭环一旦跑通将迎来指数级加速 [6] Agent能力评估与商业化 - 红杉中国xbench团队发布AgentIF-OneDay评测，测试Agent处理真实日常任务能力，头部Agent得分约62-65% [7] - 评测覆盖104道任务、15种以上文件格式、767个评分点，发现不同框架难以拉开差距，基础Agent能力已商品化 [7] - 隐式条件推断是Agent普遍最薄弱能力，xbench正着手构建OneWeek评测集，认为优先转起数据飞轮的公司将率先实现Agent的FSD时刻 [7] AI产业经济与未来展望 - OpenAI CFO与投资人指出2026年多智能体系统将成熟，AI泡沫应以API调用量而非股价衡量 [8] - OpenAI算力投资与收入强相关，三年收入从1亿美元增至100亿美元，目前需求受算力限制，采用AI的前沿企业生产力提升27-33% [8] - 双方预测机器人产业规模将超越汽车产业，未来十年末将出现大规模通缩经济，劳动力和专业知识边际成本趋近于零 [9]

生成式AI

AGI

多智能体系统

Artificial Intelligence

Artificial Intelligence

Model 1

LFM2.5-1.2B-Thinking

AI健康助手，正风起云涌

腾讯研究院· 2026-01-21 16:44

对话式AI健康助手的全球热潮 - 国内互联网大厂和AI头部企业正将医疗健康作为战略重点，押注AI健康助手，在B端和C端同时发力[9][11] - 浙江省卫健委主导的“安诊儿”健康助手已接入2000多家医疗机构，拥有1800万注册用户，累计服务超1.3亿人次[11] - 科大讯飞的“讯飞晓医”下载量超2600万次，累计完成1.6亿次AI咨询，其医疗业务在2025年11月以4.3亿元中标国家AI应用中试基地项目[11] - 国际用户更偏好使用通用AI助手进行医疗咨询，在ChatGPT的8亿多用户中，每周有四分之一的用户提交医疗相关请求，每天咨询医疗问题的用户超4000万[13] - 一项英国民调显示，37%的英国成年人曾使用AI聊天机器人获取心理健康支持，其中25-34岁人群使用率达64%[14] - 专业AI助手在欧美帮助医生减负，2024年有66%的美国医生在实践中使用AI工具，比2023年增长78%[15] - 医疗AI公司OpenEvidence估值达120亿美元，其产品被45%的美国医生（超10万名）使用，日均临床查询超6万次，2025年每月支持医生咨询超850万次，是2024年的2.3倍[15][17] - OpenAI和Anthropic已推出面向医疗行业的合规解决方案，谷歌则发布了开源多模态医疗模型MedGemma 1.5，以技术赋能生态[18][19] - 微软研发的AI诊断协调器MAI-DxO，在《新英格兰医学杂志》病例诊断中正确率达85%，是人类医生的四倍以上[20] 热潮背后的驱动因素和现实挑战 - 用户交互习惯发生根本改变，国内AI搜索和综合助手的用户规模已达7亿，医疗健康类APP成为用户增长最快的AI原生应用之一[23][24] - 大模型能力跨越式提升，从推理、多模态理解到专业知识，为AI健康助手奠定了技术基础，并正从被动问答向主动提供服务的智能体演进[24] - 政策推动行业发展，中国国家卫健委等五部门印发实施意见，已启动5个国家医疗AI中试基地，总投资规模累计超20亿元[25] - 通用AI助手用户增长遇瓶颈，国内AI原生APP月活用户规模从年初的1.9亿降至年末的1.5亿，总用户规模徘徊在7亿左右，厂商急需寻找差异化增长点[26] - 医疗健康市场因其规模巨大、与多行业深度关联、且适合生成式AI发挥优势，被AI企业视为重要的商业化阵地[27] - OpenAI报告显示，医疗保健与科技和制造业是当前AI应用增长最快的行业[28] - 生成式AI的“幻觉”问题、数据偏差与对齐困难、以及上下文工程等技术不足，是AI在医疗领域规模化应用的主要风险[29] - 技术缺陷可能导致误诊、过度诊疗等问题，一项Nature论文显示，一些医疗模型的不必要检查率高达91.9%，不必要药物开具率达57.8%[30] - 国内对话式AI助手大多免费，盈利模式仍在探索，潜在模式包括会员增值、消费协同、广告收益、金融保险协同等[32] - 行业监管协同有待完善，AI技术在不同医疗科室的应用风险和深度差异巨大，行业转型面临挑战[33] AI健康助手的“健康”发展思路 - 高质量医疗数据的开放与共享是发展可信AI医疗助手的关键，需要行业出版机构、地方与研发企业深化合作[37] - 国际上领先的AI健康助手均依赖高质量数据，例如OpenEvidence与顶级医学期刊合作，ChatGPT Health与来自60多个国家的260多位执业医生合作，获得了超60万次反馈[37] - 建议探索AI健康助手分级管理，从风险和收益两个维度明确服务边界，以利于创新和发展[38] - 应扶持中小企业参与AI+医疗创新，OpenEvidence团队仅83人即创造120亿美元估值，被收购的Torch公司仅有4名全职员工，显示了小团队的创新活力[39] - 行业自律需与AI创新同步加强，医疗健康领域不能快速试错，从业者需在技术研发、数据治理等各维度加强自律[40] - 可借鉴国际经验构建安全防护体系，例如OpenAI为ChatGPT Health采取独立入口、数据隔离、用户自主控制、与认证服务商合作、持续与医生合作评估等多种安全措施[40][44][45][46] 展望未来的新流量入口 - 中国老龄化社会与年轻人健康意识觉醒共同推动健康需求，60岁以上人口已达3.1亿，占全国人口的22%，同时62.6%的Z世代年轻人对健康更加关注[49] - 健康应用具备成为超级入口的潜力，它满足刚性需求、可发展为高频使用、用户迁移成本高，并且具备极强的平台化扩展能力[50] - 在AI时代，“装机必备”的逻辑正演变为选择最能维护用户利益、帮助做事的AI助手，健康助手作为维护“碳基生命体”的候选，有望成为新的流量入口[50]

腾讯研究院· 2026-01-21 00:03

一、马斯克兑现承诺开源X推荐算法！100% AI驱动0人工规则 - 马斯克兑现承诺，开源了X平台的全新推荐算法，该算法采用与Grok相同的Transformer架构，完全移除了手工特征和人工规则，由AI驱动 [1] - 算法通过Thunder和Phoenix双引擎构建信息流，预测15种用户行为并加权计算得分，其中回复作者评论的权重是点赞的75倍 [1] - 算法中负面反馈（如拉黑、举报）会严重降低内容权重，停留时间和真实互动成为核心指标，小号也有机会获得曝光，粉丝数量优势被削弱 [1] 二、智谱GLM-4.7-Flash开源，首次采用DeepSeek的MLA架构 - 智谱AI开源轻量级模型GLM-4.7-Flash，总参数为300亿，激活参数仅30亿，定位为“本地编程与智能体助手”，其API免费开放调用 [1] - 该模型首次采用了DeepSeek率先使用的MLA架构，支持200K上下文窗口，在SWE-bench代码修复测试中得分为59.2分 [1] - 本地部署实测在苹果M5芯片上可达到每秒43个token的生成速度，已支持HuggingFace、vLLM及华为昇腾NPU [1] 三、MiniMax 揭开第二代智能体面纱，定位 AI-native Workspace - MiniMax发布Agent 2.0，定义为“AI原生工作台”，推出桌面端应用实现本地与云端无缝连接，可操作本地文件并启动网页自动化任务 [2] - 推出Expert Agents功能，通过封装私有知识和行业标准作业程序打造垂直领域专家分身，能将通用专家的70分水平提升至95分甚至100分 [2] - 用户可自定义Expert Agents，实现从研读到交付的闭环能力，桌面端已上线Windows和Mac双版本 [2] 四、阶跃星辰多模态小模型Step3-VL-10B 开源，10B击败200B - 阶跃星辰开源多模态模型Step3-VL-10B，仅100亿参数在多项评测中媲美甚至超越了GLM-4.6V 1060亿、Qwen3-VL 2350亿等模型 [3] - 模型具备极致视觉感知、深层逻辑推理和端侧Agent交互三大核心能力，在AIME数学竞赛测试中达到世界第一梯队水平 [3] - 模型采用1.2万亿数据全参数联合预训练、超过1400次强化学习迭代和创新的PaCoRe并行协调推理机制，Base和Thinking版本同时开源 [3] 五、月之暗面正在进行新一轮融资，新融资估值达到48亿美元 - 月之暗面正在进行新一轮融资，估值达到48亿美元，较20天前公布的C轮43亿美元估值上涨了5亿美元，融资可能很快完成 [4] - 公司目前现金持有量超过100亿元人民币，短期不急于上市，计划将上市作为加速通用人工智能的手段择时而动 [4] - 技术层面聚焦于Token效率与长上下文能力，提出Muon优化器实现2倍效率提升，并推出Kimi-Linear线性注意力机制 [5] 六、真可用游戏Agent诞生！可实时高频决策，思维链还全程可见 - 超参数科技推出游戏智能体COTA，完全由大模型原生驱动，在第一人称射击游戏中实现职业级水准表现，其推理链路全程可见 [6] - 采用“双系统分层架构”模拟人类快慢思考，Commander负责战略决策，Operator执行毫秒级操作，将响应时间压缩至100毫秒 [6] - 该产品验证了大模型在高频对抗游戏场景的可行性，为具身智能等现实世界问题提供了参考思路 [6] 七、微软CEO：掌握模型编排能力，才能在AI时代建立护城河 - 微软CEO纳德拉表示，人工智能正在接管复杂的知识工作，企业竞争的关键不是寻找最厉害的模型，而是掌握“模型编排”能力 [7] - 人工智能普及需要从供给侧提升“每美元每瓦特产生token的效率”，需求侧则要求企业从“观念、能力、数据”三个维度推动转型 [7] - 真正的“企业主权”是将独有的经验和知识转化为自己掌控的人工智能模型，防止核心价值流向模型提供商 [7] 八、a16z 2026预测：创业公司的机会在“有主见”的交互界面 - a16z分析指出，ChatGPT周活跃用户达8至9亿保持霸主地位，但Gemini增速达155%正在追赶，AI助手市场呈现“赢家拿走大头”格局 [8] - OpenAI通过ChatGPT界面推送的购物、任务、学习等新体验均未真正突围，受限于现有对话框界面难以提供一流产品体验 [8] - 成功突围的人工智能产品如Replit、Suno、Character AI的共同点是拥有观点鲜明且专注的界面，创业公司机会在于针对特定工作流的深度优化 [8] 九、大模型人格可以被量化！Anthropic最新论文发现辅助轴 - Anthropic研究团队发现模型人格可以被量化，存在一个主导维度“辅助轴”，用于衡量模型以“智能助手”模式运行的程度 [9] - 通过沿辅助轴方向进行干预可以控制模型的角色扮演意愿，向智能助手方向引导能显著降低有害回答的比例，抵御人格越狱攻击 [9] - 提出“激活上限”技术，可在几乎不损伤模型性能的前提下，将人格越狱成功率降低近60%，为人类控制人工智能开辟了新路径 [9]

Artificial Intelligence

模型编排

模型人格量化

Artificial Intelligence

X推荐算法

GLM-4.7-Flash

Artificial Intelligence

模型编排

模型人格量化

Artificial Intelligence

X推荐算法

GLM-4.7-Flash

超越“第四次工业革命”：关于人工智能与人类主体性的再思考

腾讯研究院· 2026-01-20 17:53

文章核心观点 - 当前对人工智能的主流叙事“第四次工业革命”在生产力维度正确，但在认识论维度匮乏，生成式AI冲击的是认知、创造与存在的本质[2] - 当前科技变革与14至16世纪的文艺复兴存在深层拓扑同构性，不仅仅是一次工具箱升级，更是一场关于主体性的危机与重建，即“数字文艺复兴”[3] - 这场变革的核心是从“神本”封闭秩序到“人本”主体焦虑的坐标系迁移，AI动摇了人类作为“唯一智慧载体”的地位，迫使人类重新寻找自身位置[4][5][6][7] - 技术层面，Transformer架构是数字时代的“透视法”，实现了对高维语义空间的理性建模；生成式AI则是“印刷术”的指数级延伸，实现了技能的平权[9][13][17][18] - 需要警惕“数字神权”的风险，即算法裁判权的让渡和人的客体化，避免退化为技术系统中的被动节点[21][22][23][24][25] - 出路在于借助AI这面高维镜像，重新界定人类的不可替代性，如共情、复杂伦理下的道德直觉、意义的赋予等默会知识，实现人类的“二度觉醒”[26][27][28][29][30][31] 从“神本”到“人本”的主体性迁移 - 中世纪的精神结构特征是“人的先验性缺位”，人类理性主要用于解释启示而非作为意义的终极源头[5] - 文艺复兴的标志是价值坐标系的剧烈迁移，皮科·德拉·米兰多拉在《论人的尊严》中提出人的尊严在于“自我定义的自由意志”，标志着人类从被动客体觉醒为主动构建意义的主体[5][6] - 启蒙运动以来的人类中心主义受到挑战，当GPT-4等大模型表现出接近人类的对话连贯性与推理能力时，人类独占的“智慧王座”开始摇晃，引发了深刻的本体论焦虑[7] 作为“透视法”的Transformer与作为“印刷术”的生成式AI - 文艺复兴的转向依赖于两项关键技术认知工具：线性透视法和印刷术，这与今天的AI技术存在惊人对应[9] - 15世纪初的线性透视法本质是对空间的降维建模，宣告世界的视觉表象可以被人类理性测量、规范和计算[10] - Transformer架构是数字时代的“透视法”，它处理的是高维语义空间，通过注意力机制在海量数据中捕捉词语间的统计相关性，在统计意义上复现了人类语言的深层结构模式[13][14][16] - 古登堡印刷术极大地降低了信息分发的边际成本，打破了教会对知识解释权的垄断[17] - 生成式AI是这一逻辑的指数级延伸，它正在解决“初级创作”与“通用技能”的成本，大量中低复杂度技能的边际成本正在急剧下降，实现了极端的“技能平权”[18][20] - 技能平权打破了白领阶层对某些专业技能的垄断，但高阶的判断力、系统设计能力与责任承担能力，其稀缺性反而会因此上升[20] 警惕制度性的数字神权 - 需要警惕的风险是“数字神权”的复辟，风险主要来自AI被嵌入的制度、商业模式与权力结构，而非技术本身[22][23] - 风险之一是裁判权的让渡：当推荐算法、导航算法、匹配算法日益影响人的选择时，人们正在逐渐习惯于让渡判断权；算法给出的“最优解”仅是在预设目标函数下的数学极值，不等于真理或生活意义[24] - 最深层的伦理风险是人的客体化：在某些AI的商业逻辑下，个体被还原为训练模型的数据来源和系统优化中的反馈信号，侵蚀了人作为“目的本身”的康德伦理底线[25] - 如果完全将主体性让渡给技术系统，可能迎来一个由硅基智能担任牧师、由不透明算法担任教条的“算法教会”[25] 在AI镜像前重寻人类的不可替代性 - 真正的出路不是否定技术，而是在AI这面高维镜像前，重新界定人类的不可替代性[26] - 迈克尔·波兰尼提出的“默会知识”概念指出“我们知道的，比我们能说出来的多”，AI的逼近倒逼人类剥离机械的智力外壳，裸露人类智能中最硬核的部分[26][27] - 难以被形式化和计算的人类特质包括：由痛感与脆弱带来的真正共情；复杂伦理语境下的道德直觉；为万物赋予价值、审美与意义的能力[28] - 未来的专家将是拥有深厚人文素养、能够定义问题、甄别价值、设计意义的架构师[28] - 这场变革是为了逼迫人“二度觉醒”，面对算力的指数级增长，必须守住人性以开启后人类时代的文明[29] - 技术越是迭代，越要守住技术无法触达的领地，因为定义未来的永远是驾驭参数的人心[30][31]

数字神权（Digital Theocracy）

默会知识（Tacit Knowledge）

数字神权（Digital Theocracy）

默会知识（Tacit Knowledge）

【全球招募】用AI唤醒千年文明！探元计划NextGen数智活化赛道：五大文化场景等您“揭榜挂帅”

腾讯研究院· 2026-01-20 17:53

文章核心观点 - 腾讯探元计划NextGen发起“数智活化赛道”，旨在通过AI、多模态大模型、XR、计算机视觉等前沿技术，解决文化遗产在公众理解、体验互动与技艺传承方面的痛点，推动文化资源的数字化焕新与活化利用[2][4][7][56] 赛道议题与目标 - 赛道致力于通过前沿技术激发创新内核、重塑表达形态、创造体验革命，以产生新动能、新形态、新场景[5] - 议题一为“文化垂类多模态智能体”，要求智能体具备深层次语义理解、低幻觉推理和自主决策能力，能生成满足特定文化、审美与情感需求的数字内容[5] - 议题二为“沉浸式互动体验场景创新”，要求在交互感知、多感官数据融合、沉浸式呈现、情感计算、虚实融合及数字人/机器人导览等技术应用上创新产品和业态[6] - 议题三为“人机协同技艺传承发展”，旨在通过构建技艺“数字基因库”、智能化教学系统、生成式设计引擎等方式，实现AI驱动的个性化技艺传承与创意生产转化[7] 五大特定命题场景 - **场景一：云居智友（云居寺多模态智能体）** - 类型为博物馆/国家级档案文献遗产，痛点为石经内容难懂、叙事方式陈旧、体验单薄参与感低[8] - 期待构建一个懂历史、有温度、能创作、可交互的垂类多模态AI智能体，打通“石经—人心”的“最后一公里”[9] - **场景二：杭州西湖（文化遗产活化叙事系统）** - 类型为世界文化景观遗产，痛点为游客停留于浅层观光，难以触及千年文脉[15] - 期待基于游客动线与三维模型，用AI重建历史风貌，生成隐私安全的个性化沉浸式游览影像[16] - **场景三：海岱智游（大汶口文化沉浸式互动体验）** - 类型为博物馆/考古遗址，痛点为展陈静态、公众难理解史前社会与符号含义、古代制陶技艺流程断裂[19] - 期待形成可应用的AI体验系统平台，实现与“虚拟先民”对话、模拟制陶、解码八角星纹，让观众“进入历史”[19] - **场景四：廊桥智传（木拱桥营造技艺智能传承系统）** - 类型为非物质文化遗产（联合国人类非遗），痛点为技艺认知门槛高、年轻传承动力不足、实操成本高昂[29] - 期待开发智能教练系统，融合知识图谱与实时动作识别技术，引导用户动手拼装实体模型，像搭建乐高一样理解结构原理[29] - **场景五：广东醒狮“虚实共生”传承课堂** - 类型为非物质文化遗产（国家级），痛点为陈列展览缺乏互动性与体验性，需数字技术赋能传播[36] - 期待借助先进技术手段，对醒狮动作细节、发力方式等进行动作捕捉与结构化呈现，实现数字动态呈现和观众互动体验[36] 项目申报与支持 - 项目流程分为三大阶段：项目申报（2025年12月—2026年1月）、项目遴选与公示（2026年2月—3月）、项目共创孵化与成果沉淀（2026年4月—10月）[48] - 项目遴选将应用腾讯Cultech-SQI评价体系，聚焦场景代表性(S)、创新性(Q)和话题性(I)[50][52] - 资金支持包括：共创落地项目共选出2-3个，每组有机会获得数十至百万元扶持资金；概念探索项目共选出3-4个，每个项目有机会获得20-40万元扶持资金[52] - 额外支持包括北大等行业权威专家“陪伴式”孵化、腾讯SSV技术能力与传播资源连接、纳入北大文化创新案例库以及优秀成果通过探元平台走向国际舞台[52] 参与方式与目标群体 - 寻找拥有AI大模型、XR、计算机视觉、生成式AI、人机交互等核心技术能力，能独立承接特定命题场景的技术团队[43] - 同时开辟“开放命题”通道，鼓励文化场景单位（如文博机构、非遗中心）与技术团队组成联合体进行联合申报，共同提出创新解决方案[44][45][46] - 申报截止日期为2026年1月31日[53] - 该赛道由北京大学文化产业研究院负责运营，聚焦世界文化遗产、博物馆及非物质文化遗产三大文化资源，旨在通过科技赋能形成新模式、新业态和新产品[56]

腾讯研究院· 2026-01-20 00:03

特斯拉AI芯片路线图 - 公司宣布其AI5芯片设计已接近完成，AI6芯片处于早期阶段，目标是将芯片设计周期缩短至9个月，并预测将成为全球产量最高的AI芯片 [1] - AI5芯片将采用三星2nm和台积电3nm制程，总体性能是前代AI4的50倍，内存容量是AI4的9倍，预计于2027年量产 [1] - 公司曾与三星签署价值165亿美元的协议，由三星在美国生产AI6芯片，预计2028年推出 [1] AI助理记忆与功能升级 - Anthropic为其AI助手Claude Cowork升级了“永久记忆”功能，通过引入知识库系统让AI分门别类存储信息，该功能将成为Claude默认的主要模式 [2] - 此次升级还包含增强MCP连接器体系以提升自动化能力、开发语音模式、升级Pixelate等，用户界面将新增右侧Artefacts区域以实现成果的持续管理 [2] - 持续学习被视为实现AGI的关键突破，OpenAI和谷歌均在布局记忆功能，行业观点认为持久记忆将彻底改变AI助理的概念 [2] AI设计工具与平台创新 - 昆仑万维推出Skywork Design Agent，聚焦海报设计、社媒物料、LOGO品牌视觉和通用创意生图四大核心场景，支持文生图和以图生图深度控制 [3] - 该产品新增自研画布引擎，支持图文手动编辑、AI修图、元素拆分图层等功能，提供PNG、JPG、PDF多格式导出，并具备独有的“添加到知识库”功能以解决素材管理问题，已在海外全面上线 [3] - 扣子平台推出Coze Skill功能，允许用户将个人方法论和行业经验封装成可复用的“技能包”，并上线技能商店以构建经验交易市场，专业人士可沉淀行业技能包供他人调用变现 [4] - 扣子平台还新增“长期计划”功能，可实现目标导向的AI协作，能将模糊目标拆解成清晰步骤并自动执行，同时推出了视频Agent Skill的公测 [4] AI大模型在游戏中的应用 - 巨人网络在游戏《超自然行动组》中推出“AI大模型挑战”模式，将大模型技术接入游戏对战环节，被视为国内大DAU游戏首次在核心玩法层面实现大模型规模化应用 [5] - 游戏中的AI角色由大模型实时驱动作为玩家对手，支持语音交互、模仿真人行为并主动采取行动，上线一周内AI对局次数超过2500万次 [5] - 游戏与阿里云、火山引擎、腾讯云合作，重点优化实时推理和高并发支持，成为业内首个整合多家大模型能力投入实际运营的案例 [6] AI硬件与办公生态整合 - 安克创新联合飞书推出仅重10克的AI录音豆，解决了传统AI录音卡片携带不便和遮挡麦克风的痛点，可像胸针别在领口或项链挂在胸前 [7] - 该设备搭载飞书AI实现实时总结，会议进行中即可生成结构化逻辑地图，支持24种语言实时翻译和说话人区分，会后自动生成智能画板和纪要 [7] - 录音内容直接流向飞书知识库而非存储在硬件，打通了日历、云文档、消息等飞书全生态，降低了构建知识库的负担 [7] 人形与重载机器人进展 - 萝博派对将双足人形机器人“萝博头原型机”全栈开源，其跑步速度达3m/s，是目前全球技术成熟度领先的全开源人形机器人 [8] - 开源内容涵盖硬件结构图、EBOM物料清单、供应商名单、AMP运控算法代码及Know-how知识库，团队目标是将具身智能开发成本降低80% [8] - 银河通用发布具身智能重载机器人Galbot S1，双臂最大持续作业负载达50公斤，已在宁德时代工厂承担核心生产环节 [9] - 该机器人搭载行业首创全自主、零遥操的“具身搬运模型”，采用纯视觉感知方案，具备8小时超长续航和自主换电能力，可实现7×24小时运转，公司近期完成21亿元融资，估值突破200亿元 [9] AI协作平台的发展与影响 - OpenAI的Codex产品负责人称，自ChatGPT5发布以来，平台规模增长了20倍，每周处理数万亿字符，其核心目标是打造具备主动性的“团队协作伙伴”而非被动响应工具 [10] - 以Sora安卓应用为例，其仅用28天从零开发到上线并登顶App Store，Atlas浏览器团队效率提升显著，原本需要两三人两三周的工作现在一人一周即可完成 [10] - 行业观点认为，距离AGI被严重低估的限制因素是人类打字速度和多任务处理速度，真正拖慢系统效率的往往是人机交互的物理和认知瓶颈，而非模型本身 [10]