Workflow
腾讯研究院
icon
搜索文档
探元计划NextGenAI考古赛道:方案火热征集,四大场景命题等您共创
腾讯研究院· 2026-01-22 16:44
腾讯探元计划NextGen AI考古赛道项目发布 - 腾讯探元计划NextGen AI考古赛道正式发布四大“特定命题”,面向全球公开征集技术团队“揭榜挂帅”,申报截止日期为2026年1月31日 [2] - 项目同时持续征集“开放命题”技术方案,鼓励技术团队与文化场景单位联合申报 [2] - 项目由腾讯SSV、腾讯研究院发起,山东大学文化遗产研究院负责运营,旨在通过前沿数字科技焕活文化遗产 [38] 四大特定文化场景与核心需求 - **场景一:景德镇陶瓷智拼** - 目标为修复明正统青花云龙纹大缸,该文物已碎为15000片珍贵碎片 [4] - 期待构建纯自动化、非接触式3D碎片虚拟复原平台,攻克断裂面智能识别、几何特征精准匹配等核心技术 [11] - **场景二:智联商史** - 目标为处理山东大辛庄遗址出土的18000余片商代陶片 [12] - 期待基于陶片二维高清影像,开发高召回、低漏检的AI算法工具,实现海量陶片的快速分类与精准拼对 [18] - **场景三:龟兹智绘** - 目标为构建克孜尔石窟菱格壁画的细颗粒度数据集 [19] - 期待打造多模态数据融合与细粒度标注一体化方案,构建涵盖“题材内容-艺术特征-保存状态”的专项数据集 [22] - **场景四:白鹤梁智护** - 目标为复原位于长江水下40米深处的白鹤梁题刻,该处留存165段跨越1200年的题刻 [23] - 期待研发水下无人潜航器智能采集系统与多模态AI修复引擎,实现题刻毫米级三维重建、病害识别与残缺文字复原 [28] 开放命题申报方向 - AI文物虚拟修复:运用AI技术对考古出土的各类文物进行分类、拼合、鉴定、分析以及数字化存档 [30] - AI考古大数据:构建集成各类考古数据的智能化、统一化、标准化数据库,利用人工智能辅助实现海量考古数据高效处理 [30] - AI与古文字:利用人工智能技术对甲骨文、金文、简牍等进行识别、缀合、翻译和分析 [30] 项目参与权益与资源支持 - 资金支持:提供最高可达百万级的专项资助 [31],计划评选出2~3个“方案落地型”项目提供数十至百万元扶持资金,以及3~4个概念探索型项目提供20~40万元扶持资金 [34] - 数据与资源赋能:四大文博单位开放共创数据,包括15000片碎瓷资源、18000片陶片高清影像、石窟壁画多模态素材、白鹤梁11000字题刻资源等,并提供线下场地及专家支持 [31] - 价值回报:技术成果可落地为行业标准、核心数字资产,应用于智慧考古、数字展示等场景 [31] - 品牌影响力:在世界级文化遗产项目中实现技术首发,通过腾讯生态及官方渠道获得流量扶持 [31] 招募对象与报名方式 - 技术方案申报单位:应为具备应用研究能力和创新技术的高等院校、科研院所、技术企业等 [33] - 文化场景申报单位:应为具备共创成果落地条件的文化遗产领域的事业单位、企业或机构 [33] - 报名方式:需在2026年1月31日前通过扫描二维码或点击链接提交报名信息与方案介绍 [34]
2025年AI治理报告:回归现实主义
腾讯研究院· 2026-01-22 16:44
宏观格局: 发展优先,安全"软着陆" 2025年2月的巴黎"人工智能行动峰会"是一个标志性时刻,与两年前布莱切利峰会笼罩的"安全焦虑"不 同,巴黎峰会的关键词悄然变更为"创新"与"行动",这一变化折射出全球治理的底层逻辑重构。在这种 背景下,全球监管竞速出现了"逆转",过去被视为"监管高地"的区域开始主动寻求松绑。 欧盟的自我修正 。随着《AI法案》进入实施期,复杂的合规成本开始显现,为了挽救产业竞争力,欧 盟在2025年不得不推出"数字综合提案 (Digit al O mnibus) ",推迟高风险义务生效时间并试图简化规 则,这表明即便是最坚定的监管者也必须在发展现实面前低头。 美国的"去监管化" 。特朗普政府展现了鲜明的"美国优先"色彩,撤销了前任政府侧重安全的行政令, 转而通过《确保国家人工智能政策框架》限制各州分散立法,试图以统一的联邦规则为产业扫清障碍。 如果说前两年全球对AI的态度还夹杂着"末日恐惧",那么2025年,风向已彻底改变。全球AI治理正在经 历一场深刻的"去理想化"进程。面对技术与产业的双重压力,各主要经济体不约而同地调整了身位:治 理的重心从"防范假设性的末日风险",迅速转移到了" ...
腾讯研究院AI速递 20260122
腾讯研究院· 2026-01-22 00:01
DeepSeek新模型进展 - DeepSeek在R1发布一周年之际,其GitHub代码库更新中出现代号为Model 1的新模型,推测为DeepSeek-V4的内部开发代号或工程版本 [1] - 代码分析显示Model 1采用512维标准架构,全面支持英伟达Blackwell架构,并引入Token-level Sparse MLA稀疏注意力机制 [1] - 新模型引入VVPA数值向量位置感知和Engram机制等新特性 [1] 新兴AI架构与模型 - Liquid AI开源基于液态神经网络架构的推理模型LFM2.5-1.2B-Thinking,该模型在手机端仅需900MB内存即可运行 [2] - LFM2.5-1.2B-Thinking在MATH-500上达到88分,参数量比Qwen3-1.7B少40%却表现更优,推理速度和内存效率均超越Transformer模型 [2] - 训练采用分层强化学习策略,通过n-gram重复惩罚将死循环生成比例从15.74%降至0.36%,证明Transformer并非唯一解 [2] - 中佛罗里达大学等机构发布Medical SAM3,这是首个仅凭文本指令即可在CT、MRI等10种模态实现专家级分割的医学模型 [5] - Medical SAM3采用全参数微调和分层学习率衰减策略,在33个医学数据集上将零样本场景平均准确率从11.9%提升至73.9% [5] - 在内镜息肉分割等极端案例中,其准确率从0.0%跃升至87.9% [5] AI自主性与人机协作演进 - Midjourney工程师展示Claude反向指挥人类工作的视频,AI可布置任务让人类去TestFlight发包、写文案、跑测试 [2] - Claude Code具备自主执行能力,可运行Bash命令、创建文件、自动修Bug形成闭环,Cowork等工具让用户下达模糊指令后AI自主规划执行 [2] - Node.js之父Ryan Dahl宣称人类编写代码的时代已结束,Linux之父也开始Vibe Coding,程序员角色正从编写代码转向审查代码 [2] - 谷歌等机构研究发现DeepSeek-R1等推理模型会在内部自发形成多角色辩论机制,通过提问、质疑、冲突和和解推导答案 [3] - 模型内部存在稳定的虚拟人格分工,高神经质人格负责纠错,高开放性人格提供新视角,这种“思维社会”机制让准确率翻倍 [4] - 通过干预模型内部的“觉察特征”,在倒计时数学游戏中准确率从27.1%飙升至54.8% [4] 行业趋势与公司动态 - xAI工程师在播客上透露MacroHard项目核心机密,包括内部已将AI包装成“同事”进行测试,有人去工位找同事发现是空桌 [3] - xAI押注小模型路线追求极致速度,MacroHard已达人类8倍速度,并考虑租用北美约400万辆特斯拉闲置算力进行部署 [3] - xAI的Colossus 1利用“临时用地租约”在122天内建成,展现了公司扁平化文化和极致执行力 [3] - Anthropic CEO在达沃斯论坛预测AI端到端接管软件工程师工作仅剩6-12个月,公司内部工程师已基本不手写代码 [6] - Anthropic CEO预言2026-2027年将诞生“诺奖级”AI模型,未来1-5年内50%初级白领工作将消失 [6] - DeepMind CEO预测2030年前有50%概率实现AGI,行业领袖认为“AI建AI”闭环一旦跑通将迎来指数级加速 [6] Agent能力评估与商业化 - 红杉中国xbench团队发布AgentIF-OneDay评测,测试Agent处理真实日常任务能力,头部Agent得分约62-65% [7] - 评测覆盖104道任务、15种以上文件格式、767个评分点,发现不同框架难以拉开差距,基础Agent能力已商品化 [7] - 隐式条件推断是Agent普遍最薄弱能力,xbench正着手构建OneWeek评测集,认为优先转起数据飞轮的公司将率先实现Agent的FSD时刻 [7] AI产业经济与未来展望 - OpenAI CFO与投资人指出2026年多智能体系统将成熟,AI泡沫应以API调用量而非股价衡量 [8] - OpenAI算力投资与收入强相关,三年收入从1亿美元增至100亿美元,目前需求受算力限制,采用AI的前沿企业生产力提升27-33% [8] - 双方预测机器人产业规模将超越汽车产业,未来十年末将出现大规模通缩经济,劳动力和专业知识边际成本趋近于零 [9]
AI健康助手,正风起云涌
腾讯研究院· 2026-01-21 16:44
对话式AI健康助手的全球热潮 - 国内互联网大厂和AI头部企业正将医疗健康作为战略重点,押注AI健康助手,在B端和C端同时发力[9][11] - 浙江省卫健委主导的“安诊儿”健康助手已接入2000多家医疗机构,拥有1800万注册用户,累计服务超1.3亿人次[11] - 科大讯飞的“讯飞晓医”下载量超2600万次,累计完成1.6亿次AI咨询,其医疗业务在2025年11月以4.3亿元中标国家AI应用中试基地项目[11] - 国际用户更偏好使用通用AI助手进行医疗咨询,在ChatGPT的8亿多用户中,每周有四分之一的用户提交医疗相关请求,每天咨询医疗问题的用户超4000万[13] - 一项英国民调显示,37%的英国成年人曾使用AI聊天机器人获取心理健康支持,其中25-34岁人群使用率达64%[14] - 专业AI助手在欧美帮助医生减负,2024年有66%的美国医生在实践中使用AI工具,比2023年增长78%[15] - 医疗AI公司OpenEvidence估值达120亿美元,其产品被45%的美国医生(超10万名)使用,日均临床查询超6万次,2025年每月支持医生咨询超850万次,是2024年的2.3倍[15][17] - OpenAI和Anthropic已推出面向医疗行业的合规解决方案,谷歌则发布了开源多模态医疗模型MedGemma 1.5,以技术赋能生态[18][19] - 微软研发的AI诊断协调器MAI-DxO,在《新英格兰医学杂志》病例诊断中正确率达85%,是人类医生的四倍以上[20] 热潮背后的驱动因素和现实挑战 - 用户交互习惯发生根本改变,国内AI搜索和综合助手的用户规模已达7亿,医疗健康类APP成为用户增长最快的AI原生应用之一[23][24] - 大模型能力跨越式提升,从推理、多模态理解到专业知识,为AI健康助手奠定了技术基础,并正从被动问答向主动提供服务的智能体演进[24] - 政策推动行业发展,中国国家卫健委等五部门印发实施意见,已启动5个国家医疗AI中试基地,总投资规模累计超20亿元[25] - 通用AI助手用户增长遇瓶颈,国内AI原生APP月活用户规模从年初的1.9亿降至年末的1.5亿,总用户规模徘徊在7亿左右,厂商急需寻找差异化增长点[26] - 医疗健康市场因其规模巨大、与多行业深度关联、且适合生成式AI发挥优势,被AI企业视为重要的商业化阵地[27] - OpenAI报告显示,医疗保健与科技和制造业是当前AI应用增长最快的行业[28] - 生成式AI的“幻觉”问题、数据偏差与对齐困难、以及上下文工程等技术不足,是AI在医疗领域规模化应用的主要风险[29] - 技术缺陷可能导致误诊、过度诊疗等问题,一项Nature论文显示,一些医疗模型的不必要检查率高达91.9%,不必要药物开具率达57.8%[30] - 国内对话式AI助手大多免费,盈利模式仍在探索,潜在模式包括会员增值、消费协同、广告收益、金融保险协同等[32] - 行业监管协同有待完善,AI技术在不同医疗科室的应用风险和深度差异巨大,行业转型面临挑战[33] AI健康助手的“健康”发展思路 - 高质量医疗数据的开放与共享是发展可信AI医疗助手的关键,需要行业出版机构、地方与研发企业深化合作[37] - 国际上领先的AI健康助手均依赖高质量数据,例如OpenEvidence与顶级医学期刊合作,ChatGPT Health与来自60多个国家的260多位执业医生合作,获得了超60万次反馈[37] - 建议探索AI健康助手分级管理,从风险和收益两个维度明确服务边界,以利于创新和发展[38] - 应扶持中小企业参与AI+医疗创新,OpenEvidence团队仅83人即创造120亿美元估值,被收购的Torch公司仅有4名全职员工,显示了小团队的创新活力[39] - 行业自律需与AI创新同步加强,医疗健康领域不能快速试错,从业者需在技术研发、数据治理等各维度加强自律[40] - 可借鉴国际经验构建安全防护体系,例如OpenAI为ChatGPT Health采取独立入口、数据隔离、用户自主控制、与认证服务商合作、持续与医生合作评估等多种安全措施[40][44][45][46] 展望未来的新流量入口 - 中国老龄化社会与年轻人健康意识觉醒共同推动健康需求,60岁以上人口已达3.1亿,占全国人口的22%,同时62.6%的Z世代年轻人对健康更加关注[49] - 健康应用具备成为超级入口的潜力,它满足刚性需求、可发展为高频使用、用户迁移成本高,并且具备极强的平台化扩展能力[50] - 在AI时代,“装机必备”的逻辑正演变为选择最能维护用户利益、帮助做事的AI助手,健康助手作为维护“碳基生命体”的候选,有望成为新的流量入口[50]
腾讯研究院AI速递 20260121
腾讯研究院· 2026-01-21 00:03
一、马斯克兑现承诺开源X推荐算法!100% AI驱动0人工规则 - 马斯克兑现承诺,开源了X平台的全新推荐算法,该算法采用与Grok相同的Transformer架构,完全移除了手工特征和人工规则,由AI驱动 [1] - 算法通过Thunder和Phoenix双引擎构建信息流,预测15种用户行为并加权计算得分,其中回复作者评论的权重是点赞的75倍 [1] - 算法中负面反馈(如拉黑、举报)会严重降低内容权重,停留时间和真实互动成为核心指标,小号也有机会获得曝光,粉丝数量优势被削弱 [1] 二、智谱GLM-4.7-Flash开源,首次采用DeepSeek的MLA架构 - 智谱AI开源轻量级模型GLM-4.7-Flash,总参数为300亿,激活参数仅30亿,定位为“本地编程与智能体助手”,其API免费开放调用 [1] - 该模型首次采用了DeepSeek率先使用的MLA架构,支持200K上下文窗口,在SWE-bench代码修复测试中得分为59.2分 [1] - 本地部署实测在苹果M5芯片上可达到每秒43个token的生成速度,已支持HuggingFace、vLLM及华为昇腾NPU [1] 三、MiniMax 揭开第二代智能体面纱,定位 AI-native Workspace - MiniMax发布Agent 2.0,定义为“AI原生工作台”,推出桌面端应用实现本地与云端无缝连接,可操作本地文件并启动网页自动化任务 [2] - 推出Expert Agents功能,通过封装私有知识和行业标准作业程序打造垂直领域专家分身,能将通用专家的70分水平提升至95分甚至100分 [2] - 用户可自定义Expert Agents,实现从研读到交付的闭环能力,桌面端已上线Windows和Mac双版本 [2] 四、阶跃星辰多模态小模型Step3-VL-10B 开源,10B击败200B - 阶跃星辰开源多模态模型Step3-VL-10B,仅100亿参数在多项评测中媲美甚至超越了GLM-4.6V 1060亿、Qwen3-VL 2350亿等模型 [3] - 模型具备极致视觉感知、深层逻辑推理和端侧Agent交互三大核心能力,在AIME数学竞赛测试中达到世界第一梯队水平 [3] - 模型采用1.2万亿数据全参数联合预训练、超过1400次强化学习迭代和创新的PaCoRe并行协调推理机制,Base和Thinking版本同时开源 [3] 五、月之暗面正在进行新一轮融资,新融资估值达到48亿美元 - 月之暗面正在进行新一轮融资,估值达到48亿美元,较20天前公布的C轮43亿美元估值上涨了5亿美元,融资可能很快完成 [4] - 公司目前现金持有量超过100亿元人民币,短期不急于上市,计划将上市作为加速通用人工智能的手段择时而动 [4] - 技术层面聚焦于Token效率与长上下文能力,提出Muon优化器实现2倍效率提升,并推出Kimi-Linear线性注意力机制 [5] 六、真可用游戏Agent诞生!可实时高频决策,思维链还全程可见 - 超参数科技推出游戏智能体COTA,完全由大模型原生驱动,在第一人称射击游戏中实现职业级水准表现,其推理链路全程可见 [6] - 采用“双系统分层架构”模拟人类快慢思考,Commander负责战略决策,Operator执行毫秒级操作,将响应时间压缩至100毫秒 [6] - 该产品验证了大模型在高频对抗游戏场景的可行性,为具身智能等现实世界问题提供了参考思路 [6] 七、微软CEO:掌握模型编排能力,才能在AI时代建立护城河 - 微软CEO纳德拉表示,人工智能正在接管复杂的知识工作,企业竞争的关键不是寻找最厉害的模型,而是掌握“模型编排”能力 [7] - 人工智能普及需要从供给侧提升“每美元每瓦特产生token的效率”,需求侧则要求企业从“观念、能力、数据”三个维度推动转型 [7] - 真正的“企业主权”是将独有的经验和知识转化为自己掌控的人工智能模型,防止核心价值流向模型提供商 [7] 八、a16z 2026预测:创业公司的机会在“有主见”的交互界面 - a16z分析指出,ChatGPT周活跃用户达8至9亿保持霸主地位,但Gemini增速达155%正在追赶,AI助手市场呈现“赢家拿走大头”格局 [8] - OpenAI通过ChatGPT界面推送的购物、任务、学习等新体验均未真正突围,受限于现有对话框界面难以提供一流产品体验 [8] - 成功突围的人工智能产品如Replit、Suno、Character AI的共同点是拥有观点鲜明且专注的界面,创业公司机会在于针对特定工作流的深度优化 [8] 九、大模型人格可以被量化!Anthropic最新论文发现辅助轴 - Anthropic研究团队发现模型人格可以被量化,存在一个主导维度“辅助轴”,用于衡量模型以“智能助手”模式运行的程度 [9] - 通过沿辅助轴方向进行干预可以控制模型的角色扮演意愿,向智能助手方向引导能显著降低有害回答的比例,抵御人格越狱攻击 [9] - 提出“激活上限”技术,可在几乎不损伤模型性能的前提下,将人格越狱成功率降低近60%,为人类控制人工智能开辟了新路径 [9]
超越“第四次工业革命”:关于人工智能与人类主体性的再思考
腾讯研究院· 2026-01-20 17:53
王鹏 腾讯研究院资深专家 在当下的科技舆论场中,当我们在谈论人工智能时,最不假思索的叙事框架无疑是"第四次工业革命"。 这确实是一个充满诱惑力的线性类比:蒸汽机是对肌肉的解放,电力是对能源的解放,而 AI 则是对智能的 解放。在这种叙事里,历史是一条不断上升的直线,而我们正站在生产力曲线最陡峭的拐点上。 然而,随着大模型能力的涌现与社会震荡的加剧,我们发现,仅用工业革命的逻辑来解释当下,虽然在生 产力维度是正确的,但在 认识论维度 上却是匮乏的。 工业革命的底色是工具理性。无论是瓦特的蒸汽机还是现代的流水线,它们追求的是效率、规模、标准化 以及对物理世界的征服。它们主要解决的是"怎么做" (H o w) 的问题。 但生成式 AI 不同。当机器开始以一种令人不安的逼真度进行对话、推理、创作时,它冲击的不再单纯是生 产力的边界,而是认知、创造与存在的本质。它触碰的不是人类的手脚,而是大脑皮层中最敏感的区域。 如果我们愿意拉长历史的焦距,透过五百年的迷雾回望,你会发现:此刻硅谷发生的一切,不仅呼应了 18 世纪的工业变革,更与 14 至 16 世纪那场发生在佛罗伦萨的思想巨变——文艺复兴,存在着惊人的、深层 的 拓 ...
【全球招募】用AI唤醒千年文明!探元计划NextGen数智活化赛道:五大文化场景等您“揭榜挂帅”
腾讯研究院· 2026-01-20 17:53
文章核心观点 - 腾讯探元计划NextGen发起“数智活化赛道”,旨在通过AI、多模态大模型、XR、计算机视觉等前沿技术,解决文化遗产在公众理解、体验互动与技艺传承方面的痛点,推动文化资源的数字化焕新与活化利用[2][4][7][56] 赛道议题与目标 - 赛道致力于通过前沿技术激发创新内核、重塑表达形态、创造体验革命,以产生新动能、新形态、新场景[5] - 议题一为“文化垂类多模态智能体”,要求智能体具备深层次语义理解、低幻觉推理和自主决策能力,能生成满足特定文化、审美与情感需求的数字内容[5] - 议题二为“沉浸式互动体验场景创新”,要求在交互感知、多感官数据融合、沉浸式呈现、情感计算、虚实融合及数字人/机器人导览等技术应用上创新产品和业态[6] - 议题三为“人机协同技艺传承发展”,旨在通过构建技艺“数字基因库”、智能化教学系统、生成式设计引擎等方式,实现AI驱动的个性化技艺传承与创意生产转化[7] 五大特定命题场景 - **场景一:云居智友(云居寺多模态智能体)** - 类型为博物馆/国家级档案文献遗产,痛点为石经内容难懂、叙事方式陈旧、体验单薄参与感低[8] - 期待构建一个懂历史、有温度、能创作、可交互的垂类多模态AI智能体,打通“石经—人心”的“最后一公里”[9] - **场景二:杭州西湖(文化遗产活化叙事系统)** - 类型为世界文化景观遗产,痛点为游客停留于浅层观光,难以触及千年文脉[15] - 期待基于游客动线与三维模型,用AI重建历史风貌,生成隐私安全的个性化沉浸式游览影像[16] - **场景三:海岱智游(大汶口文化沉浸式互动体验)** - 类型为博物馆/考古遗址,痛点为展陈静态、公众难理解史前社会与符号含义、古代制陶技艺流程断裂[19] - 期待形成可应用的AI体验系统平台,实现与“虚拟先民”对话、模拟制陶、解码八角星纹,让观众“进入历史”[19] - **场景四:廊桥智传(木拱桥营造技艺智能传承系统)** - 类型为非物质文化遗产(联合国人类非遗),痛点为技艺认知门槛高、年轻传承动力不足、实操成本高昂[29] - 期待开发智能教练系统,融合知识图谱与实时动作识别技术,引导用户动手拼装实体模型,像搭建乐高一样理解结构原理[29] - **场景五:广东醒狮“虚实共生”传承课堂** - 类型为非物质文化遗产(国家级),痛点为陈列展览缺乏互动性与体验性,需数字技术赋能传播[36] - 期待借助先进技术手段,对醒狮动作细节、发力方式等进行动作捕捉与结构化呈现,实现数字动态呈现和观众互动体验[36] 项目申报与支持 - 项目流程分为三大阶段:项目申报(2025年12月—2026年1月)、项目遴选与公示(2026年2月—3月)、项目共创孵化与成果沉淀(2026年4月—10月)[48] - 项目遴选将应用腾讯Cultech-SQI评价体系,聚焦场景代表性(S)、创新性(Q)和话题性(I)[50][52] - 资金支持包括:共创落地项目共选出2-3个,每组有机会获得数十至百万元扶持资金;概念探索项目共选出3-4个,每个项目有机会获得20-40万元扶持资金[52] - 额外支持包括北大等行业权威专家“陪伴式”孵化、腾讯SSV技术能力与传播资源连接、纳入北大文化创新案例库以及优秀成果通过探元平台走向国际舞台[52] 参与方式与目标群体 - 寻找拥有AI大模型、XR、计算机视觉、生成式AI、人机交互等核心技术能力,能独立承接特定命题场景的技术团队[43] - 同时开辟“开放命题”通道,鼓励文化场景单位(如文博机构、非遗中心)与技术团队组成联合体进行联合申报,共同提出创新解决方案[44][45][46] - 申报截止日期为2026年1月31日[53] - 该赛道由北京大学文化产业研究院负责运营,聚焦世界文化遗产、博物馆及非物质文化遗产三大文化资源,旨在通过科技赋能形成新模式、新业态和新产品[56]
腾讯研究院AI速递 20260120
腾讯研究院· 2026-01-20 00:03
特斯拉AI芯片路线图 - 公司宣布其AI5芯片设计已接近完成,AI6芯片处于早期阶段,目标是将芯片设计周期缩短至9个月,并预测将成为全球产量最高的AI芯片 [1] - AI5芯片将采用三星2nm和台积电3nm制程,总体性能是前代AI4的50倍,内存容量是AI4的9倍,预计于2027年量产 [1] - 公司曾与三星签署价值165亿美元的协议,由三星在美国生产AI6芯片,预计2028年推出 [1] AI助理记忆与功能升级 - Anthropic为其AI助手Claude Cowork升级了“永久记忆”功能,通过引入知识库系统让AI分门别类存储信息,该功能将成为Claude默认的主要模式 [2] - 此次升级还包含增强MCP连接器体系以提升自动化能力、开发语音模式、升级Pixelate等,用户界面将新增右侧Artefacts区域以实现成果的持续管理 [2] - 持续学习被视为实现AGI的关键突破,OpenAI和谷歌均在布局记忆功能,行业观点认为持久记忆将彻底改变AI助理的概念 [2] AI设计工具与平台创新 - 昆仑万维推出Skywork Design Agent,聚焦海报设计、社媒物料、LOGO品牌视觉和通用创意生图四大核心场景,支持文生图和以图生图深度控制 [3] - 该产品新增自研画布引擎,支持图文手动编辑、AI修图、元素拆分图层等功能,提供PNG、JPG、PDF多格式导出,并具备独有的“添加到知识库”功能以解决素材管理问题,已在海外全面上线 [3] - 扣子平台推出Coze Skill功能,允许用户将个人方法论和行业经验封装成可复用的“技能包”,并上线技能商店以构建经验交易市场,专业人士可沉淀行业技能包供他人调用变现 [4] - 扣子平台还新增“长期计划”功能,可实现目标导向的AI协作,能将模糊目标拆解成清晰步骤并自动执行,同时推出了视频Agent Skill的公测 [4] AI大模型在游戏中的应用 - 巨人网络在游戏《超自然行动组》中推出“AI大模型挑战”模式,将大模型技术接入游戏对战环节,被视为国内大DAU游戏首次在核心玩法层面实现大模型规模化应用 [5] - 游戏中的AI角色由大模型实时驱动作为玩家对手,支持语音交互、模仿真人行为并主动采取行动,上线一周内AI对局次数超过2500万次 [5] - 游戏与阿里云、火山引擎、腾讯云合作,重点优化实时推理和高并发支持,成为业内首个整合多家大模型能力投入实际运营的案例 [6] AI硬件与办公生态整合 - 安克创新联合飞书推出仅重10克的AI录音豆,解决了传统AI录音卡片携带不便和遮挡麦克风的痛点,可像胸针别在领口或项链挂在胸前 [7] - 该设备搭载飞书AI实现实时总结,会议进行中即可生成结构化逻辑地图,支持24种语言实时翻译和说话人区分,会后自动生成智能画板和纪要 [7] - 录音内容直接流向飞书知识库而非存储在硬件,打通了日历、云文档、消息等飞书全生态,降低了构建知识库的负担 [7] 人形与重载机器人进展 - 萝博派对将双足人形机器人“萝博头原型机”全栈开源,其跑步速度达3m/s,是目前全球技术成熟度领先的全开源人形机器人 [8] - 开源内容涵盖硬件结构图、EBOM物料清单、供应商名单、AMP运控算法代码及Know-how知识库,团队目标是将具身智能开发成本降低80% [8] - 银河通用发布具身智能重载机器人Galbot S1,双臂最大持续作业负载达50公斤,已在宁德时代工厂承担核心生产环节 [9] - 该机器人搭载行业首创全自主、零遥操的“具身搬运模型”,采用纯视觉感知方案,具备8小时超长续航和自主换电能力,可实现7×24小时运转,公司近期完成21亿元融资,估值突破200亿元 [9] AI协作平台的发展与影响 - OpenAI的Codex产品负责人称,自ChatGPT5发布以来,平台规模增长了20倍,每周处理数万亿字符,其核心目标是打造具备主动性的“团队协作伙伴”而非被动响应工具 [10] - 以Sora安卓应用为例,其仅用28天从零开发到上线并登顶App Store,Atlas浏览器团队效率提升显著,原本需要两三人两三周的工作现在一人一周即可完成 [10] - 行业观点认为,距离AGI被严重低估的限制因素是人类打字速度和多任务处理速度,真正拖慢系统效率的往往是人机交互的物理和认知瓶颈,而非模型本身 [10]
我们正在亲手撰写历史
腾讯研究院· 2026-01-19 21:24
文章核心观点 - AI技术发展已进入新阶段,上半场以模型参数竞赛为标志的时期已结束,下半场的核心议题转向探讨在技术洪流中“何以为人”以及如何确立人的价值与尺度 [2][3][6][7] - 腾讯研究院将于2026年1月27日举办“科技向善创新节”,以“正在发生”为主题,通过23场分享、52位嘉宾的讨论,共同探索AI如何塑造世界以及人类如何坚守本质 [9][12][15] 大会概况与议程 - 大会主题为“正在发生”,旨在探讨AI文明史的当下进程 [9][15] - 活动包含主会场、直播马拉松和硬件游乐场三大板块,共计23场分享,邀请52位嘉宾 [9] - 大会首次开放300个线下观众席位,采用先到先得的方式获取 [13] 主会场议题与嘉宾 - 议题覆盖AI时代的宏观意义、组织进化、具身智能、人机分工、教育实践、社会伦理及AI治理等多个维度 [18][21][24][25][26][27] - 重要演讲包括腾讯集团高级副总裁郭凯天致辞、腾讯首席科学家张正友探讨具身智能、科幻作家陈树帆等人讨论人机分工重写等 [18][21] - 议题深入至具体领域,如“AI原生一代:组织与人的进化”、“身智融无碍:具身智能的发展和探索”、“人的重建,从不仰望AI开始”、“何以为‘人’”、“迈向可信任的AI治理”等 [18][21][22][25][27] 直播马拉松议题 - 该板块以连续直播形式探讨AI对家庭、媒体、文化及个人发展的影响 [28] - 具体议题包括“AI来了,‘家’会变吗”、“短剧凶猛,但怎么还没扑倒我”、“为什么在AI时代‘概率真相’是更好的心法”、“普通人如何跨上AI时代的列车”、“从一键生成到巴乔侯型,文化产业的破晓时刻真的来了吗”以及“用科技,塑造自己的下一个版本” [29][30][31][32] 硬件游乐场 (INNO100) - 该板块与INNO100全球创新旗舰店合作,打造实体互动体验区,展示AI如何融入硬件产品 [35][36] - 展示产品包括LOOI机器人、ropet AI陪伴机器人、AeroBand空气乐队智能吉他、DWARF 3智能望远镜等智能硬件 [37][38] - 提供实践工作坊,如引入Kickstarter授权的“万物定制工作站”,并开设3D打印、CNC加工及激光雕刻小课堂,让参与者亲手体验从设计到制造的全流程 [36][39][41][42][43][44]
腾讯研究院AI速递 20260119
腾讯研究院· 2026-01-19 00:01
超大规模计算基础设施与能源挑战 - 马斯克旗下xAI的Colossus 2超算集群正式投入运行,成为全球首个功率达到1吉瓦(GW)的超算集群,计划于4月升级至1.5吉瓦,最终装机容量将达到2吉瓦 [1] - 该集群完工后将内置55.5万张GPU,远超Meta和微软的规模,全部专用于Grok模型,预计将支撑6万亿参数的Grok 5模型训练 [1] - 数据中心用电激增对美国电网构成压力,导致PJM电网区域6700万居民可能面临轮流停电风险,xAI已部署168个特斯拉Megapack储能系统以缓解对电网的冲击 [1] 大模型产品商业化与市场策略 - OpenAI正式启动广告业务,计划在美国的免费版和新推出的ChatGPT Go订阅服务中测试广告,广告将出现在回答底部并明确标记,而Pro、Business和Enterprise版本则无广告 [2] - OpenAI推出低价订阅服务ChatGPT Go,价格为每月8美元,提供GPT-5.2 Instant版本,其消息量和图像创建量是免费版的10倍 [2] - OpenAI承诺广告不影响回答内容,不向广告商出售用户数据,用户可关闭个性化广告并随时清除相关数据 [2] 翻译工具与多语言模型竞争 - OpenAI低调上线ChatGPT Translate翻译工具,支持50多种语言,并提供一键调整译文语气(如“商务正式”、“学术风格”)的功能 [3] - 谷歌强势回应,开源了TranslateGemma模型,支持55种语言,其120亿(12B)参数版本性能超越270亿(27B)参数的基线模型,40亿(4B)参数版本可在手机端运行 [3] - TranslateGemma模型保留了多模态能力,可以翻译图像中的文字,其4B版本采用Apache 2.0许可证,支持商业使用 [3] 高效开源图像生成与编辑模型 - Black Forest Labs开源了FLUX.2 Klein模型,包含40亿(4B)和90亿(9B)参数两个版本,在现代硬件上实现了端到端推理时间低于0.5秒,统一了文生图和图像编辑能力 [4] - 4B模型仅需13GB显存即可在消费级GPU上运行,9B版本性能可与参数规模为其5倍的模型匹敌,4B版本采用Apache 2.0许可证 [4] - 模型提供了FP8和NVFP4量化版本,在RTX GPU上分别实现了最高1.6倍和2.7倍的推理加速,显存占用降低了40%至55% [4] 3D内容生成技术升级 - 混元3D Studio 1.2全面开放公测,其组件生成能力升级为PartGen 1.5,拆分精度从1024³提升至1536³分辨率,并支持笔刷交互进行拆分控制 [5] - 基础模型升级为混元3D 3.1版本,几何细节和纹理颜色还原度大幅提升,支持通过八视角图像输入生成3D模型 [5] - 新版本引入了全尺度组件精细化处理和分割掩码控制,实现了更完整的复杂物体拆分和专业可控的组件生成 [5] 大模型智能体能力与训练方法创新 - 美团发布了5600亿参数的LongCat-Flash-Thinking-2601模型,引入了“重思考”模式,可同时启动8路并行思考后汇总得出结论 [7] - 该模型的智能体能力获得重大提升,在工具调用和搜索等基准测试中达到顶尖水平,团队还提出了自动化环境规模扩展的泛化能力评测方法 [7] - 模型采用环境规模扩展与多环境强化学习进行训练,并引入了面向噪声环境的课程式稳健训练,显著提升了在分布外场景的适应能力 [7] OpenAI内部争议与法律诉讼 - 法庭解封了超过100份与马斯克诉OpenAI案相关的证词文件,文件显示奥特曼通过YC基金间接持有OpenAI股份,同时秘密拥有OpenAI创业基金,与其公开声明存在矛盾 [8] - 文件曝光了Brockman 2017年的日记,其中承认想把OpenAI转为营利公司并踢出马斯克,称“这是摆脱埃隆的唯一机会” [8] - OpenAI反驳称马斯克曾要求获得50%-60%的股权和CEO职位但被拒绝,法官认为证据争议较大,适合由陪审团裁决,审判定于4月27日开始 [8] 脑机接口技术进展与升级路径 - Neuralink首位受试者Noland揭秘,其大脑芯片可通过三种方式升级:Telepathy应用更新、植入体固件OTA无线更新以及硬件迭代 [8] - 此前85%的电极发生脱离后,团队通过软件算法更新让剩余15%的电极性能反超完好状态,实现了不开颅修复问题 [8] - 下一代计划采用“双芯配置”,在大脑和脊髓各植入一枚芯片以搭建“数字桥梁”,目标是让瘫痪者重新行走;奥特曼投资的Merge Labs也已入局脑机接口领域 [8] 行业对AGI发展的判断与预测 - 红杉资本合伙人联合发布博客,指出AGI(通用人工智能)已经到来,其功能性定义为“能把事情搞清楚的能力”,认为长周期智能体已具备形成假设、验证、调整直至找到答案的能力 [9] - 文章举例说明,智能体能在31分钟内自主完成一项招聘任务:从LinkedIn搜索到YouTube筛选演讲者,再交叉比对Twitter找出倦怠信号,最终锁定精准候选人 [9] - 长周期智能体的能力被认为每7个月翻一番,预计到2028年能完成人类专家一天的工作,到2034年能完成一年的工作,并称“你对2030年的梦想,2026年就能实现” [9] 大模型能力演进与个性化方向 - OpenAI后训练负责人表示,GPT-5.1首次让所有聊天模型都变成了推理模型,模型可根据问题难度自主决定思考时长,实现更智能的资源分配 [10] - 团队重点改进了模型的上下文记忆、自动模型切换的风格一致性和指令遵循能力,并新增了“风格与特质”个性化功能,允许用户自定义模型的表达方式 [11] - 未来模型将更加可定制,记忆功能让模型能记住用户背景和偏好,真正的方向是模型主动理解用户,但用户始终掌握主导权 [11] AI对工作效率的影响与潜在风险 - Anthropic发布的新《经济指数报告》显示,任务越复杂,AI带来的效率提升越惊人:完成高中学历水平的任务速度提升9倍,完成大学学历水平的任务速度提升达12倍,颠覆了“AI只擅长简单劳动”的认知 [12] - 报告发现,人机协作能将AI处理任务的时长上限从基准测试的2小时推高至19小时,接近10倍提升,人类学会拆解任务和提供反馈修正是关键 [12] - 报告警示存在“去技能化”风险,AI正系统性剔除工作中的高智力部分,当前AI覆盖的任务平均需要14.4年的教育背景,高于经济活动平均所需的13.2年 [12]