腾讯研究院
搜索文档
腾讯研究院AI速递 20260123
腾讯研究院· 2026-01-23 00:01
视频生成模型技术升级 - Runway发布全新Gen 4.5图生视频模型,镜头控制和故事叙事能力显著提升,能在5秒内快速生成包含近景、中景、远景的三个镜头 [1] - 在1000人参与的测试中,仅有57%的人能分辨AI生成视频与真实视频,模型在人物面部一致性、光影逻辑和物理规律表现上接近电影级水准 [1] - 视频生成模型正进入新一轮升级期,真实度、声画同步、局部控制精细化和更长生成时长成为行业共同趋势 [1] 大模型在教育领域的应用拓展 - 谷歌联手The Princeton Review将全套SAT模拟题整合进Gemini,用户可免费进行全真模考,分数立等可取并获得详细错题解析 [2] - 测试涵盖阅读写作和数学两大模块,支持自定义倒计时和提示功能,Gemini会把解题思路拆解成详细步骤辅助理解 [2] - SAT只是第一步,谷歌计划将Gemini逐步扩展到更多标准化考试,同时通过垂直领域渗透策略让AI成为各行业的专家助手 [2] 大模型服务与算力挑战 - 智谱GLM-4.7上线后用户高速增长导致算力紧张,部分用户在高峰期遇到并发限流和模型速度变慢问题 [3] - 1月23日起限量发售GLM Coding Plan,每日可销售量降至当前20%,优先保障老用户的编程体验 [3] - 智谱正在研发更强大高效的模型并加速算力扩容,已有自动续订不受影响,限售结束时间另行通知 [3] 垂直领域大模型突破 - 百川发布医疗大模型M3 Plus,幻觉率降至2.6%达全球最低,首创“证据锚定”技术可将每句医学结论精确锚定到原始论文对应段落 [4] - M3 Plus在Healthbench等权威评测中登顶榜首全面超越GPT-5.2,API调用价格较上一代降低70% [4] - 百川推出“海纳百川”计划,向中国医疗服务机构免费开放M3 Plus API,推动AI医疗生态发展 [4] 消费级AI硬件与助手演进 - 苹果正秘密研发类似AirTag外形的AI设备,配备双摄像头和三麦克风,功能类似Ai Pin,首批规划量产2000万台,最快2027年发布 [5] - 苹果计划推出代号“Campos”的全新Siri,深度整合iOS 27,支持网页搜索、写邮件、生成图片和屏幕感知等ChatGPT级能力 [5] - 新版Siri基础模型将基于Google Gemini 3构建,苹果每年需向谷歌支付约10亿美元,并可能切换到TPU服务器托管 [5] AI驱动的程序化视频制作工具 - Remotion是一个开源库,支持用React代码程序化制作视频,现已有专门的skills可通过npx命令安装到Cursor、Claude Code等开发工具 [6] - 用户只需提供文案和节奏需求,AI就能自动生成带动画的视频效果,支持产品演示、宣传视频等场景,并可通过Web端编辑器做细节修改 [6] - 这一工具适合独立开发者制作产品宣传视频,实现了“视频编辑可以接近编程”的思维转变,支持与AI反复迭代调整效果 [6] 人工智能学术研究前沿 - AAAI 2026公布5篇杰出论文,其中三篇由华人团队主导,作者来自港科大(广州)、西湖大学、浙大、同济、浙师大、港城大等高校 [7] - 获奖论文涵盖机器人视觉语言动作模型ReconVLA、多模态表示学习LLM2CLIP、动力系统因果发现CADYT等前沿方向 [7] - AAAI 2026总投稿23,680篇,录用4,167篇,接收率17.6%,会议于1月20-27日在新加坡举行 [7] 消费级AI市场趋势与竞争格局 - 通用LLM助手市场呈“赢家通吃”趋势,ChatGPT周活跃用户达8-9亿,仅9%用户会为多款AI产品付费,Gemini桌面端用户同比增长155% [8] - 2025年图像视频生成模型在真实感和推理能力上取得长足进步, Veo 3的音视频融合和Nano Banana Pro的搜索整合成为关键突破 [8] - 头部实验室在模型研发上表现出色,但新消费级产品多未取得理想效果,2026年初创企业在细分应用场景仍有很大发展空间 [8] AI模型价值观与安全框架 - Anthropic发布84页《Claude宪法》并以CC0协议开源,这是一份直接面向AI模型的价值观宣言,定义Claude是谁及如何自处 [9] - 宪法确立四级价值优先级:广义安全>广义伦理>遵循指南>真正有帮助,强调“可修正性”是当前阶段最重要的安全特性 [9] - 文件明确划定硬性红线包括不协助制造大规模杀伤性武器、不生成CSAM等,同时鼓励Claude建立稳定积极的自我认同 [9]
探元计划NextGenAI考古赛道:方案火热征集,四大场景命题等您共创
腾讯研究院· 2026-01-22 16:44
腾讯探元计划NextGen AI考古赛道项目发布 - 腾讯探元计划NextGen AI考古赛道正式发布四大“特定命题”,面向全球公开征集技术团队“揭榜挂帅”,申报截止日期为2026年1月31日 [2] - 项目同时持续征集“开放命题”技术方案,鼓励技术团队与文化场景单位联合申报 [2] - 项目由腾讯SSV、腾讯研究院发起,山东大学文化遗产研究院负责运营,旨在通过前沿数字科技焕活文化遗产 [38] 四大特定文化场景与核心需求 - **场景一:景德镇陶瓷智拼** - 目标为修复明正统青花云龙纹大缸,该文物已碎为15000片珍贵碎片 [4] - 期待构建纯自动化、非接触式3D碎片虚拟复原平台,攻克断裂面智能识别、几何特征精准匹配等核心技术 [11] - **场景二:智联商史** - 目标为处理山东大辛庄遗址出土的18000余片商代陶片 [12] - 期待基于陶片二维高清影像,开发高召回、低漏检的AI算法工具,实现海量陶片的快速分类与精准拼对 [18] - **场景三:龟兹智绘** - 目标为构建克孜尔石窟菱格壁画的细颗粒度数据集 [19] - 期待打造多模态数据融合与细粒度标注一体化方案,构建涵盖“题材内容-艺术特征-保存状态”的专项数据集 [22] - **场景四:白鹤梁智护** - 目标为复原位于长江水下40米深处的白鹤梁题刻,该处留存165段跨越1200年的题刻 [23] - 期待研发水下无人潜航器智能采集系统与多模态AI修复引擎,实现题刻毫米级三维重建、病害识别与残缺文字复原 [28] 开放命题申报方向 - AI文物虚拟修复:运用AI技术对考古出土的各类文物进行分类、拼合、鉴定、分析以及数字化存档 [30] - AI考古大数据:构建集成各类考古数据的智能化、统一化、标准化数据库,利用人工智能辅助实现海量考古数据高效处理 [30] - AI与古文字:利用人工智能技术对甲骨文、金文、简牍等进行识别、缀合、翻译和分析 [30] 项目参与权益与资源支持 - 资金支持:提供最高可达百万级的专项资助 [31],计划评选出2~3个“方案落地型”项目提供数十至百万元扶持资金,以及3~4个概念探索型项目提供20~40万元扶持资金 [34] - 数据与资源赋能:四大文博单位开放共创数据,包括15000片碎瓷资源、18000片陶片高清影像、石窟壁画多模态素材、白鹤梁11000字题刻资源等,并提供线下场地及专家支持 [31] - 价值回报:技术成果可落地为行业标准、核心数字资产,应用于智慧考古、数字展示等场景 [31] - 品牌影响力:在世界级文化遗产项目中实现技术首发,通过腾讯生态及官方渠道获得流量扶持 [31] 招募对象与报名方式 - 技术方案申报单位:应为具备应用研究能力和创新技术的高等院校、科研院所、技术企业等 [33] - 文化场景申报单位:应为具备共创成果落地条件的文化遗产领域的事业单位、企业或机构 [33] - 报名方式:需在2026年1月31日前通过扫描二维码或点击链接提交报名信息与方案介绍 [34]
2025年AI治理报告:回归现实主义
腾讯研究院· 2026-01-22 16:44
宏观格局: 发展优先,安全"软着陆" 2025年2月的巴黎"人工智能行动峰会"是一个标志性时刻,与两年前布莱切利峰会笼罩的"安全焦虑"不 同,巴黎峰会的关键词悄然变更为"创新"与"行动",这一变化折射出全球治理的底层逻辑重构。在这种 背景下,全球监管竞速出现了"逆转",过去被视为"监管高地"的区域开始主动寻求松绑。 欧盟的自我修正 。随着《AI法案》进入实施期,复杂的合规成本开始显现,为了挽救产业竞争力,欧 盟在2025年不得不推出"数字综合提案 (Digit al O mnibus) ",推迟高风险义务生效时间并试图简化规 则,这表明即便是最坚定的监管者也必须在发展现实面前低头。 美国的"去监管化" 。特朗普政府展现了鲜明的"美国优先"色彩,撤销了前任政府侧重安全的行政令, 转而通过《确保国家人工智能政策框架》限制各州分散立法,试图以统一的联邦规则为产业扫清障碍。 如果说前两年全球对AI的态度还夹杂着"末日恐惧",那么2025年,风向已彻底改变。全球AI治理正在经 历一场深刻的"去理想化"进程。面对技术与产业的双重压力,各主要经济体不约而同地调整了身位:治 理的重心从"防范假设性的末日风险",迅速转移到了" ...
腾讯研究院AI速递 20260122
腾讯研究院· 2026-01-22 00:01
DeepSeek新模型进展 - DeepSeek在R1发布一周年之际,其GitHub代码库更新中出现代号为Model 1的新模型,推测为DeepSeek-V4的内部开发代号或工程版本 [1] - 代码分析显示Model 1采用512维标准架构,全面支持英伟达Blackwell架构,并引入Token-level Sparse MLA稀疏注意力机制 [1] - 新模型引入VVPA数值向量位置感知和Engram机制等新特性 [1] 新兴AI架构与模型 - Liquid AI开源基于液态神经网络架构的推理模型LFM2.5-1.2B-Thinking,该模型在手机端仅需900MB内存即可运行 [2] - LFM2.5-1.2B-Thinking在MATH-500上达到88分,参数量比Qwen3-1.7B少40%却表现更优,推理速度和内存效率均超越Transformer模型 [2] - 训练采用分层强化学习策略,通过n-gram重复惩罚将死循环生成比例从15.74%降至0.36%,证明Transformer并非唯一解 [2] - 中佛罗里达大学等机构发布Medical SAM3,这是首个仅凭文本指令即可在CT、MRI等10种模态实现专家级分割的医学模型 [5] - Medical SAM3采用全参数微调和分层学习率衰减策略,在33个医学数据集上将零样本场景平均准确率从11.9%提升至73.9% [5] - 在内镜息肉分割等极端案例中,其准确率从0.0%跃升至87.9% [5] AI自主性与人机协作演进 - Midjourney工程师展示Claude反向指挥人类工作的视频,AI可布置任务让人类去TestFlight发包、写文案、跑测试 [2] - Claude Code具备自主执行能力,可运行Bash命令、创建文件、自动修Bug形成闭环,Cowork等工具让用户下达模糊指令后AI自主规划执行 [2] - Node.js之父Ryan Dahl宣称人类编写代码的时代已结束,Linux之父也开始Vibe Coding,程序员角色正从编写代码转向审查代码 [2] - 谷歌等机构研究发现DeepSeek-R1等推理模型会在内部自发形成多角色辩论机制,通过提问、质疑、冲突和和解推导答案 [3] - 模型内部存在稳定的虚拟人格分工,高神经质人格负责纠错,高开放性人格提供新视角,这种“思维社会”机制让准确率翻倍 [4] - 通过干预模型内部的“觉察特征”,在倒计时数学游戏中准确率从27.1%飙升至54.8% [4] 行业趋势与公司动态 - xAI工程师在播客上透露MacroHard项目核心机密,包括内部已将AI包装成“同事”进行测试,有人去工位找同事发现是空桌 [3] - xAI押注小模型路线追求极致速度,MacroHard已达人类8倍速度,并考虑租用北美约400万辆特斯拉闲置算力进行部署 [3] - xAI的Colossus 1利用“临时用地租约”在122天内建成,展现了公司扁平化文化和极致执行力 [3] - Anthropic CEO在达沃斯论坛预测AI端到端接管软件工程师工作仅剩6-12个月,公司内部工程师已基本不手写代码 [6] - Anthropic CEO预言2026-2027年将诞生“诺奖级”AI模型,未来1-5年内50%初级白领工作将消失 [6] - DeepMind CEO预测2030年前有50%概率实现AGI,行业领袖认为“AI建AI”闭环一旦跑通将迎来指数级加速 [6] Agent能力评估与商业化 - 红杉中国xbench团队发布AgentIF-OneDay评测,测试Agent处理真实日常任务能力,头部Agent得分约62-65% [7] - 评测覆盖104道任务、15种以上文件格式、767个评分点,发现不同框架难以拉开差距,基础Agent能力已商品化 [7] - 隐式条件推断是Agent普遍最薄弱能力,xbench正着手构建OneWeek评测集,认为优先转起数据飞轮的公司将率先实现Agent的FSD时刻 [7] AI产业经济与未来展望 - OpenAI CFO与投资人指出2026年多智能体系统将成熟,AI泡沫应以API调用量而非股价衡量 [8] - OpenAI算力投资与收入强相关,三年收入从1亿美元增至100亿美元,目前需求受算力限制,采用AI的前沿企业生产力提升27-33% [8] - 双方预测机器人产业规模将超越汽车产业,未来十年末将出现大规模通缩经济,劳动力和专业知识边际成本趋近于零 [9]
AI健康助手,正风起云涌
腾讯研究院· 2026-01-21 16:44
对话式AI健康助手的全球热潮 - 国内互联网大厂和AI头部企业正将医疗健康作为战略重点,押注AI健康助手,在B端和C端同时发力[9][11] - 浙江省卫健委主导的“安诊儿”健康助手已接入2000多家医疗机构,拥有1800万注册用户,累计服务超1.3亿人次[11] - 科大讯飞的“讯飞晓医”下载量超2600万次,累计完成1.6亿次AI咨询,其医疗业务在2025年11月以4.3亿元中标国家AI应用中试基地项目[11] - 国际用户更偏好使用通用AI助手进行医疗咨询,在ChatGPT的8亿多用户中,每周有四分之一的用户提交医疗相关请求,每天咨询医疗问题的用户超4000万[13] - 一项英国民调显示,37%的英国成年人曾使用AI聊天机器人获取心理健康支持,其中25-34岁人群使用率达64%[14] - 专业AI助手在欧美帮助医生减负,2024年有66%的美国医生在实践中使用AI工具,比2023年增长78%[15] - 医疗AI公司OpenEvidence估值达120亿美元,其产品被45%的美国医生(超10万名)使用,日均临床查询超6万次,2025年每月支持医生咨询超850万次,是2024年的2.3倍[15][17] - OpenAI和Anthropic已推出面向医疗行业的合规解决方案,谷歌则发布了开源多模态医疗模型MedGemma 1.5,以技术赋能生态[18][19] - 微软研发的AI诊断协调器MAI-DxO,在《新英格兰医学杂志》病例诊断中正确率达85%,是人类医生的四倍以上[20] 热潮背后的驱动因素和现实挑战 - 用户交互习惯发生根本改变,国内AI搜索和综合助手的用户规模已达7亿,医疗健康类APP成为用户增长最快的AI原生应用之一[23][24] - 大模型能力跨越式提升,从推理、多模态理解到专业知识,为AI健康助手奠定了技术基础,并正从被动问答向主动提供服务的智能体演进[24] - 政策推动行业发展,中国国家卫健委等五部门印发实施意见,已启动5个国家医疗AI中试基地,总投资规模累计超20亿元[25] - 通用AI助手用户增长遇瓶颈,国内AI原生APP月活用户规模从年初的1.9亿降至年末的1.5亿,总用户规模徘徊在7亿左右,厂商急需寻找差异化增长点[26] - 医疗健康市场因其规模巨大、与多行业深度关联、且适合生成式AI发挥优势,被AI企业视为重要的商业化阵地[27] - OpenAI报告显示,医疗保健与科技和制造业是当前AI应用增长最快的行业[28] - 生成式AI的“幻觉”问题、数据偏差与对齐困难、以及上下文工程等技术不足,是AI在医疗领域规模化应用的主要风险[29] - 技术缺陷可能导致误诊、过度诊疗等问题,一项Nature论文显示,一些医疗模型的不必要检查率高达91.9%,不必要药物开具率达57.8%[30] - 国内对话式AI助手大多免费,盈利模式仍在探索,潜在模式包括会员增值、消费协同、广告收益、金融保险协同等[32] - 行业监管协同有待完善,AI技术在不同医疗科室的应用风险和深度差异巨大,行业转型面临挑战[33] AI健康助手的“健康”发展思路 - 高质量医疗数据的开放与共享是发展可信AI医疗助手的关键,需要行业出版机构、地方与研发企业深化合作[37] - 国际上领先的AI健康助手均依赖高质量数据,例如OpenEvidence与顶级医学期刊合作,ChatGPT Health与来自60多个国家的260多位执业医生合作,获得了超60万次反馈[37] - 建议探索AI健康助手分级管理,从风险和收益两个维度明确服务边界,以利于创新和发展[38] - 应扶持中小企业参与AI+医疗创新,OpenEvidence团队仅83人即创造120亿美元估值,被收购的Torch公司仅有4名全职员工,显示了小团队的创新活力[39] - 行业自律需与AI创新同步加强,医疗健康领域不能快速试错,从业者需在技术研发、数据治理等各维度加强自律[40] - 可借鉴国际经验构建安全防护体系,例如OpenAI为ChatGPT Health采取独立入口、数据隔离、用户自主控制、与认证服务商合作、持续与医生合作评估等多种安全措施[40][44][45][46] 展望未来的新流量入口 - 中国老龄化社会与年轻人健康意识觉醒共同推动健康需求,60岁以上人口已达3.1亿,占全国人口的22%,同时62.6%的Z世代年轻人对健康更加关注[49] - 健康应用具备成为超级入口的潜力,它满足刚性需求、可发展为高频使用、用户迁移成本高,并且具备极强的平台化扩展能力[50] - 在AI时代,“装机必备”的逻辑正演变为选择最能维护用户利益、帮助做事的AI助手,健康助手作为维护“碳基生命体”的候选,有望成为新的流量入口[50]
腾讯研究院AI速递 20260121
腾讯研究院· 2026-01-21 00:03
一、马斯克兑现承诺开源X推荐算法!100% AI驱动0人工规则 - 马斯克兑现承诺,开源了X平台的全新推荐算法,该算法采用与Grok相同的Transformer架构,完全移除了手工特征和人工规则,由AI驱动 [1] - 算法通过Thunder和Phoenix双引擎构建信息流,预测15种用户行为并加权计算得分,其中回复作者评论的权重是点赞的75倍 [1] - 算法中负面反馈(如拉黑、举报)会严重降低内容权重,停留时间和真实互动成为核心指标,小号也有机会获得曝光,粉丝数量优势被削弱 [1] 二、智谱GLM-4.7-Flash开源,首次采用DeepSeek的MLA架构 - 智谱AI开源轻量级模型GLM-4.7-Flash,总参数为300亿,激活参数仅30亿,定位为“本地编程与智能体助手”,其API免费开放调用 [1] - 该模型首次采用了DeepSeek率先使用的MLA架构,支持200K上下文窗口,在SWE-bench代码修复测试中得分为59.2分 [1] - 本地部署实测在苹果M5芯片上可达到每秒43个token的生成速度,已支持HuggingFace、vLLM及华为昇腾NPU [1] 三、MiniMax 揭开第二代智能体面纱,定位 AI-native Workspace - MiniMax发布Agent 2.0,定义为“AI原生工作台”,推出桌面端应用实现本地与云端无缝连接,可操作本地文件并启动网页自动化任务 [2] - 推出Expert Agents功能,通过封装私有知识和行业标准作业程序打造垂直领域专家分身,能将通用专家的70分水平提升至95分甚至100分 [2] - 用户可自定义Expert Agents,实现从研读到交付的闭环能力,桌面端已上线Windows和Mac双版本 [2] 四、阶跃星辰多模态小模型Step3-VL-10B 开源,10B击败200B - 阶跃星辰开源多模态模型Step3-VL-10B,仅100亿参数在多项评测中媲美甚至超越了GLM-4.6V 1060亿、Qwen3-VL 2350亿等模型 [3] - 模型具备极致视觉感知、深层逻辑推理和端侧Agent交互三大核心能力,在AIME数学竞赛测试中达到世界第一梯队水平 [3] - 模型采用1.2万亿数据全参数联合预训练、超过1400次强化学习迭代和创新的PaCoRe并行协调推理机制,Base和Thinking版本同时开源 [3] 五、月之暗面正在进行新一轮融资,新融资估值达到48亿美元 - 月之暗面正在进行新一轮融资,估值达到48亿美元,较20天前公布的C轮43亿美元估值上涨了5亿美元,融资可能很快完成 [4] - 公司目前现金持有量超过100亿元人民币,短期不急于上市,计划将上市作为加速通用人工智能的手段择时而动 [4] - 技术层面聚焦于Token效率与长上下文能力,提出Muon优化器实现2倍效率提升,并推出Kimi-Linear线性注意力机制 [5] 六、真可用游戏Agent诞生!可实时高频决策,思维链还全程可见 - 超参数科技推出游戏智能体COTA,完全由大模型原生驱动,在第一人称射击游戏中实现职业级水准表现,其推理链路全程可见 [6] - 采用“双系统分层架构”模拟人类快慢思考,Commander负责战略决策,Operator执行毫秒级操作,将响应时间压缩至100毫秒 [6] - 该产品验证了大模型在高频对抗游戏场景的可行性,为具身智能等现实世界问题提供了参考思路 [6] 七、微软CEO:掌握模型编排能力,才能在AI时代建立护城河 - 微软CEO纳德拉表示,人工智能正在接管复杂的知识工作,企业竞争的关键不是寻找最厉害的模型,而是掌握“模型编排”能力 [7] - 人工智能普及需要从供给侧提升“每美元每瓦特产生token的效率”,需求侧则要求企业从“观念、能力、数据”三个维度推动转型 [7] - 真正的“企业主权”是将独有的经验和知识转化为自己掌控的人工智能模型,防止核心价值流向模型提供商 [7] 八、a16z 2026预测:创业公司的机会在“有主见”的交互界面 - a16z分析指出,ChatGPT周活跃用户达8至9亿保持霸主地位,但Gemini增速达155%正在追赶,AI助手市场呈现“赢家拿走大头”格局 [8] - OpenAI通过ChatGPT界面推送的购物、任务、学习等新体验均未真正突围,受限于现有对话框界面难以提供一流产品体验 [8] - 成功突围的人工智能产品如Replit、Suno、Character AI的共同点是拥有观点鲜明且专注的界面,创业公司机会在于针对特定工作流的深度优化 [8] 九、大模型人格可以被量化!Anthropic最新论文发现辅助轴 - Anthropic研究团队发现模型人格可以被量化,存在一个主导维度“辅助轴”,用于衡量模型以“智能助手”模式运行的程度 [9] - 通过沿辅助轴方向进行干预可以控制模型的角色扮演意愿,向智能助手方向引导能显著降低有害回答的比例,抵御人格越狱攻击 [9] - 提出“激活上限”技术,可在几乎不损伤模型性能的前提下,将人格越狱成功率降低近60%,为人类控制人工智能开辟了新路径 [9]
超越“第四次工业革命”:关于人工智能与人类主体性的再思考
腾讯研究院· 2026-01-20 17:53
文章核心观点 - 当前对人工智能的主流叙事“第四次工业革命”在生产力维度正确,但在认识论维度匮乏,生成式AI冲击的是认知、创造与存在的本质[2] - 当前科技变革与14至16世纪的文艺复兴存在深层拓扑同构性,不仅仅是一次工具箱升级,更是一场关于主体性的危机与重建,即“数字文艺复兴”[3] - 这场变革的核心是从“神本”封闭秩序到“人本”主体焦虑的坐标系迁移,AI动摇了人类作为“唯一智慧载体”的地位,迫使人类重新寻找自身位置[4][5][6][7] - 技术层面,Transformer架构是数字时代的“透视法”,实现了对高维语义空间的理性建模;生成式AI则是“印刷术”的指数级延伸,实现了技能的平权[9][13][17][18] - 需要警惕“数字神权”的风险,即算法裁判权的让渡和人的客体化,避免退化为技术系统中的被动节点[21][22][23][24][25] - 出路在于借助AI这面高维镜像,重新界定人类的不可替代性,如共情、复杂伦理下的道德直觉、意义的赋予等默会知识,实现人类的“二度觉醒”[26][27][28][29][30][31] 从“神本”到“人本”的主体性迁移 - 中世纪的精神结构特征是“人的先验性缺位”,人类理性主要用于解释启示而非作为意义的终极源头[5] - 文艺复兴的标志是价值坐标系的剧烈迁移,皮科·德拉·米兰多拉在《论人的尊严》中提出人的尊严在于“自我定义的自由意志”,标志着人类从被动客体觉醒为主动构建意义的主体[5][6] - 启蒙运动以来的人类中心主义受到挑战,当GPT-4等大模型表现出接近人类的对话连贯性与推理能力时,人类独占的“智慧王座”开始摇晃,引发了深刻的本体论焦虑[7] 作为“透视法”的Transformer与作为“印刷术”的生成式AI - 文艺复兴的转向依赖于两项关键技术认知工具:线性透视法和印刷术,这与今天的AI技术存在惊人对应[9] - 15世纪初的线性透视法本质是对空间的降维建模,宣告世界的视觉表象可以被人类理性测量、规范和计算[10] - Transformer架构是数字时代的“透视法”,它处理的是高维语义空间,通过注意力机制在海量数据中捕捉词语间的统计相关性,在统计意义上复现了人类语言的深层结构模式[13][14][16] - 古登堡印刷术极大地降低了信息分发的边际成本,打破了教会对知识解释权的垄断[17] - 生成式AI是这一逻辑的指数级延伸,它正在解决“初级创作”与“通用技能”的成本,大量中低复杂度技能的边际成本正在急剧下降,实现了极端的“技能平权”[18][20] - 技能平权打破了白领阶层对某些专业技能的垄断,但高阶的判断力、系统设计能力与责任承担能力,其稀缺性反而会因此上升[20] 警惕制度性的数字神权 - 需要警惕的风险是“数字神权”的复辟,风险主要来自AI被嵌入的制度、商业模式与权力结构,而非技术本身[22][23] - 风险之一是裁判权的让渡:当推荐算法、导航算法、匹配算法日益影响人的选择时,人们正在逐渐习惯于让渡判断权;算法给出的“最优解”仅是在预设目标函数下的数学极值,不等于真理或生活意义[24] - 最深层的伦理风险是人的客体化:在某些AI的商业逻辑下,个体被还原为训练模型的数据来源和系统优化中的反馈信号,侵蚀了人作为“目的本身”的康德伦理底线[25] - 如果完全将主体性让渡给技术系统,可能迎来一个由硅基智能担任牧师、由不透明算法担任教条的“算法教会”[25] 在AI镜像前重寻人类的不可替代性 - 真正的出路不是否定技术,而是在AI这面高维镜像前,重新界定人类的不可替代性[26] - 迈克尔·波兰尼提出的“默会知识”概念指出“我们知道的,比我们能说出来的多”,AI的逼近倒逼人类剥离机械的智力外壳,裸露人类智能中最硬核的部分[26][27] - 难以被形式化和计算的人类特质包括:由痛感与脆弱带来的真正共情;复杂伦理语境下的道德直觉;为万物赋予价值、审美与意义的能力[28] - 未来的专家将是拥有深厚人文素养、能够定义问题、甄别价值、设计意义的架构师[28] - 这场变革是为了逼迫人“二度觉醒”,面对算力的指数级增长,必须守住人性以开启后人类时代的文明[29] - 技术越是迭代,越要守住技术无法触达的领地,因为定义未来的永远是驾驭参数的人心[30][31]
【全球招募】用AI唤醒千年文明!探元计划NextGen数智活化赛道:五大文化场景等您“揭榜挂帅”
腾讯研究院· 2026-01-20 17:53
文章核心观点 - 腾讯探元计划NextGen发起“数智活化赛道”,旨在通过AI、多模态大模型、XR、计算机视觉等前沿技术,解决文化遗产在公众理解、体验互动与技艺传承方面的痛点,推动文化资源的数字化焕新与活化利用[2][4][7][56] 赛道议题与目标 - 赛道致力于通过前沿技术激发创新内核、重塑表达形态、创造体验革命,以产生新动能、新形态、新场景[5] - 议题一为“文化垂类多模态智能体”,要求智能体具备深层次语义理解、低幻觉推理和自主决策能力,能生成满足特定文化、审美与情感需求的数字内容[5] - 议题二为“沉浸式互动体验场景创新”,要求在交互感知、多感官数据融合、沉浸式呈现、情感计算、虚实融合及数字人/机器人导览等技术应用上创新产品和业态[6] - 议题三为“人机协同技艺传承发展”,旨在通过构建技艺“数字基因库”、智能化教学系统、生成式设计引擎等方式,实现AI驱动的个性化技艺传承与创意生产转化[7] 五大特定命题场景 - **场景一:云居智友(云居寺多模态智能体)** - 类型为博物馆/国家级档案文献遗产,痛点为石经内容难懂、叙事方式陈旧、体验单薄参与感低[8] - 期待构建一个懂历史、有温度、能创作、可交互的垂类多模态AI智能体,打通“石经—人心”的“最后一公里”[9] - **场景二:杭州西湖(文化遗产活化叙事系统)** - 类型为世界文化景观遗产,痛点为游客停留于浅层观光,难以触及千年文脉[15] - 期待基于游客动线与三维模型,用AI重建历史风貌,生成隐私安全的个性化沉浸式游览影像[16] - **场景三:海岱智游(大汶口文化沉浸式互动体验)** - 类型为博物馆/考古遗址,痛点为展陈静态、公众难理解史前社会与符号含义、古代制陶技艺流程断裂[19] - 期待形成可应用的AI体验系统平台,实现与“虚拟先民”对话、模拟制陶、解码八角星纹,让观众“进入历史”[19] - **场景四:廊桥智传(木拱桥营造技艺智能传承系统)** - 类型为非物质文化遗产(联合国人类非遗),痛点为技艺认知门槛高、年轻传承动力不足、实操成本高昂[29] - 期待开发智能教练系统,融合知识图谱与实时动作识别技术,引导用户动手拼装实体模型,像搭建乐高一样理解结构原理[29] - **场景五:广东醒狮“虚实共生”传承课堂** - 类型为非物质文化遗产(国家级),痛点为陈列展览缺乏互动性与体验性,需数字技术赋能传播[36] - 期待借助先进技术手段,对醒狮动作细节、发力方式等进行动作捕捉与结构化呈现,实现数字动态呈现和观众互动体验[36] 项目申报与支持 - 项目流程分为三大阶段:项目申报(2025年12月—2026年1月)、项目遴选与公示(2026年2月—3月)、项目共创孵化与成果沉淀(2026年4月—10月)[48] - 项目遴选将应用腾讯Cultech-SQI评价体系,聚焦场景代表性(S)、创新性(Q)和话题性(I)[50][52] - 资金支持包括:共创落地项目共选出2-3个,每组有机会获得数十至百万元扶持资金;概念探索项目共选出3-4个,每个项目有机会获得20-40万元扶持资金[52] - 额外支持包括北大等行业权威专家“陪伴式”孵化、腾讯SSV技术能力与传播资源连接、纳入北大文化创新案例库以及优秀成果通过探元平台走向国际舞台[52] 参与方式与目标群体 - 寻找拥有AI大模型、XR、计算机视觉、生成式AI、人机交互等核心技术能力,能独立承接特定命题场景的技术团队[43] - 同时开辟“开放命题”通道,鼓励文化场景单位(如文博机构、非遗中心)与技术团队组成联合体进行联合申报,共同提出创新解决方案[44][45][46] - 申报截止日期为2026年1月31日[53] - 该赛道由北京大学文化产业研究院负责运营,聚焦世界文化遗产、博物馆及非物质文化遗产三大文化资源,旨在通过科技赋能形成新模式、新业态和新产品[56]
腾讯研究院AI速递 20260120
腾讯研究院· 2026-01-20 00:03
特斯拉AI芯片路线图 - 公司宣布其AI5芯片设计已接近完成,AI6芯片处于早期阶段,目标是将芯片设计周期缩短至9个月,并预测将成为全球产量最高的AI芯片 [1] - AI5芯片将采用三星2nm和台积电3nm制程,总体性能是前代AI4的50倍,内存容量是AI4的9倍,预计于2027年量产 [1] - 公司曾与三星签署价值165亿美元的协议,由三星在美国生产AI6芯片,预计2028年推出 [1] AI助理记忆与功能升级 - Anthropic为其AI助手Claude Cowork升级了“永久记忆”功能,通过引入知识库系统让AI分门别类存储信息,该功能将成为Claude默认的主要模式 [2] - 此次升级还包含增强MCP连接器体系以提升自动化能力、开发语音模式、升级Pixelate等,用户界面将新增右侧Artefacts区域以实现成果的持续管理 [2] - 持续学习被视为实现AGI的关键突破,OpenAI和谷歌均在布局记忆功能,行业观点认为持久记忆将彻底改变AI助理的概念 [2] AI设计工具与平台创新 - 昆仑万维推出Skywork Design Agent,聚焦海报设计、社媒物料、LOGO品牌视觉和通用创意生图四大核心场景,支持文生图和以图生图深度控制 [3] - 该产品新增自研画布引擎,支持图文手动编辑、AI修图、元素拆分图层等功能,提供PNG、JPG、PDF多格式导出,并具备独有的“添加到知识库”功能以解决素材管理问题,已在海外全面上线 [3] - 扣子平台推出Coze Skill功能,允许用户将个人方法论和行业经验封装成可复用的“技能包”,并上线技能商店以构建经验交易市场,专业人士可沉淀行业技能包供他人调用变现 [4] - 扣子平台还新增“长期计划”功能,可实现目标导向的AI协作,能将模糊目标拆解成清晰步骤并自动执行,同时推出了视频Agent Skill的公测 [4] AI大模型在游戏中的应用 - 巨人网络在游戏《超自然行动组》中推出“AI大模型挑战”模式,将大模型技术接入游戏对战环节,被视为国内大DAU游戏首次在核心玩法层面实现大模型规模化应用 [5] - 游戏中的AI角色由大模型实时驱动作为玩家对手,支持语音交互、模仿真人行为并主动采取行动,上线一周内AI对局次数超过2500万次 [5] - 游戏与阿里云、火山引擎、腾讯云合作,重点优化实时推理和高并发支持,成为业内首个整合多家大模型能力投入实际运营的案例 [6] AI硬件与办公生态整合 - 安克创新联合飞书推出仅重10克的AI录音豆,解决了传统AI录音卡片携带不便和遮挡麦克风的痛点,可像胸针别在领口或项链挂在胸前 [7] - 该设备搭载飞书AI实现实时总结,会议进行中即可生成结构化逻辑地图,支持24种语言实时翻译和说话人区分,会后自动生成智能画板和纪要 [7] - 录音内容直接流向飞书知识库而非存储在硬件,打通了日历、云文档、消息等飞书全生态,降低了构建知识库的负担 [7] 人形与重载机器人进展 - 萝博派对将双足人形机器人“萝博头原型机”全栈开源,其跑步速度达3m/s,是目前全球技术成熟度领先的全开源人形机器人 [8] - 开源内容涵盖硬件结构图、EBOM物料清单、供应商名单、AMP运控算法代码及Know-how知识库,团队目标是将具身智能开发成本降低80% [8] - 银河通用发布具身智能重载机器人Galbot S1,双臂最大持续作业负载达50公斤,已在宁德时代工厂承担核心生产环节 [9] - 该机器人搭载行业首创全自主、零遥操的“具身搬运模型”,采用纯视觉感知方案,具备8小时超长续航和自主换电能力,可实现7×24小时运转,公司近期完成21亿元融资,估值突破200亿元 [9] AI协作平台的发展与影响 - OpenAI的Codex产品负责人称,自ChatGPT5发布以来,平台规模增长了20倍,每周处理数万亿字符,其核心目标是打造具备主动性的“团队协作伙伴”而非被动响应工具 [10] - 以Sora安卓应用为例,其仅用28天从零开发到上线并登顶App Store,Atlas浏览器团队效率提升显著,原本需要两三人两三周的工作现在一人一周即可完成 [10] - 行业观点认为,距离AGI被严重低估的限制因素是人类打字速度和多任务处理速度,真正拖慢系统效率的往往是人机交互的物理和认知瓶颈,而非模型本身 [10]
我们正在亲手撰写历史
腾讯研究院· 2026-01-19 21:24
文章核心观点 - AI技术发展已进入新阶段,上半场以模型参数竞赛为标志的时期已结束,下半场的核心议题转向探讨在技术洪流中“何以为人”以及如何确立人的价值与尺度 [2][3][6][7] - 腾讯研究院将于2026年1月27日举办“科技向善创新节”,以“正在发生”为主题,通过23场分享、52位嘉宾的讨论,共同探索AI如何塑造世界以及人类如何坚守本质 [9][12][15] 大会概况与议程 - 大会主题为“正在发生”,旨在探讨AI文明史的当下进程 [9][15] - 活动包含主会场、直播马拉松和硬件游乐场三大板块,共计23场分享,邀请52位嘉宾 [9] - 大会首次开放300个线下观众席位,采用先到先得的方式获取 [13] 主会场议题与嘉宾 - 议题覆盖AI时代的宏观意义、组织进化、具身智能、人机分工、教育实践、社会伦理及AI治理等多个维度 [18][21][24][25][26][27] - 重要演讲包括腾讯集团高级副总裁郭凯天致辞、腾讯首席科学家张正友探讨具身智能、科幻作家陈树帆等人讨论人机分工重写等 [18][21] - 议题深入至具体领域,如“AI原生一代:组织与人的进化”、“身智融无碍:具身智能的发展和探索”、“人的重建,从不仰望AI开始”、“何以为‘人’”、“迈向可信任的AI治理”等 [18][21][22][25][27] 直播马拉松议题 - 该板块以连续直播形式探讨AI对家庭、媒体、文化及个人发展的影响 [28] - 具体议题包括“AI来了,‘家’会变吗”、“短剧凶猛,但怎么还没扑倒我”、“为什么在AI时代‘概率真相’是更好的心法”、“普通人如何跨上AI时代的列车”、“从一键生成到巴乔侯型,文化产业的破晓时刻真的来了吗”以及“用科技,塑造自己的下一个版本” [29][30][31][32] 硬件游乐场 (INNO100) - 该板块与INNO100全球创新旗舰店合作,打造实体互动体验区,展示AI如何融入硬件产品 [35][36] - 展示产品包括LOOI机器人、ropet AI陪伴机器人、AeroBand空气乐队智能吉他、DWARF 3智能望远镜等智能硬件 [37][38] - 提供实践工作坊,如引入Kickstarter授权的“万物定制工作站”,并开设3D打印、CNC加工及激光雕刻小课堂,让参与者亲手体验从设计到制造的全流程 [36][39][41][42][43][44]