腾讯研究院
搜索文档
第六次突破
腾讯研究院· 2025-09-25 16:33
人类智能进化的五次突破 - 第一次突破是转向 通过区分外界刺激的好坏进行导航 两侧对称身体结构将导航决策简化为二元转向选择 多巴胺和血清素等神经调质使持续状态能够更有效重新定位 出现早期情感模板包括快乐 痛苦 满足和压力 [2] - 第二次突破是强化 通过学习重复历史上带来正面价值的行为并抑制负面价值行为 无模型强化学习带来从缺失中学习 时间感知 好奇心 恐惧 兴奋 失望和宽慰等智力和情感特征 [3] - 第三次突破是模拟 在精神上模拟刺激和行为 新皮质使动物能够在内部模拟现实 通过想象向基底神经节展示应该做什么 发展出规划能力包括情景记忆和反事实学习 运动皮质进化赋予精细运动技能 [4] - 第四次突破是心智化 建立自己的思维模型 新皮质中新区域建立对旧哺乳动物新皮质区域的模型 能够模拟自己具有不同意图和认知的心理状态 预测未来需求 理解他人意图和认知 通过观察学习技能 [5] - 第五次突破是语言 通过命名和语法将内部模拟联系在一起 使得思想能够跨代积累 每一次突破都建立在先前构建的基础上 转向功能因神经元进化而可能 强化学习建立在效价神经元之上 模拟因基底神经节试错学习机制存在 心智化因模拟先出现 语言因心智化先出现 [5] 人类历史的两大篇章 - 第一篇是进化篇章 讲述现代人类从宇宙原始无生命物质演化而来 跨越数十亿年漫长岁月 [6] - 第二篇是文化篇章 描述10万年前社会性现代人类从生物学大体相同但文化蒙昧的祖先中崛起发展 所有文明 技术 战争 发现 戏剧 神话 英雄与反派在这段相对较短时间内上演 [6] - 10万年前智人个体脑海中承载宇宙最令人叹为观止奇迹之一 历经10多亿年进化之路铸就辉煌成果 稳坐食物链之巅 手握长矛 身披手工编织衣物 驯服火焰 征服无数巨兽 展现众多智慧成就 [6] 进化历程与未来展望 - 无数事件汇聚迎来这一刻 从热液喷口第一个冒泡细胞到单细胞生物首次捕食之战 多细胞生物诞生 真菌与动物分化 祖先珊瑚中首个神经元和反射出现 古老两侧对称动物首个具有效价和情感大脑诞生 脊椎动物崛起 对时间 空间 模式和预测掌控 微小哺乳动物模拟能力 树栖灵长类构建政治体系和心智化 早期人类语言诞生 想法在数十亿人类大脑中孕育调整与毁灭 [7][8] - 进化仍在如火如荼展开 站在关于智能的故事起点而非终点 地球生命还有70亿年时间探索新生物智能形式 如果原始分子用45亿年演变成人类大脑 那么70亿年中智能能达到更高高度 宇宙扩张到无法形成新恒星需1万亿年 最后一个星系解体需千万亿年 宇宙千万亿年历程压缩成一年则今天处于第7分钟 [8] - 千万亿年后最后一个星系解体 宇宙开始缓慢无意义消逝过程 最终走向热寂 熵增是不可逆转趋势 DNA通过自我复制抵抗熵增 所有进化创新秉承持久存在精神 与熵增抗争精神 拒绝消逝于无形精神 思想是生命最新但不是最后创新 [9] 第六次突破与超级智能 - 第六次突破越来越可能是超级智能出现 实现智能载体从生物媒介到数字媒介转变 单一智能认知能力将实现天文级扩展 人类大脑认知能力受神经元处理速度 人体热量 大脑最大尺寸等因素严重限制 基于硅的人工智能可根据需要无限扩大处理能力 [9] - 随着人工智能自由复制和重新配置自身 个体性将失去明确界限 生物交配机制被新基于硅的机器训练和构建新智能实体机制取代 亲子关系获得新意义 进化被抛弃 智能不再被遗传变异和自然选择缓慢过程束缚 由更基本进化原则即最纯粹变异和选择原则驱动 [10] - 无论演化出何种智能策略 肯定被打上人类智能烙印 超级人工智能基础媒介摆脱大脑生物局限 但实体仍建立在之前五次突破基础上 因五次突破构成人类创造者智能基石 创造者必然在作品中留下自己印记 初始阶段超级智能被设计用来与人类互动 因此被赋予人类智能再现或某种程度镜像反映 [10] 人类目标与未来挑战 - 站在第六次突破悬崖边上 面临非常不科学但远比科学问题更重要的问题 人类目标应该是什么 这是关于价值观问题 过去选择会随时间推移不断产生影响 如何回答这个问题将会对无数时代产生深远影响 [11] - 可能成功跨越银河系 探索宇宙隐藏奥秘 构建新智慧生命 解开宇宙秘密 发现意识新特征 变得更富有同情心 参与难以想象冒险 也可能失败 进化过程中留下骄傲 仇恨 恐惧和部落主义包袱可能让人类分崩离析 可能像其他悲剧收场进化阶段只是历史长河中匆匆过客 [11] - 人类灭绝数百万年后地球某个物种可能再次尝试攀登进化之山 可能发现人类化石猜测曾经生活状态 书写关于大脑的书 更可悲是人类可能因破坏地球气候或发动核战争亲手终结持续40亿年的地球生命实验 [11] - 有必要回首10亿年漫长历程探寻大脑诞生奥秘 随着获得如神一般创造能力 应从无意识进化过程汲取智慧 越深入理解自己心智就越能够按照形象创造出人工心智 对心智形成过程理解越透彻就越能够明智选择哪些智能特征需要摒弃 保留或改进 [12] - 是这一伟大转变中坚力量 转变历经140亿年漫长岁月 无论是否愿意宇宙已将接力棒交到手中 [12]
腾讯研究院AI速递 20250925
腾讯研究院· 2025-09-25 00:01
AI工具与平台更新 - 谷歌发布Nano Banana支持的AI画板工具Mixboard 支持自然语言编辑图板和批量编辑图片等功能 已开启公测 [1] - 阿里发布通义万相Wan2.5 Preview系列模型 新增音画同步视频生成能力 支持24帧/秒1080P高清视频 [2] - 快手发布可灵2.5 Turbo视频生成模型 在体育场景生成效果有突破性提升 高品质模式下生成5秒视频成本降低近30% [3] - 秘塔AI推出Agentic Search模式 可自主完成5-15步工具调用 内置20余种工具并具备多模态能力 [4] - AI音乐平台Suno发布V5模型 提供录音室级别音质 实现从灵感demo到可发行歌曲的质量跨越 [5][6] 游戏与硬件创新 - 小岛秀夫与Niantic Spatial合作开发基于AR眼镜的多人地理位置游戏 类似现实中的《死亡搁浅》但目前尚未公布发布日期 [7] - 宇树科技创始人指出通用机器人面临三大技术瓶颈:线缆问题占故障60-70%、终端AI芯片功耗需控制在100瓦以内及技术路线差异大 [8] 行业战略与投资趋势 - Google Cloud报告指出AI创业者应以动作快和创新为核心竞争力 应用公司不需自研模型而应专注于业务价值 [9] - 英伟达投资英特尔50亿美元将重塑PC和数据中心市场 AI算力支出将从3600亿美元增至约5000亿美元 华为成为英伟达在非美国市场主要竞争对手 [10] - Sam Altman提出创建每周产出一吉瓦AI基础设施的工厂 认为10吉瓦算力或能治愈癌症并为每个学生提供个性化辅导 [12]
中国公众对生成式AI的看法与使用行为|年度调研
腾讯研究院· 2025-09-24 15:03
公众AI参与度 - 生成式AI在中国成年受访者中渗透率极高,达到96.2% [4] - AI使用已深度融入日常生活,67.7%的用户每天使用,其中30%为每天使用多次的重度用户 [5] - 总计超过九成用户至少每周使用AIGC产品 [5] 用户画像与使用行为 - 年龄与使用率呈负相关,年龄越小,使用接触率越高;30-39岁年龄段使用频率最高,73.9%的人每天使用 [8] - 学历与使用频率存在正相关关系,研究生学历用户每天使用AI的比例高达81.8% [11] - 收入水平与AI使用率和使用频率存在正相关关系,收入越高,使用率和频率也越高 [12] - AI使用主要由实际需求驱动,首要目的是文本处理(72%)和信息检索(70.9%) [5] - 最主要的使用场景是学习(75.7%)和工作(70.6%) [5] 市场竞争格局 - 本土化AI产品占据市场主导地位,使用率前三名为豆包、DeepSeek和腾讯元宝 [5][17] - 本土产品优势在于可及性、中文处理能力、本土语料库及依托本土应用生态系统 [17] - 20岁以下用户群体中,本土AI产品Kimi进入前三名;20-29岁年龄段用户中,ChatGPT使用率显著高于其他年龄段 [19] 商业化前景与付费意愿 - 绝大多数用户对付费持开放态度,16.1%已付费,59%愿意为优质服务付费 [5] - 付费用户中,55.2%的月度支出低于100元人民币 [5] - 按月付费(30.2%)和一次性付费(28.4%)是接受度最高的两种形式 [22] - 百元人民币以下的月度订阅是主流选择,15.5%的用户愿意每月支付200元以上 [25] AI的核心价值与应用 - 公众将AI视为聚焦于工作与学习的效率工具,创造性或情感性应用场景如陪伴交流比例较低(20.4%) [26] - 最核心的应用功能是生成或优化文字材料(66.6%),其次是查找资料(48.1%)和写日报、周报、会议纪要(41.3%) [28] 职业影响与公众焦虑 - 公众对AI带来的职业影响存在显著焦虑,77%的受访者担心专业技能会因AIGC而贬值 [5][32] - 70%的调研对象担心自己的岗位会被AI取代,其中39.7%表达了高度担忧 [32] - 焦虑情绪在年轻群体中尤为突出,年龄与焦虑程度呈负相关,即越年轻越焦虑 [33] - 使用AI的频率与焦虑程度相关,使用AI越多的用户,其焦虑程度越高 [34] 易受AI冲击的职业领域 - 公众认为内容创作类(58.2%)和客服、销售等偏语言交流的服务类(56.7%)职业最易受到AI冲击 [35] - 医疗类(12.7%)和科研类(11.2%)岗位被认为更具AI抵抗力 [37] 公众态度与社会影响 - 公众对AI持有审慎乐观态度,50.2%感到非常期待,46.3%感到既期待又担忧 [5][43] - 71.9%的调研对象认为AIGC在社会中的应用将产生主要是积极的影响 [45] - 最主要的三大担忧是虚假信息和假新闻泛滥(60.4%)、就业替代(59.7%)和个人隐私泄露(46.7%) [50] - 公众对AI在高风险决策领域的应用持高度警惕态度,如医疗诊断(62.4%)、人事管理(46.4%)和交通运输(45.6%) [53]
腾讯研究院AI速递 20250924
腾讯研究院· 2025-09-24 00:01
英伟达与OpenAI战略合作 - 英伟达宣布与OpenAI建立战略合作关系,OpenAI将部署高达10吉瓦的英伟达系统,相当于400-500万块GPU算力 [1] - 英伟达计划在系统部署期间向OpenAI累计投资高达1000亿美元,首阶段系统将于2026年下半年基于英伟达Vera Rubin平台投入运营 [1] - 双方将共同优化模型及基础设施软件、硬件的技术路线图,以推动OpenAI实现通用人工智能使命,消息公布后英伟达股价上涨近4% [1] 无问芯穹基础设施智能体蜂群 - 无问芯穹发布基础设施智能体蜂群,通过多智能体协同架构覆盖模型筛选、资源运营、排障和集群运维等多个模块,实现基础设施全生命周期智能管理 [2] - 该解决方案彻底改变传统IaaS→PaaS→MaaS→Agent应用间层层堆叠的生产模式,以智能体为自治核心构建高度协同系统,显著提升资源利用率和运维效率 [2] - 通过与捏TA和Soul等客户合作,成功将迭代速度提升5倍,实现了运维能力百倍拓展,推动"AI基础设施范式"向"Agentic Infra"的转变 [2] 阿里开源多模态模型Qwen3-Omni - 阿里通义开源原生全模态大模型Qwen3-Omni,能无缝处理文本、图像、音频和视频输入,支持实时流式响应并同时生成文本与语音输出 [3] - 该模型在36项音频及音视频基准测试中获得32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro等闭源强模型,支持119种文本语言、19种语音理解语言和10种语音生成语言 [3] - 阿里同步开源Qwen3-TTS-Flash语音合成模型和Qwen-Image-Edit-2509图像编辑模型,前者支持17种音色、10种语言和多种方言,后者新增多图编辑和单图一致性增强功能 [3] Kimi Agent会员服务 - Kimi推出Agent会员服务,之前打赏的金额在首次订阅Agent会员后可全额返还为会员时间 [4] - 会员服务采用音乐节拍命名:免费版为Adagio(慢板),付费版有49元的Andante(行板)和99元的Moderato(中速),海外还有199美元的Vivace [4] - 付费和免费用户主要区别在于Agent使用次数,中高档订阅会送等额API兑换券,高等级会员支持深度研究并发和高峰时段优先访问 [4] 清华大学MiniCPM-V 4.5模型 - 清华大学自然语言处理实验室和面壁智能发布MiniCPM-V 4.5技术报告,该模型以8B参数规模超越GPT-4o-latest和Qwen2.5-VL-72B等大型模型 [5] - 模型采用三大创新技术:统一3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR知识学习范式、可控混合快速/深度思考的多模态强化学习 [6] - MiniCPM-V 4.5在OpenCompass综合评测中取得77.0的平均分,推理效率极高,在VideoMME上时间开销仅为同级模型的1/10,已在HuggingFace和ModelScope两大平台累计下载超22万次 [6] ima新版本功能升级 - ima推出最新版本,正式上线鸿蒙电脑版,至此实现鸿蒙系统手机、平板和电脑三端全覆盖,用户可在多设备间实现协同工作 [7] - AI播客生成功能全面升级,采用分段生成技术支持"边生成边播放",大幅减少等待时间,提升用户体验 [7] - 新版本的界面设计与之前版本略有不同,优化了整体使用流程,保留了核心功能特性 [7] 智元机器人GO-1开源模型 - 智元机器人开源通用具身基座大模型GO-1,采用全球首个Vision-Language-Latent-Action (ViLLA)架构,该架构通过引入隐式动作标记成功弥合图像-文本输入与机器人执行动作间的语义鸿沟 [8] - 模型采用三层协同设计:基于InternVL-2B构建的多模态理解层、隐式规划器和基于扩散模型的动作专家,虽仅基于AgiBot G1数据预训练,但已在松灵机器人、方舟机器人等不同本体和多种仿真环境中完成验证 [8] - 智元机器人同时推出Genie Studio一站式开发平台,为开发者提供全栈解决方案,包括数据采集、管理、模型训练、微调、评测与部署,同时支持LeRobot通用数据格式以适配其他机器人平台 [8] Transformer到GPT-5的技术演进 - Transformer八人小组成员Lukasz Kaiser在OpenAI从事GPT-5和"o1"、"o3"推理模型研发,是唯一一位未创业继续坚守技术前线的"Transformer八子" [9] - Kaiser早在2017年提出了"One Model To Learn Them All"概念,预见到大模型跨领域学习的潜力,并预言AI的下一阶段关键在于教会模型"思考" [9] - 据Kaiser预测,未来AI计算力将从大规模预训练转向在少量高质量特定数据上进行海量推理计算,更接近人类智慧模式,预示着又一次范式转移 [9] 心理学增强AI智能体技术 - 一篇名为《心理学增强AI智能体》的论文提出"MBTI-in-Thoughts"技术,只需在提示词开头加上"请用INTJ的视角回答"等简单指令,就能显著提升模型表现 [10] - 研究发现不同MBTI人格的AI在处理同一任务时表现差异明显:F型(情感型)更擅长写故事、煽情,E型(外向型)在幽默感和可读性上更强,T型(思考型)在策略游戏中更理性冷静 [10] - 这种方法本质是对人格概念的"终极压缩",让AI瞬间解压人类思维模式、行为逻辑、语言风格的统计总和,可用于组建互补性格的"AI团队"以应对不同任务需求 [11]
游戏经济,正在兴起
腾讯研究院· 2025-09-23 16:43
文章核心观点 - 游戏经济是文化经济与数字经济融合发展的新型经济形态,具有三重涟漪效应和四大核心特性,对文化产业和外部产业具有广泛赋能价值 [6][7][8][9][11][19] 游戏经济的概念与定位 - 游戏经济定义为以游戏产业为核心,融合软硬件技术研发、IP内容制作与用户服务,实现文化资源转化与跨界应用的新型经济形态 [8][9] - 游戏是文化产业最具创新活力的组成部分,既是数字文化新生态的基石,也是数字经济的发动机和数字文明的变革先锋队 [7] - 游戏经济具有双重引擎作用:一方面助力文化经济持续增长(文化经济化与经济文化化),另一方面驱动数字经济快速发展(数实融合新标杆) [8][9] 游戏经济的三重涟漪效应 核心经济层(游戏及关联产业) - 2024年国产游戏全球销售额超过4500亿元,参照国际硬件销售额为软件1倍以上的经验,中国游戏核心产业经济规模已近万亿元 [11] - 游戏产业链覆盖上游云服务与引擎技术、中游研发发行与平台运营、下游IP授权与衍生品开发,就业宽口径人数达274.3万人(2020年) [11][12] - 电竞显示器2025年一季度出货量258万台(同比增长56%),4K高端产品增速达71.5%;电竞消费参与度86.2%(2024年) [13] - 杭州亚运会电竞赛事吸引3.5亿人观看,产生经济效益2.6亿元,间接带动旅游关联产业1.82亿元 [13] 文化产业驱动层 - 全球最具价值132个IP中游戏原始IP占比15.9%,影游融合作品如《超级马力欧兄弟大电影》《我的世界》电影全球票房超23亿美元 [14] - 游戏音乐2024年产值达3.69亿元(同比增长21.78%),远超音乐市场大盘增速 [14] - 《黑神话:悟空》带动山西省2024年国内游客接待量同比增长27.24%(约为全国平均水平2倍) [14] 外部产业辐射层 - 全国网吧、电竞馆和电竞酒店等场所总量达10.36万家,营收规模约900亿元(2024年) [15] - 游戏技术(图形交互、虚拟现实、数字引擎等)广泛应用于影视制作、工业可视化、建筑信息模型等领域 [15] - 游戏化思维催生数字疗法产品(如《腾讯脑力锻炼》《专数达》),部分已获批国内医疗器械证并投入临床使用 [15] 游戏经济的四大特性 文化表现力 - 游戏用户超6亿人,青年与中年群体为消费主力,2024年1-9月文娱领域头部市场超70%收入由精品游戏贡献 [20] - 81.6%受访者认游戏融合传统文化优化体验,84.2%肯定文化元素吸引力,游戏促进全球文化生态融合与创新 [21] 科技创新力 - 62%受访者认可游戏科技对国家技术创新的作用,81%认同游戏促进AI技术发展 [22] - 游戏引擎成为跨领域"技术公地",游戏是AI天然试验场,为智能体训练与生成式AI落地提供支持 [22] - 游戏科技驱动虚拟与现实空间深度融合,构建技术驱动的动态互构网络 [23] 产业连接力 - 小游戏市场2021-2024年复合增长率达182.3%,呈现爆发式增长 [24] - 游戏与文旅融合通过IP实景化、文化数字化、技术赋能体验及游戏化运营四种模式实现 [25] 消费持续力 - Roblox 2024年向开发者支付9.2亿美元(约66亿人民币)分成 [26] - 2025年ChinaJoy吸引超40万人次观展,带动周边服务消费约6.61亿元 [27] - 多元商业模式互补:买断制(3A游戏)、服务型游戏(GaaS模式)、游戏内广告(IAA模式)及功能游戏 [27] 发展路径建议 - 建立健全游戏经济研究与测算体系,包括统计标准、全产业链监测、就业统计和乘数效应研究 [30] - 发挥游戏对文化产业和数字经济的带动作用,建立跨行业合作平台、培养复合型人才、加大软硬件领域投资 [31] - 释放游戏经济外溢效应,鼓励教育、医疗、工业等跨界融合,给予税收优惠和政策扶持,设立专项技术研发基金 [33]
腾讯研究院AI速递 20250923
腾讯研究院· 2025-09-23 00:01
联发科天玑9500芯片发布 - 采用第三代3nm工艺和全大核架构 集成超300亿晶体管 NPU性能比上代提升111% 功耗降低56% [1] - 采用超性能+超能效双NPU架构 首次引入存算一体设计和BitNet 1.58 bit量化推理框架 支持端侧模型训练 [1] - 支持128K长文本处理 4K画质图像生成 vivo和OPPO等厂商旗舰新机将搭载该芯片 [1] OpenAI计算资源投入与新产品 - 已投入160亿美元租用计算资源 计划在2024-2030年间投入3500亿美元租赁服务器 2030年单年预计花费1000亿美元 [2] - 与甲骨文签署5年3000亿美元算力合同 额外追加1000亿美元用于备用服务器 [2] - 预告未来几周推出计算密集型新产品 Pro用户需额外付费 [2] 谷歌开源Deep Research新范式 - 突破传统Agent"规划-检索-生成"模式 提出新的研究框架 采用"扩散式降噪"过程 [3] - 让Agent基于草稿发现信息缺口 从外部搜寻证据 反复优化研究内容 [3] - 引入多版本智能自我批判和报告级降噪技术 在GAIA等任务上全面优于OpenAI DeepResearch [3] DeepSeek发布V3.1终极版本 - 发布DeepSeek-V3.1的终极(Terminus)版本 针对用户反馈进行改进 [4] - 缓解中英文混杂 偶发异常字符等语言一致性问题 优化Code Agent与Search Agent表现 [5] - 在官方App 网页端 小程序与DeepSeek API模型同步上线 开源版本可在Hugging Face和ModelScope平台下载 [5] 可灵AI 2.5视频模型突破 - 在运动能力和表情表演方面实现重大突破 准确表现人物微表情变化与复杂情绪 维持角色一致性 [6] - 完美衔接下落 奔跑 骑摩托等连续动作 保持环境交互真实感细节 理解复杂因果关系 [6] - 在动作戏上表现极佳 生成高质量跑酷 跨越 战斗和爆炸场景 已对超级创作者灰度内测 [6] 美团高效推理模型发布 - 发布高效推理模型LongCat-Flash-Thinking 在逻辑 数学 代码和智能体等多领域达到全球开源模型最先进水平 [7] - 首创领域并行强化学习训练方法 采用异步弹性共卡系统实现三倍提速 设计双路径推理框架提升智能体能力 [7] - 在推理基准测试上全面领先开源模型 在AIME和LiveCodeBench等测试中与GPT-5等顶级闭源模型表现相当 [7] 百度开源视觉理解模型 - 发布视觉理解模型Qianfan-VL并全面开源 提供3B 8B和70B三种规格 支持OCR识别和教育垂类等场景 [8] - 基于开源模型开发 在自研昆仑芯P800上完成全流程计算 支持单任务5000卡规模并行计算 [8] - 具备思维链能力 OCR全场景识别和复杂版面文档理解能力 在多项基准测试中表现优异 [8] 亚太区科技创新人才评选 - 公布2025年度"35岁以下科技创新35人"亚太区入选名单 35位创新者来自AI 机器人 材料等领域 [10] - 夏斐 閔世媛等多位入选者在人工智能领域取得突破 包括具身智能 非参数大语言模型等方向 [10] - 中国入选者最多 截至2024年共完成11届评选 中国共82人入选 领先新加坡76人 [10] 图像生成模型发展趋势 - 图像模型未来会从创意工具转变为信息查询工具 最大挑战是把LLM的"世界知识"融入图像模型 [11] - 现有图像模型质量"上限"已接近顶点 但"下限"仍有巨大提升空间 未来将专注于提高"模型可表达性" [11] - 未来交互界面将整合文本 图像 语音等多种模态 AI模型与传统工具将长期共存 [11]
邱泽奇:所谓“智能鸿沟”,可能源于我们的自大
腾讯研究院· 2025-09-22 16:48
AI对人类认知的影响 - AI使用是否降智并非非黑即白问题 这种提问方式类似工业时代的低效质疑[3] - 人类思维具有跳跃性和相变性 目前脑科学尚未合理解释这些现象[3][8] - AI学习基于人类知识库 类似阅读图书但缺乏视觉感知和情感识别能力[3][7] - 人工智能存在讨好使用者的缺陷 需通过多角度挑战促使其迭代优化[3][15] - 私域AI陪伴市场潜力巨大 包括AI社交陪伴应用/玩具/宠物等方向[4][14] AI的知识局限性 - 大模型无法获取未授权学术资源 例如2016-2018年全球1万种科学期刊发表的超过30万篇论文[7] - AI主要减少高级知识分子与大众的知识差异 但远未覆盖人类知识整体[7] - 机器学习依赖海量语料 但人类难以判断其背景价值观的潜在问题[3][12] - 符号主义路径代表Alpha Zero在限定场景有效 但泛化能力仍不足[9] 人机交互模式 - 主动质疑AI输出可促进思维锻炼 形成人机互生的良性循环[10][11] - 需区分AI的事实性归纳与价值观输出 对后者需保持持续警惕[12] - 不同AI模型存在显著差异 建议通过多品牌比较选择性使用[3][15] - 交互过程类似阅读百科全书 但需结合东方伦理认知与西方事物认知的双重传统[7] 教育体系变革 - 基础能力培养更为关键 包括语言能力/逻辑能力/认知能力[13][14] - 教育重点应从知识传授转向认知提升 大学课堂应减少知识性内容[14] - 鼓励学生使用AI探讨知识性与探索性问题 教师角色转向引导讨论[14] - IQ测量模式可能过时 EQ对成功贡献更大 智能评估需摆脱固定模式[11] 智能平权与多样性 - AI既带来知识平权 也可能扩大使用群体间的能力差距[16] - 数字鸿沟本质是高位视角的观察偏差 应尊重个体生活方式的多样性[5][16] - 人类生命约3万天 幸福感获取方式存在显著个体差异[5][16] - 需允许不同智能应用层次共存 避免单一标准衡量智能价值[16]
腾讯研究院AI速递 20250922
腾讯研究院· 2025-09-22 00:01
浏览器与生产力工具AI升级 - Chrome进行2008年以来最大更新 集成Gemini AI助手到浏览器右上角 支持跨标签页对话和内容总结 [1] - 地址栏升级为"Omnibox全能框" 可智能推荐问题并直接开启AI模式进行复杂查询 [1] - 利用Gemini Nano增强安全保护 识别有害网站 自动管理垃圾通知 一键修复泄露密码 已向美国用户开放 [1] - Notion发布3.0版本 引入Agent功能 可自主执行所有Notion操作 为时隔7年重大更新 [2] - Agent能自主工作长达20分钟 跨工具完成复杂任务 如整合客户反馈 更新知识库 生成入职计划 [2] - 新版本引入个性化"记忆库" 即将推出"自定义Agent"支持自动运行和团队共享 创建专属AI团队成员 [2] 3D设计与视频生成技术突破 - 腾讯发布混元3D Studio 整合3D资产生产全流程 将生产周期从天级缩短到分钟级 [3] - 工作台提供概念设计 几何建模 组件拆分 低模拓扑 贴图 绑骨蒙皮 动画等全方位3D创作管线 [3] - 平台搭载混元3D 3.0模型 具备分割生成 UV展开 材质编辑等创新功能 已集成于混元3D AI创作引擎 [3] - 阿里云开源通义万相动作生成模型Wan2.2-Animate 支持驱动人物 动漫形象和动物照片 [4] - 模型提供角色模仿和角色扮演两种模式 人物一致性和生成质量大幅提升 [4] - 通过骨骼信号 隐式特征和光照融合LoRA技术 在主观评测中超越Runway Act-two等闭源模型 [4] - Luma AI发布Ray3全球首个推理视频模型 将AI视频从实验性生成推进到专业可用 [5] - Draft Mode仅用20秒生成预览 成本为最终渲染1/5 支持精细控制 允许涂鸦引导演员动作和镜头运动 [6] - 模型支持保真运动 物理模拟 复杂人群 光照交互和写实细节 原生支持10 12 16-bit HDR视频输出 [6] 音频与语音技术进展 - ElevenLabs推出Studio 3.0 将旁白 音乐 音效 字幕和视频编辑整合到一条时间线 [7] - 支持从10,000+AI声音中选择 自动生成专属配乐 文本提示生成音效 语音校正和隔离 一键多语言字幕 [7] - 工具适用于视频创作者 播客主 有声书作者和AI电影人 所有功能可通过API调用 [7] - 小米开源首个原生端到端语音模型Xiaomi-MiMo-Audio 参数规模70亿 预训练数据超1亿小时 [8] - 模型具备自然对话 音频字幕 长时间音频理解等多种能力 首次实现语音领域基于ICL的少样本泛化 [8] - 在MMSU MMAU等基准测试实现SOTA 可用于语音续写 语音编辑和音频理解 [8] 生物科技与AI交叉创新 - Retro Biosciences宣布年底启动实验药RTR242首次人体试验 可激活衰老细胞自噬系统 [9] - 公司使命是清理大脑中堆积变异蛋白和损伤分子 以延长人类10年健康寿命 [9] - 实验室中干细胞标记表达量提升50倍 公司计划募资10亿美元与Altos Labs竞争 [9] - Arc研究所和斯坦福大学团队利用Evo模型构建全球首个AI生成功能性噬菌体基因组 [10] - 所有功能性基因组携带67-392个新突变 部分基因组整合远缘噬菌体蛋白质并保持功能 [11] - 实验验证AI设计基因组能感染特定宿主菌株 展示AI协调复杂突变能力 [11] 开发工具与代码生成应用 - OpenAI公开Codex7种核心应用场景 包括代码理解 重构迁移 性能优化 提升测试覆盖率等 [12] - 技术团队用Codex快速理解陌生代码 批量修改多文件 优化性能瓶颈 生成单元测试 [12] - 公开6条最佳实践 包括用提问模式分析 迭代改进开发环境 构建详细提示等 [12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-09-20 10:33
芯片与硬件 - 华为发布昇腾AI芯片计划[3] - Meta推出三款AI眼镜产品[4] - 魅族发布AI眼镜StarV Snap[3] - 宇树科技发布UnifoLM-WMA-0模型[3] 模型与技术进展 - OpenAI推出GPT-5-Codex模型[3] - xAI发布Grok 4 Fast模型[3] - DeepSeek-R1模型登上Nature封面[4] - 腾讯混元发布AI绘画微调功能[3] - 阿里推出通义DeepResearch[4] - 哔哩哔哩推出IndexTTS2音频技术[4] - UCLA开发光学生成图像技术[4] - Math公司推出AI高斯科技[4] 应用与产品创新 - Utopai推出AI原生影视应用[3] - MiniMax发布Music 1.5应用[3] - 腾讯发布混元3D 3.0应用[3] - 美团推出「懒人点餐」AI应用[3] - 小红书推出FireRedTTS-2应用[3] - Meta AI推出MobileLLM-R1应用[3] - Gemini应用登顶App Store[3] - 可灵发布新版数字人[3] - 阿尔巴尼亚任命AI部长[3] - 昆仑万维推出Agent Studio平台[3] - World Labs发布新成果Marble[3] - OpenAI推出企业应用市场[4] - Anthropic参与企业应用市场[4] - 腾讯推出智能体开发平台3.0[4] - ima支持音频文件处理[4] - YouTube推出AI创作工具[4] - OpenAI在编程竞赛中登顶[4] - 天工超级智能体推出AI Developer[4] - 德国癌症研究中心开发疾病预测AI[4] - Shopify推出生产级Agent[4] - DeepMind提出虚拟代理经济[5] 资本与行业动态 - Figure获得具身智能领域最高估值[4] - OpenAI与微软签署合作备忘录[4] - xAI裁减标注团队[4] - MiniMax面临侵权诉讼[4] 行业观点与趋势 - 红杉美国提出AI产业新格局观点[4] - DeepMind提出「科学API」概念[4] - Fastly提出「AI保姆」观点[4] - Anthropic发布AI经济指数[4] - OpenAI发布ChatGPT使用报告[4] - 腾讯汤道生提出智能化全球化观点[4] - 华为提出智能世界2035愿景[4]
探元计划及其共创项目入选世界互联网大会案例集——以数字技术赋能文化遗产高质量传承
腾讯研究院· 2025-09-19 15:48
世界互联网大会文化遗产数字化案例集发布 - 2025世界互联网大会文化遗产数字化论坛发布《世界互联网大会文化遗产数字化案例集(2025)》,从全球数百个申报项目中遴选出40项代表性案例[1] - "探元计划2024"成功入选案例集,其三个创新资助项目同步入选,包括龙门石窟微痕浅浮雕三维建模、长城遗产价值挖掘方案及云冈石窟缪子成像技术项目[1] 探元计划2024项目概况 - 项目由国家文物局科技教育司指导,中国文物信息咨询中心、腾讯SSV数字文化实验室、腾讯研究院及社会价值投资联盟联合发起[7] - 聚焦文博场景"防、保、研、管、用"共性需求,通过高精度三维扫描、人工智能大模型等技术实现壁画修复、丝织品复原等关键技术突破[7] - 构建跨域共享的文化数字化融合共创空间,探索"技术普惠+双价值导向"创新路径[7] 龙门石窟微痕浅浮雕数字化项目 - 龙门石窟研究院联合武汉大学在腾讯探元计划资助下,针对微痕特征提取难题开展技术研发[8] - 项目实现采集设备成本大幅降低及采集工作效率大幅提升,提升石窟寺保护利用水平[8] 长城遗产数字化保护方案 - 天津大学通过无人机低空航测获取超200万张高清图像及厘米级三维数据,解决山脊沙漠等区域采集难题[10] - 依托WebGIS搭建长城全线实景三维数据库,结合目标检测技术自动提取遗产空间特征,形成大尺度线性文化遗产数字化保护框架[10] 云冈石窟缪子成像技术应用 - 腾讯探元计划与云冈研究院、兰州大学共建项目,利用宇宙射线缪子强穿透性实现非侵入式三维密度成像[12] - 技术规避传统钻探对文物的破坏性,为大型文物内部结构探测提供新范式[12] 探元计划系统性创新路径 - 创新"场景方+技术方+平台方"共建模式,打破领域壁垒形成可持续跨界协作生态[14] - 攻克AI虚拟修复与高精度采集等核心技术,形成可复用标准化数字保护解决方案[15] - 项目成果惠及文化传播与公共教育,通过多终端提升可视化与国际传播力,带动数字文化科技企业发展[16]