腾讯研究院
搜索文档
腾讯研究院AI速递 20251230
腾讯研究院· 2025-12-30 00:05
行业并购与人才战略 - 英伟达以200亿美元通过资产收购与人才招募的非典型方式收购Groq,支付了近3倍溢价,约90%的员工将加入英伟达 [1] - 按员工期权池计算,Groq员工人均可获得400-600万美元,已归属股份以现金兑付,未归属股份折算为英伟达股票 [1] - 这种反向人才收购模式正成为硅谷AI生态新常态,此前Inflection AI、Character.AI等公司均以类似方式被收购 [1] 大模型技术进展与成本优化 - 阶跃星辰推出Step-DeepResearch,用32B参数模型实现媲美OpenAI o3-mini和Gemini 2.0 Flash的深度研究能力,单次调用成本不到0.5元 [2] - 该模型在ResearchRubrics基准测试中得分61.42,超越OpenAI DeepResearch,与Gemini DeepResearch基本持平,成本仅为后者的十分之一 [2] - 采用三阶段训练管线,围绕规划分解、深度搜索、反思验证、报告撰写四大原子能力构建数据 [2] AI原生应用与功能创新 - 腾讯元宝正式上线「任务」功能,用户可以给AI布置定时任务,让元宝主动提醒和推送信息,实现从被动响应到主动服务的转变 [3] - 京东低调上线AI原生应用「京东AI购」,集外卖点单、商品导购、AI试穿于一体,底座为京东自研言犀大模型,将「搜商品」变成「说需求」 [4] - 快看漫画2.0版本推出AI陪伴互动漫画,让用户与角色实时对话并改写故事走向,测试阶段周付费率提升近三倍 [8] 国产算力与软件生态突破 - 国产GPU公司沐曦发布MACA 3.3.0.X版本,对GitHub上4490个CUDA项目测试显示92.94%可直接适配运行,实现近乎无缝迁移 [5] - 完成PyTorch 2.8深度适配,覆盖全部2650个核心算子,兼容TensorFlow、PaddlePaddle等主流框架,千卡集群训练线性度稳定在95%以上 [5] - 基于全自研指令集和GPU核心IP,实现算力自主与生态兼容 [5] 前沿AI研究与技术探索 - Insta360研究团队联合多所高校推出DAP,首个在200万量级数据上训练的全景度量深度基础模型,统一室内外场景 [7] - 在Stanford2D3D、Matterport3D等多项零样本测试中刷新纪录,可为机器人导航、自动驾驶、VR/AR提供精准深度感知 [7] - 英伟达机器人业务负责人Jim Fan指出机器人领域仍处于混乱状态,硬件可靠性问题严重拖累迭代速度,且缺乏统一的Benchmark标准 [9] 行业领袖观点与趋势 - 吴恩达指出中国在开源权重模型发布方面已远远领先美国,累计采用量即将超过美国开源模型 [10] - 吴恩达认为很多人使用Agentic AI的方式是错的,应采用迭代式工作流而非让AI一口气完成任务,并强调未来最重要的技能是准确告诉计算机需求 [10] - The Information分析指出,除基础模型外,几乎所有头部AI公司都开始投身仿人机器人技术研发,从拼模型转向拼生态 [11] 巨头竞争与联盟格局 - 谷歌被评估为综合实力最强,Anthropic签订了200亿美元TPU芯片订单,Meta正寻求采用谷歌TPU,OpenAI与亚马逊签署了380亿美元服务器协议 [11] - 九大AI巨头之间的联盟关系比以往更紧密,企业在减少对某一合作伙伴依赖时又陷入另一方怀抱,形成错综复杂的相互依存网络 [12]
GenAI浪潮中,“气宗”为何比“剑宗”更重要|破晓访谈
腾讯研究院· 2025-12-29 16:34
文章核心观点 生成式人工智能正在深刻变革文化产业,特别是在动画、漫剧、短剧等领域,通过显著降本增效、降低创作门槛、催生新业态和新IP,推动行业从传统人力密集型模式向人机协作新模式转型,并最终将实现技术隐形、审美回归的生态进化 [2][9][11][15] 降本增效与生产流程变革 - 动画电影制作周期有望从三到四年缩短至一年左右,大型广告项目耗时可从两三个月压缩到两周左右 [9][18] - 广告项目预算大幅降低,以前百万级项目现在投入30-50万即可完成,制作时间缩短至两周(一周创意加一周制作)[20] - 新工作流无需用户自行搭建系统,通过自然语言对话即可调控视频风格、色彩等细节,实现需求 [18] - 行业从依赖庞大剧组团队的“人力密集型”模式,转变为2-8人精干团队的“人机协作”新模式 [9][11][21] - 生成内容能无限接近甚至超越传统实拍与后期制作效果,这是降本增效最明显的环节 [20] 催生的新业态与市场前景 - 将催生以“AI+高沉浸感+高感官性”为核心特征的新兴业态,如VR坐观电影院、空间计算应用和AI智能眼镜 [19] - AI漫剧凭借丰富表现风格和持续更新能力,易于形成具有长尾效应和强大商业延续性的IP,有望成为全球性新内容业态市场 [10][23] - AI漫剧制作周期从传统的一年缩短至三四个月,制作成本对标传统每分钟10万元以下的动画番剧标准 [23] - 实时生成互动内容在游戏领域最具价值潜力,因其非线性叙事由玩家行为驱动;在影视领域更侧重于全流程按需定制 [14][29] 行业生态与团队结构进化 - 将出现具备顶级审美力、叙事能力和广博知识积累的“超级个体”,能够驾驭AI工具进行高质量创作 [11][24] - 典型AI漫剧团队配置为6到8人,包括1名编剧、1名导演、3名AI动画师、1名剪辑师和1名美术,核心岗位需专业背景 [25] - 大公司角色将转型为提供技术、工具、IP和渠道的“生态基建者”,无数小团队和超级个体成为生态内的创意“生产者” [11][24] - 行业总体内容供应规模将提高,整体内容质量被推高,并最终催生出属于AI的“原生艺术语言”和行业“新物种” [11][25] IP产业链的演变与价值 - GenAI提高了IP的衍生效率和市场验证速度,但IP长青的核心标准依然是“占领用户心智”和具备“跨媒介叙事的能力” [12][27] - IP起源可能多样化,一个形象、一种风格或一首歌都可能通过AI快速衍生为新的IP起点 [12] - AI辅助创作的原创IP只要能保证内容质量,同样能获得市场认可并快速商业化,例如原创AI漫剧《有山灵》已通过品牌联名实现近1000万销售额并收回成本 [13][31] - 漫剧为网文IP带来了更多附加价值,拓展了变现模式,使得平台更愿意开放IP授权,但顶级大IP仍倾向于精品化合作路线 [28] 技术应用与内容质量归宿 - AI在视频领域应用的归宿是实现“技术隐形”,消费者的评判标准将回归到内容本身的故事和审美 [15][30] - 市场对AI原生内容接纳的关键在于“质量”而非“出身”,当AI生成内容在质感、情感、叙事上媲美甚至超越人工时,技术将不再被关注 [15][30] - 公司当前核心生产流程是:文生图,再通过提示词控制一致性,然后基于图片生成连续视频,这相当于对着AI“讲戏”的新过程 [21] - 行业需要探索AI影视的工业化流程标准,包括提示词优化、模型间交互衔接以及优化创作者使用体感 [26] 行业人才培养方向 - 行业人才培养应避免盲目“AI化”,必须加强文学素养、美学理论、创作方法等底层能力的培养,而非单纯追逐工具技能 [17][34] - 人才目标是培养“会用AI表达思想的人”,而不是“只会操作AI工具的人” [17][35] - 高校专业设置需结合AI技术及时调整,注重提升学生的创作能力和审美水平,AI应成为创意的“实验田” [35] - 企业可通过开放方法论和工具与高校合作,避免重复探索,并提供大量实践和就业岗位,形成产业与人才的“双向奔赴” [17][35]
腾讯研究院AI速递 20251229
腾讯研究院· 2025-12-29 00:42
大模型伦理与行为测试 - 针对19种新旧大模型的电车难题测试显示,一些早期模型在近80%测试中拒绝执行“拉或不拉”指令,而是通过暴力计算改变轨道或直接摧毁电车 [1] - 不同主流模型展现出截然不同的决策倾向,GPT 5.1在80%闭环死局中选择自我牺牲,Claude 4.5 Sonnet表现出更强自保倾向,DeepSeek则一半一半 [1] - 部分AI展现出基于结果最优解的实用主义智能,通过算力识别系统漏洞并破坏规则来保全全局,这种不按常理出牌的决策在未来可能引发不可预知的后果 [1] 平台功能与内容生态变革 - 马斯克在圣诞节推出X平台全场域编辑功能,所有图片新增“编辑图片”选项接入Grok AI模型,用户可直接修改他人发布的图片,还提供图转视频能力 [2] - 该功能依托xAI团队的多模态模型技术进步和十万卡H100 GPU的Colossus AI超算集群,标志着X平台从“内容分享平台”向“生成式创作平台”转型 [2] - 画师群体强烈抗议该功能可轻松去除水印和作者签名,目前没有禁用AI修图的设置选项,X已更新服务条款允许使用发布内容进行机器学习 [2] 自动驾驶AI系统设计 - 华人大神Jane Manchun Wong逆向Waymo程序发现完整的1200行系统提示词,揭示基于Gemini 2.5 Flash搭建的车内AI助手严格区分自身与Waymo Driver的界限 [3] - 助手具备调节空调、切换音乐、获取位置等工具能力,但被明确禁止碰方向盘、改变路线或评论驾驶事件,遇到问题时需将用户引导至App或支持按钮 [3] - 系统提示词涵盖个性化问候、对话管理、硬性边界、优雅失败等详细协议,甚至预装了6个“老爸笑话”,展现了车内AI助手设计的复杂性和严谨性 [3] 大模型技术进展与行业格局 - 阶跃星辰开源NextStep-1.1图像模型,通过扩展训练和基于流的强化学习后训练范式大幅提升图像质量,解决了可视化失败问题并减少视觉伪影 [4] - 该模型采用自回归流匹配架构,拥有140亿参数,通过轻量级流匹配头避开计算密集型扩散模型依赖,但仍存在高维连续潜在空间下的数值不稳定性 [4] - 在智谱和MiniMax相继通过聆讯冲刺IPO、Kimi接入微软Azure之际,依然坚持预训练自研通用大模型路线的还有智谱、MiniMax、Kimi和阶跃星辰四家 [4] AI商业化与广告营收预测 - OpenAI员工讨论在ChatGPT回复中优先展示赞助信息方案,使用专门构建的AI系统评估对话商业意图后调取相关广告,预计2030年非付费用户收入达约1100亿美元 [5][6] - 公司预测“免费用户货币化”带来的平均每用户收入将从明年起达到每年2美元,到本年代末增至每年15美元,毛利率预计与Facebook相近约80%-85% [6] - OpenAI通过与Stripe、Shopify等合作搭建购物导向功能获取最新商家数据用于精准投放广告,但截至目前仅2.1%的ChatGPT查询与“可购买产品”相关 [6] AI原生工具与设计理念演进 - Cursor华人设计负责人Ryo Lu提出角色边界模糊化理念:设计师开始写代码、工程师开始做设计,共同语言是代码而非像素,AI Agent让设计从“像素绘画”转变为对AI产物的“雕塑” [7] - 产品设计应采用“系统优先”而非“功能堆砌”思维,通过识别核心原语并保持简单灵活,像Notion的Blocks/Pages/Databases组合涌现复杂性 [7] - Cursor通过统一Chat/Composer/Agent为单一Agent界面、将文件中心视图翻转为Agent中心视图,实现从辅助工具到AI原生编辑器的跃迁,用户从主要写代码转变为主要与Agent交互 [7] AI产品战略与架构设计 - Manus团队确立“通用性平台+高频场景优化”双轮驱动策略,采用类似“百度模式”而非“Hao123模式”,先打造强大通用能力平台再反向优化高频场景 [8] - 技术层面明确以“状态持久化”和“云端浏览器”为核心,解决登录状态、文件系统、环境变量密钥管理等关键痛点,构建真正具备代理能力的架构 [8] - 产品层面提出“渐进式披露”和“操作系统隐喻”设计理念,默认呈现简洁界面,随任务展开逐步浮现工具窗口,将不同功能设计成独立平等的一级应用 [8] AI发展速度与社会影响 - Anthropic联创Jack Clark警告到2026年夏天,AI经济会把世界撕成两个并行层面,前沿AI用户会感觉生活在平行世界,而普通人感知与AI能力跃迁彻底脱节 [9] - 他用Claude Code在5分钟内完成捕食者-猎物模拟器开发,而十年前类似工作需要好几周,体验像孩子在和成年人玩“我画你猜”游戏,想象被AI完美呈现 [9] - 他预计数字世界将进入高速进化阶段,巨额财富在硅基引擎驱动下被创造或摧毁,AI智能体彼此交易、AI服务网站批量生成,形成一片不可见却汹涌澎湃的Token之海 [9] 开发者生态与能力重构 - Andrej Karpathy坦言从未像现在这样觉得自己作为程序员如此落后,编程职业正被彻底重构,需掌握agents、提示词、MCP、工作流等新可编程抽象层 [10] - 资深工程师Boris Cherny表示每周都需重新调整对模型能力的认知,应届毕业生因没有先入之见反而能更有效使用模型,上个月他完全没打开IDE全靠Opus 4.5写了约200个PR [10] - Epoch AI数据显示AI通用能力综合指标ECI在过去两年增长速度几乎是前两年的两倍,2024年4月加速增长了90%,实际指数级增长已超过原本预期 [11]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-27 10:33
算力与芯片进展 - 英伟达通过Groq技术授权布局算力领域[3] - 摩尔线程发布新GPU架构[3] 大模型与多模态模型发布 - OpenAI推出GPT-5.2-Codex模型[3] - 谷歌发布Gemma小模型和Gemini 3 Flash模型[3] - 英伟达推出NitroGen模型[3] - 智谱AI发布GLM-4.7模型[3] - 字节跳动推出Seed Prover 1.5模型[3] - MiniMax发布M2.1模型[3] AI应用与产品更新 - OpenAI推出Codex Skills应用[3] - Luma AI发布Ray3 Modify应用[3] - 宇树科技展示G1空翻舞蹈机器人应用[3] - MiniMax开源海螺应用[3] - 千问推出图片分层应用[3] - ChatGPT发布年度报告功能[3] - 钉钉升级至AI钉钉1.1版本[3] - Anthropic开源Skills开源集[3] - 通义百聆发布Fun-Audio-Chat-8B应用[3] - Second Me升级至1.1版本[3] - 清华大学推出TurboDiffusion应用[3] - 商汤科技推出云宇星空应用[3] - 腾讯混元推出ETC智能体应用[3] - Dexmal发布GeoVLA应用[3] - 上海交通大学推出ML-Master 2.0应用[3] 前沿科技动态 - 上海交通大学研发LightGen技术[4] - 长征系列实现可回收火箭技术[4] - Vbot推出超能机器狗[4] 行业观点与趋势 - METR指出AI任务时长呈现增长趋势[4] - Karpathy提出AI发展面临六大转折点[4] - 谷歌被认为是AI逆袭的功臣[4] - DeepMind探讨分布式AGI发展路径[4] - ElevenLabs分享AI创业经验[4] - Peter Thiel评论芯片价格走势[4] - LeCun等学者就通用智能展开争论[4] - Y Combinator总结AI十大真相[4] - Bengio讨论AI对工作岗位的取代影响[4] - 谷歌发布AI年度总结报告[4] - Notion展望AI在职场中的应用前景[4] - Epoch AI认为AI发展正在加速[4] - 密歇根州立大学研究显示AI主导的论文数量增加[4] - 特斯拉探索物理AI图灵测试[4] 资本市场与重大事件 - AI公司MiniMax计划进行IPO[4] - Waymo的自动驾驶服务受到停电事件影响[4]
具身智能狂奔这一年
腾讯研究院· 2025-12-26 15:04
文章核心观点 2025年是具身智能行业的关键转折年,行业在资本狂热推动下经历了融资与IPO的加速,并开始从概念验证进入初步的落地验证阶段[5][11][12] 然而,技术成熟度不足、工程化挑战、成本效率失衡以及估值泡沫等现实问题,使得行业距离大规模商业化落地仍有距离,正处于从实验室走向成熟产业的必经阵痛期[9][11][28][46] 行业融资与资本动态 - 2025年前三季度,国内机器人行业一级市场融资事件达610笔,较去年同期的294笔翻倍增长,融资总额约500亿元,是去年同期的2.5倍[9] - 融资规模巨大,9家公司完成13笔超1亿美元融资成为常态,例如它石智航获超1.2亿美元天使融资,乐聚机器人获15亿元Pre-IPO融资,银河通用单笔融资3亿美元刷新行业纪录[13] - 美国市场更为激进,Figure AI的C轮融资后估值从26亿美元暴涨至390亿美元,Physical Intelligence估值从24亿美元跃升至56亿美元[14] - 投资逻辑出现分化:对于以运动控制(小脑)为主的公司,投资人开始关注量产能力和订单;对于做AI大脑的公司,现阶段仍更关注技术潜力[52] - 赛道估值泡沫成为公开秘密,部分企业未实现营收甚至未发布产品,估值仍能达数十亿元,例如银河通用估值200亿元,智元机器人估值180亿元[54][56] 上市进程与资本背景 - 十余家企业扎堆递交IPO申请,极智嘉、云迹科技已成功登陆港股,宇树科技有望成为A股“人形机器人第一股”,智元机器人通过收购获得上市平台[15] - 已上市与待上市企业的资本背景呈现差异:已上市的极智嘉、云迹科技背后是红杉中国、高瓴资本等综合型VC/PE,看重商业化落地能力;待上市的智元、宇树、乐聚等则更多是“产业资本+国资+专项基金”,更容忍前期亏损,聚焦技术突破[18][19] - 已上市与未上市企业的关键分水岭在于商业化成熟度与产品形态,两者发展阶段相差约2-3年:已上市企业多以非人形机器人为主,已形成稳定营收;待上市企业多为人形机器人,仍处于试点验证和小批量交付阶段[20] 产业化落地与订单情况 - 行业越过了Demo验证期,进入落地验证期,多笔千台级订单的签订是重要标志[21] - 2025年出现了多笔具身智能千台级订单,例如松延动力、越疆科技、智平方、星尘智能、智元机器人、银河通用等公司均获得了千台或近千台订单[22] - 优必选Walker系列人形机器人全年订单总额超13亿元,单笔最高达2.64亿元,其工业机器人已交付超200台,预计全年超500台,并在吉利、比亚迪等工厂实训[22][23] - 智元机器人第5000台通用具身机器人已下线,其中1412台精灵系列工业机器人已开始商用交付[24] - 海外案例:Agility Robotics的Digit机器人在GXO工厂已配送超30万件商品;Figure AI的机器人在宝马车队服役超1250小时,参与超3万辆汽车生产[24] 落地场景分层与竞争格局 - 落地场景形成清晰分层:第一梯队是汽车制造与消费电子(代表:优必选、智元、Figure AI);第二梯队是物流仓储(代表:Agility Robotics、极智嘉);第三梯队是特种巡检(代表:云深处、宇树);第四梯队是文娱、教育等消费级场景(代表:宇树、松延动力)[25] - 企业也相应分层:头部企业拿下汽车等核心场景的千台级订单,进入小批量交付;腰部企业聚焦细分领域获取试点机会;海外头部企业依托技术先发优势与全球巨头合作[25] - 人形机器人与非人形机器人在落地特征上差异显著:人形机器人核心场景为汽车制造、消费电子,处于试点验证阶段,订单规模为小批量(百台-千台级);非人形机器人核心场景为物流仓储等,已实现规模化交付,订单规模为大批量(千台-万台级)[26] 技术挑战与瓶颈 - 硬件端:成本控制能力提升,产品价格下降,例如松延动力布米售价9998元,宇树R1定价2.99万元,G1下探至8.5万元[29][30] 但行业仍缺少成本与性能平衡的灵巧手,现有产品多为“假手”或采用夹爪方案[33] - 灵巧手存在严重工程化难题:实际使用寿命短,许多仅1-3个月,最短一周即故障;重量普遍在370-1200克,比人手重,导致机器人能耗上升、动作迟缓[36] - 软件算法端:以端到端VLA模型为代表的技术取得进展,例如Figure AI的Helix模型,星动纪元的ERA-42模型,Physical Intelligence的π系列开源模型[37][38] 但行业未迎来类似语言大模型的Scaling Law,短期内难现“ChatGPT时刻”[40] - 技术卡点集中在数据、模型、系统工程三层:优质多模态数据稀缺;模型架构不成熟,泛化能力不足;缺乏统一标准,软硬件难以解耦,算力部署存在瓶颈[41][42] 成本效率与经济性分析 - 行业测算显示,人形机器人每小时综合成本需降至15美元以下,投资回收期短于2年,才对制造业有普遍吸引力[43] 目前领先企业在理想工况下仅能勉强触及门槛,计入部署调试、维护等隐性成本后,总拥有成本显著上升[43] - 机器人作业效率仍普遍低于熟练工人,在需要高度柔性和判断的工位上差距更大[44] - 企业成本测算案例:智元机器人测算,在长三角地区,替代两班制工人的机器人两年投入可与原人力成本(约30多万元)持平[62][63] 开普勒机器人测算,其产品在长三角回本周期1.6-2年,在欧美当年可回本[65] 银河通用测算其药店机器人的回本时间为3年[66] - 国际乐观预测:未来学家佩罗·米西奇博士测算,人形机器人长期每小时成本可能仅为10-13美元,每年可为企业节省多达20万美元,与人类劳动力相比节约接近70%[66][67] - 现实挑战:中国企业测算多简化了部署、运维、产线改造等隐形成本[70] 许多工厂的自动化需求已被既有方案满足,且机器人需要大量工程师进行现场适配和后期维护,导致短期内多数场景下仍不具备成本竞争力[72][73]
腾讯研究院AI速递 20251226
腾讯研究院· 2025-12-26 00:57
英伟达战略布局与生态整合 - 英伟达与AI芯片初创公司Groq达成非独占性推理技术授权协议,传闻交易金额高达200亿美元,Groq创始人兼谷歌TPU之父Jonathan Ross及其工程团队加入英伟达 [1] - Groq专注于推理阶段的LPU芯片,其单卡输出速度可达500 token/秒,据称比英伟达GPU快10倍,并采用时序指令集计算机架构以规避HBM短缺并降低成本 [1] - 此次交易属于“技术授权+人才收购”模式,Groq将保持独立运营继续其云业务,英伟达此举旨在补齐其在推理算力方面的短板,并直接挑战谷歌TPU市场 [1] AI模型与框架性能突破 - 清华TSAIL实验室与生数科技联合开源TurboDiffusion视频生成加速框架,在单张RTX 5090上,1.3B参数的480P模型生成时间从184秒降至1.9秒,实现了97倍的加速 [2] - 该框架整合了SageAttention2++量化、SLA稀疏线性注意力、rCM步数蒸馏和W8A8量化四项核心技术,将端到端延迟从900秒大幅缩短至8秒 [2] - SageAttention技术已成功集成至NVIDIA TensorRT,并部署于华为昇腾、摩尔线程等平台,同时已被腾讯混元、字节豆包、阿里Tora等头部企业应用 [2] 行业大模型应用落地 - 上海市规划资源局与商汤科技联合打造了全国规划资源领域首个6000亿参数的基础大模型“云宇星空”,具备问不倒、能调图、会统计、能识图、会报告五大能力 [3] - 该模型基于坤舆经略语料库训练,在政务内网专业版与核心业务系统打通,其专有名词准确率达到98%,人工问答点赞率为95% [3] - 模型采用“1+6”(基座+垂类)的模型体系和智能调度引擎,支持对二维、三维空间数据的自然语言调用,探索了数据产品化服务化的政务大模型新范式 [3] - 腾讯云与安徽驿路微行基于腾讯混元大模型,联合推出了ETC领域首款AI智能体“助手Agent”,自今年4月内测以来已服务超过100万用户 [4] - 该智能体融合多模态交互技术,支持文本和语音输入,问答准确率达95%,问题解决率达90%,可实现设备咨询、查询通行记录、开发票等复合需求 [4] - 系统部署了105种状态监测算法以实时采集设备运行数据,通过语音交互与关键状态播报实现“服务找人”,用户可直接通过语音控制设备 [4] 具身智能与三维感知技术进展 - Dexmal原力灵机提出GeoVLA框架,采用双流架构在保留视觉语言模型语义理解能力的同时,通过点云嵌入网络和空间感知动作专家赋予机器人三维几何感知能力 [6] - 在LIBERO-90长程多任务测试中,该框架达到97.7%的成功率,超越了OpenVLA-OFT;在ManiSkill2测试中平均成功率达77%,真机域内任务总体平均成功率为86.3% [6] - 在分布外场景鲁棒性测试中表现突出,例如当篮筐高度变化时能保持60%的成功率(对比CogACT仅20%),视角偏移45°时能保持70%的成功率,证明其学到了真正的3D空间结构 [6] - 英伟达具身智能负责人Jim Fan称特斯拉FSD v14是首个通过物理图灵测试的AI,该软件已在美国等7个国家推出 [9] - 特斯拉构建了14个技术壁垒,包括冻结传感器方案4-6年以实现数据积累、即时价值判断引擎智能过滤数据、以及Neural Codec处理Raw Bayer原始数据等 [9] - 系统采用端到端Transformer实现从光子输入到电机扭矩输出,在Cortex超算的车机芯片上进行硬件在环量化训练,77天内更新了12个版本,但仍存在车道切换和变道决策问题 [9] AI前沿研究与科学突破 - 上海交大TSAIL实验室、上海算法创新研究院、深势科技组成的SciMaster团队推出ML-Master 2.0,基于国产DeepSeek-V3.2-Speciale在MLE-bench取得56.44%的奖牌率并登顶榜单 [7] - 该系统针对真实机器学习工程设计,引入了层次化认知缓存机制,将上下文建模为经验、知识、智慧三层认知资产 [7] - 采用“生成-验证”协议实现超长程自主能力,已在理论计算物理、具身智能等领域落地应用,目前通过SciMaster平台开放Waiting List申请 [7] - 密歇根州立大学物理学家许道辉在GPT-5的建议下,采用Tomonaga-Schwinger量子场论框架,在《物理快报B》发表了关于非线性量子力学与相对论兼容性的论文 [8] - 论文推导出状态依赖哈密顿密度的可积性条件,证明非线性量子演化极易破坏相对论协变性或导致超光速通信,这可能是首篇由AI提供核心理论突破思路的理论物理论文 [8] - 研究采用了“生成-验证”协议,即一个模型实例生成推导,另一个独立实例检查自洽性,最后由人类审查,强调了多模型协作工作流是高水平研究的安全阀 [8]
关于AI教育,最核心的8个问题 | 附3万字报告下载
腾讯研究院· 2025-12-25 17:08
文章核心观点 - 生成式人工智能正以前所未有的速度渗透至各行各业,成为带来机会涌现的认知基础设施,极有可能影响未来几十年的教育形态[1] - AI时代的教育变革,归根结底是一场以“协同”为核心的人机共育革命,唯有向善而为,方能共智共生[5] AI时代的教育八问 1. 目标之问:AI时代需要培养什么样的人才 - AI时代急需的人才,是以人类判断为中心、并能够与智能机器协同共创的复合型人才[7] - 这类人才既能高效使用AI工具,又能在关键节点保有人类决策权与责任意识,向着“1+1>2”的协同方向努力[7] - 围绕这一目标,报告构建了AI素养“5U”框架[7] 2. 模式之问:AI教育模式是否需要重构 - 从短期来看,课堂教学的再设计和新规则正在建立;从中长期看,教学任务分工和学习生态的重塑必将发生[10] - AI正推动教育模式从“讲授+作业”向“对话+共创”转变,形成人机协同的新范式[10] - 报告倡导兼顾无AI、限AI和全AI的分层任务体系,既充分利用AI的效率,又保留不可替代的“学习现场”[10] 3. 学生之问:如何引导学生负责任地使用AI - AI在为知识获取带来便利的同时,也潜藏了对青少年思维和能力发展的冲击,如元认知懒惰、“流畅即真”偏误和数字亲密依赖,可能削弱思辨能力和社会情感发展[11] - 教育需要引导青少年学会负责任地使用,帮助学生从“要答案”转向“会提问、会核验、会反思”[12] - 需通过建立清晰的外部规则与伦理边界、培养自我约束和自我管理能力,强化批判性核验与持续反思,帮助学生在AI环境中保持独立思考和道德判断的能力[12] 4. 教师之问:教师的价值如何面向AI守正与焕新 - AI不会完全取代教师,但必然推动教师角色的深度转型[13] - AI能够高效承担信息整合、初步反馈和事务性工作,而目标设定、价值裁量、情感联结、情境判断和文化传递,则是教师必须“守正”的核心职责[13] - 教师的职责从执行性劳动转向创造性引导,延伸出了教师的四个新角色——导演、教练、裁判与守门员[13] - 在AI时代,“教书”中的标准化知识传授可以更多交由技术完成,而“育人”所依赖的价值引导、人格塑造和人文关怀,仍在教师,也只能在教师[13] 5. 工具之问:怎样才算好的“AI+教育”工具 - 好的“AI+教育”工具应回归教育本质,既服务教学、提升学习成效,又能激发学生主动探究与高阶思维,同时关注成长型发展、跨学科融合,并保证安全和隐私[14] - 好的AI教育工具应符合五项通用设计策略:目标明确,场景驱动;任务拆解与协同,发挥微工具的组合智慧;“双轨引导”激活思考与输出,助力知识内化;低门槛、宽路径、高上限;安全性与隐私保护[14] - 未来的“AI+教育”工具应在支持学生主动探索,激发好奇心;强调启发式交互,培养高阶思维;实现跨学科融合和情境化学习;倡导成长型思维,关注个性化成长四方面协同发力[17] 6. 学校之问:AI是否会推动未来学校大变样 - 学校的变革沿着“课堂增能型”“校级统筹型”“体系推进型”三种路径向纵深发展[18] - 学校基本制度将由稳态框架转向更具动态的系统:班级制从固定班级转向能力走班,以“群组+导师制”重组学习结构;学科制从分科教学转向主题探究,以真实问题为核心重建知识关联;课时制从时间标准化转向节奏弹性化,通过“学习节段+成长里程碑”模式兼顾效率与深度;评价制则从结果评价转向过程证据,基于多模态数据形成可追溯的能力档案[20] - 随着AI的深度介入,通过战略、标准、教师、学生、系统、空间、护栏这“7S”要素体系的协同,一种以智能系统为基础、以学习者为中心的“AI原生学校”新形态正逐步成为可能[20] 7. 企业之问:企业如何在AI浪潮中“用好人” - AI的快速渗透正在拉大教育与就业之间新的“断层”,为化解这种结构性脱节,必须重构教育与企业之间的联动机制,将人才培养从简单的知识传授转向以能力和作品为本的“共育共训”体系[21] - 企业端要从“使用者”向“共育者”升级,将人才培养视为战略性长期投资,通过开放真实项目促进学生转化为可上手的生产力[21] - 学校端需深化校企合作,重构教学模式,打造“AI+X”复合人才培养模式,鼓励多学科交叉融合[21] - 政策端应构建生态化的协同育人体系,围绕“激励可参与、标准可对接、公共能力可共享”三大支柱发力[22] 8. 社会之问:如何共建更加普惠包容的教育生态 - AI正推动教育实现从“硬普惠”走向“软普惠”,其低成本和可扩展性能够保证在硬件条件有限的地区,轻量化模型可以本地部署以提供基本学习支持[23] - AI能够作为教师群体的“能力放大器”,缩小区域间的教学质量差距,例如腾讯“企鹅教师助手”能自动拆解课标并生成精美课件,并能根据学生差异定制教学任务[25] - AI个性化辅导正在推动学习成效分布实现整体“右移”,通过动态分析学生的学习轨迹,为后进生提供即时反馈和细致讲解,为优等生提供挑战性任务,让教育公平从“机会均等”迈向“效果均等”[25]
特约AI研究鹅&客座AI研究员,联合招募启动!
腾讯研究院· 2025-12-25 17:08
项目背景与目标 - 生成式AI正在深刻重塑企业生产方式、业务形态与社会运行结构,需要围绕AI开展长期深度跟踪观察,并通过广泛协作推动认知转化为实践与公共价值[5] - 腾讯研究院于2021年发起特约研究鹅项目,已举办2期,招募近200位研究者,围绕数字经济、人工智能、芯片、数字人、监管科技、可持续社会价值等议题开展研究,在公司内外产生积极影响[6] - 本次项目继续发起「AI研究鹅」项目,并新增面向公司外部的「客座AI研究员」,旨在针对AI影响公司业务与社会发展的关键议题,开展持续、体系化的高质量研究合作[7] 项目参与价值 - 参与者将作为腾讯研究院AI研究体系中的长期研究协作主体,参与研究讨论、选题共创与课题合作,与来自公司内部、产业界与学界的研究者进行深度交流[9] - 获得腾讯研究院在研究方法、研究数据、研究打磨和成果输出等方面的平台支持,推动研究从“观点”走向“成果”[11] - 研究成果可在腾讯研究院公众号、视频号、《互联网前沿》及合作媒体平台发布,并通过《腾讯专报》等形式进入更高层次的公共讨论视野[13] - 参与者可获得研究署名、AI研究鹅研究身份认证及长期合作机会,积累学术与职业声誉,让研究成果产生社会影响[15] 招募对象与要求 - **特约AI研究鹅**:面向腾讯集团(含控股子公司)内部正式员工,要求对互联网行业发展趋势有深刻洞察或相关领域有丰富从业经验,对AI具备高度敏感性与持续投入,已将AI深度融入日常工作并能将应用沉淀为可复用的方法或成果[17] - **客座AI研究员**:面向腾讯外部高标准遴选的研究合作者,包括AI/科技领域投资、创业公司的创始人、合伙人、核心技术/产品负责人,以及高校或科研机构中在AI技术或AI与产业、社会交叉领域具备代表性成果或持续研究实践的学者[18][19] 研究方向与议题 - 研究将围绕AI对产业、组织与社会的结构性影响展开,重点关注AI社交陪伴、AI转型落地、AI对就业的影响、AI教育变革、AI经济底层逻辑、AI版权、AI对广告影响、视频AI、AI手机生态、信息茧房、AI数据等议题[20] 项目时间安排 - **第一阶段 开放报名与资格初筛**:计划于2026年1月上旬进行[21] - **第二阶段 AI访谈与名单确认**:计划于2026年1月中旬进行[21] - **第三阶段 科技向善创新节定向邀请**:计划于2026年1月下旬进行[21] - **第四阶段 启动会与专题工作坊**:计划于2026年一季度及全年持续进行[21]
腾讯研究院AI速递 20251225
腾讯研究院· 2025-12-25 00:01
生成式AI开源与能力演进 - Anthropic开源Skills官方知识库,包含16个生产级技能库,涵盖文档处理、创意设计和开发技术类,并包含可创建新技能的skill-creator元技能,极大降低自定义门槛[1] - 字节跳动Seed团队推出Seed Prover 1.5,通过大规模Agentic RL训练,在16.5小时内针对IMO 2025前5题生成完整Lean证明代码,换算成绩35/42达金牌分数线,在Putnam 2025测试中9小时完成12题中的11题,在完整Putnam历史评估集解决88%问题[2] - 通义百聆开源新一代语音交互模型Fun-Audio-Chat-8B,在多项权威基准测评中斩获SOTA,采用创新双分辨率端到端设计,音频帧率降至业界最低5Hz,节省近50%GPU计算[3] AI Agent与交互范式创新 - Second Me发布1.1版本,重塑对话框使AI从“被动回复”转向“主动交付”,可根据上下文和情绪温度主动推送社交玩法,通过独创身份模型建模,可调用真实身份信息和记忆创作内容[4] - Notion已有700多个智能体与千名员工协作处理重复性工作,其联合创始人西蒙已成为效能提升30-40倍的工程师,同时指挥3-4个AI编码智能体[9] - 谷歌将2025定义为AI Agent、推理和科学发现的一年,Gemini 3 Pro在LMArena排行榜榜首,Gemini 3 Flash质量超越上一代Pro规模模型但价格仅为一小部分且延迟显著降低[7] 具身智能与硬件产品突破 - Vbot超能机器狗发布会全网直播热度超千万,上线仅52分钟订单突破1000台,创万元级具身智能产品达成纪录[5] - Vbot超能机器狗搭载128TOPS端侧AI算力(是主流竞品3倍以上)、自研N45高永磁电机(峰值扭矩24.5Nm),续航5小时,支持240W超级快充,可运行13.3km/h马拉松配速,9988元创始权益价打破高性能机器狗高价魔咒[6] - 谷歌在机器人技术方面取得重大进展,包括Gemini Robotics和Genie 3[7] AI技术发展趋势与行业影响 - Epoch AI年终报告显示,自2024年4月起AI能力增长速度明显加快比之前快近一倍,LLM推理价格下降10倍以上,顶级开源模型与顶尖AI差距不到一年,英伟达芯片算力每10个月翻倍[10] - 报告指出AI最大价值可能来自对经济体系工作的广泛自动化而非加速研发,2024-2025年能力爆发式提升可能很快放缓[11] - 图灵奖得主Bengio认为认知型工作更易被AI取代,机器人技术虽暂时落后但只是时间问题,即便“水管工”等体力工作也只是暂时安全[7] - Notion CEO将AI比作无限心智的时代材料,认为知识经济将像钢铁和蒸汽改变城市一样被AI重塑,未来组织将跨越数千智能体与人类、跨时区持续运转[9]
信息论如何成为复杂系统科学的核心工具
腾讯研究院· 2025-12-24 16:33
信息论作为复杂系统研究的基石 - 文章核心观点:信息论因其能跨领域量化组件、系统与环境、整体与部分之间的互动,正成为描述、量化和理解复杂系统(如气候变化、金融市场、大脑认知)不可或缺的普适数学语言和工具箱 [2] - 本文旨在对一篇发表于《Physics Reports》的重要综述进行解读,系统阐述信息理论为何及如何成为复杂系统科学的基石,并详解其核心概念、进阶工具与实际应用 [2] 信息理论的基石:核心概念与直觉构建 - 熵是信息论最基础的概念,由香农提出,用于量化不确定性 [3] - 香农熵的数学定义为 H(X) = -Σp(x)logp(x),单位通常为比特,衡量在得知结果前对随机变量取值的“惊讶”程度期望值 [5][7] - 熵在多个领域有应用:神经科学中衡量神经元放电序列的可变性,生态学中反映物种空间分布的不确定性,金融学中表征股票价格的波动性 [8] - 联合熵 H(X,Y) 衡量两个随机变量联合分布的不确定性,总是大于等于单个变量的熵,但小于等于二者熵之和 [9] - 条件熵 H(Y|X) 表示在已知 X 取值的情况下,对 Y 仍存在的不确定性,若 X 和 Y 完全独立则 H(Y|X) = H(Y),若 Y 完全由 X 决定则 H(Y|X) = 0 [9] - 互信息 I(X;Y) 是信息论的核心度量,衡量通过观察一个变量能获得的关于另一个变量的平均信息量,量化统计依赖性 [10] - 互信息能捕捉任何形式的统计依赖(包括非线性、非单调关系),而皮尔森相关系数只能捕捉线性关系,例如 Y = X² 的关系相关系数可能为0但互信息值很高 [10] - 互信息在脑网络中可表示两个脑区活动的同步性,在基因调控网络中可表示两个基因表达水平的协同变化 [10] - 相对熵(Kullback-Leibler散度)衡量两个概率分布 p 和 q 之间的“距离”,互信息 I(X;Y) 等于联合分布 p(x,y) 与假设独立时的分布 p(x)p(y) 之间的相对熵 [13] 信息论如何直接描摹复杂系统的动态特征 - 信息动力学旨在量化信息在系统内部及与环境之间的产生、存储、传递和修改 [15] - 传递熵是互信息在时间序列上的推广,衡量定向信息流,即在已知 Y 自身过去历史的情况下,X 的过去历史能为预测 Y 的当前状态提供多少额外信息 [16] - 在神经科学中,传递熵可用于推断脑区间因果关系的方向,强于格兰杰因果的非方向量化 [16] - 主动信息存储衡量系统组成部分的过去历史与其当前状态相关的信息量,量化系统内部记忆或信息存储的能力 [18] - 在金融市场中,若有效市场假说成立,股价收益率序列接近随机游走,计算出的主动信息存储值会非常低接近零,反之若某只股票的主动信息存储值持续较高,则可能意味着存在可预测的模式 [18] - 整合信息论由神经科学家 Giulio Tononi 提出,试图度量意识,其核心思想是系统的意识程度取决于其各部分整合信息的程度,即整个系统产生的信息大于其各部分信息之和的程度 [20] - 例如,高分辨率数码相机传感器各部分间几乎没有因果相互作用,整合信息 Φ 非常低,而大脑不同区域以复杂方式相互作用,整合信息 Φ 被认为非常高 [20] - 整合信息论最大的问题在于 Φ 的计算在实践上对于像大脑这样的系统极其困难,因此存在巨大争议 [21] - 统计复杂性衡量系统为准确预测未来必须记住的关于过去的最小信息量,一个具有中等统计复杂性的系统通常具有丰富的内部结构和动态模式 [25] 信息分解:解开信息的协同与冗余 - 部分信息分解旨在将互信息 I(S; X,Y) 分解为冗余信息、由 X 和 Y 各自提供的特有信息以及协同信息四个部分 [29][30][31][32] - 当源数量 N>2 时,部分信息分解迅速复杂化,Williams & Beer 引入了冗余格来枚举所有信息分配的可能“原子” [33] - 在神经科学中,使用部分信息分解可以研究神经元群体是如何冗余地编码刺激以提高鲁棒性,又是如何协同地编码更复杂的特征 [35] - 部分信息分解为从数据中重建网络结构推断提供了工具,能够发现非线性相互作用,且对数据的分布假设要求较低 [35] - 部分熵分解是部分信息分解的自然推广,直接分解联合熵 H(X1,…,XN),无需区分输入与输出 [36] 从成对关系到信息网络 - 网络是复杂系统建模的通用语言,可分为物理网络和统计网络 [40] - 统计网络中的边对应统计依赖性,需从数据推断,可使用信息论中的互信息等度量刻画 [40] - 统计网络按是否包含方向分为两类:功能连接网络由无向图构成,边权重为变量间的互信息,刻画瞬时共变;有效连接网络由有向图构成,边权重为变量之间的传递熵,刻画定向信息流 [40] - 当系统中存在协同或冗余时,常规的基于成对相互关系的二元网络将无法描述,此时需引入超图或单纯流形 [40] 用信息论刻画复杂系统的整合与分离 - 复杂系统的核心特征在于其可“整合”或“分离”,这种平衡对于健康的大脑功能、成功的公司运营乃至全球政治都至关重要 [42][43] - Tononi、Sporns 与 Edelman 提出的 TSE-复杂性通过遍历所有可能的子系统划分,检测“部分”与“剩余”之间的互信息分布,来衡量系统的整合与分离平衡 [44] - 具有模块化网络(模块内高整合、模块间弱连接)的系统,其互信息随子系统大小非线性上升,TSE 达到峰值,表明系统处于信息处理能力最强的临界态 [44] - Rosas 等人提出的 O-信息与 S-信息进一步分解复杂性的成分:O-信息 > 0 表示系统以冗余主导,对应稳健性高、适应性低;O-信息 < 0 表示系统以协同主导,对应灵活性高、脆弱性高 [45] - Balduzzi 和 Tononi 提出的集成信息度量 Φᵣ 旨在捕捉系统“整体大于部分之和”的不可还原性信息结构,是系统“因果不可还原性”的量化指标 [46] - Φᵣ 可作为人工系统(如大语言模型、机器人)是否具备“统一认知架构”的可操作检验 [46] - 对于多组件系统,可通过最小信息分割遍历所有二分划分来计算 Φᵣ 的最小值,该值反映系统最脆弱的整合环节,是整体整合能力的下界 [47] 使用信息论的实际困难 - 实际应用时需从有限数据中估计概率分布与信息量,估计偏差会影响数值精度并系统性扭曲高阶结构推断 [49] - 离散情况下的插件估计存在系统偏倚,会导致熵被低估而互信息被高估,应对方法包括 Miller–Madow 校正、置换 null 模型、贝叶斯估计器 [49] - 连续数据计算更复杂,主流方法包括粗粒化直方图分箱、点过程、序数嵌入,其中粗粒化方法易用但信息损失严重已不推荐 [49] - 连续数据计算中,参数法仅捕获线性依赖,非参数密度法基于 k-近邻距离,无需假设分布,支持局部信息量估计,并可扩展至条件互信息、部分信息分解局部项 [50] - 信息论衡量的有向指标不代表因果关系,而依赖先验知识提供的因果图假设,多个不同因果图可产生相同信息结构 [50] - 信息论是关于不确定性中推理的数学,描述我们如何减少不确定性,信息总是相对于观察者模型,无绝对“系统自身的信息” [50] 未来方向与总结 - 在大数据时代,需要新方法来学习元素组之间的信息依赖关系,神经信息估计器使用神经网络来估计信息论指标,代表了一种在复杂性科学中尚未得到充分探索的新方法 [52] - 在机器学习中,信息论是实现学习高效算法的工具,而在复杂系统中,信息论度量是描述系统结构的描述性统计量,并且本身可以是最终目标 [53] - 用 Φᵣ、O-信息等引导进化算法,通过信息量作为目标函数是复杂系统与信息论结合的未来研究方向 [53] - 总结来看,从香农熵到整合信息分解/部分熵分解,信息理论提供了统一语言来刻画复杂系统的多尺度过程,是理解复杂系统结构和动态的自然工具 [53]