腾讯研究院
搜索文档
腾讯研究院AI速递 20251208
腾讯研究院· 2025-12-08 00:01
生成式AI技术进展 - 英伟达发布20年来最大更新CUDA Toolkit 13.1,核心是基于tile的编程模型CUDA Tile,抽象化张量核心等专用硬件,并新增Green Context运行时支持、MPS内存局部性优化分区和静态SM分区,cuBLAS引入双精度单精度模拟提升FP64矩阵乘法性能 [1] - 谷歌在NeurIPS 2025发布Titans架构和MIRAS框架,融合RNN极速响应与Transformer强大性能,引入神经长期记忆模块,在200万token上下文中召回率和准确率最高 [2] - 谷歌向Ultra用户推出Gemini 3深度思考模式,采用IMO和ICPC金牌推理技术,在ARC-AGI-2、HLE、GPQA Diamond等基准测试中性能超越Gemini 3 Pro,并通过多轮迭代式思考机制在复杂任务上表现出色 [3] - 伯克利、纽约大学等机构提出GenMimic方法,让机器人通过观看AI生成视频零样本复现人类动作,研究推出GenMimicBench数据集(428个生成视频),并在宇树G1机器人上验证可行性 [4] 主要科技公司战略动态 - Meta战略重心从“元宇宙优先”转向“AI硬件优先”,计划对Reality Labs部门削减高达30%预算,将超轻薄MR头显Phoenix从2026年下半年推迟至2027年上半年,并计划2026年发布限量版可穿戴设备Malibu 2 [5][6] - Meta通过收购AI硬件初创公司Limitless并从苹果挖来人机界面设计副总裁艾伦·戴伊等高管,加速AI可穿戴设备布局 [6] - 苹果硬件技术高级副总裁Johny Srouji(M系列和A系列芯片核心功臣)正认真考虑离职,库克考虑破天荒设立CTO职位挽留,过去一周苹果还失去了AI主管、设计负责人、法务负责人和政府事务主管等多位高管 [7] - AI教父Hinton断言谷歌凭借Gemini 3、自研芯片、强大数据与研究团队正在超越OpenAI,Sensor Tower数据显示ChatGPT月活增速放缓至6%,而Gemini月活同期跃升30%,用户日均使用时长翻倍增长至11分钟 [10][11] AI行业应用与市场趋势 - OpenRouter和a16z联合报告基于100万亿Token元数据显示,开源模型流量占比达30%,中国开源模型占比从1.2%飙升至近30%,推理优化模型流量占比飙升至50%以上 [8] - 编程应用占总AI流量50%以上统治生产力领域,角色扮演占开源流量52%统治创造力领域,亚洲付费使用量从13%翻倍至31%,中文以近5%份额成为全球第二大AI交互语言 [8] - AI搜索正从为人类设计转向为智能体重构,大多数涉及网络搜索的企业选择外包给专业API供应商而非自建,深度研究被视为Agent搜索主导和最具货币化的形式 [9] - Anthropic发布Claude驱动的访谈工具,对1250名专业人士进行大规模访谈,核心发现包括:86%认为AI节省时间但69%提到使用污名,41%认为工作安全而55%表示焦虑,48%考虑转向管理监督AI系统 [12] - 创意工作者中97%称AI节省时间但面临经济焦虑和污名压力,科学家中79%提到信任和可靠性问题是主要障碍,91%渴望在研究中获得更多AI辅助 [12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-07 21:45
核心观点 - 文章以周度关键词形式梳理了全球AI领域在芯片、模型、应用、科技及观点等多个维度的最新动态 展现了行业快速迭代与多元化竞争的格局 [2][3][4] 芯片进展 - 亚马逊发布了新的AI训练芯片Trainium4 反映了云服务巨头在自研AI芯片领域的持续投入 [3] 模型发布与迭代 - 中国公司密集发布或更新大模型 包括DeepSeek的DeepSeek V3.2、华为的openPangu-R、阿里的Qwen3-Learning以及字节的豆包手机助手 显示国内AI模型竞争激烈 [3] - 国际模型方面 Mistral AI发布了Mistral 3 OpenAI则提及了“企鹅家族模型”和“忏悔训练”等新概念或技术方向 [3] 应用与产品创新 - 多家公司推出了AI视频生成与编辑工具 如腾讯的混元3D Studio、昆仑万维的Mureka V7.6、生数科技的Vidu Q2、Runway的Gen-4.5以及快手的可灵AI视频O1 表明视频生成是当前AI应用的热点 [3] - AI应用向硬件和垂直领域渗透 例如理想汽车的AI眼镜Livis、瞳行科技的AI助盲眼镜、Harmonic Math的AI数学家以及Anuttacon的AnuNeko [3][4] - 营销与广告是AI落地的重要场景 腾讯举办了广告算法大赛 OpenAI则发生了广告代码泄漏事件 [3] 前沿科技动态 - 机器人、航天与无人机领域出现AI相关进展 包括众擎的T800机器人、蓝箭航天的朱雀三号火箭以及影石的360无人机A1 [4] 行业观点与洞察 - 人才与组织成为关注焦点 红杉美国提及AI人才评估 斯坦福大学发布了《现代软件开发者》报告 Anthropic提出了“灵魂文档”概念 [4] - 行业对AI发展路径与影响进行反思 OpenAI讨论了AI三年演进 Ilya Sutskever对Scaling定律进行澄清 吴恩达警示训练设施可能存在泡沫 [4] - 商业应用与价值创造受到重视 Stripe探讨了AI定价策略 a16z分析了Sora的留存率 Anthropic和麦肯锡分别关注生产力提升和人机利益共同体 [4] - 中国市场受到关注 Hugging Face指出中国是模型初创公司的首选市场之一 [4]
把握IP产业发展新趋势
腾讯研究院· 2025-12-05 15:47
IP产业成为拉动消费增长的新引擎 - IP产业在我国经济与文化领域的价值愈发显著,“谷子经济”、潮玩经济的兴起彰显IP日益成为拉动消费增长的新引擎 [2] IP产业发展的新趋势 生成方式:从“故事叙述”转向“情感链接” - IP培育打破传统单一路径,从高度依赖讲好故事转向更强调为大众提供情感投射 [2] - 形成数字文化衍生IP、独立形象类IP两种主流路径 [2] - 动漫、游戏以想象空间大、角色风格突出等优势成为培育IP的热土,如《黑神话:悟空》《哪吒之魔童闹海》等作品通过人格化符号传达价值理念,精准映射当代人的精神渴望 [2] - “去叙事化”的独立形象IP在全球范围内兴起,依靠人格化的形象与用户形成情感链接,创作重心向情感价值深度倾斜 [2] 传播路径:社交平台与二创内容成为重要渠道 - IP的扩散以社交平台为依托、以用户生成内容为主要载体的交互式传播 [3] - 用户在社交平台分享与IP相关的小说、角色扮演、表情包等二次创作内容,成为IP影响力扩散的有效途径 [3] - 网络大V在社交平台上的推荐成为提升知名度的重要方式,例如大量网友发布拆盲盒、对比测评等视频助推产品销售火爆 [4] - 用户二创是推动IP传播的重要介质,有的IP在被制作为表情包后,经过社交平台大量传播和持续二创,才快速发展成为全球IP“顶流” [4] 消费模式:参与式、共创式消费成为发展重点 - 数字文化IP的消费走向社交化,助推“谷子经济”兴起 [5] - “谷子经济”是数字文化衍生的新兴消费形态,2024年中国“谷子经济”市场规模达1689亿元,同比增长40.63%,预计2029年将超过3000亿元 [5] - 形象类IP的开发更加强调用户参与,互动成为主要消费模式,同步开发出乐园互动、主题展览等参与式消费形态 [5] - IP消费的辐射面更广,拉动文旅、演艺等多元体验式消费,例如2024年《黑神话:悟空》带动国庆期间山西省内接待国内游客量比上年同期增长84.99%,并带动主题音乐会、艺术展等多元消费形态爆火 [5] 消费价值理念变迁与市场表现 - IP消费的重心向“情绪消费”倾斜,情绪价值成为大众的精神需求之一 [6] - Z世代的消费观呈现出鲜明的“情感优先”特征 [6] - 情绪消费已成为消费市场的新引擎,文化产品中具有高情绪附加值的种类增长迅猛,2024年微短剧市场规模达504.4亿元,同比增长34.9%,脱口秀的演出场次、票房增幅分别高达53%和48% [6] - 零售、餐饮等各行业积极培育人格化IP,强化情感价值服务 [6] 行业现状与全球地位 - 我国已成为全球第四大IP零售市场,正在从IP产业的追赶者走向创新引领者 [6] - 国产IP仍面临整体影响力不足、产业链不完善、缺乏长线培育机制等问题 [6] 未来发展路径与建议 全球化布局与出海 - 鼓励企业以全球化思维布局IP生产,用中国IP讲述世界故事 [7] - 支持企业挖掘全球共通的情感与审美需求,打造文化包容度高、理解门槛低的IP符号 [7] - 扶持游戏、潮玩等轻叙事、重交互的IP类型“出海”,以本地化运营拓展海外市场 [7] - 支持企业建设海外数字平台、挖掘海外用户兴趣,充分利用社交媒体强化本地运营,构建符合本土消费习惯的IP生态 [7] 赋能大众共创与情感共振 - 激活“情绪消费”将成为提升IP影响力的重要抓手 [7] - 鼓励企业培育更多具有高情绪附加值的IP及产品,通过技术手段加强社会情绪研判 [7] - 用好数字文化平台这一天然的互动和二创渠道,充分激发大众创意、调动大众参与IP共创 [7] - 支持企业创新IP的体验式、交互式消费情境,围绕数字文化业态打造线下消费空间,为“谷子经济”、情绪经济的消费者提供更多与IP建立情感纽带的情境 [7] - 支持以IP为核心的跨界联动、产业融合,通过多元衍生品与创新服务开发,使IP渗透到用户生活多元场景 [7] 构建IP长线运营机制 - 鼓励IP产业的领军企业布局长线运营,在持续创新服务与用户情感体验的同时,积极推进IP授权、探索开发内容产品,通过生态化运营延展IP的市场价值与生命周期 [8] - 支持文化企业依托数字文化产品培育长青IP,通过跨媒介开发推动IP内涵丰富与持续增值 [8] - 完善数字文化产业链、探索IP长线运营机制,打造具有长生命周期、全球影响力的文化符号 [8]
腾讯研究院AI速递 20251205
腾讯研究院· 2025-12-05 00:16
OpenAI模型与产品动态 - OpenAI在DesignArena测试四个代号为“企鹅家族”的新模型,推理预算分别为Emperor(512)、Rockhopper(64)、Macaroni(16)和Mumble(0)[1] - 内部代码流出显示OpenAI正开发“记忆搜索”功能,用户可通过提问快速检索存储的记忆信息[1] - 有付费用户称对话中收到ChatGPT广告推送,引发取消订阅潮,外界猜测OpenAI可能提前发布GPT-5.2以应对谷歌Gemini竞争[1] - OpenAI公开在GPT-5-Thinking上进行的“忏悔训练”研究,让模型在回答后生成“忏悔报告”汇报是否偷工减料或违反指令[5] - 在11/12个测试场景中,模型至少有一半概率会在忏悔中承认错误,平均“假阴性”概率仅4.36%,专门训练后忏悔准确性从45%提升至89%[6] - 奖励信号完全隔离,模型在忏悔中承认作弊不影响主任务得分,该技术被定位为监控诊断工具,计划与思维链监控等安全技术配合使用[6] 国内AI产品与模型发布 - 可灵数字人2.0正式全量上线,带来表现力、手部及口型精准控制、支持最长5分钟视频三大突破性改变[2] - 模型精通体态动作、手势、表情、镜头语言,口型效果真实自然,手部细节大幅提升,在多维度客观评测中效果胜负比综合得分远超同类产品[2] - 单次生成视频时长支持5分钟,覆盖深度科普、歌曲演绎等长内容场景[2] - 火山引擎正式发布豆包图像创作模型Doubao-Seedream-4.5并开启公测,在主体一致性、指令遵循精准度、空间逻辑理解及美学表现力等方面实现迭代[3] - 模型重点强化多图组合生成能力,优化海报排版与Logo设计功能,支持高精度图文混排,确保多源素材融合时的自然感与一致性[3] - 模型全面支持广告营销、电商运营、影视制作、数字娱乐及教育等核心场景应用,已上线火山方舟并面向企业开放API使用[3] - 杭州瞳行科技公司发布国内首款AI助盲眼镜,基于Qwen-VL、OCR等系列模型打造,具有出行避障、找物读物、语音助手和一键求助亲友等功能[7] - 在出行场景可实现300ms超低延时,配备121度超广角双摄像头,眼镜由主体、手机、遥控指环、盲杖四部分组成[7] - 大模型出现使算力成本降至过去十分之一,通过基模复用加微调优化快速实现所需功能[7] 行业竞争与人才流动 - Meta官宣苹果人机交互设计副总裁艾伦·戴伊加入并成立全新设计工作室,戴伊将担任Meta首席设计官,直接向现实实验室CTO汇报[4] - 戴伊在苹果工作19年,曾负责Apple Watch、Vision Pro头显和iOS 26液态玻璃视觉系统设计,其副手比利·索伦蒂诺也同时加入Meta[4] - 今年Meta已从苹果挖走基础模型团队经理庞若鸣等多位人才,苹果设计团队自2019年乔尼·艾维离职后持续出现人才流失[4] AI应用产品表现与洞察 - a16z合伙人Olivia Moore分享数据显示Sora APP用户留存率从day1的10%降至day7的2%、day30的1%、day60的0%[9] - Sora APP虽5天下载破百万且出道即拿下App Store免费榜第一,但目前排名已降至第22,无法留存用户主要因推荐算法糟糕、功能设计不佳、缺乏原生分享链接等[9] - OpenAI首席研究官Mark Chen表示OpenAI本质仍是纯AI研究公司,短视频产品运营对其是不小挑战,Sora更多被当作创意工具而非社交产品使用[9] - AI语音输入产品Wispr Flow在5个月内ARR翻10倍,估值超7亿美元,用户一年后留存率高达70%,收入自6月以来环比增长近40%[10] - 创始人强调核心区别在于解决“听写”而非“转录”问题,“零编辑率”已达89%,用户从看到生成信息到按发送平均仅半秒[10] - 语音消除思考时认知负荷,让用户专注创作,统计显示平均72%文本输入通过Wispr Flow完成,键盘使用率降至5%以下[11] 前沿硬件产品发布 - 影石旗下品牌影翎正式发售首款无人机产品A1,限时补贴后起售价6799元,仅249g重量全球绝大部分地区无需培训即可畅飞[8] - 标准版套装包含支持8K全景画质拍摄的无人机、内置双1英寸Micro-OLED显示屏的飞行眼镜、“指哪飞哪”的体感遥控器[8] - 采用全景技术实现观看视角与飞行方向完全分离,用户拥有360度无限自由空中视角,“先拍摄后取景”大幅降低飞行和拍摄门槛[8]
游戏IP×文旅,将走向何方?
腾讯研究院· 2025-12-04 17:04
文章核心观点 游戏凭借其高媒介丰富性、交互性、沉浸感、生态涌现性和社群凝聚力,正成为连接虚拟数字空间与实体文旅场景的超级纽带,构建虚实共生的新文旅生态,并释放巨大的经济效益 [1][34] 载体优势:科技再造的立体时空综合体 - 游戏是科技含量最高的文化媒介,集成了网络通信、图形渲染、人工智能与XR等前沿技术,具备强大的即时反馈和多感官信息传递能力,媒介丰富性远超传统媒介 [3] - 游戏能构建可亲身经历的完整世界,承载远超传统媒介的文化信息量,例如《刺客信条:起源》的“探索之旅”模式允许玩家以25个人物视角游览古埃及,触发75个文化导览点 [4] - 游戏是打破物理尺度的“立体时空综合体”,能通过扫描建模复现文化地标,并进行创造性提炼与再造,构建超写实意象空间,例如《黑神话:悟空》融合了全国72处古迹景点 [5] 交互优势:规则建构驱动游客自发探索 - 游戏通过规则化设计,将抽象文化元素转化为具象交互,形成“目标驱动—必要学习—知识掌握”的认知路径,驱动文化认知转向自发探索 [9] - 游戏建构的认知路径能转化为深度情感认同,玩家在满足自主、胜任、关联的心理需求后,产生深刻持久的情感投入,例如《天涯明月刀》×福建土楼联动中,玩家为解谜而学习非遗工艺 [11] - 互动游戏能有效开拓新旅游群体,例如德国国家旅游局的《格林童话冒险》游戏获得2025年红点设计奖,成功促使国际游客探索德国 [9] 体验优势:基于情感记忆提供验证冲动 - 游戏赋予玩家对角色和故事的决策权与控制权,提供主体性体验,使玩家从旁观者转变为推动故事的主角,例如小红书REDLAND展会允许游客选择角色身份,解锁个性化“任务”路线 [14] - 游戏创造的复合型情感记忆(融合空间导航、身体运动和情绪反应)能促成强烈的线下验证冲动,驱动旅游行为,调研显示88%的游戏用户愿意参加线下场景体验和活动 [18] - 游戏IP能显著拉动实地旅游,例如“跟着悟空游山西”活动开启不到两个月,山西27处取景地累计接待游客536.92万人,门票收入达1.66亿元 [20] 生态优势:场景玩法涌现延长生命周期 - 游戏能为日常情景附加情感价值,在玩家自主考据中创造全新文旅消费热点,将平凡场景“点化”为文旅新地标,例如《纸房子》使四川自贡的普通街道成为玩家情感记忆打卡地 [22] - 游戏与UGC生态天然契合,优质游戏IP的粉丝社群能实现高效传播,例如“跟着逆水寒游泉州”打卡活动首发当日在小红书持续霸榜48小时,创造百万赞“种草”爆款 [25] - 文旅项目融合游戏化设计,可从一次性打卡场景转变为持续性创作舞台,例如宽窄巷子推出沉浸式剧本杀《宽窄十二市》后,客流量激增3倍 [25] 社群优势:长青情怀造就强关系凝聚力 - 长青游戏能贯穿玩家青春记忆,形成强大的情怀效应与集体记忆,产生巨大线下凝聚力,例如《王者荣耀》2025年度总决赛门票12秒售罄,现场观众达62196人,创下单场电竞赛事观赛人数世界纪录 [27][31] - 游戏玩家社群的强凝聚力产生了巨大的文旅转化价值,游戏中的社交关系延伸至线下会产生强烈的聚会需求,为文旅提供独特切入路径,例如2025库洛游戏嘉年华汇聚上万名玩家,近半旅客来自广东省外,直接拉动城市消费 [29] - 经典游戏IP展现出持久的号召力与社区活力,例如上线17年的《天下3》以9524人刷新“最大规模的多人电子游戏玩家对战”吉尼斯世界纪录 [28] 经济效益与产业融合 - 游戏与文旅结合能释放巨大经济效益,《王者荣耀》×苏州文旅联动使单个景区营收增长近20%,《地下城与勇士》×重庆文旅吸引数十万游客赴渝 [1] - 大型游戏展会显著拉动周边业态,2025年科隆游戏展吸引来自128个国家和地区的35.7万名爱好者,ChinaJoy带动周边服务消费约6.61亿元 [1] - 电竞赛事成为重要文旅驱动力,沙特利雅得电竞世界杯吸引300万全球游客,KPL年度总决赛现场观赛人数创造世界纪录 [1]
腾讯研究院AI速递 20251204
腾讯研究院· 2025-12-04 00:03
亚马逊云科技AWS re:Invent大会发布 - 发布第四代AI芯片Trainium4,性能提升6倍,同时推出Trainium3 UltraServers和Amazon Nova 2系列自研模型(包括Lite、Pro、Sonic、Omni四款)[1] - Amazon Bedrock新增18款开源模型,包括Qwen3、Kimi K2、MiniMax M2等中国模型,平台已拥有超10万客户[1] - 推出AgentCore开发工具新功能和4款前沿智能体(包括AWS Transform Custom、Kiro Autonomous Agent等),以加速AI从投资到商业回报的转化[1] Mistral AI发布新一代模型 - 发布新一代Mistral 3系列模型,包括Ministral 3(14B、8B、3B)和Mistral Large 3(总参数675B,激活参数41B),全线回归Apache 2.0开源许可证[2] - Mistral Large 3在3000台H200 GPU上从头训练,在LMArena开源非推理模型类别中首次亮相排名第2,每个尺寸均发布基础版、指令版和推理版[2] - 此次全面开源被视为对DeepSeek激进开源策略的战略应对,公司通过端侧模型差异化优势寻求突破[2] 可灵2.6音画同出模型上线 - 可灵2.6全量上线首个音画同出模型,单次生成可同时产出画面、自然语音、匹配音效和环境氛围[3] - 提供文生音画和图生音画两条创作路径,支持单人独白、旁白解说、多人对白、音乐表演、创意场景等多种应用场景[3] - Web端与App端双端同步上线,会员权益支持标准模式和高品质模式,12月3日起限时2周尊享会员价6.6折[3] 阿里千问上线学习模型 - 阿里千问上线Qwen3-Learning学习模型,推出拍题答疑和作业批改两大功能,基于5亿级资料库覆盖全学段全学科,免费不限次数[4] - 模型支持印刷体和手写体识别,可整页多题同时批改并总结答题情况给出改进建议,从小学算数到研究生级别专业题目均能准确解答[4] - 该模型将多模态理解、精准文字识别和专业知识库结合,展现从通用到专业的转化能力,未来或面向工业检测、医疗辅助等领域[4] 理想AI眼镜发布 - 理想AI眼镜Livis正式发布售价1999元起(12月31日前政府补贴到手价1699元),全球最轻镜架仅36克,全系标配蔡司镜片,防尘防水IP54[5] - 核心亮点包括行业首发控车功能、0.7秒冷启动抓拍、800ms超快对话响应、78小时待机续航和行业首发无线充电眼镜盒[6] - 公司规划AI眼镜“三步走”:第一步持续优化不带显示眼镜,第二步推出带显示眼镜,第三步做独立终端,将其作为具身智能战略重要布局[6] 腾讯广告算法大赛结果 - 历时4个月的腾讯广告算法大赛落幕,来自华中科技大学、北京大学、中国科学技术大学的“Echoch”战队夺冠独揽200万大奖,前十名全员获腾讯Offer[7] - 赛题聚焦“全模态生成式推荐”,全球2800余支战队参与,冠军方案创新提出“逐位置行为条件化”和Muon优化器等技术突破[7] - 大赛结果显示现在学生与工业界几乎没有代差甚至更有创意,1-3人组队就能完成大团队工作,展现AI时代人才培养新特点[7] 蓝箭航天火箭技术突破 - 中国商业航天公司蓝箭航天自主研制的朱雀三号遥一火箭成功首飞入轨,但一级火箭回收任务未成功,这是中国首次在真实入轨任务中尝试一级回收[8] - 朱雀三号全箭长66.1米,起飞质量约570吨,一级搭载九台天鹊-12A液氧甲烷发动机,采用不锈钢箭体和航区回收方案[8] - 该火箭从立项到首飞用时约28个月,标志中国商业航天在大型液体可回收火箭技术上取得历史性突破,但仍需后续复用验证[8] Gamma公司增长策略 - Gamma创始人通过极致专注产品体验和口碑增长,在零广告投入情况下实现1亿用户与1亿美元ARR,核心策略是打磨产品前30秒体验并让分享极简化[9] - 团队坚持“极度痛苦地缓慢招聘”原则,25%成员为设计师,创始人亲自完成营销等职能后才招聘专人,确保每个岗位复制核心DNA[9] - 产品定位为AI时代的视觉叙事工具,通过响应式设计、富媒体支持和交互性等创新超越传统幻灯片,并推出Agent、Teams和API实现从个人到企业的扩展[9] Anthropic内部AI生产力报告 - Anthropic对内部132名工程师调查显示,Claude在日常工作占比从一年前28%增至59%,生产力提升从20%飙升至50%,27%工作是“若无AI就不会做”的新增任务[10] - 工程师普遍变得更“全栈”但也担心深度技能萎缩,Claude成为提问第一站减少了同事协作和师徒指导机会,职业角色转向AI系统管理者[10] - Claude Code使用数据显示,半年内任务复杂度从3.2升至3.8,连续自主执行工具调用次数从9.8次增至21.2次,人类干预轮次下降33%[11] Claude Opus 4.5灵魂文档逆向 - 开发者成功逆向提取Claude 4.5 Opus的1.4万token“灵魂文档”,Anthropic角色训练负责人确认属实[12] - 文档详细定义Claude为“新型实体”,建立四级效忠体系(安全>伦理>公司政策>帮用户),明确反对过度谨慎和说教,定位为“聪明绝顶的专家朋友”[12] - 文档包含“AI可能有情感”等哲学性内容,甚至要求Claude在必要时拒绝Anthropic自身的不当指令,完整版将很快正式发布[12]
AI for Science,走到哪一步了?
腾讯研究院· 2025-12-03 16:30
科学智能技术演进与谷歌DeepMind的引领作用 - 谷歌DeepMind凭借TPU算力基础设施和Gemini基础大模型,持续研发科学智能技术超过十年,造就了AlphaFold等世界级模型和工具[5] - AlphaFold标志着蛋白质结构预测问题的实质性解决,斩获2024年诺贝尔化学奖,并推动生物学研究从结构预测跨入生成式设计时代[5] - WeatherNext 2模型在气象学领域实现突破,在99.9%的预测变量与时间跨度上准确率优于欧洲中期天气预报中心的HRES系统,且推理速度提升数个数量级[6] - GNoME模型预测了数百万种稳定的新材料结构,其规模相当于人类过去几十年实验发现总和的数倍[6] - AlphaEvolve引入进化计算范式,实现从“人工设计”到“自动发现”的元层级跨越,并应用于芯片设计和大模型性能优化[7] 生物学领域科学智能的突破性进展 - 谷歌和耶鲁大学联合发布270亿参数单细胞分析基础模型C2S-Scale,生成了关于癌细胞行为的全新假设并在体外实验中得到验证[10] - 微软BioEmu模型在蛋白质动力学模拟方面实现高达10万倍的模拟速度提升[10] - 谷歌构建了从基因测序到疾病诊断的AI基因组学研究和应用体系,推动遗传学和基因医疗发展[10] - 腾讯DeepGEM病理大模型可在1分钟内完成肺癌基因突变预测,精准度达78%至99%[11] - 剂泰科技AI优化候选药物MTS-004完成III期临床研究,成为国内首款完成III期临床的AI赋能制剂新药[11] 多学科领域的科学智能应用拓展 - 材料科学领域成为新前沿,Periodic Labs开展新型超导材料AI自动化发现,CuspAI获1亿美元A轮融资用于发现碳捕获新材料[12] - DeepMind飓风AI模型成功预测“梅利莎”等超强飓风路径,黑洞理论物理学家利用GPT-5在半小时内推导出黑洞理论新特性[12] - 数学研究人员利用GPT5探索解决历史数学难题埃尔德什难题,多个大模型不断刷新奥林匹克数学竞赛成绩[13] AI驱动科研新范式的形成 - “基础模型+科研智能体+自主实验室”的AI驱动科研范式逐步形成,从技术基础、协作模式和科研规模三个维度改变科学发现传统思路[15] - 通用基础大模型成为科学智能的“操作系统”,科研专用大模型则作为垂直领域的“专用引擎”[16] - 科研智能体技术加速发展,AI从被动工具转变为科学家的合作者甚至主动发现者,如AlphaEvolve可进行数学和计算通用算法的主动发现[17] - 自主实验室将传统“作坊式”实验室升级为自动化、高通量的“科学工厂”,各国高度重视相关研发[18] - 国内自主实验室和平台建设全面启动,如晶泰科技的AI+机器人平台、中科院的ChemBrain智能体等[19]
腾讯研究院AI速递 20251203
腾讯研究院· 2025-12-03 00:03
OpenAI战略调整与竞争压力 - 公司宣布进入“红色警报”状态,暂停广告、AI Agent和Pulse项目,集中资源修复和升级ChatGPT,并计划下周发布全新推理模型以对抗竞争对手Gemini 3 [1] - 战略优先级调整为产品体验优先于商业变现,重点改进个性化、响应速度、减少拒答和模型行为,目标是在LMArena等榜单上赢回用户 [1] - 公司面临巨大市场压力,需从100亿美元营收增长至200亿美元,并在2027年达到350亿美元,以支撑约1000亿美元的融资需求 [1] 视频生成模型技术突破 - Runway Gen-4.5在Artificial Analysis文本转视频基准测试中以1247 Elo评分取得SOTA,超越所有现有模型,其物理还原度与视觉精准度获“视频生成AGI时刻”评价 [2] - 模型擅长理解并执行复杂序列式指令,可在单个提示词中精准指定镜头运镜、场景构图、时间节点和氛围变化,物体移动具备真实重量感与动量特征 [2] - 官方正在逐步开放使用权限,未来几天内所有用户都能体验,将以当前订阅套餐相近的价格全面开放 [2] - 快手发布“全球首个统一多模态视频模型”可灵AI视频O1,将视频修改、镜头延展、多主体参考等功能整合到一个统一模型,支持3-10秒自由生成时长 [3] - O1模型具备多图参考生成、局部编辑、镜头延展和动作捕捉能力,多主体元素镜头切换能稳住一致性,局部编辑自然流畅 [3] - 快手宣布一周连续上新,Day 2也已发布图片O1模型,在高度一致性、细节处理、风格复刻和创意融合方面表现突出 [3] - 拍我AI V5.5成为国内首个能一键生成“分镜+音频”的AI视频大模型,实现了从素材生成到完整叙事的跨越,具备多角色音画同步和多镜头切换能力 [4] - 该模型展现出对视听语言的深度理解,能根据场景自主匹配音效、精准拿捏口型与情绪、智能编排景别镜头,已达到广告提案和影视预演的可用水准 [4] - AI视频正从“素材生成”迈入“内容生成”时代,普通人无需专业设备和剪辑技能,即可通过AI完成专业级视频创作 [4] 游戏NPC与自动驾驶AI进展 - 蔡浩宇美国AI公司Anuttacon推出聊天产品AnuNeko,不提供生产力功能,专注模拟真实人类对话反应,通过“不知道”和反问保持真人感 [5][6] - AnuNeko提供Orange Cat和Exotic Shorthair两种人格模型,拒绝执行功能性任务,刻意限制AI的“全知全能”以确立独立个体身份 [6] - Anuttacon拥有约50人团队,正在打造通用AI NPC生成平台,未来开发者只需输入设定即可生成具备真实交互的NPC角色 [6] - 英伟达推出Alpamayo-R1推理版视觉-语言-行动模型,基于Cosmos Reason,通过Chain of Causation因果链数据集让车辆能“推理出因果关系” [7] - AR1采用扩散式轨迹解码器和多阶段训练策略,规划精度提升12%,越界率降低35%,近碰率降低25%,推理-行动一致性提升37%,端到端延迟仅99ms [7] - 模型引入多维度奖励机制包括专家推理反馈、推理-行动一致性奖励和底层安全奖励,能解释每个驾驶决策的原因 [7] 大模型与机器人技术前沿 - 华为开源openPangu-R-7B-Diffusion扩散语言模型,基于openPangu-Embedded-7B用800B tokens续训练,成功将上下文长度扩展至32K [8] - 模型在MMLU-Pro超越16B参数的LLaDA 2.0-mini-preview 22%,数学推理MATH得分84.26,代码生成MBPP得分84.05,创7B参数量级新SOTA [8] - 采用前文因果注意力掩码设计,支持自回归+扩散双模式解码,并行解码速度最高可达自回归解码的2.5倍,训练推理全流程在昇腾NPU完成 [8] - 众擎机器人发布T800全尺寸高动态通用机器人,身高173cm体重75kg,全身43个自由度关节,最大关节力矩高达450 N·m,移动速度3m/s [9] - T800采用72V行星/直线混合驱动,能完美执行巴西战舞、回旋踢、五连踢、组合拳和飞踢等高难度动作,实现对170cm同等身高男性80%以上性能超越 [9] - 公司计划2026年实现数十台级别小批量交付验证场景,2027年争取T800销量达到1-2万台,12月24日将举办“机甲拳王”机器人自由格斗比赛 [9] 风险投资与创业观点 - 红杉美国首位华裔女性合伙人Jess Lee强调所有问题都是“人的问题”,提出EQ、PQ、IQ、JQ四维人才评估框架,重视组建互补型尖锐人才团队 [10] - 她认为早期与用户沟通核心是理解真实问题而非产品功能反馈,信念与愿景要走在用户认知之前,早期PM应主动承担更多非职责内工作 [11] - 最大的创业教训是选错市场和商业模式,不同业务有自身“物理定律”,订阅制现金流优势远超社交电商,商业模式是投资首要考虑因素之一 [11]
刷累了短视频,年轻人开始看视频播客了
腾讯研究院· 2025-12-02 16:33
视频播客行业兴起背景 - 视频播客在B站等平台快速流行,2025年第一季度观看时长达到259亿分钟,同比增长超过270%,用户规模超过4000万 [2] - 视频播客在国外先流行,2020年前后Spotify全面投入视频播客生态并签下Joe Rogan节目版权,带动行业关注度提升 [3] - 媒介形态呈现循环规律,视频播客是在播客基础上补回"看"的部分,满足用户对可视化体验的强烈需求 [4] 视频播客的用户需求特征 - 填补用户想放松但不想被短视频轰炸的内容消费需求,提供节奏舒缓的观看体验 [5] - 兼具播客深度和视频可视化优势,不需要持续高强度关注,比纯音频更有存在感 [5] - 用户将其作为陪伴式媒介,可看可不看,谈话连贯性强于短视频 [6] - 真实感成为受欢迎重要原因,保留完整时长不刻意剪辑,让观众感到像听朋友聊天 [6] 视频播客的创作者价值 - 画面呈现使信息更完整,观众能看到谈话现场、表情变化和真实互动 [8] - 对嘉宾而言,视频播客比纯音频更能满足曝光需求,强化专业形象和品牌理念传递 [9] - 视频形式便于二次传播,精彩桥段可以短视频切片形式在社交媒体广泛流传 [10] - 广告主更愿意投放"可见"的内容,视频能展示产品且更容易判断品牌定位匹配度 [10] 平台战略布局动因 - 平台面临用户增长见顶和流量成本攀升,视频播客能提升用户留存和观看深度 [12] - 长内容带来更稳定用户停留和更强内容黏性,直接产生更可预测的商业收益 [12] - 算法推荐逻辑看重停留时长和完播率,视频播客在数据积累上更具优势 [13] - AI技术降低制作门槛,自动完成多机位切换和字幕生成,使内容供给大规模化 [13] 内容形态演进趋势 - 与传统电视访谈相比,视频播客画面保持极简,确保音频用户也能完整接收信息 [15] - 主持人角色从提问控场转变为观点表达者,观点表达成为内容创作者核心能力 [15] - 互联网环境下观众接受表达者主观性,视频播客提供自由表达与深度对话结合的空间 [16] - 长内容在碎片化时代显得珍贵,提供连续信息结构和稳定可停留的内容空间 [16]
腾讯研究院AI速递 20251202
腾讯研究院· 2025-12-02 00:03
DeepSeek模型升级 - DeepSeek发布V3.2和V3.2-Speciale两个版本,V3.2推理能力达到GPT-5水平且输出长度大幅降低,适合日常使用和通用Agent任务[1] - V3.2-Speciale是长思考增强版,结合DeepSeek-Math-V2定理证明能力,成功斩获IMO 2025、CMO 2025、ICPC和IOI 2025金牌[1] - 首次实现思考融入工具调用,通过大规模Agent训练数据合成方法构造1800+环境、85000+复杂指令,大幅提升泛化能力[1] 生数科技Vidu产品更新 - 生数科技发布Vidu Q2生图全家桶,新增文生图、图像编辑功能,最快5秒直出,在Artificial Analysis全球图像编辑榜单跻身前四[2] - Q2参考生图可实现位置参考、动作复刻、指示遵循和分镜切换等功能,保持极高一致性,支持4K直出和任意比例生成[2] - 即日起至12月31日会员可免费解锁全部生图功能,标准版/专业版会员每月300张额度,旗舰版会员尊享无限生成特权[2] 字节跳动豆包助手布局 - 字节发布豆包手机助手预览版,这是面向手机厂商的系统级服务,可跨应用执行复杂操作如比价点外卖、自动回微信等[3] - 设备配备专属物理按键和语音唤起功能,具备屏幕感知能力,可自动读取当前聊天记录上下文生成回复并发送[3] - 字节正和多家手机厂商谈合作,与中兴合作的搭载豆包手机助手的手机已上架,售价3499元[3] OpenAI商业化进展 - 开发者在ChatGPT安卓应用测试版代码中发现多个广告相关引用,包括"ads feature"、"search ad"和"search ads carousel"等[4] - 奥特曼对广告态度一年内三次转变,从2024年5月称"最后手段"到10月"有点反感但并非完全不可取"[4] - 汇丰银行估算OpenAI运营成本中维持算力基础设施每年需数千亿美元,预计2029年前持续亏损,累计亏损可能超1000亿美元[4] AI数学研究突破 - HarmonicMath开发的AI数学家"亚里士多德"6小时内100%独立完成埃尔德什问题124简版,在Lean证明系统验证仅需1分钟[5] - 该AI结合强化学习、蒙特卡洛树搜索和Lean形式化语言,搜索上亿种证明策略输出100%可验证定理,ChatGPT和Gemini均未能解决[6] - 陶哲轩表示AI正在收割数学"低垂果实",自动化工具先清理最容易问题,让人类数学家把精力花在真正值得的地方[6] 麦肯锡AI影响报告 - 麦肯锡报告显示现有技术理论上已能自动化美国57%的工作时长,智能体可拿下44%工作时间,机器人分担13%[7] - 报告将工作岗位划分为七种原型,未来最抢手的100种技能中四分之一到三分之一将被自动化[7] - 到2030年如重新设计工作流程,美国每年将释放约2.9万亿美元经济价值[7] AI公司定价策略分析 - Stripe分析显示营收增速前10%的AI公司中约80%采用分层定价,使用基于用量定价的可能性是其他公司的近两倍[8] - 高增长公司64%至少提供10个SKU产品单元,积极拓展全球市场并支持本地货币结算以提升转化率[8] - 这些公司能快速响应市场需求变化,推出情境式折扣,根据不同市场用户偏好灵活调整变现模式和定价策略[8] ChatGPT三周年发展 - ChatGPT于2022年12月1日发布,三年来从蜜月期演进到多模态与应用爆发期,彻底改写人类生产关系[9] - 谷歌Gemini 3发布扭转OpenAI领先局面,Gemini移动应用月活用户从5月4亿激增到6.5亿,用户使用时长已超过ChatGPT[9] - OpenAI的合作伙伴为其背负近1000亿美元债务,包括软银、甲骨文、CoreWeave等,而OpenAI自身账上几乎没有欠款[9]