Workflow
腾讯研究院
icon
搜索文档
腾讯研究院AI速递 20251119
腾讯研究院· 2025-11-19 00:01
大模型性能突破 - xAI发布Grok 4 1双版本模型 其Thinking版以1483 Elo分数登顶LMArena排行榜 非推理版本以1465 Elo排名第二 超越Gemini 2 5 Pro [1] - 该模型在EQ-Bench情商测试中以1586 Elo成绩登顶 创意写作得分比上一代提升600分 幻觉率暴降3倍 [1] - xAI将后训练阶段强化学习规模扩大一个数量级 利用前沿AI智能体推理模型作为奖励模型自动优化回答质量 并对所有用户免费开放 [1] 新公司与重大融资 - 贝佐斯创立物理AI公司Project Prometheus并亲任联席CEO 公司首轮融资获得62亿美元约合人民币440亿元 员工规模已达上百人 [2] - 公司研究重点是将AI应用于机器人 药物设计和科学发现等物理任务 专注于计算机 汽车和航空航天等高技术领域 [2] - 另一位联席CEO是物理学家兼化学家Vik Bajaj 曾在谷歌X研究机构与谢尔盖·布林合作 并创立领导过多家科技创新企业 [2] 多智能体与推理系统 - 谷歌为Gemini Enterprise开发多智能体系统 该系统可扮演联席科学家角色 通过锦标赛式评估生成并排序约100个想法 [3] - 该系统允许Gemini针对单个问题持续运行约40分钟 代表L3级AI能力 每个想法都附带完整的评审报告和锦标赛表现分析 [3] - 系统核心包括"想法生成"和"联席科学家"两款智能体 用户需审查并批准计划摘要后才能启动任务 以确保巨大算力投入的合理性 [3] 机器人基础模型进展 - Physical Intelligence发布最新机器人基础模型π*0 6 采用Recap方法结合演示训练 纠错指导和自主经验强化学习 提升具身智能成功率和处理效率 [4] - 该模型在执行制作咖啡 折叠衣物和组装纸箱等复杂任务时成功率超过90% 吞吐量提高2倍以上 失败率降低2倍或更多 [4] - π*0 6基于π0 6改进 通过价值函数解决信用分配难题 完全使用真实世界数据训练 能够在新环境中灵活执行未知任务 [4] 模型商业化与市场表现 - MiniMax M2推出编程套餐首月价格仅为9 9元 在OpenRouter平台其token调用量已冲至全球Top5 成为调用量最大的国产模型 [5][6] - 该模型性能位列全球榜单第五 价格仅为Claude的8% TPS稳定在100以上 响应速度快且代码质量与Claude Sonnet 4 5基本持平 [6] - M2支持Anthropic和OpenAI两种标准格式 可无缝接入Claude Code和Cursor等主流编程工具 配置过程仅需5分钟 [6] 视频生成与编辑技术 - PixVerse上线V5 Fast和Modify精修功能 视频生成速度提升超过30% 生成5秒高清视频可在1分钟内完成 并支持端到端视频编辑 [7] - Modify功能支持对生成视频进行元素替换 风格修改 材质调整 光线色调和人物编辑等多维度精细化修改 无需重新生成视频 [7] - V5 Fast通过推理结构轻量化和帧间计算依赖缩短实现加速 其开发公司爱诗科技已完成1亿元人民币B+轮融资 平台累计服务用户超一亿 [7] 全模态AI应用开发 - 蚂蚁集团推出全模态通用AI助手「灵光」 支持通过自然语言在30秒内生成小应用 并可进行全代码生成多模态内容 [8] - 该助手支持输出3D数字模型 音频 图标 动画 地图等全模态信息 旨在使对话更生动 交流更高效 [8] - 「灵光」首批上线功能包括"灵光对话" "灵光闪应用"和"灵光开眼" 已同步登陆安卓与苹果应用商店 [8] AI在游戏与创意生成 - Gambo AI推出全球首个专为游戏开发打造的"氛围编程"Agent 用户输入一句话即可在5-10分钟内生成可商业化发布的完整游戏 [9] - 平台实现从美术资源生成 动画制作 音乐作曲 关卡设计到商业变现的全自动流水线 零代码零美术基础 纯自然语言驱动 [9] - 平台集成变现功能可自动在游戏中嵌入广告点位实现"发布即盈利" 但目前仅支持2D平台跳跃类游戏 复杂关卡可能需要手动微调 [9] 气候预测与科学计算 - 谷歌DeepMind推出WeatherNext 2气候预测模型 其生成预报的速度提升8倍 分辨率最高可达1小时 单次预测在单个TPU上耗时不到一分钟 [10] - 该模型采用功能生成网络新方法 可从单个起点预测数百种可能的天气结果 在99 9%的变量和预测时间上超越前代模型 [10] - 预报数据已在Earth Engine和BigQuery中提供 谷歌云Vertex AI平台推出定制模型推断抢先体验项目 并已升级搜索和Gemini等产品 [11] AI行业投资与市场趋势 - CB Insights报告显示2024年AI Agent创业公司融资总额达38亿美元 是2023年的三倍 Voice AI成为增长最快赛道 2025年已融资4亿美元 [11] - Coding AI Agents领域领跑 Cursor以5亿美元年度经常性收入居首 Customer service AI的估值倍数高达219倍 远超80倍的平均水平 [11] - 推理模型使输出Token量激增20倍导致成本倒挂 2025年已发生超过35起收购案 Agent监控工具成为企业级新刚需 [11]
AI导致硅谷十万大裁员?
腾讯研究院· 2025-11-18 16:33
硅谷裁员的片面认识 - 美国科技行业今年裁员近11万人 但这是近四年裁员最少的年份 不及2023年的一半[3] - 不能只看裁员而不看招聘 近两年美国主要科技公司雇员规模稳中有进 Alphabet、微软和Netflix的雇员数量处于历史最高水平[5] - 不能只看疫情后裁员而不看疫情中招聘 2019年底到2023年 苹果、亚马逊、Meta、微软和Alphabet共增加90多万岗位 亚马逊2021年下半年净增27.3万人 近四年70万裁员远不及疫情期间的100万大招聘[7] AI与裁员的因果关系 - 硅谷大裁员始于2022年 与ChatGPT发布在时间上同步 但时间同步性不意味着存在因果关系[9] - 没有直接证据表明是AI导致了裁员 亚马逊CEO称裁员1.4万人是因企业文化 微软称裁撤9000人是为组织变革 Salesforce CEO将裁减4000个客服岗位归于AI但被指有推销新产品嫌疑[10] AI对美国程序员就业的影响 - 美国程序员就业人数持续下滑20多年 并非近年才发生 因此AI不能解释之前的下降趋势[13] - AI编写50%的代码不意味着取代50%的程序员 代码需人工复核调试 且编写代码仅是程序员工作的一部分[14] - 对比英国 计算机编程等相关活动就业人数从2011年的48.3万增长至2023年的109.3万 年均复合增长率达7%[13] AI的企业采纳率及其影响 - 欧美主要国家的企业AI采纳率处于10%-20%的低水平区间 尚处于早期阶段[18] - 当前AI采纳率较低 尚难对就业整体产生直接冲击 但对部分业务环节的就业影响已经显现[20]
北京粉丝福利|11月22日,腾讯研究院 X 虎嗅F&M创新节赠票,先到先得
腾讯研究院· 2025-11-18 16:33
活动概述 - 腾讯研究院与虎嗅联合主办的第三届F&M创新节辩论赛将于2025年11月22日在北京798·751园区79罐举行 [2][3] - 活动主题为“AI会导致人类升智还是降智”,时间为11月22日周六11:15至12:25 [10][20][29] - 活动提供粉丝福利,通过兑换码“腾讯研究院”可兑换11月22日单日票,余票100张 [2][37] 核心阵容 - 辩论主席由清华大学新闻传播学博士、北京工业大学社会学系讲师、原国际关系学院及清华大学辩论队教练冯若谷担任,其以清晰逻辑和精准控场著称 [4][5] - 评委团包括腾讯公司副总裁、腾讯研究院总顾问杨健,资深媒体人李焱,以及VAST创始人宋亚宸,提供科技产业、媒体视角及创业前沿的多维点评 [8] 辩论双方 - 正方“升智派”阵容包括《奇葩说》辩手王梅、前清华辩论队队长杨鸿宇、B站百万UP主“老蒋巨靠谱”以及程序员出身的《奇葩说》辩手子寅,侧重论证AI的认知杠杆和认知平权价值 [16][17] - 反方“降智派”阵容包括泥藕资本董事总经理杨子江、腾讯研究院研究员赵子飞、作家小野酱及法学硕士兼编剧孙嘻,侧重拆解AI导致人类思维惰性的底层逻辑 [26][27] 活动亮点 - 本届辩论赛在去年“跨界混搭、金句刷屏”基础上进行全面升级,结合辩论专业攻防、脱口秀幽默输出及行业专家深度解读 [36] - 活动定位为“顶级思辨对决”,旨在围绕AI与人类智慧的前沿议题展开高能碰撞 [3][36]
腾讯研究院AI速递 20251118
腾讯研究院· 2025-11-18 00:18
Meta AI绩效考核与工具应用 - Meta将从2026年起正式将"AI驱动的影响"纳入员工绩效核心指标 考核员工利用AI提升工作成果及团队生产力[1] - 公司推出"Level Up"闯关游戏项目和AI绩效助手工具 鼓励员工尽可能多使用内部AI聊天机器人Metamate[1] - Meta允许部分求职者在编码面试中使用AI助手 认为这更能代表真实开发环境[1] 谷歌NotebookLM多模态功能升级 - 谷歌NotebookLM于11月15日新增图像数据源功能 支持自动完成OCR光学字符识别和语义解析[2] - 底层多模态模型能分辨手写与印刷区域 提取表格结构 并与用户已有的文本 音频 视频笔记自动关联[2] - 功能上线48小时内教育账号上传图像量突破50万页环比增加340% 谷歌计划明年集成AR眼镜实时拍摄接口[2] 阿里千问APP公测与场景覆盖 - 千问APP公测版正式上线 底座是Qwen3模型 提供All in One入口让用户免费体验整套AI能力[3] - 该应用将陆续覆盖办公 地图 健康 购物等多个生活场景 让AI成为日常伙伴[3] - 千问将持续进化并上线Qwen最新模型 目前已在国内各大应用商店上线可搜索下载[3] 智谱GLM Coding Plan产品与市场表现 - 智谱"GLM Coding Plan·特供版"优惠包月套餐上线 在新人首购5折基础上再叠加额外8折 每月最低仅16元[4] - 基于旗舰模型GLM-4.6驱动 在LMArena百万开发者评测中与Claude Sonnet 4.5 GPT-5并列全球第一 支持200K超长上下文[4] - 已官方适配Claude Code Cline Roo Code等10+主流AI编程工具 多家美国科技公司如Cerebras Vercel已采用GLM-4.6[4] 小米智能家居AI解决方案 - 小米推出首个"大模型+智能家居"解决方案Miloco 以米家摄像头为视觉信息源 自研大语言模型MiMo-VL-Miloco-7B为核心[5] - 用户可通过自然语言与智能家居系统对话沟通 系统自动完成家庭生活中的各类智能需求和规则[5] - 小米AIoT平台已连接IoT设备数近10亿台 Miloco通过标准化MCP协议实现米家生态与Home Assistant生态打通[5] MiroMind开源模型技术突破 - MiroMind推出开源智能体基座模型MiroThinker v1.0 提出全新"深度交互Scaling"维度 支持256K上下文和600轮工具调用[6] - 在BrowseComp测试中准确率达47.1%逼近OpenAI DeepResearch的51.5% 中文任务BrowseComp-ZH超越DeepSeek-v3.2达7.7个百分点[6] - 采用彻底开源架构开放所有模型权重 工具链和交互框架 72B版本逼近甚至超越OpenAI DeepResearch[6] 医疗AI模型临床应用成果 - 未来医生AI工作室核心模型MedGPT在32位国内顶尖临床专家组织的多模型实战测评中击败GPT-5等国际前沿大模型[7] - 推出临床决策AI助手和患者随访AI助手两款产品 分别在诊中提供决策辅助 在诊后支撑患者随访实现慢病管理[7] - 已被数十位全国学科主委纳入日常使用 被专家一致认为是AI赋能基层医疗的"最佳实践"[7] 世界模型理论与应用发展 - 李飞飞直言AGI"更像营销术语而非科学术语" 强调当前AI最大短板是缺乏空间智能这种三维世界导航操控能力[8] - 阐述世界模型三个核心能力:生成性 多模态和交互性 认为仅靠数据和算力无法让机器人真正成熟[8] - World Labs发布全球首个大型世界模型产品Marble 在影视制作 游戏开发等领域获得广泛应用 创作时间缩短40倍[8]
江小涓:产业创新和科技创新的融合发展,不仅仅是一个表述
腾讯研究院· 2025-11-17 16:33
文章核心观点 - 数智时代创新范式转变为数据和人工智能驱动 要求科技创新与产业创新深度融合 企业成为创新前沿的引领者而非仅仅是技术转化者 [3][6][7] - “十五五”规划建议首次将“推动科技创新和产业创新融合发展”单独列出 特别强调强化企业科技创新主体地位和创新资源向企业聚集 [3][4] - 企业凭借数据、算法和算力优势 在蛋白质结构预测、新材料研发等基础科学领域做出革命性贡献 并直接应用于精准医疗等产业场景 [7][8] - 企业风险投资(CVC)正成为前沿技术早期投资的重要力量 其战略投资和耐心资本特性降低了对传统IPO退出路径的依赖 [12][13][14] 产业在科技创新全链条中的地位更加突出 - 2014年为分水岭 此前最前沿大模型由高校主导 之后均由大型平台企业主导 因创新需海量数据、巨大算法算力及快速密集投入 高校难以具备 [7] - 谷歌团队通过算法预测蛋白质结构 自2021年4月起已预测超过100万个物种的2.14亿个蛋白质三维结构 为生命科学领域奠定革命性基础 [8] - 复杂产业链创新需匹配材料、工艺、成本、市场需求等多重因素 企业通过智能体间海量计算实现高效匹配 此能力高校难以企及 [9] - 企业创新成功即可直达海量用户 无缝衔接商业应用 不存在高校技术面临的“转化难题” 本质是问题导向和应用导向的研发 [10] 科创资金更多来自产业投资 - 在早期前沿技术投资领域 阿里巴巴、腾讯、蚂蚁集团等企业的投资活跃度自2019年起已远超高瓴资本、IDG等传统风险投资/私募股权机构 [12] - 企业风险投资包含大量战略投资者和耐心资本 其投资逻辑侧重于强化自身产业链整体竞争力 对通过上市退出的依赖性较弱 [13] - 全球趋势显示 在数智化创新时代 马斯克旗下公司、Databricks、谷歌等大型科技公司正以数十亿规模直接投资非常前沿的项目 [14] 理论逻辑与数据洞察双轮驱动 - 数据和人工智能驱动创新建立在前期理论科学发现奠定的方向和路径基础上 例如蛋白质结构研究已知其由20种氨基酸组合而成 [15] - 在前期积累基础上 数据和人工智能驱动创新当前进入成果产出蓬勃发展的时期 但理论创新的指引作用依然不可或缺 [15]
腾讯研究院AI速递 20251117
腾讯研究院· 2025-11-17 00:01
开源欧拉操作系统进展 - 开源欧拉社区发布全球首个专为AI打造的超节点操作系统,计划于2025年底上线[1] - 社区生态发展迅速,成员单位超过2100家,全球贡献者突破2.3万人[1] - 新操作系统具备全局资源抽象、异构资源融合和全局资源视图三大特征,旨在释放超节点算力潜能[1] - 灵衢互联协议2.0开放,将贡献支持超节点的操作系统插件代码,提供内存统一编址等关键能力[1] 谷歌AI模型与产品动态 - 谷歌CEO对Gemini 3.0下周登场的传闻作出回应,69%网友押注其即将发布[2] - 内测显示Gemini 3.0能力强大,可一句话生成操作系统、动态构建Windows系统、5秒搭建网站[2] - 巴菲特已投入43亿美元重仓谷歌股票,市场对Gemini 3.0寄予厚望[2] - 谷歌DeepMind推出SIMA 2智能体,能像人类一样观看屏幕使用虚拟键鼠打游戏,具备推理和学习能力[3] - SIMA 2可理解多模态提示并通过自我学习实现提升,采用符号回归方法并整合Gemini作为核心引擎[3] - 谷歌NotebookLM推出Deep Research功能,可自动收集相关网页源并在几分钟内为用户搭建专属资料库[7] - NotebookLM支持2500万token上下文处理,所有回答基于用户提供的来源且带引用标注,可验证性强[7] AI操作系统与记忆系统创新 - 陈天桥盛大团队推出EverMemOS长期记忆操作系统,在特定评测集上取得92.3%和82%的高分,超越现有最佳水平[4] - 该系统受人脑记忆机制启发,采用四层架构,通过分层记忆提取与动态组织解决检索难题[4] - 目前已在Github开源,预计今年晚些时候发布云服务版本,为企业提供数据持久化体验[4] 消费级AI硬件产品 - 前Meta员工创立的Sandbar发布Stream智能戒指,售价249-299美元,专注于“语音鼠标”式AI语音交互[5] - 产品采用“握拳私语”交互方式,按住触控板激活录音,可动态切换多个大模型处理任务,但续航仅16-20小时[6] - 配套iOS App使用ElevenLabs生成语音模型模仿用户声音,所有数据端到端加密不保存原始音频[6] AI基础研究与科学发现 - 北京大学团队推出AI-Newton系统,采用符号回归方法,在无监督、无物理先验知识前提下重新发现牛顿第二定律等基础物理规律[8] - 系统在测试中平均识别出约90个物理概念和50条一般定律,展现出渐进性和多样性两大特性[8] - OpenAI发布可解释性新研究,提出训练稀疏模型使内部机制更易被理解,通过找出“最小回路”并量化可解释性[9] - 研究发现训练更大更稀疏的模型可生成功能更强但回路更简单的模型,但该研究仍处早期阶段[9] xAI与马斯克的AI战略 - 马斯克在X与特斯拉双平台推进xAI,其Colossus超算数据中心在122天内部署20万块H100 GPU,用于训练Grok系列模型[10] - xAI采用“求真、不设禁忌”路线,让AI生成合成数据重构知识体系,特斯拉下一代AI5芯片性能将提升40倍[10] - Grok很快将进入特斯拉汽车,xAI开源Grok-2.5模型并计划半年后开放Grok-3,马斯克预计2030年AI总体能力可能超越全人类[11]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-15 10:30
算力与基础设施 - OpenAI和Anthropic等公司正积极进行AI基础设施建设和数据中心合作[3] 模型发布与进展 - OpenAI密集推进模型迭代,包括Grok 4 Fast、GPT-5-Codex Mini、Polaris Alpha和GPT-5 1等多个模型[3] - 其他重要模型发布包括火山的SeedCode、谷歌的神秘模型、百度的文心5 0和新浪微博的VibeThinker-1 5B[3] AI应用与产品更新 - 谷歌发布多款应用产品,包括Nano Banana 2、Google Finance升级和Gemini Live语音功能[3][4] - 中国公司应用创新活跃,美团推出CatPaw编程工具,百度发布小度AI眼镜Pro,商汤推出SenseNova-SI[3] - 其他应用进展包括Meta的Omnilingual ASR、OpenAI的群聊功能、Gamma的API开放以及混元图像3 0接入LiblibAI[3][4] 前沿科技研究 - 生物科技领域,Xaira Therapeutics致力于AI驱动的抗体设计[4] - 太空与机器人技术方面,中国航天有登月计划,银河通用进行灵巧手升级,浙江大学研究太空数据中心[4] - 谷歌在AI推理领域取得进展,发布了AlphaProof[4] 行业观点与洞察 - 行业关注AI六巨头引领的AI革命以及麦肯锡对AI财务回报的分析[4] - 专家观点包括李飞飞对AI下个十年的展望,以及Anthropic提出的AI见顶错觉[4] - 创业与开发领域,YC关注AI创业,Hugging Face发布AI训练指南,月之暗面有K2 Thinking评测和训练动态[4] 资本市场与事件 - 资本市场出现新动向,Utopai Studios获得韩娱投资,华为投资极佳视界[4] - 重要人事变动为LeCun离职创业[4]
腾讯探元计划2024:“文化+科技”解题新思路!
腾讯研究院· 2025-11-14 18:13
文章核心观点 - 腾讯探元计划已从单纯的文化遗产研究项目,演变为一个能解决实际问题、可复制推广的文化科技创新生态[5][7] - 该计划通过技术赋能、模式创新与生态共建,实现了文化遗产保护从"示范案例"到"可感场景"的转变,让千年文明在数字空间获得新生[9][21][26] - 项目体现了超越短期商业回报的长期主义价值观,通过持续投入形成独特的"文化复利"效应,推动行业可持续发展[41][42] 技术赋能维度 - 构建"手艺+数字"双轨保护机制,将高精度扫描、AI识别、数字孪生等前沿技术系统引入文保现场[23] - 设定六大技术议题方向,覆盖数字化采集、知识协同到内容创新全链条,集中攻关生成式AI、空间计算等创新技术[23] - 平台开放预训练模型、三维重建工具等免费工具箱,共享数字文物库、甲骨文数据集等权威资源[25] - 具体技术突破包括:太赫兹技术穿透千年烟渍让克孜尔壁画重见天日,光度立体技术实现龙门石窟毫米级三维重建[8][23][30] 模式创新维度 - 参与主体从"被动邀请"转向"主动涌入",2024年共创落地型赛道收到130家机构的161个方案,38个项目进入深度共创[17] - 资源投入升级为系统化支持体系:创新探索型TOP10项目各获20万元支持,共创落地型项目可获得数十万至百万不等资金扶持[18] - 设立开放日机制确保技术落地,全年六场活动深入文化现场验证技术路线合理性[29] - 高校赛道聚焦"从0到1"的应用研究创新,每个入选项目获得20万元资金支持[29] 生态共建维度 - 构建"场景方+技术方+平台方"三方共建模式,文博机构提出痛点,技术团队提供解决方案,腾讯扮演连接器与放大器角色[34] - 解决行业三大核心困境:从机构单方责任到多元生态协同,从初心愿景到工具落地,从临时项目到长效陪伴[36] - 成果获得权威认可,入选《世界互联网大会文化遗产数字化案例集(2025)》并在法国博博会展示[7][37] - 以景德镇项目为例,搭建"千馆万瓷"数字平台,实现文物保护与现代陶瓷产业的双向赋能[33] 项目成果与影响 - 2024年六个共创落地型项目涵盖石窟保护、丝织复原、文化体验等多领域,如湖南博物院数字仿真复原马王堆丝织纹样[30] - 技术成果包括:AI虚拟补全克孜尔石窟残缺壁画,景德镇建立陶瓷"数字基因库"实现分子级光学孪生[8][20] - 项目突破"文化保护=公益投入"固有认知,找到社会价值与商业价值的平衡点,形成可复用的标准化工具包[31][33]
关于模型治理,中美欧的差异与共识
腾讯研究院· 2025-11-14 18:13
文章核心观点 - 人工智能治理正从基于规则的智能转向自我学习进化的智能,模型治理成为关键议题 [2] - 中美欧在通用及前沿大模型治理上形成三种差异化路径:欧盟构建复杂义务体系,美国加州采取轻监管模式,中国从应用场景延伸至模型治理 [2][3] - 三方共性包括柔性治理倾向、构建评估生态、以透明度为核心工具,差异体现在监管范围、义务强度与风险判断逻辑 [2][11][12] 欧盟模型治理路径 - 在原有AI系统四级风险体系外,平行构建针对通用模型的治理机制,区分有无"系统性风险"的模型 [4] - 系统性风险判断结合理念性标准(如"高影响能力")与技术性量化指标(如训练计算量超过10^26 FLOPs) [4] - 模型义务扩展至应用场景,如要求模型提供者构建未来风险情景和收集最终用户反馈,超出其对模型自身的控制范围 [5] - 治理框架复杂笨重,模型风险与应用风险混同,导致模型提供者承担无法预见的责任,欧盟正推动立法简化方案 [5] 美国加州模型治理路径 - 监管起点高且范围窄,仅覆盖训练计算量超过10^26 FLOPs的"前沿开发者","大型前沿开发者"需额外满足年总收入超5亿美元门槛 [5] - 义务轻量化,透明度报告仅要求基础信息,如网站、沟通机制和预期用途,对比欧盟对技术文档的细节要求极为限缩 [5][6] - 立法主线为促进产业发展,避免过多制约,过去三年出台的AI法规多针对细分场景(如伴侣聊天机器人、医疗AI误用) [6] 中国模型治理路径 - 以应用服务为切入点,自下而上延伸至模型治理,通过算法推荐、深度合成、生成式AI等服务规制间接约束模型层 [7][8] - 采用"内生风险—应用风险—衍生风险"三层结构,将模型算法风险归入内生风险范畴(如可解释性不足、鲁棒性不强),厘清风险边界 [9] - 治理工具务实,依托算法备案、安全评估、内容标识等具体抓手,形成系统完善的治理机制 [8][9] 三方治理共性 - 均体现柔性治理倾向:欧盟《实践准则》为自愿性承诺,美国加州SB 53以企业自律主导,中国以指导性文件推进治理 [11] - 重视构建评估生态:欧盟建议社区驱动模型评估榜单,美国要求第三方灾难性风险评估,中国提出建立安全测评体系 [11] - 透明度成为核心工具:欧盟按披露对象分级设置信息层级,加州按开发者规模纵向分级,中国通过算法备案实现模型功能可见性 [12]
腾讯研究院AI速递 20251114
腾讯研究院· 2025-11-14 00:03
生成式AI模型发布与升级 - OpenAI发布GPT-5.1系列模型,包含更温暖智能、善于遵循指令的GPT-5.1 Instant模型,以及在复杂任务上更持久、更易理解的高级推理模型GPT-5.1 Thinking [1] - 百度正式发布文心5.0,该模型为原生全模态模型,总参数规模超2.4万亿,激活比例低于3%,在LMArena文本排行榜得分1432 [5] - 腾讯混元图像3.0上线,具备世界知识推理能力,可生成带逻辑的连续性内容,支持千字级复杂提示词,美学效果接近商业级模型 [5] - 新浪微博发布并开源VibeThinker-1.5B模型,仅15亿参数,训练成本不足8000美元,在顶级数学竞赛基准上击败近万亿参数模型 [6][7] AI多模态与3D内容生成 - 李飞飞团队World Labs开放3D世界生成模型Marble,支持文本、图像、视频、3D布局等多模态输入,并首创AI原生编辑工具进行局部替换和结构调整 [2] - Marble模型提供从免费版(每月7000点数)至旗舰版(每月120000点数)的四档订阅,支持多种导出格式可直接导入游戏引擎 [2] AI基础设施与战略合作 - Anthropic与英国云服务商Fluidstack达成500亿美元数据中心合作协议,将在得克萨斯州和纽约州建设定制化设施,符合其预计到2028年实现700亿美元收入和170亿美元正向现金流的内部预测 [3] AI语音交互技术 - 谷歌Gemini Live语音功能升级,支持实时语速调节、情绪化语气响应及风格化语音,基于Gemini2.5 Flash模型深度优化语音引擎,提升对语调、重音等微变的建模能力 [4] - 升级后的语音功能可无缝融入Google生态,在Maps中可直接查询,靠近Pixel Watch可无声启动对话,所有语音数据默认不存储 [4] AI前沿研究与性能评估 - Google DeepMind的AlphaProof系统技术细节公开,其在2024年IMO中获得28分银牌,核心创新在于将Lean形式化语言与强化学习结合,并采用"测试时强化学习"技术 [8] - LMArena发布新世代大模型编码评估系统Code Arena,国产模型智谱GLM-4.6在榜单中登顶,其代码修改成功率达94.9%,与顶尖闭源模型差距缩小到基点级别 [9]