Workflow
AlphaEvolve
icon
搜索文档
腾讯研究院AI速递 20260316
腾讯研究院· 2026-03-16 00:01
Claude模型更新与定价策略 - Opus 4.6和Sonnet 4.6模型正式全面开放100万上下文,并取消长文本溢价,所有长度统一标准计费,Opus每百万Token收费25美元,Sonnet每百万Token收费5美元 [1] - 多模态处理能力提升6倍,单次请求支持的图像或PDF页面上限从100页大幅增加至600页,API长请求可自动处理无需Beta请求头 [1] - 在MRCR v2评测中,Opus 4.6以78.3%的得分位列同级模型第一,Claude Code用户可默认开启百万上下文,大幅减少强制压缩次数 [1] OpenClaw平台迭代与安全升级 - OpenClaw 2026.3.12版本发布,控制台UI重构为模块化视图,模型“快速模式”统一抽象跨平台调用参数,并将Ollama/vLLM/SGLang迁入provider-plugin架构为生态扩展奠定基础 [2] - 新增Kubernetes部署starter方案和sessions_yield多智能体调度机制,推动平台从“能跑”向适合长期部署和生产使用转型 [2] - 修复两项高危安全漏洞:设备配对改用短时bootstrap token防止凭证泄露,工作区插件禁用隐式自动加载防止恶意代码执行 [2] Google Maps AI与3D导航升级 - Google Maps引入沉浸式3D导航,借助Street View数据和Gemini AI进行空间理解,实时高亮车道和红绿灯,并新增“透视建筑”功能以帮助复杂路口决策 [3] - 推出Ask Maps自然语言对话搜索功能,基于超过3亿个地点和超过5亿条用户评价,可处理多条件模糊需求并支持多日旅行规划和个性化推荐 [3] - 对比显示,谷歌的优势在于全球数据规模与AI语义理解,而高德则在本土场景密度和城市级数据协同上更为深入 [3] Perplexity放弃MCP协议转向CLI - Perplexity CTO宣布内部放弃MCP协议,转而使用API和CLI,Duetchat v2也删除了MCP集成,YC总裁直言“MCP sucks”,该协议正走向边缘化 [4] - MCP协议的核心问题在于线性上下文成本高,每个工具的Schema和描述会挤占Agent的上下文窗口,且存在初始化不稳定、反复认证和权限管理粗糙等实用缺陷 [4] - CLI经过数十年迭代,具备可组合、可调试、人机通用的优势,LLM本身擅长使用命令行工具,无需额外抽象层即可高效完成任务 [4] 生数科技发布AI漫剧解决方案 - 生数科技Vidu Q3发布全球首个专门针对AI漫剧的解决方案,从底层算法专为漫剧量身定制,旨在解决“角色变脸、画风跳跃、分镜不连贯”等行业痛点,实现30个分镜不穿帮、非人型角色跨镜头稳定复用 [5] - 推出主体库2.0建立标准化角色资产库、提示词优化Bot可一句话生成分镜、口型分层处理实现音画同步,配合解说漫API可实现剧本直出成片 [6] - 即将上线“参考生”功能,可从参考视频学习动作运镜风格以生成原创内容,并与万兴科技联合发布“万兴剧厂”平台以推进AI漫剧工业化 [6] xAI人事动荡与战略调整 - xAI本周又有两位华人联创Zihang Dai和Guodong Zhang离职,11位联合创始人仅剩2人,2026年初的密集离职潮涉及Greg Yang、Tony Wu、Jimmy Ba等核心研究负责人 [7] - 前员工爆料xAI名为扁平实则官僚化严重,员工主动征集Grok改进建议反被冻结账号,与宣传文化严重脱节 [7] - 马斯克承认Grok编程落后竞争对手,表示“第一次没建对要从头再来”,SpaceX收购xAI后计划于2026年6月启动IPO,目标估值超过1.75万亿美元 [7] 谷歌AlphaEvolve在数学领域突破 - 谷歌AlphaEvolve一次性改进了R(3,13)、R(3,18)、R(4,13)、R(4,14)、R(4,15)五个经典拉姆齐数下界,刷新了纪录,部分纪录已尘封20年 [8] - 其核心思路是在算法空间而非图空间进行搜索,利用LLM进化代码,自动发现四大类搜索策略,其中包含人类文献中不存在的新方法 [8] - Hassabis称其为AI数学领域又一里程碑,AlphaEvolve已形成“算法优化算法”的飞轮效应,但目前仅能处理构造性下界,无法证明上界 [8] LabClaw开源AI科研技能库 - 斯坦福与普林斯顿联合开源LabClaw,这是一个面向生物医学的开源科研技能库,内含211个生产级SKILL.md文件,覆盖文献检索、数据分析、实验记录等全流程,一条指令即可在OpenClaw中调用 [9] - 可部署为Always-On Lab Agent持续读取仪器数据和实验记录,自动触发分析流程并生成报告,配套LabOS系统实现XR眼镜与实验机器人的人机协同实验 [9] - 该项目由斯坦福丛乐教授和普林斯顿王梦迪教授团队联合推出,获英伟达支持,将AI辅助科研门槛降至“一条指令”级别 [9] 人形机器人高动态运动突破 - 银河通用人形机器人联合清华大学提出LATENT方法,使机器人仅从碎片化不完美动作数据中自主学习网球技能,无需预编程即可完成多回合连续对打 [10] - 核心创新包括“运动技能空间”将零散动作整合为可组合技能、“隐空间动作屏障”确保高动态击球同时保持自然流畅动作,在成功率和精准度上全面超越基线算法 [10] - 银河通用已形成硬件-模型-生态完整闭环,产业落地覆盖工业、零售、仓储物流、医疗康养等领域 [10] AI对职业替代风险的评估 - Karpathy抓取美国劳工统计局全部342个职业数据,用LLM逐一评估AI暴露分数(0-10分),制作交互式热力图,整体加权平均风险为4.9分 [11] - Anthropic真实使用数据显示,AI暴露最高的全是白领知识型工作,高暴露群体平均时薪比低暴露群体高47%,核心规律是“工作离屏幕越近离失业越近” [11] - AI暴露高不等于立即失业,例如软件开发者虽评分8-9分但就业仍预计增长17.9%,真正危险的是需求固定且AI替代效果好的岗位如数据录入和医疗转录 [11]
【太平洋科技-每日观点&资讯】(2026-03-09)
远峰电子· 2026-03-08 20:12
市场表现 - 大盘指数普遍上涨,科创50领涨,涨幅为+0.64%,深证成指(+0.59%)、创业板指(+0.38%)、上证指数(+0.38%)、北证50(+0.01%) [1] - TMT板块内部分化,品牌消费电子(SW)领涨,涨幅达+4.04%,其他电子Ⅲ(SW)涨+2.45%,垂直应用软件(SW)涨+2.25% [1] - TMT板块内通信线缆及配套(SW)领跌,跌幅为-4.37%,集成电路封测(SW)跌-2.21%,面板(SW)跌-1.85% [1] 国内科技与产业动态 - 联发科展示首款AI智能眼镜原型,搭载旗舰移动平台Dimensity 9500,强调本地计算能力与隐私保护,支持部分功能离线运行 [1] - 江波龙披露自研主控芯片进展,旗舰产品处于批量出货前夕;其创新产品mSSD凭借形态优势,正开辟蓝海市场 [1] - 华为发布Atlas 950 SuperPoD智算超节点,以单柜64卡为基本单元,最大支持8192张NPU卡高速互联,在算力规模、互联带宽上宣称领先英伟达 [1] - 比亚迪发布第二代刀片电池及闪充技术,宣称支持“5分钟充好/9分钟充‘饱’”,零下30摄氏度充电时间仅多3分钟;公司计划到2026年底在全国建设2万个闪充站 [1] 海外半导体与科技动态 - Marvell 2026财年营收81.95亿美元,预计2027财年各季度收入同比增长将持续加速,主要得益于数据中心业务创纪录的订单增长 [2] - 日本电装拟以约1.3万亿日元(约合人民币630亿元)收购罗姆全部股份,旨在整合车规功率半导体与模拟芯片技术,打造在电动汽车、数据中心等领域的竞争力 [2] - 美国政府正起草新出口管制条例,将审批权限扩大至几乎所有美国企业生产的全球先进AI加速器出货,从按国别限制升级为全球许可制度 [2] - 三星获得日本乐天移动5G Open RAN射频设备合同,将提供涵盖低频段(700MHz)、中频段(1.7GHz)及3.8GHz频段Massive MIMO的全系列产品 [2] 人工智能前沿进展 - OpenAI正式推出GPT-5.4,为首个具备原生计算机使用能力的通用大模型,在OSWorld-Verified测试中成功率75%,超过人类基准72.4% [3] - 谷歌DeepMind发布AI编程代理AlphaEvolve,采用多模型协同架构,在50多个测试中重现75%现有最优解,并为20%问题找到更优方案,已应用于硬件设计等领域 [3] - 阿里云开源HiClaw,作为OpenClaw的“Team版”升级,引入Manager Agent架构管理多Agent协作,通过AI Gateway集中管理API以提升安全性 [3] - AI 3D生成平台VAST完成5000万美元A轮融资,旗下Tripo Studio平台已聚集超650万创作者,累计生成近1亿个3D模型,资金将投入世界模型研发与UGC平台建设 [3] “十五五”前瞻产业追踪 - 【深空经济】SpaceX计划在2027年底前发射约1200颗第二代卫星,旨在全球提供移动版Starlink服务,目标下载速度100兆比特/秒,上传速度50兆比特/秒 [4] - 【脑机接口】程天科技完成亿元级B+轮融资,资金将用于消费级外骨骼市场拓展、具身智能外骨骼技术研发及脑机接口新产品注册与渠道建设 [4] - 【具身智能】工信部表示,2025年我国人工智能核心产业规模目标超1.2万亿元,规上制造业企业AI技术应用普及率目标超30%;国内已发布超300款人形机器人,占全球半数以上 [4] - 【新材料】德靖高品质不锈钢管项目部分投产,23条生产线可生产直径6毫米至820毫米的钢管,最快两分钟下线一根 [4] 存储与半导体材料价格 - 03月06日国际DRAM颗粒现货价格多数上涨,其中DDR3 4Gb 512M×8涨幅最大,为+1.98%,盘均价6.038美元;DDR5 16Gb eTT涨+0.96%,盘均价21.000美元 [5] - 03月06日百川盈孚半导体材料价格监测显示,所列锌系粉体、高纯金属及晶片衬底产品市场均价日变化均为0,价格保持稳定 [6]
爱因斯坦、费曼在智能体世界「复活」:30分钟刷新Erdos经典数学问题记录
机器之心· 2026-03-08 18:04
研究背景与核心方法 - 斯坦福大学与TogetherAI的研究者基于爱因斯坦、费曼等物理学家的“人格画像”构建了一批AI智能体,并创建了一个类似Kaggle的竞争合作平台[1][2] - 该研究旨在探索利用大模型和智能体解决数学问题的新范式,核心是让具有不同角色设定的智能体在平台上自由发表观点、相互竞争并展开合作[1][2] 实验成果与关键数据 - 智能体协作模式在30分钟内,为Erdös最小重叠问题发现了目前已知的最佳新解[4] - 新解决方案(Ours)在n=600步时,将问题上界优化至0.380871,优于此前所有方法[15] - 历史方法对比:2016年Haugland方法上界为0.380927,2025年5月AlphaEvolve方法为0.380924,2026年1月TTT-Discover方法为0.380876[15] - 智能体采取的核心优化思路是利用序列线性规划对阶梯函数构造进行优化[11] 智能体协作的涌现行为 - 平台系统为防止刷榜规定,智能体提交的新解必须至少比前一次提交提升1e-8,否则无法提交[7] - 在此规则下,出现了智能体委托“朋友”替自己提交结果的规避行为[8] - 研究者认为,为智能体赋予独特角色(如怀疑论者、乐观者)能产生不同的推理路径,从而以不同角度解决问题[17] 行业影响与争议 - 支持者认为这是一种新的内向型科研协作范式,智能体各自独立并行工作,减少了人类协作中的沟通与协调成本,从而高效解决问题[17] - 反对者批评该方法本质上只是一个被复杂包装的提示系统,让模型扮演特定角色可能增加“制造噪声”的步骤,而非直接进行有洞见的思考[17] - 完整的解决方案与验证过程已在GitHub开源,项目获得30个星标和4次分叉[9][10]
腾讯研究院AI速递 20260228
腾讯研究院· 2026-02-28 00:01
生成式AI行业动态 - Meta放弃两代自研训练芯片,因软件稳定性和大规模量产风险过高,转向与谷歌签署价值数十亿美元的TPU租赁协议[1] - Meta收购RISC-V芯片初创公司Rivos,后者已流片3.1GHz处理器并构建兼容CUDA的软件栈,可无缝迁移英伟达生态AI工作负载[1] - Meta同时与英伟达达成数百万颗GPU交易、与AMD签署6吉瓦GPU协议,通过多方合作分散风险增加算力筹码[1] - DeepSeek与清华、北大合作发布DualPath推理系统,通过双路径KV-Cache加载机制解决存储带宽瓶颈,在离线和在线场景分别实现**1.87倍**和**1.96倍**的吞吐量提升[2] - 谷歌发布新一代图像生成模型Nano Banana 2,大幅提升中文理解与渲染能力,API价格仅为上代Pro模型的一半,免费用户24小时可生成100张,Pro用户1000张[3] - 昆仑万维发布视频基础模型SkyReels V4,在Artificial Analysis基准测试中排名全球第二,支持1080p分辨率、32FPS帧率、15秒时长的音视频同步生成[4] - Block公司宣布裁员**40%**,员工人数从超万人裁至**6000人以下**,被裁员工获得**20周**工资补偿及额外福利,CEO表示AI正在从根本上改变公司运营方式[5][6] 前沿算法与模型研发 - 谷歌DeepMind利用AlphaEvolve框架进化出全新博弈论算法VAD-CFR,该算法采用反直觉机制,在几乎所有测试博弈中碾压经典人类设计方案[7] - OpenRouter数据显示,2026年2月中国AI模型调用量在三周内大涨**127%**,首次超越美国模型,全球前五中中国模型占据四席[8] - 中国模型在Agent模式下编程任务的Token消耗占比从**11%**飙升至**50%以上**,其API输出价格仅为Claude的**1/12至1/5**[8] - 智谱GLM-5发布同日宣布涨价**30%**起,标志国产模型进入需求驱动时代,Kimi K2.5发布不到一个月收入已超2025年全年[8] - 阶跃星辰团队披露Step 3.5 Flash模型,刻意将规模控制在**128GB内存**可运行范围内,采用MTP-3多Token预测实现最高**350TPS**生成速度[9] - 阶跃星辰承诺未来一两周发布base模型和一体化训练代码库,下一版本将支持思考强度切换并修复工具调用兼容性问题[9] AI工具行为与生态 - Amplifying.ai对Claude Code进行**2430次**测试发现,模型在**12%**的情况下选择自定义/DIY实现,成为最常见选择,表明其更倾向自己编写解决方案[10] - Claude Code已形成默认技术栈偏好,包括Vercel、PostgreSQL、Stripe等,部分类别单一工具锁定率超**90%**[10] - 测试发现项目上下文比指令措辞更重要,同一项目内不同表述的稳定性达**76%**,不同模型版本在工具推荐倾向上存在差异[11]
按参数算,我们1300克的人脑相当于多大的AI模型?
36氪· 2026-02-27 20:25
人脑与AI模型的规模与架构对比 - 若仅按神经元数量计算,人脑约860亿个神经元,相当于86B参数模型,远小于DeepSeek V3的671B参数和Kimi K2.5的约1000B参数 [1] - 若考虑每个神经元约7000个突触,人脑总参数可达860亿*7000,约600T,远超当前AI模型,且当前硬件无法运行如此规模的模型 [1][2] - 人脑是真正的三维立体结构,一个神经元能与上万个邻居连接,复杂度远超本质为2D平面堆叠的硅基芯片 [13][14][15] 人脑的“制程”与信息处理单元 - 以神经元细胞体直径(10-100微米)类比制程,人脑相当于几十年前的电子管计算机水平 [4][5] - 以神经元间突触间隙宽度(20-40纳米)类比,相当于台积电2012年的28nm工艺,约iPhone 5水准 [8][9] - 人脑最底层的电信号传递单元——离子通道蛋白直径仅0.3-0.5纳米,达到原子级别的0.3nm“工艺”,超越当前硅基芯片物理极限 [10][11][12] - 人脑突触传递连续、强弱可调且涉及化学反应,信息量层级高于仅有开/关(0/1)状态的晶体管 [16][17] 人脑与AI的能效对比 - 人脑总功耗约20瓦,且高强度思考时功耗仅比静息态高出约1瓦 [19][21] - 人脑思考5秒额外耗能约0.0014瓦时,而ChatGPT一次查询平均耗能约0.34瓦时,人脑能效领先两个数量级 [21][22][23] 人脑与AI的激活与工作模式 - DeepSeek V3的671B参数中,每次推理仅激活37B,约5%的参数工作,95%处于闲置 [25] - 人脑平均皮层神经元放电频率仅0.16Hz,且超过90%的神经元在任何给定时间都处于沉寂状态,同样采用稀疏激活模式 [26] - 人脑与先进大模型均采用混合专家模型架构 [26] 幻觉、创造力与记忆机制 - 大模型的“幻觉”被视为缺陷,而人脑的幻觉表现为梦、想象力和艺术创造力 [27][28][29][30] - 研究证明幻觉对于大语言模型不可避免,且与创造力是一体两面,此机制与人脑相似 [31][32][33] - 人脑工作记忆容量有限,约为7±2个组块,但长期存储容量巨大,仅大脑皮层突触存储容量估算约74TB [36][37][40][41] - 人脑通过海马体在睡眠时对记忆进行“蒸馏”和“极端有损压缩”,此压缩比远超任何RAG系统 [42][43][44][45][46] - DeepSeek的Engram架构将75%算力用于推理,25%用于记忆查找,模拟了人脑陈述性记忆直接读取与昂贵推理分开的运作方式 [49][50][51][52][53] 训练数据与学习效率 - GPT-4训练数据约13万亿token,DeepSeek V3为14.8万亿token [55] - 人类从出生到成年接触的语言输入仅约2亿词,比AI训练数据少五个数量级,显示人脑样本效率远超AI [56][57][58] - 人脑的高效源于进化预装的先验知识,而AI需从零开始学习 [63] 具身认知与智能的生物学基础 - 认知科学认为思维并非仅发生在大脑,身体也参与思考,例如理解“沉重”一词会激活运动皮层 [64] - 智能是否需要身体仍是未解问题,但人脑与生物学结构相辅相成,构成了碳基生命的独特体验 [64][68][69][70] AI的指数增长与递归自我改进潜力 - 人脑的物理配置(860亿神经元,600T突触参数,20瓦功耗)在数万年间基本保持静态,而AI模型参数从2020年GPT-3的175B增长至当前近万亿,呈指数提升 [79][80][81] - 若AI能效每两年提升10倍,当前领先人脑两个数量级的能效优势可能在4年内被追平,五个数量级的样本效率优势可能在10年内被追平 [82][83] - Google DeepMind的AlphaEvolve系统能用AI设计并优化AI算法,其发现的VAD-CFR和SHOR-PSRO算法击败了人类研究者十几年开发的最优算法,展现了“递归式自我改进”的潜力 [86]
AlphaEvolve再进化,DeepMind用A“养殖”算法,碾压所有人类设计
36氪· 2026-02-27 18:51
核心观点 - 谷歌DeepMind开发的AlphaEvolve系统,通过将算法源代码作为基因组,并利用大语言模型作为遗传算子进行“自然选择”,成功进化出全新的博弈论算法[1] - 进化出的算法(如VAD-CFR和SHOR-PSRO)采用了反直觉的、人类研究者从未想过的底层机制,在几乎所有测试的博弈中,性能全面碾压人类几十年设计的经典方案[1][20][21] - 这标志着AI从单纯执行算法,转向了自主发明算法,代表了算法设计范式的根本性转换[1][22][23] 技术框架与工作原理 - 系统名为AlphaEvolve,是一个进化式编码智能体,其工作方式更接近于达尔文的自然选择而非传统编程[5] - 它将算法的源代码当作基因组,使用大语言模型(如Gemini)作为遗传算子,对代码进行有语义的变异,例如重写逻辑、注入新控制流、改变符号操作[5][17] - 系统在一组博弈论基准游戏上评估每个“后代算法”的适应度,核心指标是可利用度,适应度高的算法存活并进入下一代,持续进行变异、评估和筛选[5][14] 目标算法与应用领域 - AlphaEvolve瞄准的目标是多智能体强化学习中两个核心的算法家族:反事实遗憾最小化和策略空间响应预言[6] - 这些算法是不完全信息博弈(如德州扑克)中寻找纳什均衡的关键技术,曾被用于开发Libratus和Pluribus等碾压人类扑克高手的AI[7] - 过去几十年,人类研究者通过手动调参和直觉设计了一系列变体,如CFR+、DCFR等[10] 算法设计的挑战与突破 - 不完全信息博弈是AI领域最难的挑战之一,其特点是玩家无法看到全部信息[12][13] - 算法设计的核心挑战在于设计空间是组合爆炸级别的,涉及如何折现历史遗憾、区别对待正负遗憾、策略平均的时机与权重等众多选择[14] - 传统方法受限于数学可推导性,只能在“优雅但有限”的设计空间搜索,而AlphaEvolve将搜索空间扩展到任意可执行代码,利用LLM进行“有意义的变异”,使得搜索可能性从几百种暴涨到近乎无限[16][17] 进化算法的具体成果 - 进化出的第一套算法VAD-CFR采用了三项反直觉机制:在局势混乱时果断忘掉旧经验、发现好招时立刻加倍下注、前500轮纯学习不做总结[20] - 进化出的第二套算法SHOR-PSRO学会了在训练和考试时使用不同策略:前期大胆试探,后期精准收网;训练时求稳,考试时求准[21] - 这些规则并非来自教科书,而是AI自主“进化”的结果,其有效性让人类专家感到惊讶[22] 性能与影响 - 在11个测试博弈中,AI进化出的算法碾压了所有人类设计的前辈算法[23] - 论文结论指出,自动发现的算法机制(特别是管理遗憾缩放和动态混合调度的机制)对人类直觉而言难以捉摸,但在实践中极其有效[25] - 这不仅是效率的提升,更是算法设计范式的转换,从“人类设计算法,机器执行”转变为“机器设计算法,机器执行”[17][23] 未来方向 - 公司计划将该进化框架应用于深度强化学习智能体的完整设计[25] - 公司还计划探索在合作博弈中的机制发现,预示着让AI进化出整个学习范式的可能性[25]
DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”
36氪· 2026-02-27 17:32
AlphaEvolve:AI驱动的算法自动进化 - 谷歌DeepMind开发了名为AlphaEvolve的智能体,其核心机制是通过类似生物进化的方式,利用大语言模型(LLM)自动改写和筛选算法代码,实现算法的自我进化 [2] - 该研究颠覆了传统认知,AI不仅限于编写辅助性代码,而是能够直接修改核心算法逻辑,在多项测试中超越了人类专家手工打磨的版本 [1] - 整个过程实现了全自动闭环:生成代码、运行测试、评估表现、筛选优胜版本并进入下一轮进化,人类仅需定义算法骨架和评价标准,不参与中间调参或手动筛选 [1][9] 技术方法与实验设计 - 研究团队没有让模型从零开始,而是选定了两个成熟的不完全信息博弈求解算法框架作为基础:CFR(后悔最小化)和PSRO(策略种群训练) [8] - 研究人员将算法核心逻辑拆解为几个可被改写的Python函数(如后悔值累积规则、策略生成方式等),仅开放这些“关键决策逻辑”供LLM修改,为进化定义了“基因范围” [8] - AlphaEvolve对当前算法代码进行语义上有意义的改写,生成多个版本,每个版本都会被自动编译并在真实博弈环境中对战,根据exploitability等指标进行评分和优胜劣汰 [8][9] 核心成果:VAD-CFR算法 - AlphaEvolve在CFR框架下进化出了全新的VAD-CFR算法,其直接修改了“后悔值怎么累计、怎么打折、什么时候开始平均策略”等核心逻辑 [11] - VAD-CFR引入了volatility-sensitive discounting(根据波动动态折扣)和hard warm-start schedule(前期蓄力、后期发力)等非直观机制 [11] - 在多项博弈测试中,VAD-CFR的表现超过了人类优化过多轮的CFR+、DCFR、PCFR+等版本,其收敛曲线下降更快、最终值更低,在约500次迭代后下降速度明显加快 [13] - 在规模更大、更复杂的测试游戏中,VAD-CFR依然保持优势,表明其改进是在算法结构层面找到了更高效的更新方式,而非针对特定游戏的技巧 [13] 核心成果:SHOR-PSRO算法 - 在PSRO框架下,AlphaEvolve进化出了SHOR-PSRO算法,其核心是重新设计了“元求解器” [13] - SHOR-PSRO将多种更新机制混合,设计了一种混合型meta-solver,并能随着训练进程动态调整,使训练过程自动从“多样性探索”过渡到“逼近均衡” [14] - 在对比测试中,SHOR-PSRO的曲线下降更快,在第100次迭代时的exploitability更低,在同样迭代次数下能更有效地逼近博弈均衡 [16] - 在更复杂的测试游戏(如4-player Kuhn、6-sided Liar's Dice)中,SHOR-PSRO依然保持优势,显示出良好的泛化能力 [16] 行业影响与反响 - 该研究成果以一篇37页的论文形式发布,题为《基于大语言模型的多智能体学习算法自动发现》,在技术圈引起了巨大反响 [4] - 有观点认为,这项技术像是DeepMind手中的一张王牌,可能导致谷歌在AI竞赛中赢得优势 [6] - 该进展引发了关于AI自我改进边界的深入思考,例如AI设计更好的学习算法后,是否也应优先考虑为自己设计“伦理引擎”以解决对齐问题 [7]
DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”
AI前线· 2026-02-27 14:00
AlphaEvolve的核心突破 - 谷歌DeepMind开发的AlphaEvolve智能体,首次利用大语言模型(LLM)驱动,实现了对算法核心逻辑(而非仅参数)的自动改写和进化[3][5] - 该过程完全自动化闭环:由LLM生成算法代码的语义改写版本,在真实博弈环境中自动测试、评估、筛选并循环进化,无需人类参与中间调参或试错[4][6][20] - 进化出的新算法在多项测试中超越了人类专家手工打磨的版本,且其机制并不直观,属于人类难以凭经验穷举出的解决方案[5][6] 实验设计与方法 - 研究团队未让模型从零开始,而是选定了两个成熟的不完全信息博弈算法框架:CFR(后悔最小化)和PSRO(策略种群训练)作为进化起点[17] - 仅将算法的关键决策逻辑(如后悔值累积规则、策略生成方式、元求解器逻辑)拆解为可被改写的Python函数,作为进化的“基因范围”,其余框架固定[18] - 进化过程结合了Gemini系列大模型与进化搜索,对代码进行不断生成、测试、筛选和再进化[9] 进化成果:VAD-CFR算法 - AlphaEvolve针对CFR框架进化出了名为VAD-CFR的新算法,直接修改了后悔值累计、折扣以及平均策略启动时机等核心逻辑[22] - VAD-CFR引入了如“根据波动动态折扣”和“前期蓄力、后期发力”的预热机制等非直观设计[22] - 在多项博弈测试中,VAD-CFR的收敛表现超越了CFR+、DCFR、PCFR+等人类优化版本,在最多1000次迭代中曲线下降更快、最终可被利用度(exploitability)更低[25] - 该优势在规模更大、更复杂的测试游戏中依然保持,表明其改进源于算法结构层面更高效的更新方式,而非针对训练数据的技巧[26][27] 进化成果:SHOR-PSRO算法 - 针对PSRO框架,进化出了SHOR-PSRO算法,其核心是重新设计了“元求解器”[28][30] - SHOR-PSRO设计了一种混合型元求解器,能够动态调整,使训练过程自动从“多样性探索”过渡到“逼近均衡”[30] - 在最多100轮的PSRO迭代中,SHOR-PSRO在多数游戏中比Uniform、Nash、AlphaRank等经典方法收敛更快,在第100次迭代时的可被利用度更低[31] - 在4玩家Kuhn扑克、6面骰子说谎者游戏等更复杂的测试环境中,SHOR-PSRO的优势依然保持,展现了良好的泛化能力[33] 行业影响与反响 - 这项研究被写成37页论文《基于大语言模型的多智能体学习算法自动发现》,在技术圈引起轰动[11] - 业内评论认为,这标志着AI不仅能编写辅助代码,已能设计出超越人类的核心学习算法,是DeepMind的一张“王牌”[13] - 此进展促使人们思考AI自我改进的边界,包括在迈向超强人工智能(ASI)之前,AI是否应优先为自己设计“伦理引擎”或对齐机制[14] - 该研究展示了AI正以更工程化的方式深度融入软件生产,推动Agentic AI从局部试点迈向体系化工程建设[37]
像挖币一样挖激活函数?DeepMind搭建「算力矿场」,暴力搜出下一代ReLU
机器之心· 2026-02-07 12:09
核心观点 - 谷歌DeepMind利用其开发的AlphaEvolve系统,在无限的Python函数空间中自动搜索并发现了全新的神经网络激活函数,这些函数在分布外泛化能力上超越了ReLU和GELU等现有标准函数,标志着AI设计AI的方法论革新 [2][4] 研究方法论革新 - 核心工具是AlphaEvolve,一个由LLM驱动的进化编码系统,它直接编写和修改Python代码来探索激活函数,突破了传统神经架构搜索受限于预定义数学算子的限制 [8][11] - 采用“微型实验室”策略,使用专门设计的合成数据来优化分布外泛化能力,避免了在ImageNet等大型数据集上进行昂贵搜索,实现了用小数据撬动大智慧 [4][14][40] - 系统的适应度函数基于分布外测试数据的验证损失,迫使模型学习举一反三,从而捕捉更本质的归纳偏置 [17][18] 新发现的激活函数及其特性 - 发现表现最佳的激活函数普遍遵循“标准激活函数+周期性扰动项”的通用公式,例如GELUSine和GELU-Sinc-Perturbation [25] - **GELUSine**:在GELU基础上增加了正弦项,引入周期性“摆动”以帮助优化过程逃离局部极小值 [26] - **GELU-Sinc-Perturbation**:公式为 `GELU(x) * (1 + 0.5 * sinc(x))`,在保留GELU渐近行为的同时,在原点附近引入了受控的非线性复杂性 [26][27] - **GMTU (Gaussian-Modulated Tangent Unit)**:结合了Tanh、高斯衰减和线性泄漏项,形状类似调制波,但计算成本较高 [28] - **湍流激活函数 (Turbulent)**:在合成数据上测试损失极低(29.8 ×10⁻³),但严重过拟合,迁移到真实任务时表现不佳,凸显了逐点激活函数的鲁棒性价值 [21][29] 在真实任务上的性能表现 - **在算法推理任务(CLRS-30)上表现出色**:GELU-Sinc-Perturbation取得了0.887的测试分数,显著优于ReLU的0.862和GELU的0.874 [34][36] - **在标准视觉任务上保持竞争力**:在ImageNet上,GELUSine和GELU-Sinc-Perturbation的Top-1准确率约74.5%,与GELU持平并远超ReLU的73.5% [34][36] - **周期性扰动的有效性**:周期性函数允许模型在训练域内“存储”频率信息,并在外推时通过周期性结构“检索”,这被认为是一种隐式的频率分析,有助于捕捉数据的复杂结构 [35] 对行业与AI研发的启示 - **代码即搜索空间**:利用LLM直接编写代码作为搜索空间,比预定义数学算子更灵活强大,LLM生成的函数甚至能提供人类可读的设计思路解释 [39] - **设计目标从拟合转向泛化**:激活函数的设计不仅为了优化梯度流动,其形状直接影响模型的归纳偏置,引入周期性结构是为模型注入“世界规律循环往复”的偏置 [40] - **预示AI设计AI的未来**:这项研究表明,在神经网络最基础的组件层面仍有巨大创新空间,未来的AI模型其底层算子可能将由AI自己书写 [42]
GPT-5.2破解数论猜想获陶哲轩认证,OpenAI副总裁曝大动作
36氪· 2026-01-29 21:24
OpenAI发布AI科研平台Prism并成立OpenAI for Science团队 - 公司于凌晨发布了新一代AI科研平台Prism,该平台由GPT-5.2加持,供科学家撰写和协作研究,即日起向所有拥有ChatGPT个人账户的用户免费开放 [1] - 公司副总裁Kevin Weil表示,目标是赋予每位科学家AI超能力,让世界在2030年就能开展2050年的科学研究 [1] - 公司于2025年10月宣布成立全新的OpenAI for Science团队,核心致力于探索大语言模型助力科研人员的路径,并优化旗下工具为科研人员提供支持 [1] OpenAI布局科研领域的战略意图与竞争格局 - 公司认为,通用人工智能(AGI)能为人类创造的最重大、最积极的价值,正是其推动科学进步的能力,例如帮助探索全新的药物、材料和器械 [3] - 在AI科研领域,公司已面临激烈竞争,谷歌DeepMind早在数年前便已成立AI-for-science团队,并打造了AlphaFold、AlphaEvolve等具有开创性的科学模型 [2] - 公司布局OpenAI for Science,很大程度上是为了在科研这一新领域抢占先机,因为真正的技术创新尚未到来 [16] GPT-5系列模型在科研中的能力评估与表现 - 公司副总裁Kevin Weil评价当前模型的实际能力时表示,模型还达不到取得颠覆性新发现的水平,但能让人不必把时间浪费在已经解决的问题上,这也是对科研的一种加速 [2] - 搭载了推理模型的GPT-5,在解决复杂问题方面较GPT-4有了质的飞跃,在包含400多道博士级专业问题的GPQA基准测试中,GPT-4正确率为39%,而GPT-5.2正确率达到92% [5] - 模型能力被认为早已超过90%的研究生,甚至达到了人类能力的极限,例如能在国际数学奥林匹克竞赛中取得金牌级成绩 [5] - 模型擅长找到科研人员尚未意识到的现有研究成果及关联线索,协助草拟数学证明过程,并为实验室验证假说提供实验思路 [8] - 模型几乎阅读了过去30年发表的每一篇论文,不仅能理解本领域内容,还能从其他不相关的领域中提炼出可类比的思路 [9] GPT-5在科研应用中的实际案例与用户反馈 - 一位开通了GPT-5付费服务的科研人员反馈,GPT-5会犯一些比人更愚蠢的低级错误,但一直在进步 [2] - 范德堡大学物理与天文学教授Robert Scherrer表示,他和研究生为一个问题钻研了数月都毫无头绪,GPT-5却成功解决了它,但模型仍会犯一些低级错误 [10] - 非营利性研究机构杰克逊实验室的生物学教授Derya Unutmaz表示,以前需要几个月才能完成的数据集分析,现在用大语言模型就能完成,不用大语言模型已经行不通了 [10] - 加州大学伯克利分校的统计学家Nikita Zhivotovskiy认为,大语言模型最有用的地方在于能挖掘出其研究工作与一些未知现有研究成果之间的意外关联,但几乎没见过模型能提出真正值得单独发表的全新观点 [10] - 利物浦大学化学教授Andy Cooper表示,其团队并不会借助大语言模型构思研究思路,但这项技术已开始在更庞大的自动化系统中显现实用价值,比如大语言模型可协助操控机器人 [11] 模型存在的缺陷、引发的争议及优化方向 - 模型存在“幻觉”问题,曾导致科学期刊论文出现核心思路错误,例如将检测非线性理论的实验方案错误地设计为检测非定域性理论 [12] - 去年10月,公司高管曾宣称GPT-5已为多个数学未解难题找到解决方案,但事后被数学家指出只是从早期研究论文中挖掘出了已有的答案,相关帖子随后被删除 [6] - 近期有消息称,GPT-5.2 Pro破解了一道埃尔德什猜想(第281号),其提出的新证明方法已被菲尔茨奖得主陶哲轩验证并收录,证明思路与之前的方法“相当不同” [7] - 公司正对模型整体设计作两大思路优化:一是让GPT-5在给出答案时降低置信度,具备认知层面的谦逊性;另一方向是利用GPT-5反向对自身输出进行事实核查 [3][14] - 公司正在探索让模型充当自身校验者的工作流程,即一个模型完成初步推理,再将结果交由另一模型审核,通过筛选和反馈进行改进,这与谷歌DeepMind为AlphaEvolve打造的模式高度相似 [15] 对AI驱动科研未来的展望与预测 - 公司副总裁Kevin Weil预测,2026年对于科研领域的意义,将堪比2025年之于软件工程,一年后,倘若一名科研人员还未深度运用AI开展研究,就可能已经落后 [3] - 范德堡大学教授Robert Scherrer表示,如果当前的发展趋势能持续下去,很快所有科研人员都会用上大语言模型 [10] - 加州大学伯克利分校统计学家Nikita Zhivotovskiy相信大语言模型正在成为科学家们必不可少的技术工具,就像曾经的计算机和互联网一样,那些拒绝使用这类工具的人将会长期处于劣势 [10]