Workflow
AlphaEvolve
icon
搜索文档
谷歌诺奖大神哈萨比斯:五年内一半几率实现AGI,游戏、物理和生命的本质都是计算
AI科技大本营· 2025-07-25 14:10
人工智能发展前景 - 谷歌DeepMind掌门人预测未来五年内有50%可能性实现通用人工智能(AGI) [3] - 自然界所有可演化模式都能被经典学习算法高效建模 为AI模拟万物提供理论基础 [5][9] - Alpha系列项目证明AI能在组合性极高的空间建立模型 如蛋白质折叠和围棋策略 [5][16] 技术突破与应用 - AlphaFold 3实现蛋白质RNADNA相互作用建模 向完整细胞模拟迈进 [64][66] - Veo 3视频生成模型展现对物理规律的直觉理解 能模拟流体和材料行为 [21][23] - AlphaEvolve系统结合LLM与进化算法 实现算法自我改进与创新 [49][53] 游戏产业变革 - AI将彻底改变游戏开发 实现真正个性化动态生成的开放世界 [3][32] - 生成式系统可即时创建无限游戏内容 突破传统资产制作限制 [37] - 交互式AI游戏可能成为"后AGI时代"的重要应用场景 [38] 计算与能源发展 - 神经网络系统已证明能高效处理传统认为需要量子计算的难题 [16][17] - AI优化能源使用 在电网管理和核聚变反应堆设计方面取得进展 [90] - 免费清洁能源将解决资源稀缺问题 开启太空探索新时代 [92] 企业竞争格局 - 谷歌通过整合DeepMind与Brain团队 一年内实现LLM产品逆袭 [99][100] - 保持初创公司文化的同时利用大公司资源 是技术快速迭代的关键 [101] - AI领域竞争激烈 全球顶尖企业都在争夺技术主导权 [100]
AlphaEvolve:陶哲轩背书的知识发现 Agent,AI 正进入自我进化范式
海外独角兽· 2025-07-18 19:13
AlphaEvolve 技术解析 核心定位与突破 - AlphaEvolve 是基于 LLM 进化算法和 evaluator 的通用算法发现与优化平台,能自主生成代码并迭代优化方案,模拟"算法自然进化"过程 [3][13] - 关键突破在于持续高强度探索能力,一周内两次刷新18年未破的数学纪录,菲尔兹奖得主陶哲轩参与应用探索 [3][4] - 在 Google 内部将 training infra 关键计算模块运行速度提升23%,标志AI进入自我改进范式 [3][54] 技术演进路径 - 技术源头可追溯至 AlphaGo 的搜索能力,经 AlphaTensor(2022年矩阵乘法优化)和 FunSearch(2023年算法发现)逐步演化而来 [16][20][21] - 相比 FunSearch,AlphaEvolve 去除算法模板依赖,具备更强自主性,能在更少函数调用下发现高质量算法 [25] - 运行机制类似生物进化,通过重组最优方案要素或引入新构想实现代际性能跃迁 [35] 关键组件与运行机制 Evaluator 的核心作用 - Evaluator 是自动化质量评估系统,定义"优秀解决方案"标准,决定AI自我改进上限 [13][30] - 在数据中心优化案例中,evaluator 采用现有调度模拟器量化评估算法性能,形成创新基础 [32] - 未来LLM可能成为evaluator,如DeepMind的AI co-scientist已通过多agent协作验证评估能力 [48][53] 自适应问题解决能力 - 根据问题难度智能调整探索深度,简单问题快速收敛,复杂问题投入更长计算时间 [37][38] - 无需预设迭代次数,持续运行即可驱动优化,系统性识别潜在改进空间 [38][39] - 已应用于Google数据中心效率提升、硬件设计优化等全技术栈场景 [39][42] 行业影响与未来方向 科学发现范式变革 - 在数学和计算机科学领域率先突破,未来可扩展至生物化学等需模拟器评估的学科 [58] - 通过可解释代码输出实现人机协作,如上限集问题中揭示数学家未发现的对称性 [63][65] - 推动科研"理性化"转型,在反直觉解空间高效搜索拓展探索边界 [60][61] 自我改进范式发展 - 当前聚焦效率提升(如训练加速),尚未验证认知能力根本突破 [55] - 未来可能呈现三种模式:一次性突破、收益递减或持续累积突破 [57] - 核心挑战在于构建高质量evaluator和降低计算资源需求 [55][66][67] 应用案例与成果 实际业务优化 - 优化Google芯片设计流程,加速AI模型训练并反哺自身模型训练进程 [13] - 数据中心调度算法迭代节省数百万美元电费,展示关键infra部署潜力 [30][33] - 发现更快的矩阵乘法算法,解决计算科学领域数十年难题 [20][26] 数学领域突破 - 与数学家合作解决上限集问题,输出人类可理解的创新性代码 [63][65] - 在开放性数学难题中发现全新解法,验证跨学科应用潜力 [13][61]
思维链开创者Jason Wei最新文章:大模型将攻克哪些领域? | Jinqiu Select
锦秋集· 2025-07-16 15:58
大模型能力演进与验证者定律 核心观点 - 大模型能力每3-6个月迭代一次,从文本生成、多模态理解扩展到复杂推理和工具调用,"模型即产品"趋势明显,模型能力边界决定产品边界 [1] - 验证者定律提出:AI解决任务的难易度与任务可验证性成正比,具备客观真实性、快速验证、可扩展验证、低噪声、连续奖励五大特征的任务将被优先攻克 [2][8][10] - 验证不对称性普遍存在(如数独验证易/解决难、数学问题验证对称、事实核查验证难),通过预研可改善不对称性 [4][6][7] 技术发展路径 - AlphaEvolve案例显示,符合验证者定律五大特性的问题(如几何优化)已被高效解决,未来所有满足条件的问题均可能被AI攻克 [13] - 可验证任务将形成"参差不齐的智能前沿",AI在该领域表现显著优于人类,因梯度信号密集且迭代速度快 [12][14] 行业影响 - 创业者需紧密跟踪模型技术进步方向,技术敏锐度关乎生存,验证者定律为预判大模型发展提供框架 [1][2] - 科学创新领域出现范式转变:单个高价值问题的解决(train=test)优先级超过传统机器学习泛化能力 [13]
腾讯研究院AI速递 20250605
腾讯研究院· 2025-06-04 22:24
OpenAI产品更新 - 免费版ChatGPT新增轻量级记忆功能,支持短期对话连续性和基础用户偏好记忆,适用于写作、金融分析、医疗跟踪等领域 [1] - ChatGPT Plus会员开放Codex编程工具,新增联网访问(70个安全白名单网站)、PR更新及语音输入功能,两周内已更新三次 [1] 行业并购与竞争动态 - OpenAI拟以30亿美元收购AI编程平台Windsurf,随后Anthropic切断Claude模型供应,Windsurf采取应急方案包括降价Gemini模型并停止免费用户访问Claude [2] - 业内认为断供源于OpenAI收购引发的竞争关系变化,Anthropic转型IDE和插件业务与Windsurf直接竞争 [2] 视频生成技术突破 - Manus上线智能视频生成功能,通过拼接5秒片段突破时长限制,支持分阶段规划、参考图生成及剪辑,会员专属功能消耗166积分/5秒视频 [3][4] 语音合成技术进展 - 开源模型MoonCast实现中英双语自然播客生成,利用LLM提炼摘要并添加口语化细节,采用25亿参数模型及三阶段训练支持10分钟以上音频生成 [5] AI安全与治理 - 图灵奖得主Bengio创立非营利机构LawZero,融资3000万美元开发非自主型"Scientist AI"系统,专注防止AI欺骗行为 [6] - 深度学习三巨头均下场应对AI风险:Hinton离职谷歌警示风险,LeCun批评LLM路径局限性 [6] AI与数学研究协作 - AlphaEvolve联合数学家一个月内三度破解18年未解的和差集指数θ难题(1.14465→1.173077),陶哲轩评价为AI与人类"共舞"新范式 [7] 医疗AI应用创新 - 华人科学家研发AI诊断笔,通过磁弹性笔尖和铁磁流体墨水检测帕金森病手写特征,准确率超95%,成本低且适用于资源有限地区 [9] 企业AI战略展望 - Altman预测18个月内AI将从工具转变为"执行者",企业需立即实践积累数据闭环优势,OpenAI内部Codex已展示多步骤任务执行能力 [10]
陶哲轩转发!华人数学博士后反超DeepMind AI,停滞18年数学问题1个月内3次突破
量子位· 2025-06-04 17:14
核心观点 - 人类数学家与AI合作在集合和差问题上取得突破性进展,通过不同方法的互补推动数学进步 [4][30][32] - AlphaEvolve采用暴力搜索方法提升θ下界至1.1584,激发后续人类研究 [14][16][18] - 人类数学家通过理论分析将θ下界进一步提升至1.173077,展示计算机辅助与纯数学方法的协同效应 [8][25][27][29] 集合和差问题 - 研究目标:在和集大小受限情况下提升差集大小的指数θ下界 [12][13] - 经典问题:对于整数集合A和B,研究|A+B|≤K|A|时|A-B|的最小可能大小 [10][11] - θ值提升意义:θ越大表明差集下限越高,是领域核心研究目标 [13] AlphaEvolve的贡献 - 方法框架:基于进化算法,用Gemini生成候选方案并通过自动化评估筛选 [14][16] - 迭代过程:算法保留优异表现者进行变异组合,持续优化直至性能停滞 [17] - 成果:构造含54265个整数的集合,将θ下界从1.14465提升至1.1584 [18] 人类数学家的改进 Robert Gerbicz的突破 - 方法创新:应用容斥原理处理多重约束,避免直接计算的困难 [23] - 构造规模:创建超10^43546元素的集合,利用大集合减小离散误差影响 [24] - 成果:θ值达到1.173050,超越AlphaEvolve的1.1584 [25] Fan Zheng的再突破 - 理论升级:引入大偏差估计进行渐近分析,转向系统性理论框架 [28] - 最终成果:θ下界提升至1.173077,证明理论分析可超越具体构造限制 [8][27][29] 方法协同价值 - AI优势:广度搜索能力可快速定位文献中可改进领域 [31] - 人类优势:深度理论分析能突破AI的构造局限 [6][7][29] - 互补效应:不同方法相互激发形成良性循环,非零和博弈 [30][32]
陶哲轩转发!DeepMind开源「AI数学证明标准习题集」
量子位· 2025-05-31 11:34
形式化数学猜想库 - DeepMind最新开源形式化数学猜想库,收录经典数学猜想的形式化表述,如解析数论中的四个朗道问题 [1] - 资源库提供代码函数,方便用户将自然语言数学猜想转化为计算机可验证的形式化版本 [2] - 陶哲轩转发并强调形式化表述是利用自动化工具解决开放性问题的关键第一步 [3] - 猜想库开放共建,鼓励数学家添加新猜想 [4] 猜想库的用途与结构 - 填补开放式猜想形式化资源的空白,可作为自动定理证明或形式化工具的测试基准 [6][7] - 收录使用Lean形式化表述的数学猜想,来源多样,类型丰富 [9] - 题目类别统计:数论(262个)、组合数学(99个)、特殊函数(28个)、域论与多项式(17个)等 [11] - 相当于为计算机提供可扩充的“习题集”,支持ATP直接进行证明搜索或作为训练数据让AI学习猜想模式 [11][13] 参与方式与流程 - 用户可通过四种方式参与:添加新问题形式化、提出形式化需求、改进引用标记、修复错误表述 [16][17][18] - 操作流程:GitHub创建问题→Fork仓库→本地构建验证→提交PR→等待审核 [20][21][22][23][24] - 审核机制结合人工与AlphaProof(通用数学自动证明系统)确保准确性 [26] DeepMind与陶哲轩的合作 - 陶哲轩曾称赞DeepMind的FunSearch是利用LLM进行数学发现的有前途范式 [28] - 双方合作开发AlphaEvolve(LLM驱动的进化编码Agent),在数学分析、几何学等领域取得突破 [33][38] - AlphaEvolve在75%案例中复现最优解,20%案例改进已知方案 [39][40] - 解决11维空间接吻数问题,发现593个外球体结构刷新下限 [36][37] 资源链接 - 形式化数学猜想库官网与项目地址 [42]
形式化证明与大模型:共创可验证的AI数学未来|量子位直播
量子位· 2025-05-27 11:53
大模型数学推理能力发展 - 5月DeepSeek Prover V2发布 陶哲轩AI数学直播举行 谷歌AlphaEvolve推出 显示大模型解数学题能力成为衡量AI智能天花板的关键指标[1] - FormalMATH基准测试近期发布 旨在系统评估AI数学推理能力 自动定理证明表现与技术路径成为行业焦点[2] 行业技术研讨活动 - 5月29日20:00举办大语言模型形式化证明前沿探索直播 由2077AI开源基金会与多个项目团队联合发起[2] - 参与嘉宾包括DeepSeek Prover第一作者辛华剑 FormalMath项目郁昼亮 Kinima技术负责人王海明等7位学术与工业界专家[3] 行业生态互动 - 量子位策划AI主题征集活动 涵盖365行AI落地方案与一千零一个AI应用案例 鼓励分享AI产品新动向[4] - 量子位每日AI交流群开放加入 提供科技前沿进展每日更新服务[5]
AI观察|AI发展时间表引发热议,Agent进入爆发“窗口期”
环球网· 2025-05-26 17:34
AI发展时间表 - OpenAI CEO山姆·奥特曼预测2025年AI将成为人类超级助手 2026年AI将拥有独立科研能力 2027年AI机器人将成为物理世界价值创造者 [1] AI Agent发展现状 - 2025年AI Agent发展已印证奥特曼预测 包括Manus AlphaEvolve等产品涌现 OpenAI以65亿美元收购硬件设计公司io [3] - AI Agent定义为具有自主决策能力的智能实体 ChatGPT-4通过插件调用功能展现早期形态 DeepMind推出可自我进化的编码智能体AlphaEvolve [3] 技术突破与产业应用 - AlphaEvolve在计算机算法领域取得突破 为谷歌数据中心设计新调度算法 多回收07%计算资源 优化TPU芯片设计流程 [4] - 国内Manus实现自主规划任务并实时调整 通过视频展示多智能体处理复杂任务能力 [4] - 浪潮海岳商业AI覆盖100+场景智能体 整合120万家企业实践 在某建筑央企项目中提升施工方案编制效率95%以上 [5] 行业观点与趋势 - 真格基金戴雨森指出AI三大关键能力:推理能力 编程能力 工具使用能力 [6] - AI Agent依托大模型能力 正推动AI从助手向价值共创者转变 或将重塑科研与产业逻辑 [6]
综述|全球人工智能模型又添“新成员”
新华社· 2025-05-25 12:19
大语言模型进展 - Anthropic公司推出"克劳德4"系列两款新模型Opus 4和Sonnet 4 其中Opus 4是行业领先的编程模型 Sonnet 4在3 7版本基础上显著升级具备更强指令理解能力与推理编程表现 [1] - OpenAI发布GPT-4 1系列模型 在编程和指令理解方面表现突出 显著提升长文本处理能力 具备更高性价比 同时推出o3和o4 mini两款推理模型 o3在编程数学科学视觉感知等领域实现突破 o4 mini在数学编程和视觉任务方面表现出色适用于快速且成本效益高的推理 [3] - 商汤科技推出"日日新SenseNova V6"大模型体系 通过多模态长思维链训练全局记忆强化学习等技术突破 形成领先的多模态推理能力并突破成本边界 [3] 多模态模型发展 - 谷歌推出"双子座2 5"系列大语言模型 整体性能和智能推理能力较以往版本大幅提升 同时发布图像生成模型Imagen 4视频生成模型Veo 3音乐生成模型Lyria 2以及AI电影制作工具Flow 这些模型具备从文本等多种输入形式生成高质量视觉内容的能力 [2] - OpenAI的o3模型在图像图表等视觉任务上表现突出 具备严谨的分析能力和批判式思维 [3] 智能体技术突破 - 谷歌发布进化式编程智能体AlphaEvolve 由大语言模型驱动 能演化整个代码库并开发复杂算法 在超过50个数学难题测试中 75%案例重新发现最优解 20%案例提出更优方案 未来有望在材料科学药物发现可持续发展等领域发挥变革性作用 [2] - Anthropic的Opus 4模型能够高效完成复杂且持续时间长的任务 [1]
85%腾讯程序员使用CodeBuddy,腾讯重新思考工作流程
第一财经· 2025-05-21 18:14
AI代码助手应用现状 - 腾讯已有85%程序员使用腾讯云代码助手CodeBuddy,整体编码时间缩短40% [1] - 腾讯4月升级代码助手推出软件开发智能体Craft,功能从代码补全向自主开发迈进 [1] - OpenAI推出代码AI智能体Codex,谷歌推出可优化通用算法的智能体AlphaEvolve [1] 智能体技术发展 - 智能体相比大模型能更主动执行任务和解决问题,正被应用于更多领域 [2] - 腾讯云将大模型知识引擎升级为智能体开发平台,基于RAG技术处理企业非结构化知识 [2] - 智谱智能体AutoGLM可边推理边搜索,京东JoyAgent2.0帮助企业生成数字员工且代码采纳率超40% [3] - 智能体技术在复杂任务自规划方面仍有不足,预计今年在数十步工具调用中可达90%准确率 [3] 大模型产品竞争 - 腾讯加快大模型推出频次,包括混元3D场景模型、企业级混合推理模型和多模态基础模型 [4] - 腾讯计划开源不同参数版本模型:工作站版7B~14B,服务器版13B Dense和32B MoE,端侧版0.5B~4B [4] - 提供多版本模型既满足场景需求差异,也考虑算力分配,腾讯称AI需求已超过GPU资源供给 [4]