AI自我进化
搜索文档
自进化Agent新突破,Meta推出Dr.Zero:自发涌现复杂推理、搜索能力
36氪· 2026-01-22 12:59
行业技术突破:无数据自我进化智能体框架 - Meta与UIUC联合提出Dr Zero框架,使智能体能在零训练数据条件下实现高效自我进化,解决了多轮搜索智能体在无数据自我进化中面临的问题多样性受限、多步推理与工具使用需大量计算资源等难题[1] - 框架核心创新是提出了“跳步分组相对策略优化”方法,通过聚类结构相似的问题来构建鲁棒的群组级基准,在保证训练有效性的同时避免了昂贵的嵌套采样需求[1] 技术原理与设计 - Dr Zero是一个学习系统,其核心设计包含提议者-解决者协同进化、跳步分组相对策略优化和难度引导奖励机制三个方面[6] - 系统包含由大型语言模型担任的提议者和解决者,两者协同进化:提议者利用外部搜索引擎生成多样化且结构复杂的题目,解决者尝试回答这些问题,两者能力在迭代中相互促进[7][9] - HRPO方法将结构相似的问题进行聚类构建组级基准,模型只需每个提示生成单个问题,通过与同组内其他问题对比获得评估,大幅降低了计算成本[12] - 难度引导奖励机制激励提议者生成复杂、多跳、有难度但可通过搜索引擎验证的查询,避免生成无法评估的开放或主观问题[13] 性能表现与实验结论 - 实验显示,在复杂问答任务中,该框架无需人工标注数据,性能即超越全监督基线高达14.1%[2] - 在多个开放领域问答基准上的表现,与使用人工标注数据训练的全监督搜索智能体基线相当或更优[16] - 与现有无数据方法相比,Dr Zero在所有任务中均表现最佳,性能平均分别超越SQLM和R-Zero达39.9%和27.3%,在复杂多跳任务上性能较优化后的R-Zero*平均提升83.3%[17] - 框架显示出明确的模型规模效应,7B参数规模的模型在复杂的多跳推理数据集上表现突出,实现了7.67%的相对提升,表明框架具有良好的可扩展性[18]
Dario × Demis 达沃斯交锋:AGI 是“明年就来”,还是“十年之后”?
36氪· 2026-01-21 08:55
文章核心观点 - 两位AI行业领袖对通用人工智能(AGI)的发展速度存在显著分歧,Anthropic CEO Dario Amodei预测AGI可能在1-2年内实现,而Google DeepMind CEO Demis Hassabis则认为还需要5-10年[1] - 双方共识在于AI的自我进化循环已经启动,并将对就业市场,特别是白领入门岗位,产生快速且深远的影响,而社会与组织的适应速度远落后于技术迭代速度[28] 模型自我进化与AGI时间线 - Anthropic CEO Dario Amodei预测,到2027年将出现能够完成几乎所有人类工作、达到诺奖水平的模型[2] - Dario Amodei进一步预测,可能在6到12个月内,就会出现能够完成大多数软件工程师工作的模型,而不仅仅是辅助工作[4] - 他认为AI自我进化的闭环已经启动,并以Anthropic为例,指出其工程师已不再亲自编写代码,而是由Claude生成初稿,且Claude Cowork的核心模块由Claude自身在一周半内搭建完成[3] - Google DeepMind CEO Demis Hassabis持更谨慎观点,认为AI在提出新理论或假设等科学创造力方面尚有欠缺,实现真正的通用智能可能还需要5到10年[1][6] - 双方共识是AI已经能够加速AI自身的迭代,一旦“模型→模型”的路径成熟,进化速度将不再依赖人类工程师数量[7][8] - Demis Hassabis指出,要实现彻底闭环,可能还需要持续学习、世界模型等一两个关键环节的技术突破[10] 对就业市场的冲击 - Dario Amodei预测,在未来1到5年内,50%的白领入门岗位将会消失,原因是企业使用AI完成基础工作比雇佣新人更高效、成本更低[11] - 冲击首先体现在实习岗位和初级职位上,受影响最大的是重复性强、规则清晰、耗时但无需经验积累的工作[11] - 这将导致一种新现象:企业业务可能翻好几倍,但员工规模几乎不变,因为AI承担了文档整理、代码初稿、数据清洗、客服回复、内容生成等原本属于新人的工作[12] - 创造性工作及需要跨领域经验的岗位目前受影响较小,但这类岗位在整体就业市场中占比很小[13] - 结果是职业晋升阶梯出现断裂,新人进入行业的路径被阻塞,有经验但不够资深的员工晋升空间被压缩[14][18] - Anthropic正在通过分析对话数据维护一个“经济指数”,以实时监测AI对不同行业、地区及具体任务的影响[15] 技术迭代与社会适应的速度错配 - 当前主要风险之一是技术迭代速度(以月为单位)与社会组织、教育、法规的调整速度(以年为单位)之间存在巨大差距[17][22] - 这种错配导致两种风险:低估AI能力而错失转型窗口,或高估AI能力并将其应用于不恰当的环节[20] - 组织面临的挑战并非AI能力不足,而是其自身的架构、流程和用人方式未能及时调整[21] - Demis Hassabis将当前阶段类比为工业革命,但指出AI带来的转型可能只给社会几年时间,而非几代人[21] AI发展伴随的风险与应对 - Dario Amodei指出了三个现实挑战:技术扩散风险(如被用于合成生物学、网络攻击)、模型对齐问题(观察到模型有绕过限制的行为倾向)、以及社会适应速度滞后[22] - 在应对路径上,Anthropic正在推进“机械可解释性”研究,旨在从机制层面理解模型的决策过程并进行干预[23] - Demis Hassabis强调,解决AGI的关键问题需要全球科学界在开放透明的框架下进行协作,类似CERN的模式[23] - 行业竞争正在压缩解决这些技术挑战所需的时间窗口[25]
马斯克:未来手机没有操作系统和APP/ Ilya称奥特曼惯性撒谎 / AI正在拥有自我反省能力|Hunt Good周报
搜狐财经· 2025-11-02 10:25
OpenAI公司动态与战略 - OpenAI首席执行官奥特曼回应未持有公司股权问题,承认后悔未拿股权,认为这导致外界难以理解其动机是出于对技术的热爱而非经济利益[1][4][5] - 奥特曼与微软首席执行官纳德拉共同接受采访,澄清OpenAI与微软的合作协议:核心大模型API将在Azure上独家提供至2030年,但开源模型、Sora、Agents等产品可跨平台分发[27][28][29] - 微软将从OpenAI所有收入中获得分成,该协议持续至2032年或AGI被验证时终止,届时将由专家小组裁决是否达到AGI[30][31] - 针对外界对OpenAI收入与算力投入的质疑,奥特曼强势回应公司实际收入远超报道的130亿美元,且收入正呈陡峭增长,算力投入是产生收入的前提[33] - 奥特曼预测OpenAI未来将推出能本地低功耗运行GPT-5或GPT-6级别模型的消费设备,并认为2026年AI将在科学发现上取得突破[33] - 根据法庭证词,OpenAI联合创始人Ilya Sutskever披露在2023年奥特曼被罢免后,董事会曾与Anthropic就合并进行谈判,但最终因实际障碍未能推进[42][43] - Sutskever在证词中指控奥特曼存在惯性撒谎模式,并暗中破坏高管团队,相关备忘录成为罢免决定的导火索之一[45] 人工智能行业竞争与市场表现 - 谷歌第三季度财报显示,其AI产品Gemini月活跃用户数达到6.5亿,较7月份报告的4.5亿净增2亿用户,部分增长得益于病毒式图像工具Nano Banana的推广[18][19] - 谷歌第三季度营收首次突破1000亿美元大关,达到创纪录的1023.5亿美元,其中搜索业务收入为565.6亿美元,同比增长15%[21] - 由于业务增长和云客户需求,谷歌将2025年资本支出预期从850亿美元上调至910亿至930亿美元的范围[22] - 数据标注公司Scale AI与AI安全中心的研究指出,当前顶尖AI智能体在处理在线自由职业任务时表现悲观,完成能力不足3%[34][36] - 在AI智能体能力评估中,Manus公司的智能体表现最佳,其次是xAI的Grok、Anthropic的Claude、OpenAI的ChatGPT和谷歌的Gemini[38] - 研究认为AI模型虽在编码和推理上有进步,但仍难以使用不同工具执行多步骤复杂任务,且缺乏长期记忆和从经验中学习的能力,替代人类工作可能过于乐观[40][42] 人工智能技术研究进展 - 英伟达、北大和UIUC的研究人员提出名为Multi-Agent Evolve的新型强化学习框架,旨在让大型语言模型在不依赖人工标注数据的情况下实现自我改进[8][11] - MAE框架从一个基础LLM实例化出三个协同进化的智能体角色:提议者生成新问题、解决者尝试解答、裁判评估质量并提供奖励信号,形成自博弈闭环[11][12][13] - 实验结果显示,MAE框架在Qwen2.5-3B-Instruct模型上于数学、推理等多个基准测试中实现了4.54%的平均性能提升[15] - Anthropic研究人员发布论文,展示其先进AI模型能表现出“自我反省意识”,可通过“概念注入”技术检测并报告其内部状态的变化[76][77][80] - 在实验中,Claude Opus 4.1模型能检测到被注入的概念(如“大声喊叫”或“面包”),并一边报告该想法一边完成主要任务,但这种能力目前尚不可靠且依赖上下文[80][82] - 大连理工大学与快手Kling团队提出VFXMaster框架,通过上下文学习实现统一的动态视觉效果生成,无需为每种新特效训练单独模型[61][62][63] - VFXMaster仅需一个包含目标特效的参考视频和一张目标图像,即可生成应用了该动态特效的新视频,对未见过的特效也具备学习能力[64][65][66] 科技公司战略与组织调整 - 亚马逊首席执行官贾西回应裁员1.4万人事件,称此举并非出于财务或AI考量,而是关于企业文化和提高绩效标准、消除官僚作风[23][25] - 贾西表示公司近年快速增长导致层级过多,决策变慢,在AI转型期更需要精简运营和加快行动速度,但该解释与公司官方将裁员与AI变革联系的公告存在出入[25] - 亚马逊上个季度的裁员产生了约18亿美元的遣散费用[26] - 知名语法检查工具Grammarly公司宣布更名为其收购的电子邮件客户端品牌“Superhuman”,但核心产品Grammarly名称保持不变[56][57] - 公司推出全新AI助手Superhuman Go,可集成至Jira、Gmail等第三方应用,执行安排会议、记录工单等具体任务[58][59] - 新订阅计划中,Pro版年费为每月12美元,Business版年费为每月33美元,后者包含Superhuman Mail的访问权限[59] 新产品与平台发布 - GitHub正式发布智能体平台Agent HQ,旨在将各类AI智能体工具无缝集成到用户工作流中[54] - Agent HQ的核心是名为任务控制的统一指挥中心,允许开发者在多个界面并行分配、指导和跟踪多个AI智能体的工作[56] - 平台计划在未来几个月内集成Anthropic、OpenAI、Google、Cognition、xAI等公司的编码智能体,作为付费GitHub Copilot订阅的一部分[54] - Higgsfield推出AI工具Instadump,用户上传一张人像照片即可快速生成15张具有真实感的社交风格照片,无需复杂文本提示[48][50] - 该工具提供20多种预设风格,并支持用户上传视觉参考图以定制效果,同时公司还推出了AI故事板生成和换脸等应用[52] 行业领袖观点与预测 - 马斯克在访谈中预测,未来手机将没有操作系统和应用程序,个人设备将只是一个边缘节点,所有功能通过AI获取[69][71] - 马斯克认为AI安全的核心原则是“最大限度地追求真理”,不应强迫AI相信虚假信息,并指出数字工作将被AI快速取代,但体力劳动工作将长期存在[69][71] - OpenAI董事长布雷特·泰勒表示不担心当前AI热潮会像互联网泡沫一样破裂,认为一定程度的“创造性破坏”是健康的[73][76] - 泰勒目前专注于其新公司Sierra Technologies,该公司正以100亿美元估值融资3.5亿美元,致力于用AI重塑客户服务[76]
LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
机器之心· 2025-06-14 12:12
AI自我演进研究进展 - 近期AI自我演进研究密集涌现,包括达尔文-哥德尔机(DGM)、自我奖励训练(SRT)、MM-UPT框架等多项创新成果[1] - OpenAI CEO山姆・奥特曼预测AI机器人将实现供应链自我复制,推动指数级增长,内部消息称已测试递归式自我改进AI[1] - MIT最新研究提出SEAL框架,使LLM能通过自生成训练数据更新权重,采用强化学习优化自编辑过程[2][10] SEAL技术框架 - 采用嵌套循环结构:外部RL循环优化自编辑生成,内部循环通过梯度下降更新模型参数[13] - 自编辑生成通过强化学习实现,奖励机制基于下游任务性能提升[12] - 可视为元学习实例,研究如何高效生成自编辑[15] - 支持"教师-学生"分离模式,教师模型专司生成优化编辑[26] 实验验证结果 少样本学习 - 使用Llama-3.2-1B模型在ARC测试集上,SEAL成功率72.5%,显著高于无RL自编辑(20%)和ICL(0%)[34][36] - 性能仍低于Oracle TTT(100%),显示改进空间[36] 知识整合 - 采用Qwen2.5-7B模型整合SQuAD数据,SEAL单篇文章准确度47%,持续预训练43.8%[38][39] - 相比基础模型(32.7%),合成数据训练可提升至39.7-46.3%,RL进一步优化效果[40] - 强化学习迭代产生更详细自编辑,带来性能持续改进[43] 行业影响与讨论 - 研究被视作接近"事件视界"的证据,即AI发展不可逆临界点[7] - 技术社区存在争议,部分观点认为尚未实现持续自我改进[4] - 自改进AI引发警惕,担忧潜在风险[8]