机器之心

搜索文档
刚刚,OpenAI通用智能体ChatGPT Agent正式登场
机器之心· 2025-07-18 08:38
核心观点 - OpenAI发布全新ChatGPT Agent,具备通用智能体能力,可主动利用多种工具完成复杂任务,如自动浏览日历、生成PPT、运行代码等[4][6][9] - ChatGPT Agent在HLE基准测试中得分41.6%,是o3和o4-mini模型的两倍[6] - 该产品标志着AI从问答工具升级为能执行现实任务的智能体,CEO称其为"感受AGI"的关键时刻[9][10] 产品功能 - 支持连接Gmail、GitHub等应用API获取信息,使用虚拟计算机环境处理工作流[6][27][28] - 整合Operator网页交互、deep research信息综合及ChatGPT推理三大能力[19][24][25] - 提供可视化浏览器、文本浏览器、终端命令行及API调用等全套工具[26][28] - 用户可实时干预任务流程,Agent会主动请求权限确认[20][30][31] 性能表现 - 在Humanity's Last Exam评估中Pass@1分数达41.6,并行策略下提升至44.4[34][35] - FrontierMath数学测试准确率27.4%,显著超越此前模型[37] - SpreadsheetBench电子表格编辑得分45.5%,远超Excel Copilot的20%[42] - BrowseComp网络信息检索测试创68.9% SOTA记录,较deep research提升17.4个百分点[47] 商业化进展 - 已向Pro/Plus/Team订阅用户开放,Pro用户月均400次提示额度[7][8] - 企业版和教育版计划夏季推出,免费版上线时间未定[8] - 实际案例显示可20分钟内完成财务规划等专业任务,效率媲美人工服务[58][59] 技术架构 - 采用动态规划策略自主选择工具组合,支持八线程并行执行[28][35] - 通过虚拟计算机保留任务上下文,实现跨工具协同工作[28] - 迭代式工作流设计允许用户随时修正指令且不丢失进度[30][31]
Le Chat全方面对标ChatGPT,欧洲AI新贵穷追不舍
机器之心· 2025-07-18 08:38
Mistral AI的战略定位与产品布局 - 公司由谷歌和Meta前研究人员创立,定位为欧洲AI领域的新兴竞争者,近期密集发布多款开源模型展现技术野心[1][3] - 产品矩阵覆盖OCR、多模态、推理大模型和语音识别四大领域,包含号称"全球最佳"的开源语音模型Voxtral和首个推理大模型Magistral[2][27] - 应用层重点对标OpenAI,通过Le Chat智能助手的功能迭代实现研究助手、语音交互、图像编辑等场景全覆盖[3][4][9] Le Chat的核心功能升级 - **研究模式**:采用工具增强型深度研究Agent,可自动分解复杂问题、收集资料并生成带参考文献的结构化报告[6][7][8] - **语音模式**:集成Voxtral模型实现自然语音输入,支持散步时头脑风暴、会议转录等场景,延迟表现优于行业标准[13][14] - **图像编辑**:与Black Forest Labs合作实现选择性物体移除/场景替换功能,用户实测显示比OpenAI更能保持原图无关区域细节[16][17][20] - **多语言支持**:基于Magistral推理模型实现原生多语言处理能力,功能覆盖商业策略、学术研究等专业场景[9][30] Voxtral语音模型的技术突破 - 性能表现全面超越Whisper large-v3和GPT-4o mini Transcribe,在英语短形式和Mozilla Common Voice测试中达到SOTA水平[29] - 提供3B/24B两种参数量版本,支持32k token超长上下文理解,可直接处理30分钟音频并生成40分钟内容摘要[30] - 实现语音到系统指令的无缝转换,内置自动语言识别功能,在8种主流语言转录准确率领先行业[30] 市场反馈与品牌特色 - 用户认可图像编辑功能的选择性处理能力,认为其细节保留度显著优于OpenAI同类产品[17][18] - 品牌设计融入猫元素(Le Chat法语意为"猫"),官网采用像素猫图标强化记忆点[25] - 行业观察者关注其快速迭代能力,认为展现出欧洲在大模型领域的技术追赶势头[24]
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI
机器之心· 2025-07-17 17:31
文章核心观点 - 提出AI驱动的视觉生成模型评估新范式Evaluation Agent,可替代人工专家进行定制化、高效、可解释的模型评估[3][4][41] - 该框架通过自然语言交互实现动态评估规划,显著提升评测效率(耗时仅为传统方法10%)[13][25][28] - 支持开放式用户查询,能针对"风格迁移""摄影参数理解"等复杂需求生成专业分析报告[9][31][32] 技术框架设计 核心优势 - **可定制性**:根据用户自然语言描述自动规划评估方案(如古风视频测试)[11][12][21] - **高效率**:多轮交互式评估使样本量减少90%(如SD3.0评测仅需25样本 vs 传统12000样本)[13][25][28] - **可解释性**:输出自然语言报告,包含模型局限性与改进建议[14][41] - **可扩展性**:开放架构支持图像/视频生成任务及新评估工具集成[15][39] 工作流程 1. **提案阶段**:Plan Agent解析用户需求生成评估路径[20][21][26] 2. **执行阶段**:PromptGen Agent生成专属测试提示,视觉模型产出样本[22][27] 3. **动态交互**:多轮反馈优化评估方案(平均3-4轮/任务)[23] 性能验证 效率对比 - **视频模型评估**: - VideoCrafter-2评估耗时24分钟(传统4261分钟)[25] - 样本量减少98%(23样本 vs 4355样本)[25] - **图像模型评估**: - SDXL评估耗时8分钟(传统1543分钟)[28] - 样本量减少99%(26样本 vs 12000样本)[28] 开放式评估能力 - 构建开放式用户评估问题数据集,覆盖风格迁移/摄影概念等复杂维度[33][34] - 可处理"保持原风格生成艺术变体"等抽象查询,生成分步骤验证方案[32][38] 未来发展方向 - 扩展至3D生成/AIGC视频编辑等复杂任务[39] - 增强多模态评估能力(文本/音频/视频跨模态)[39] - 引入强化学习优化评估精准度[39] - 开发基于评估结果的生成模型个性化推荐系统[43]
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了
机器之心· 2025-07-17 17:31
实时强化学习技术突破 - 核心观点:Mila实验室提出实时强化学习框架,解决传统强化学习在延迟敏感场景中的动作延迟和缺失问题,使大模型能在高频任务中实现即时响应[9][36] - 技术背景:现有强化学习基于"回合制"交互假设(环境/智能体轮流暂停),难以应对持续变化的实时环境[3][4] 现有技术瓶颈 - 无动作遗憾:因推理时间长导致智能体无法在每一步都采取动作,形成次优策略[7] - 延迟遗憾:动作基于过去状态计算,在随机环境中产生延迟影响[8] 解决方案1:交错异步推理框架 - 通过异步多过程推理实现:允许智能体利用全部算力进行并行计算,自适应调整时序偏移[11][14] - 技术效果:计算资源充足时,可完全消除无动作遗憾(1亿参数模型在《宝可梦:蓝》中成功捕捉)[15][17] - 性能表现:在俄罗斯方块等实时游戏中,模型规模增大时性能下降速度减缓(但延迟遗憾未完全解决)[19] 解决方案2:神经网络架构创新 - 并行计算机制:一次性计算所有网络层,将推理吞吐量从每Nδ秒提升至每δ秒[25][30] - 时序跳跃连接:最新观测仅需δ延迟即可到达输出层,总延迟从Nδ降至δ[26][31] - 组合效果:并行计算减少无动作遗憾,跳跃连接解决延迟遗憾,两者结合可恢复马尔可夫特性[27][33] 技术应用前景 - 互补性:交错推理确保大模型持续输出动作,时序跳跃连接降低内部延迟[35] - 行业价值:为机器人、自动驾驶、金融交易等延迟敏感领域提供高响应解决方案[36] - 突破意义:首次实现大模型在高频决策中不牺牲表达能力,推动强化学习在现实场景落地[37] 技术验证案例 - 游戏场景:1亿参数模型在《宝可梦:蓝》中实现快速适应和动作执行[17] - 性能基准:俄罗斯方块测试显示模型规模与性能下降呈非线性关系[19] - 延迟优化:通过时序跳跃连接将N层网络延迟从Nδ压缩至δ[31]
马斯克Grok的AI男友还在取名,开源版AI女友已经火了,还是3D的
机器之心· 2025-07-17 17:31
Grok新功能与用户反馈 - Grok推出新功能「智能伴侣」,提供动漫形象Ani、卡通小熊猫Rudy和待上线角色Chad [2] - 由于女性形象Ani引起热烈反响,马斯克在线征集男性Grok伴侣命名,网友提议Draven等名字 [2][7] - 马斯克设想的男性Grok伴侣气质类似《暮光之城》爱德华和《五十度灰》克里斯蒂安 [3] 用户创作与开源项目 - 网友Jackywine受Grok的Ani启发,开发开源3D动画版数字伴侣「Bella」,保留形象但去掉大语言模型功能 [9] - 「Bella」项目使用豆包、即梦、Trae等工具,已开源并详细介绍工作流程 [9][10] - 「Bella」定位为数字伴侣种子,目标是成为持久的个性化存在,陪伴用户并共同进化 [12][13] 「Bella」技术架构与愿景 - 采用「AI原生」演进路径,AI作为心智构建蓝图而非工具,核心原则是「AI即架构师」 [16] - 第一阶段建立多模态数据处理管线,采用「感知器-总线-处理器」模式实现解耦和扩展性 [17][18][19][20] - 第二阶段构建「状态-情境-人格」引擎,实现动态人格模型和生成式行为,支持模块化升级 [21][22][23][24][25][26][27][28][29][30] - 第三阶段引入预测服务和反馈循环,实现主动陪伴和持续进化,形成「成长」闭环 [31][32][33][34][35][36]
昨晚,云计算一哥打造了一套Agent落地的「金铲子」
机器之心· 2025-07-17 17:31
多智能体AI技术趋势 - 多智能体技术成为大模型发展的下一个重要方向,Grok 4、Kimi K2等产品已展示其自主理解环境、规划行动和利用工具解决复杂问题的能力[1][2] - 大语言模型(LLM)正进入重大版本迭代阶段,新技术落地速度超预期,亚马逊云科技已推出Agentic AI全套解决方案[3][4] - AI Agent具备任务规划、长期记忆和自主学习能力,将深刻改变软件构建方式和人机交互模式[6][7] 亚马逊Agentic AI技术架构 - 推出Amazon Bedrock AgentCore架构,包含7项核心服务,支持企业级安全Agent的构建与部署[13][14] - 提供端到端开发工具链:Runtime(隔离环境)、Memory(记忆管理)、Observability(可视化调试)等七大组件[18][23] - 该架构显著降低AI应用部署成本,使智能化产品首次具备大规模实用性[20][21] 模型生态建设 - Amazon Bedrock托管模型厂商从7家增至12家,新增TwelveLabs等支持文本/音视频/编程多模态能力[24] - Nova基础模型家族6个月内新增8款模型,包括浏览器操作型Nova Act(任务完成率>90%)和语音模型Nova Sonic[29][34] - 平台支持10000+客户使用Nova系列模型,形成从轻量级到高性能的完整产品链[30][31] 多Agent协作开发 - Strands Agents SDK升级至V1.0,支持MCP和A2A协议,将复杂开发工作从数月缩短至数小时[38][39] - 引入四大协作原语:Agents-as-Tools(任务委派)、Swarms(自组织团队)等,实现从串联到主动协作的跨越[41][42] - 新增会话管理器和异步执行能力,满足生产环境大规模部署需求[44] 数据与成本优化 - 推出原生向量存储服务S3 Vectors,降低90%存储成本同时保持亚秒级查询性能[48][50] - 集成Amazon Bedrock知识库支持低成本RAG应用开发,联动OpenSearch实现分层向量策略[52] - 构建Agent应用市场,提供即插即用解决方案加速AI战略落地[53][55] 应用场景革新 - 开发工具Kiro实现规范驱动开发,自动生成任务/测试/文档,结构化流程提升交付效率[56][57] - 通过Amazon Q、Bedrock Agents、Strands Agents三大工具覆盖企业全场景Agent部署需求[58] - 技术成熟度领先行业,提供唯一支持自动推理检查的幻觉防护机制和跨模型安全评估API[66]
普林斯顿团队领衔发布最强开源数学定理证明模型:32B性能大幅超越前代SOTA DeepSeek 671B
机器之心· 2025-07-17 13:03
核心观点 - 新一代开源数学定理证明模型Goedel-Prover-V2在多个基准测试中大幅超越此前最先进的开源模型DeepSeek-Prover-V2-671B [1] - 32B旗舰模型在MiniF2F测试中正确率提升8% [6],8B小尺寸模型性能与671B参数模型持平 [7] - 模型在PutnamBench排名第一 [9],并在MathOlympiadBench等新基准中表现优异 [18][20] 主要成果 - **MiniF2F性能突破**:32B模型Pass@32正确率达88.1%(标准模式)和90.4%(自我修正模式),较前代SOTA提升8% [6][12] - **小模型高效性**:8B参数模型在MiniF2F上通过率83.3%,性能与671B参数模型相当 [7][12] - **PutnamBench领先**:32B模型在Pass@64下解决64题,远超前代Pass@1024解决47题的记录 [14][20] 技术方法 - **专家迭代与强化学习**:结合形式化问题生成与验证流程优化模型 [26] - **分层式数据合成**:自动生成渐进难度问题以提升训练效果 [26] - **验证器引导自我修正**:利用Lean编译器反馈迭代修正证明 [13][32] - **模型平均技术**:融合不同节点权重提升鲁棒性 [12][32] 性能表现 - **基准测试对比**:32B模型在MiniF2F、PutnamBench、MathOlympiadBench中均超越SOTA模型 [18][22] - **计算效率优势**:自我修正模式下输出长度仅从32K tokens增至40K tokens,保持高效 [16] - **扩展性曲线**:32B模型在不同采样预算下性能稳定优于同类模型 [21][25] 模型与数据发布 - **开源模型**:32B与8B模型已发布于HuggingFace [8][33] - **新基准数据集**:MathOlympiadBench包含360道奥林匹克竞赛级别题目 [30] 研究团队 - **核心成员**:普林斯顿大学林勇、唐山茖及金驰教授团队主导开发 [35][38][39] - **研究方向**:聚焦大模型形式化数学推理与高级决策能力 [39]
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度
机器之心· 2025-07-17 13:03
核心观点 - 谷歌发布名为Mixture-of-Recursions(MoR)的新LLM模型架构,该架构在递归Transformer基础上进化,被认为有潜力成为Transformer的杀手[1] - MoR框架通过统一方法同时实现参数共享和自适应计算,创建协同架构,实现"无需承担大模型成本的大模型质量"[2] - MoR通过端到端训练轻量级路由为每个token分配专属递归深度,根据token所需"思考"深度决定共享参数模块重复应用次数,精准分配计算资源[4] - MoR在统一架构中同时实现三项优化:参数共享、计算路由和递归级缓存[6] 架构设计 - MoR基于递归Transformer,通过跨多个层共享权重实现参数效率[12] - 采用中周期参数共享策略,在参数效率和模型表达能力之间提供最佳平衡[14] - 核心创新是动态路由系统,根据单个token计算需求分配不同递归深度[15] - 引入两种KV缓存策略:递归式KV缓存和递归KV共享,显著降低内存访问开销[16] - 采用辅助路由、辅助损失、均衡损失和路由偏置等技术优化路由机制[17] 性能表现 - 在等效训练预算(16.5×10¹⁸ FLOPs)下,MoR模型参数量减少近50%仍取得更优性能[19] - 少样本学习平均准确率达43.1%,超越基线模型的42.3%[19] - 在固定训练token数量(20B)下,MoR使用比基线少25%的FLOPs仍实现更低验证损失和更高准确率[21] - 训练时间减少19%,峰值内存使用量下降25%[22] - 在最大批量配置下吞吐量提升可达2.06倍[30] 扩展性与效率 - MoR在所有模型规模和计算预算下稳定优于递归基线模型[27] - 参数量超过360M时,MoR在低至中等预算下常常超越原始Transformer[27] - 结果表明MoR是标准Transformer可扩展且高效的替代方案,适合预训练及大规模部署[28] - 通过连续深度批处理和提前退出机制显著提升推理吞吐能力[31] 潜在影响 - MoR为高效LLM架构建立新范例,解决语言建模中的基本可扩展性挑战[37] - 为开发更具认知启发性的AI系统提供基础,与语言模型中新兴的潜在推理和内部思考研究相一致[38] - 该方法提高推理速度并降低KV缓存,但能否被称为"Transformer杀手"仍存质疑[39]
两周反转:Anthropic「闪电」夺回被Cursor挖走的核心编程大将
机器之心· 2025-07-17 08:53
核心观点 - Anthropic近期重新聘回Claude Code两位关键负责人Boris Cherny和Cat Wu [1][2] - 公司透露其AI模型和聊天机器人Claude直销毛利率达60%并有望提升至70% [8] - 通过AWS和谷歌云渠道销售时毛利率为负30% [9] - 投资人考虑以超过1000亿美元估值进行新一轮融资 较四个月前580亿美元估值增长72% [5] - 编程助手Claude Code成为增长主力 年化收入贡献超2亿美元 [20][25] 人才变动 - Claude Code开发负责人Boris Cherny和产品经理Cat Wu被Anysphere挖走后又回归 [1][2] - Boris Cherny曾透露公司80%代码由Claude编写 [2] 财务表现 - 直销渠道毛利率达60% 目标提升至70% [8] - 云服务渠道毛利率为负30% 因中间商抽成 [9] - 去年运营支出56亿美元 今年计划降至30亿美元 [14] - 投资人考虑按1000亿美元估值投资 对应远期收入25倍 [5][17] 产品发展 - Claude Code周下载量6个月内增长6倍至300万次 [25] - 产品年化收入贡献超过2亿美元 [25] - 竞争对手Cursor因收费模式变更导致用户流失 [24][26][27] 行业对比 - OpenAI预测2025年毛利率48% 2029年达70% [11] - OpenAI当前年化收入超100亿美元 估值达2600亿美元 [18] - Anthropic估值增速显著 四个月内从580亿升至潜在1000亿 [5]
种子轮就估值120亿美元,她能打造另一个OpenAI吗?
机器之心· 2025-07-16 16:09
融资规模与估值 - Thinking Machines Lab在种子轮融资中成功募集20亿美元,投后估值达到120亿美元,成为硅谷历史上规模最大的种子轮融资之一[2] - 绝大多数AI初创企业早期融资只有几百万到几千万美元,相比之下20亿美元的种子轮融资规模异常庞大[5] - 20亿美元的融资规模甚至可以买下大半个Windsurf公司(核心技术加主要团队)[5] 融资背景与用途 - 种子轮融资通常是创业初期的第一笔启动资金,金额不大但风险最高[4] - 这笔资金的核心用途是构建顶尖人才团队和支撑他们工作的海量算力[8] - 此轮融资由知名风投公司a16z领投,芯片巨头Nvidia和AMD也位列投资者名单[9] 公司战略与方向 - 公司正在构建能以自然交互方式工作的多模态AI,通过对话、视觉等真实协作方式[12] - 明确提出产品将包含一个开源组件,对开发定制模型的研究人员和初创公司很有用[13] - 公司将分享其最优秀的科学成果以回馈研究社区[13] 团队与人才 - 创始人Mira Murati在AI领域拥有卓越履历,曾负责ChatGPT、Dall-E等核心产品的开发[21] - 公司已经吸引了多位重量级人物,堪称"AI梦之队"[20] - Meta公司曾就收购Thinking Machines Lab进行过谈判,但最终未能进入正式报价阶段[22] 行业对比与趋势 - 同为OpenAI校友公司的Anthropic第一轮正式融资仅为1.24亿美元(2021年5月)[5] - 近期AI人才争夺战激烈,AI工程师出现天价"转会"风波[23] - 公司名称可能是在致敬1980年代的计算机公司Thinking Machines Corporation[19] 创始人背景 - 创始人Mira Murati曾在OpenAI担任CTO,并在2023年11月的董事会风波中短暂担任临时首席执行官[21] - 此前曾在特斯拉担任高级产品经理,参与了Model X的研发[21] - 她的创业发生在OpenAI领导层"政变"风波之后[12]