Workflow
AGI
icon
搜索文档
6小时复刻AI IMO金牌成果,蚂蚁多智能体新进展已开源
量子位· 2025-08-02 16:33
AWorld项目团队投稿 发自 凹非寺 量子位 | 公众号 QbitAI 2025年的IMO,好戏不断。 7月19日,全世界顶尖大模型在2025年的IMO赛场上几乎全军覆没。时隔1天,OpenAI、DeepMind等顶尖实验室就在IMO 2025赛场斩获5/6 题,震惊数学圈。 有意思的是,7月23日——两位来自Harvard和UCLA的学生,用Gemini 2.5 Pro+自研多轮验证框架,在arXiv扔下一篇论文,首次系统性拆 解了「解题+验证」的IMO解题方法论。48小时后,他们开源了完整代码。 来自蚂蚁的多智能体框架AWorld项目团队也加入了这场卷王之争: 7月24日启动,仅仅6小时,采用AWorld智能体框架,复现并开源了DeepMind的5/6道解题结果,并直接给出了可一键运行的多智能体IMO系 统。 果然,大家好奇的点还是跟传统长思维链LangChain等框架有什么不一样。作者给出的回复,核心就是一个词,自我进化。即,多智能体能够 超越单个智能体,能够用于复杂问题协同,以及强化学习的奖励模型等,最终实现AGI。 IMO 2025,把复杂推理模型推向了一种新的高度(尽管还处在实验室阶段,但Dee ...
AI编程界炸出新黑马!吊打Cursor、叫板Claude Code,工程师曝:逆袭全靠AI自己死磕
AI前线· 2025-08-02 13:33
编译 | 平川、Tina 近期,AI 编程领域又一匹 AI Coding 黑马正在快速崛起。在一次 对主流 AI 编程产品的评级分类里 ,唯一与 Claude Code 并列 S 级的,是 Sourcegraph 最新推出的 AmpCode,而爆火的 Cursor 也只排在了第二档次的 A 级。 那么,AmpCode 究竟有何独特之处?Sourcegraph 工程师 Thorsten Ball 在近期一档播客中分享了这款产品背后的理念与 AI 编程的范式转变。 Thorsten 透露,AmpCode 的研发实际上早于 Claude Code 的发布。两者虽独立发展,但在智能编程助手的核心设计理念上却不谋而合。在他看 来,AmpCode 和 Claude Code 目前代表了最具"代理性"(agentic)的 AI 编程产品:它们不仅能调用工具,还真正"参与"开发流程,具备高度自 治能力。 而与 Cursor、Windsurf 等交互过程不够直接的产品不同,AmpCode 在架构设计上做出了关键决策: "我们选择了放权——把对话记录、工具访问权限、文件系统权限全都交给模型,然后放手让它去做。" Thorsten ...
Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代
Z Potentials· 2025-08-02 10:19
01 物理学式的 AI 科学革命 即便是最顶尖的大模型,依然会在简单推理和常识问题上犯错。这是算法极限,还是训练范式出了问题? 我们能否像物理学家一样,用客观、可控的实验 揭示"AGI"本质? 《Physics of Language Models( 语言模型 物理学)》 ,正是将AI研究带入"物理学范式"的项目,由Meta FAIR研究院的朱泽园概念化发起 ,并统筹设 计。朱泽园是LoRA技术合作者、Katyusha优化算法发明者、清华本科,麻省理工博士、Google Codejam全球编程大赛第二名、IOI两届国际金牌,论文引 用超三万。他从优化理论深耕多年,现专注于AI基础理论和智能本质的科学探索。 02 用物理学方法追寻智能的普适规律 将"智能"拆解为 原子化 、可控的任务维度(推理、知识、结构理解等) ,为每个维度设计合成实验,最大限度减少"现实世界数据"的噪音; 用可控实验,揭示不同模型架构的极限与短板 ,不仅看"刷分",更追溯"为何如此""如何突破"; 坚持客观、可验证的科学精神和学术思想传承 ,推动AI从工程走向基础科学。 本次开源, 是Physics of Language Models自诞 ...
Manus还活着,还上新了
虎嗅APP· 2025-08-01 18:26
Manus新功能Wide Research发布 - 公司推出新功能Wide Research(广度研究),目前仅对Pro用户开放,未来将向Basic和Plus用户开放,暂无免费用户开放计划 [3] - 该功能是公司内部耗时最长的开发项目,耗时超两个月 [6] - 功能定位为"广度研究",与OpenAI的"深度研究"形成差异化竞争,直接挑战行业巨头 [6] 技术特点与性能对比 - Wide Research采用并行计算技术,可将任务拆分为批量子任务处理,计算能力扩展100倍,但算力消耗显著增加 [9] - 实际测试显示,Wide Research能完成全球前100MBA学校列表等广度任务,而ChatGPT Agent仅能处理10所学校 [7] - 功能演示显示可同时比较100双运动鞋或生成50张风格海报,展现横向扩展优势 [9] 用户成本与行业竞争格局 - 单个Wide Research任务预计消耗1000积分(子任务约10积分/个),远超免费用户每日300积分限额 [10] - 行业存在技术路线分化:Wide Research强在并行效率,Deep Research长于复杂逻辑推理,两者结果可靠性均需提升 [10] - AI Agent领域陷入同质化竞争,公司通过Wide Research实现差异化创新,突破行业"深度研究"内卷现状 [12] 战略意义与行业影响 - 新功能发布被视为公司技术实力的重要证明,回应市场对其发展状况的质疑 [5] - 从产品推出到功能迭代仅用5个月,展现快速创新能力 [5][6] - 行业面临AGI技术瓶颈,公司尝试通过计算范式创新开辟新竞争维度 [12]
2025款林肯冒险家SUV车型上市:可选2.0T燃油/1.5T混动;比亚迪公布自动充电及充气机器人专利丨汽车交通日报
创业邦· 2025-08-01 18:20
1. 【比亚迪公布自动充电及充气机器人专利】天眼查App显示,8月1日,比亚迪股份有限公司申请 的"一种机器人"专利公布。该机器人无需车端改造,集成充电与充气功能,通过智能判断、精准对接 及闭环控制,实现自动充电、胎压监测与充气,提升智能化体验,确保安全,降低使用成本。(腾讯 网) 2. 【奇瑞汽车公布全固态电池专利】天眼查App显示,近日,奇瑞汽车股份有限公司申请的"全固态 电池及其制备方法、电池包和车辆"专利公布。摘要显示,本公开属于电池技术领域。全固态电池包 括多个料区极组、多个第一集流体和多个第二集流体,料区极组包括依次压制在一起的正极料区、固 态电解质和负极料区,其中,第一集流体与料区极组的正极料区贴合,第二集流体与料区极组的负极 料区贴合。本公开的全固态电池及其制备方法、电池包和车辆能够减小采用等静压技术压制全固态电 池时集流体受到的损伤。(网易) 车辆提供2.0T燃油和1.5T混动两种动力,其中2.0T发动机最大功率192千瓦,峰值扭矩395牛・米, 匹配8挡自动变速箱,并提供四驱系统。1.5T混动版发动机最大功率142千瓦,峰值扭矩226千瓦; 驱动电机最大功率96千瓦,峰值扭矩235牛・米; ...
GPT-5发布倒计时?全网泄露来了:微软Copilot憋大招,GPT-5上线最后冲刺
36氪· 2025-08-01 10:05
GPT-5技术进展 - GPT-5-Alpha已由Cursor团队内部测试,表现惊艳,几乎能一次性完成任何任务[1][3] - 在macOS ChatGPT应用中发现了GPT-5-Auto和GPT-5-Reasoning模型,路径为`~/Library/Caches/com.openai.chat/fsCachedData`[5][7][8] - GPT-5可能包含o系列模型,网友从"reasoning"字眼推测其已具备高级推理能力[9] 合作伙伴准备情况 - Perplexity已完成网站上的GPT-5发布准备工作,Pro用户将能立即使用[10] - 微软工程师正在为Copilot集成GPT-5做准备,包括消费者版和企业版[12][17][19] - Windows 11 Copilot将推出基于GPT-5的智能模式,可根据查询自动切换推理/非推理模式[17][22] 技术特性与行业影响 - GPT-5将采用智能路由技术,可能已开始逐步推出[15] - 微软计划在AI套件中全面部署GPT-5,覆盖Copilot、Microsoft 365 Copilot和Azure三大平台[17][18] - OpenAI研究员认为GPT-5的压缩能力(文本理解与总结)已达到智能标准,展示了理解力和创造力[31][38][46] 商业模式创新 - GPT-5将打破付费墙限制,Windows 11 Copilot免费版也将搭载其智能模式[17] - AI产品已形成自我改进循环,ChatGPT每日数亿用户、数百万付费用户为AGI研究提供持续资金[55] - 技术商业化路径明确,通过微软生态(消费者/企业/API)实现大规模落地[17][22]
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
机器之心· 2025-07-31 13:11
机器人VLA模型研究突破 - 新加坡国立大学邵林团队发表突破性研究VLA-OS,首次系统解构和分析机器人VLA模型的任务规划与推理能力 [3] - 研究通过控制变量实验方法,专注于任务规划的"范式"和"表征"两大方面,统一其他因素 [19] - 研究提出五大核心问题,包括规划表征选择、范式选择、性能瓶颈、scaling law和规划带来的提升 [21] VLA-OS实验平台设计 - 构建架构统一、参数递增的VLM模型家族,选取Qwen 2.5 LLM的0.5B/1.5B/3B/7B四个模型作为基座 [23] - 设计可组合的VLA-OS模型家族,实现ActionOnly-VLA、Integrated-VLA和Hierarchical-VLA三大范式的公平对比 [25][26] - 收集整理六类数据集共约10,000条轨迹,覆盖多种视觉模态、操作环境和执行器种类 [28][29] 关键研究发现 - 视觉规划表征和目标图像表征相比语言表征具有更优性能、更快推理速度和更低训练成本 [46][47] - Hierarchical-VLA范式展现出最强泛化能力和规划能力,优于Integrated-VLA [49][57][63] - 所有VLA范式性能随数据量增加而提升,但模型规模超过3B时性能下降 [72][75] - 含任务规划的VLA范式前向迁移能力更强但遗忘速度更快 [76][79] 设计指南与未来方向 - 首选视觉表征和目标图像规划,语言规划仅作为辅助 [81] - 资源充足选Hierarchical-VLA,资源有限选Integrated-VLA [81] - 未来方向包括探索空间表征神经机制、设计解耦训练机制、开发高效VLM信息蒸馏架构和构建万亿级规划数据集 [86]
丰田上半年销量超过554万辆,时隔3年再创新高;零跑B01车型第1万台整车量产下线丨汽车交通日报
创业邦· 2025-07-30 18:10
德国车企业绩下滑 - 梅赛德斯-奔驰2025年上半年销售收入726亿欧元同比减少8.6% 税后净利润27亿欧元同比大幅降低55.8% [1] - 奥迪2025年上半年税后利润13.46亿欧元同比下降37.5% 美国关税导致损失约6亿欧元 全球汽车交付量同比下降约6% [2] - 美国关税政策导致德国三家主要汽车制造商今年现金流或将减少100亿欧元 [2] 中国新能源汽车发展 - 零跑B01纯电轿车第10000台整车量产下线 该车型售价8.98万至11.98万元 [3] 日本车企表现 - 丰田汽车2025年上半年全球销量5,544,880辆同比增长7.4% 预计将超过大众的441万辆 连续6年位居全球首位 [4]
我在WAIC看见的十大趋势
量子位· 2025-07-30 10:29
核心观点 - AI行业热度空前,WAIC展会呈现十大核心趋势,展现中国AI产业的快速发展和创新活力 [2][3][5] 十大核心趋势 趋势一:中国AI因DeepSeek而不同 - DeepSeek带来观念改变,AGI在中国被真正相信,中国人可能率先实现AGI [6] - DeepSeek-R1让普通人不再认为AI是"智障",唤醒中国AI创始人直接瞄准AGI [7] - 前谷歌CEO施密特等国际专家认可中国AI实力 [6] 趋势二:基础大模型综合实力比拼 - 基础大模型竞逐重点从SOTA转向推理、多模态和低成本 [8][9] - 阶跃星辰Step-3模型总参数321B,具备多模态推理能力,联合千里科技和吉利汽车落地智能座舱 [12] - 商汤日日新V6.5在多模态推理能力上表现优异,部分指标超过Gemini 2.5 Pro和Claude 4-Sonnet [14][15] - 讯飞深度推理X1升级版在幻觉治理、综合能力等方面有提升 [15] 趋势三:开源大模型进入中国时间 - 开源成为中国大模型领域的标配,通义千问是开源旗手 [17][18][21] - 阿里通义千问系列模型和通义万相2.2全部开源 [18][20] - 中国开源模型方阵蔚为壮观,包括基础大模型和垂直模型 [23][24][26] - 开源共识形成,中国可能成为AI时代的"安卓" [28][31] 趋势四:国产化AI生态闭环 - 国产芯片与国产大模型协同构建生态 [32][33] - 摩尔线程实现100token/s跑满血DeepSeek,推动AI训练向万卡级规模演进 [37] - 后摩智能发布能效比最高的存算一体AI芯片M50,功耗仅10W [39] - 中昊芯英发布中国首枚TPU架构高性能AI芯片"刹那®"和计算集群"泰则®" [41] - 联想、燧原科技等推出国产算力+国产模型的大模型一体机 [44][46] 趋势五:AI基建与垂直行业应用 - 华为展示昇腾384超节点真机,支持万张算力卡的数据中心 [51] - 中国电信展出五大技术体系,包括智传网、算网一体服务等 [53] - PPIO发布国内首个Agentic AI基础设施服务平台 [56] - 国家电网和南方电网展示电力行业大模型"大瓦特",机器人代人率达80% [60] - 蚂蚁数科推出金融大模型Agentar-Fin-R1,在金融基准测试中表现优异 [62] - 百度展示数字人技术NOVA,曾支撑罗永浩数字人直播间创5500万GMV [64] 趋势六:ToC创新与AI Agent - C端产品创新开始,AI Agent成为新风口 [66][67] - WPS发布原生Office办公智能体,通过自然语言完成文档创作等 [76] - 钛动发布全球营销AI Agent,赋能营销全链路 [77] - 深势科技发布通用科学智能体SciMaster,提供专家级科研助手 [79] - Agent被视为AI时代的软件形态产品,将革新各领域应用 [82][83] 趋势七:商业化AI终端 - 汽车、耳机和眼镜成为第一批商业化AI终端 [86][87] - 特斯拉、吉利等车企展示AI能力,座舱领域创新打开新增长空间 [88][90][94] - 讯飞AI耳机iFLYBUDS Pro 3和Air 2主打商务办公场景 [99][100] - AI眼镜备受关注,Rokid预定量达25万台,Halliday中国首秀 [104][105][107] - 夸克发布AI眼镜,集成阿里和支付宝生态 [109][110] 趋势八:具身智能机器人 - 具身智能机器人赛道白热化,今年实现大飞跃 [112][113] - 智元、银河通用、北京人形机器人创新中心等展示能走能动的机器人 [117][119][121] - 宇树科技通过"机器人打拳击"展示灵活运动能力 [129] - 戴盟聚焦触觉感知技术,展示精细化操作能力 [135][137][139] - 行业开始向人形收敛,VLA和世界模型成为共识 [133] 趋势九:非Transformer架构 - 非Transformer架构从学术研究进入产业应用 [144][145] - RockAI展示自研非Transformer架构驱动的机器狗和灵巧手 [146] - RWKV元我智能公开RWKV-7s架构,KV cache仅为MLA的1/9大小 [146] 趋势十:中国与硅谷AI差距 - 中国与硅谷AI差距缩短至6个月,集中在大模型先进技术层面 [154] - 发展目标转向AGI实现,而非追赶硅谷 [155] - 中国拥有发展AI的宝贵资源——人才和用户基础 [157][158]
苹果回应首次在华关停直营店;字节跳动辟谣造车传闻;红果2.1亿月活力压优酷;理想i8纯电SUV售价32.18万起丨邦早报
创业邦· 2025-07-30 08:07
苹果中国业务调整 - 大连首家苹果直营店将于2025年8月9日关闭,系苹果首次在中国关停直营店,原因系购物中心内多家零售商撤离,团队成员将转岗至附近恒隆广场零售店 [2] 企业社会责任行动 - 字节跳动、小米、理想汽车等企业向京津冀灾区捐款:字节跳动1000万元、小米500万元、网易500万元物资现金、京东首批物资已发车、阿里巴巴2.6万箱生活物资、理想汽车1000万元、蔚来200万元、长城汽车500万元 [2] 字节跳动业务动态 - 否认"豆包汽车"造车计划,火山引擎称仅为汽车客户提供算法训练平台 [3] - 旗下短剧APP红果月活达2.1亿,同比增长179%,首次超越优酷(2亿月活) [3] 本地生活服务 - 美团"浣熊食堂"品牌正式推出后,相关搜索量环比上涨40倍,商家曝光量增164%、订单量增60%,承诺不自营、不与商家竞争 [3] 人工智能领域合作 - 微软与OpenAI就长期技术获取展开深入谈判,新协议或数周内达成,涉及AGI里程碑后的权利调整 [3] 知识产权保护 - 上海警方破获销售假冒泡泡玛特Labubu玩偶案,查获假货5000余件,涉案金额1200余万元 [3] 汽车行业动态 - 长安汽车股权结构调整:中国长安汽车集团持股比例增至35.04%,实控人未变更 [9] - 理想i8纯电SUV上市,售价32.18万-36.98万,搭载自动充电机器人技术,美股盘前涨超6% [20][25][26] - 中国长安汽车集团新车型深蓝L06将搭载全球首款3纳米车规级座舱芯片,全系标配激光雷达 [30] 零售业高管变动 - 沃尔玛广东公司法定代表人变更为赵诚宁,注册资本2600万美元,系近期沃尔玛中国多家子公司高管集中调整 [9] 企业人才战略 - 中国平安任命原蚂蚁集团副总裁王晓航为CTO,其曾主导蚂蚁数字金融与AI创新 [14] - 马斯克宣布xAI取消"研究员"职称,全员统称"工程师",称原职称体系为学术遗留问题 [9] 资本市场动态 - AI初创公司Fireworks AI正以40亿美元估值融资,年化收入超2亿美元,面临英伟达云市场竞争 [23] - 韩国AI芯片公司Rebellions获三星投资,计划IPO前融资1.5-2亿美元 [24] - AI Agent平台Delve完成3200万美元融资,估值3亿美元,由Insight Partners领投 [24] 消费电子与娱乐 - 索尼起诉腾讯游戏《荒野起源》抄袭《地平线》系列,指控其复制独特元素造成混淆 [11] - 影石Insta360宣布进入无人机市场,将推全球首款全景无人机,创始人称五年前已决策 [13] 行业数据 - 2025年暑期档电影总票房破55亿元 [32] - 6月皮卡销量4.8万辆同比增8%,1-6月累计30.7万辆同比增16% [34] - 2024年末新能源汽车贷款余额2040.96亿元,同比增23.44% [34] 企业福利政策 - 名创优品投入1000万元设立婚育基金,已发放266万元,一胎奖1万、二胎2万且上不封顶 [14][19]