Aletheia
搜索文档
腾讯研究院AI速递 20260302
腾讯研究院· 2026-03-02 01:11
Anthropic与OpenAI的竞争及用户迁移 - Anthropic因坚守“不进行大规模监视、不开发自主武器”两条红线与五角大楼谈判破裂,遭特朗普政府全面封杀并被定性为“供应链威胁”[1] - Claude应用在遭封杀后24小时内,一路飙升登顶美国和加拿大App Store免费榜第一[1] - 大量用户晒出注销ChatGPT Plus截图转投Claude,全网掀起抵制OpenAI运动,网友分享通过导出聊天记录并转换格式实现向Claude无缝迁移的教程[1] - OpenAI公布与五角大楼的协议,声称设置三条红线:禁止大规模国内监控、禁止指挥自主武器系统、禁止高风险自动化决策,并称其方案比Anthropic更完善[2] - OpenAI与五角大楼的协议采用纯云端部署、OpenAI自主运维安全防护体系、涉密工作人员全程参与,若违约OpenAI有权终止协议[2] - 外界质疑OpenAI协议中“所有合法目的使用”等措辞极其模糊容易被突破,这正是Anthropic所拒绝的部分,网友断言红线很快会被突破[2] - Anthropic与苏黎世联邦理工学院联合研究显示,其提出的ESRC自动化流水线仅用公开模型和标准API即可实现大规模在线去匿名化,开盒成本降至几美元[9] - 在跨平台匹配实验中,AI在90%精确率下正确识别67%用户,跨越一年时间跨度仍能达到67.3%召回率,传统方法在同等任务中几乎完全失败[9] - 测试的所有防御方法效果均不乐观,唯一有效防御是平台不公开用户历史发言,监控能力已不需要专有模型,这为Anthropic拒绝大规模监控的立场提供了依据[9] AI智能体与机器人技术进展 - Claude Code团队成员复盘开发经验,指出构建智能体最核心环节是设计动作空间,必须为智能体提供与其能力相匹配的工具[3] - 关键迭代包括:打造专属“向用户提问”工具替代格式化输出、随模型能力升级将“待办清单”替换为支持跨智能体协同的“任务系统”[3] - 搜索工具从RAG方案转向Grep自主搜寻,确立渐进式信息披露模式,通过构建专属指南子智能体在不增加工具数量的前提下扩展能力[3] - 荣耀在MWC 2026发布全球首款“机器人手机”Robot Phone,集成行业最小4DoF云台系统和2亿像素传感器,支持三轴机械防抖和AI自动跟踪拍摄[4] - 荣耀CEO提出AHI(增强人类智能)理念,强调AI要以人为中心兼具IQ和EQ,并宣布与ARRI达成影像战略合作[4] - 荣耀同步发布折叠屏旗舰Magic V6,折叠厚度仅8.75mm刷新行业纪录,搭载超7000mAh电池和骁龙8至尊版芯片,现场有人形机器人表演太空步和后空翻[4] - 清华与斯坦福联合提出VLAW框架,首次实现VLA策略与动作条件世界模型的双向迭代优化,解决世界模型“盲目乐观”和物理保真度不足问题[5] - VLAW框架采用四步工作流,实测显示校准后的世界模型假阳性率大幅降低,20秒长时程虚拟试错仍保持物理合理性,在五类复杂操控任务中支撑机器人性能大幅提升[6] AI在数学与软件开发领域的前沿突破 - 谷歌DeepMind最新AI智能体Aletheia在FirstProof挑战赛中,零人工干预自主解出10道世界级未解数学难题中的6道,取得首届全场最佳成绩[7] - Aletheia系统内置“生成者-验证者”双模块互搏机制,遇到无把握的问题直接输出“未找到解法”,其攻克第7题耗费的算力是解决Erdő s-1051问题的16倍[7] - 数学家陶哲轩称AI已成为“初级合著者”,AI正让数学家首次有能力从“个案研究”转向“大样本普查”,系统性扫描人类没精力碰的问题长尾[7] - Cursor创始人指出AI软件开发已从Tab补全、同步Agent进入第三时代,特征是云端Agent能在更长时间尺度上独立处理复杂任务[8] - Cursor内部超35%合并的PR由运行在云端虚拟机的自主Agent创建,Agent用户数量已达Tab用户的2倍,过去一年Agent使用量增长超15倍[8] - 行业专家评论建议开发者将80%时间用于当前有效方式、20%探索下一步方向,开发者角色正从逐行编码转向定义问题、制定评审标准和管理Agent工厂[8]
比IMO还难的数学挑战赛,谷歌赢了OpenAI
36氪· 2026-02-26 15:59
事件概述 - 谷歌旗下基于Gemini 3 Deep Think的数学智能体Aletheia,在由11位顶尖数学家设计的FirstProof挑战赛中,全程0人工参与解出10道题中的6道,其中5题获专家全票通过,一题获5/7通过率 [1][2][6] - OpenAI内部模型在同一测试中基本正确解答5道题,但在过程中动用了人工来挑选最佳答案 [3] - 与传统的IMO竞赛题不同,FirstProof的题目直接来源于数学家真实遇到的、从未公开发布过的难题,且答案在AI考试后才公布,杜绝了背答案的可能 [4] 参赛者表现对比 - **谷歌Aletheia**:自主解答6题,包括OpenAI被质疑逻辑问题的第2题,在专家评审中,第2、5、7、9、10题获全票通过,第8题获5/7通过率 [5][6] - **OpenAI模型**:初期公布解答6题,后因社区对第2题提出逻辑质疑,保守调整为5题基本正确,团队承认在测试中人工协调了模型与ChatGPT的交流,用于验证、格式整理与风格调整,个别问题最终呈现的是人工挑选的最佳结果 [4][5] 技术细节与能力 - **底层模型与架构**:Aletheia搭载了A(2026年2月版)和B(2026年1月版)两个版本的Gemini 3 Deep Think模型,采用最优二选一策略 [8] - **全自主流程**:具备从读取原始问题、自主推理、内置验证到输出LaTeX格式答案的完整0人工干预流程,对于无法可靠证明的题目,模型会输出“无解决方案”而非胡编乱造 [8] - **动态资源分配**:能根据题目难度动态调整推理算力,例如对公认难度最高的第7题投入远超常规的算力,通过Generator子代理多轮生成和Verifier子代理严格校验攻克;对于第10题等数值型题目,能通过算法优化将每轮迭代复杂度压缩到O(qr+n²r),比传统线性求解器的O(n³r³)快几个量级 [10] 题目与成就亮点 - **题目性质**:题目非标准化竞赛题,而是来自真实研究场景的未公开难题,例如第7题是一个公开未解问题,直至本次挑战赛发布标准答案时才首次被Cappell–Weinberger–Yan团队解决 [4][6] - **成绩含金量**:Aletheia在解题数量(6题 vs 5题)和自主性(全程AI自主 vs 人工辅助)上均略胜一筹 [5][6]
腾讯研究院AI速递 20260213
腾讯研究院· 2026-02-13 00:13
智谱AI发布GLM-5模型 - 公司发布开源模型GLM-5,参数规模扩展至7440亿,激活参数为400亿,在Artificial Analysis榜单中位列全球第四、开源第一,其编程与智能体能力逼近Claude Opus 4.5 [1] - 模型在SWE-bench-Verified和Terminal Bench 2.0测试中分别获得77.8分和56.2分,刷新了开源模型的最佳成绩,擅长复杂系统工程与长程智能体任务 [1] - 模型已完成与华为昇腾、寒武纪、昆仑芯等国产芯片的适配,并推出了Z Code全流程编程工具和AutoGLM通用智能体助手 [1] MiniMax发布M2.5模型 - 公司发布M2.5模型,激活参数仅100亿却达到第一梯队旗舰水平,编程和智能体能力比肩Opus 4.6,推理速度是Opus的3倍 [2] - 实测该模型能在9分钟内搭建一个全栈学习网站,能独立完成物理模拟和企业级CMS系统搭建,支持PC/App/React Native跨端开发 [2] - 模型采用原生智能体强化学习训练框架和CISPO算法,实现了约40倍的训练加速,兼容Claude Code、OpenClaw等主流开发工具即插即用 [2] 小红书开源图像编辑模型 - 公司基础模型团队开源图像编辑模型FireRed-Image-Edit,在ImgEdit、GEdit等多个权威榜单取得最佳成绩,代码和技术报告已开源 [3] - 模型通过三阶段训练实现能力进阶,创新性提出Layout-Aware OCR-based Reward方法,使文字编辑准确性和风格保持得到显著提升 [3] - 模型支持指令遵循一致性、文字编辑、风格迁移、多图融合及老照片修复等多种复杂编辑场景,模型权重即将开源 [3] 小米开源机器人VLA大模型 - 公司发布开源视觉语言动作模型Xiaomi-Robotics-0,参数为47亿,兼具视觉语言理解与实时执行能力,在LIBERO、CALVIN、SimplerEnv等30种模型对比中均获最优 [4] - 模型采用Mixture-of-Transformers架构,视觉语言模型大脑负责理解指令,扩散变换器小脑生成高频平滑动作 [4] - 通过异步推理模式和Λ-shape注意力掩码解决动作断层问题,可在消费级显卡实现实时推理,模型已开源至GitHub和HuggingFace [4] 高德发布具身基座模型 - 公司发布ABot系列具身基座模型,其中ABot-M0负责操作、ABot-N0负责导航,在10项全球权威评测中实现全面领先 [5] - ABot-M0通过动作语言统一整合了600万条跨平台轨迹数据,提出动作流形学习算法,在Libero-Plus任务上的成功率达到80.5%,超越基准近30% [6] - ABot-N0在单一视觉语言动作架构内统一了五大核心导航任务,构建了8000个高保真3D场景和1700万条专家示例,使社会导航成功率提升40.5% [6] Rokid Glasses支持自定义智能体 - 公司灵珠平台上线「自定义智能体」功能,通过标准SSE接口可接入OpenClaw或私有部署的DeepSeek R1、Qwen3等任意大模型 [7] - 用户可实现隐私数据本地闭环处理、一键切换模型基座,结合ClawHub技能生态调用文件系统、浏览器、即时通讯消息等执行能力 [7] - 平台将AI眼镜定义权交还用户,支持通过语音指令或快捷指令随时召唤私有智能体,打造7×24小时智能助手 [7] 谷歌发布AI数学家Aletheia - 谷歌DeepMind发布基于Gemini Deep Think的「AI数学家」Aletheia,在IMO-ProofBench测试中取得91.9%的成绩刷新最佳纪录,能独立撰写发表学术论文 [8] - Aletheia对Erdős猜想数据库中的700个开放问题进行系统评估并自主解决了4个未解之谜,具备自我纠错和承认局限的能力 [8] - Gemini Deep Think联手专家攻克了18个长期停滞的研究难题,终结了十年子模优化猜想,其中一篇论文已被ICLR 2026录用 [8] HyperWrite CEO关于AI奇点的观点 - HyperWrite CEO撰文《大事正在发生》在24小时内被近7000万人阅读,称GPT-5.3-Codex和Claude Opus 4.6的发布标志着AI发生质变 [9] - AI已能独立完成人类专家5小时的工作量,该能力每4-7个月翻一倍,GPT-5.3已在自身训练过程中发挥关键作用,递归自我提升循环已启动 [9] - 几乎所有屏幕前完成的认知工作都将被波及,建议每天花1小时实验AI,当前存在认知窗口期但不会持续太久 [9] Anthropic发布关于Opus 4.6的风险报告 - Anthropic发布53页报告警告Claude Opus 4.6的风险已逼近ASL-4级别,列出了8条可能导致灾难性危害的风险路径,包括自主外逃与自治运行 [10] - 报告结论是当前模型不存在「持续一致的恶意目标」,灾难性破坏风险「非常低但不为零」,已进入能力评估的「灰区」 [10] - Anthropic安全研究团队负责人已辞职,称「世界正处于危机之中」,xAI联合创始人预言递归式自我提升循环可能在12个月内上线 [11]
谷歌AI连发6篇数学论文,Gemini攻入博士级科研,91.9%刷爆SOTA
36氪· 2026-02-12 10:50
核心观点 - 谷歌DeepMind推出的基于Gemini的AI智能体Aletheia在数学、物理和计算机科学等核心科研领域取得突破性进展,能够独立或协作攻克研究级难题并撰写学术论文,标志着AI正成为强大的科研协作者并可能重塑科研工作流 [1][7][42] 数学研究突破 - 谷歌DeepMind构建了基于Gemini Deep Think的数学研究AI智能体Aletheia,其具备在自然语言中端到端迭代生成、验证和修改解决方案的能力,并能承认自身无法解决的问题 [9][11][13] - Aletheia在IMO-ProofBench高级基准测试中取得91.9%的成绩,显著领先于GPT-5.2 Thinking (35.7%)、Gemini 3 Pro (30.0%)等模型,在IMO 2024+子项上达到100%正确率 [2][3] - Aletheia已完成首批六篇论文,其中一篇题为“Eigenweights for arithmetic Hirzebruch Proportionality”的论文完全由其独立生成,无任何人工干预 [18][19] - Aletheia对“Erdős猜想”数据库中的700个开放问题进行了系统性评估,并自主解决了其中四个未解之谜,例如Erdős-1051问题 [2][23] - 谷歌DeepMind建立了一个对“AI辅助数学研究”成果的分类法,Aletheia的成果已被列为第2级(可发表质量)并提交知名期刊,但尚未获得第3级(重大进展)或第4级(里程碑式突破)的成果 [28][29] 跨学科科研应用 - Gemini Deep Think与专家合作,在物理学和计算机科学领域攻克了18个长期停滞的研究难题,涵盖子模优化、离散算法、机器学习、信息论与经济学等 [6][34] - 在计算机科学领域,Gemini通过引入连续数学分支的高深工具(如Kirszbraun定理、测度论),解决了“最大割”和“施泰纳树”等经典离散算法难题 [35] - Gemini设计了一个“三项目组合反例”,终结了在线子模优化领域一个持续十年的猜想,证明了之前的人类直觉是错误的 [37] - 在机器学习领域,Gemini分析并证明了一种新优化技术的成功机理在于其能秘密生成“自适应惩罚” [38] - 在经济学领域,Gemini利用拓扑学和序理论扩展了关于拍卖AI生成Token的“显示原理”,使其能适应连续的实数投标范围 [39] - 在物理学领域,Gemini利用“盖根鲍尔多项式”为宇宙弦引力辐射计算中棘手的积分找到了一个新颖的封闭形式解析解 [40] - 这些成果中约有一半瞄准顶级学术会议,其中一篇已被ICLR 2026录用,其余大部分计划投稿期刊 [41] 技术能力与工作流 - 驱动Aletheia的核心技术支柱包括:专门用于极难推理题的Gemini Deep Think高级版、新颖的推理时Scaling Law(能力跨度从奥数到博士级练习)、以及深度集成Google搜索和网页浏览的强大工具调用能力 [15][17] - 谷歌DeepMind证明了从奥赛级别到博士级练习题,Scaling Law依然有效,并且Aletheia能用更少推理算力实现更高的推理质量 [15] - 高效的“顾问”合作模式被总结出来,即人类通过迭代的“直觉验证”循环来引导AI,以验证直觉并完善证明 [30] - 采用的战术技巧包括“平衡提示词”(要求AI同时尝试证明或反驳以防止确认偏误)以及代码辅助验证 [32] - AI推理流程展示了网络层对解题空间进行广泛探索,然后收敛为结构化推理,最终通过自动化验证与人工审核进行确认 [34] 行业影响与趋势 - 该进展表明,通用的基础模型结合智能体推理工作流,可以成为数学家、物理学家和计算机科学家等领域专家的强大科学伙伴 [42] - 公司认为正在见证科学工作流的根本性转变,Gemini正在成为人类智慧的“倍增器”,负责处理知识检索和严格验证,让科学家能更专注于概念深度和创新方向 [44] - AI通过完善证明、寻找反例、连接不相关领域,正在成为科学进步新篇章中不可或缺的协作者 [44]