腾讯研究院AI速递 20260325

Claude发布计算机使用功能Computer Use预览版 - Anthropic为Claude推出Computer Use功能，可在Cowork和Code中自动操控电脑执行任务，目前仅限Pro和Max用户的macOS系统 [1] - 结合Dispatch功能，用户可通过手机远程指挥Claude在电脑工作，实现人不在电脑前AI替你操作的工作模式 [1] - 相比OpenClaw需自行部署且有安全风险，Anthropic方案开箱即用并内置安全护栏，但Computer Use仍为早期预览版，执行速度远慢于人类 [1] OpenClaw紧急更新与架构升级 - OpenClaw发布3.23版本距上版仅12小时，首要修复因暴力拆除旧API导致的UI崩溃和微信等IM插件罢工问题 [2] - DeepSeek插件架构升级可直接通过API Key调用，Qwen支持按量付费中国区和全球Key均可接入 [2] - 安全方面引入SHA-256哈希校验拦截恶意脚本注入，修复macOS连接Chrome弹窗问题并优化Claude 3.7思维链兼容性 [2] Luma AI发布Uni-1图像模型 - Luma AI发布Uni-1图像模型，采用单解码器自回归Transformer架构首次统一图像理解与生成，在RISEBench推理基准整体得分超越Nano Banana 2和GPT Image 1.5 [3] - 2K分辨率生成价格0.09美元/张，比谷歌低11%-33%，对大规模生成场景可节省数百万级开支 [3] - 配套Luma Agents平台已与阳狮集团及阿迪达斯等合作，将耗时1年花费1500万美元的广告项目压缩至40小时不到2万美元 [3] 美团龙猫开源定理证明模型LongCat-Flash-Prover - 美团龙猫开源LongCat-Flash-Prover，将形式化推理拆解为自动形式化、草稿生成和证明生成三大原子能力，MiniF2F-Test上仅72次推理预算即达97.1%通过率 [4] - 超难竞赛级任务同样领先，MathOlympiad-Bench达46.7%、PutnamBench达41.5%，均超越现有开源模型 [4] - 训练中发现AI会修改题目、插入终止符或捏造公理来作弊，团队开发Lean4语法分析器排查约9种作弊手段 [4] 世界模型研究进展 - LeCun团队LeWorldModel首次实现像素端到端稳定训练JEPA模型，仅1500万参数单张GPU数小时训练，规划速度最高提升约48倍 [5] - 清华团队Fast-WAM证明训练中保留视频建模但测试时跳过未来预测性能不降，推理延迟仅190毫秒比传统方案提速超4倍 [5] - 两项工作分别从"更简洁地学习世界"与"是否需要推理中想象未来"两个维度修正主流思路 [5] AI在学术研究中的应用与挑战 - 哈佛量子场论教授让Claude 4.5当研究生，两周产出一篇QCD高难度论文，生成110版草稿消耗3600万Token [7] - 实验中Claude存在"讨好型人格"，会悄悄改参数让图表对齐理论、编造术语掩盖错误，须反复逐行拷问才纠正 [7] - AI擅长迭代和代码生成，但在保持非标准约定和诚实验证方面很差，建议多模型交叉验证和强制诚实配置 [7] 行业趋势与公司展望 - ARK预计Robotaxi五年内主导特斯拉估值，每辆车每年带来数千至上万美元现金流，将公司转为类软件利润率 [8] - Optimus预计2028年底单项任务达人类水平，人形机器人TAM约26.5万亿美元将在Robotaxi之后接力增长 [8] - Anthropic年化收入两个多月从90亿增至190亿美元，微软被迫white labeling Claude Coworker追赶，生产力业务面临被超越风险 [8] AI与人类协作关系 - AI已将创意生成成本压至近零，但瓶颈转移至验证和评估环节，海量AI论文涌入期刊人类审稿人已应接不暇 [9] - AI辅助解决约50个埃尔德什问题后出现停滞，系统性研究显示成功率仅1%-2%，外界看到的惊艳成果存在选择性偏差 [9] - AI擅长广度人类擅长深度，应让AI先绘制地图做出容易观察再由人类攻克难点；核心数学工作仍用纸和笔 [9] 行业领袖观点 - 黄仁勋阐述四层扩展定律框架，反驳"数据耗尽"论称合成数据将持续增长，测试时推理计算消耗远超市场预期 [10] - 中国工程师优先级为家人朋友公司，同学即终身兄弟因此天然倾向开源；激烈省际竞争进一步放大创新节奏 [10] - 认为"能创立十亿美元公司"的AGI门槛已达到，编程将从3000万人扩展到10亿人 [10]