机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

机器之心· 2025-07-07 17:30

2025世界人工智能大会(WAIC) - 2025年7月26日至29日在上海世博中心与世博展览馆举行[1] - 大会主题为"智能时代同球共济"[1] - 汇聚全球顶尖科研成果、行业领导者与前沿观点[1] - 成为AI技术、产业与治理交汇的重要节点[1] AI面对面栏目定位 - 由机器之心在WAIC期间推出的视频专题栏目[1] - 聚焦AI企业的核心技术能力、产品化进程和落地场景[3] - 通过企业专访和展馆探展两种形式呈现[3] - 构建"线上+现场"和"专家+用户"双通路传播闭环[3] 栏目价值主张 - 帮助AI企业将技术实力转化为可理解的价值故事[3] - 面向探索AI规模化部署的产业先行者[4] - 适合在多模态、智能体、工业智能等领域的创新企业[4] - 成为企业连接市场、塑造影响力的理想舞台[4] 栏目优势 - 绑定WAIC高势能平台[6] - 提供企业专访和展馆探展两种灵活形式[7] - 通过机器之心全域矩阵实现高效曝光[9] - 由专业AI科技媒体团队全流程执行[9]

Artificial Intelligence

AI 面对面

Artificial Intelligence

AI 面对面

Claude Code发布4个月，用户已经11.5万了，开发者：200 美元/月不算贵

机器之心· 2025-07-07 17:30

AI编程工具市场表现 - Claude Code发布4个月吸引11.5万名开发者，单周处理1.95亿行代码[2] - 风险投资机构估算Claude Code年收入潜力达1.3亿美元，单个开发者年均贡献超1000美元[3][5] - 用户中5%订阅Max计划，模型使用量中Sonnet与Opus各占50%[6] 产品技术优势 - 集成Claude Opus 4模型，提供文件操作、代码搜索、Git工作流管理等综合功能[9] - 在理解项目架构、生成上下文代码建议方面表现优异，支持开发环境内直接执行命令[10] - 自动测试代码、处理多文件、修复错误的能力显著降低开发者工作压力[21] 用户价值与市场趋势 - 开发者认为付费物有所值，即使处理1000+行代码模块出现问题仍可接受[11][13] - 专业开发者更关注时间节省而非成本，AI工具已超越"入门级"水平[18][23] - 模型开发者直接构建的产品（如Claude Code）比第三方封装工具（如Cursor）表现更稳定[20][22] 竞品定价策略 - Cursor Pro订阅调整为20美元/月token计算模式，新增200美元/月Ultra计划对标Claude Code Max[16] - 原Cursor按请求次数收费（500次/20美元）易被高token请求消耗资源[16] 行业挑战与突破 - AI编程工具仍需解决代码质量、安全漏洞、知识产权等问题[25] - 在提升开发效率核心价值上，Claude Code已获得开发者认可[25]

RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

机器之心· 2025-07-07 15:50

核心观点 - RoboTwin 2.0 是一个开源的大规模域随机化双臂操作数据合成器与评测基准集，包含50个任务的评测基准和5款本体的支持 [8][23] - 该系统通过多模态大模型与仿真闭环优化专家代码生成，显著提升任务执行效率与成功率 [10][25] - 构建了包含147类731个物体的RoboTwin-OD数据集，为复杂场景提供丰富语义支持 [12][14] - 引入系统化域随机化策略，从5个维度增强模型鲁棒性 [16] - 实验表明该系统可显著提升双臂机器人在真实环境中的迁移性能 [30][33] 技术架构专家代码生成 - 提供更精简易用的API库，降低多模态模型生成代码门槛 [10] - 结合关键帧视觉观测和实时反馈迭代优化代码，平均成功率从47.4%提升至71.3% [25][27] - 迭代次数从2.46次降至1.76次，LLM token消耗显著降低 [27] 物体数据集 - RoboTwin-OD包含147类731个实例，其中534个通过AIGC生成并优化 [12] - 精细标注操作点、方向及多级语义信息 [12] - 支持复杂场景布置和大规模任务设计 [12][14] 自适应抓取 - 为5种本体构建差异化抓取候选集 [15] - 平均成功率提升8.3%，低自由度平台提升更显著（Piper平台+22.7%） [28] 域随机化策略 - 场景杂乱：随机加入干扰物体并进行语义分组 [18] - 背景纹理：构建12000种高质量纹理库 [19] - 光照条件：随机化光源类型、数量、颜色等参数 [20] - 桌面高度：在合理范围内均匀采样 [21] - 语言指令：通过大模型生成多样化任务描述 [22] 性能表现仿真环境 - 在32项任务9600条数据上微调，为RDT模型带来71.6%相对提升 [30] - 典型任务平均成功率从47.4%提升至62.1% [27] 真实迁移 - 引入1000条合成数据后，四种测试配置成功率提升13.5%-33.0% [33] - 纯合成设置下仍能取得20%以上的成功率提升 [33] 开源生态 - 代码获1.2k Github Stars，包含50个任务实现 [3][36] - 提供10万+条预采集操作数据和完整物体资产库 [37] - 配套用户友好文档和示例 [9][37] 行业影响 - 作为CVPR 2025等多项赛事的官方赛题 [3] - 吸引64支队伍400+人次参与相关竞赛 [39] - 优胜方案包含SEM和AnchorDP3等创新算法 [39]

RoboTwin 物体数据集（RoboTwin-OD）

RoboTwin 物体数据集（RoboTwin-OD）

开源Agent新标杆：通义WebSailor多榜夺魁，挑战OpenAI高难度Agent基准BrowseComp

机器之心· 2025-07-07 15:50

背景与问题 - 传统搜索引擎难以满足深层次、多步骤信息获取需求，触及人类认知极限[2] - 开源Web Agent在极端复杂任务上表现不佳，BrowseComp-en基准准确率几乎为零[2] - 闭源系统如DeepResearch已实现"超人类"水平，开源模型存在显著差距[2] - 复杂任务需要多步推理和整合分散线索，如HBO剧集音乐创作者溯源案例[3] 技术创新数据构造 - 构建SailorFog-QA数据集，包含Level-3高不确定性任务（非线性知识网络、模糊化信息）[8][12] - 通过维基数据选取模糊实体，随机扩展生成复杂知识图谱[12] - 信息模糊化处理（时间、地点、定量数据）提升任务难度[12] - 数据复杂度验证：工具调用呈长尾分布，20%样本需超5次交互[24] 训练方法 - 推理轨迹重构：保留LRM的Action-Observation序列，反向生成简洁推理过程[16] - 两阶段训练：RFT冷启动（数千条高质量轨迹）+ DUPO强化学习[17] - DUPO算法效率提升：训练速度比DAPO快2-3倍，采用动态样本复制策略[18] - 复合奖励机制：同时评估格式规范性与答案准确性[17] 性能表现 - WebSailor-72B在BrowseComp-en准确率达12%，超越所有开源模型[20] - WebSailor-7B以6.7%准确率超过32B规模竞品，验证训练范式优势[21] - 四大基准全面领先：BrowseComp-zh（30.1%）、Xbench-DeepSearch（55%）、GAIA（55.4%）[20] - 简单任务兼容性：在SimpleQA子集上超越直接推理和其他Agent方法[22] 行业意义 - 证明性能提升关键在训练范式革新，非单纯模型规模[27] - 提供通用蓝图：高难度任务合成→精炼逻辑监督→高效强化学习[27] - 推动AI从模仿人类转向构建极限挑战任务[27] - 未来方向：异步强化学习、多模态整合、跨领域综合任务[28]

重塑AI记忆边界：MemOS开源！时序推理较OpenAI提升159%

机器之心· 2025-07-07 12:48

核心观点 - MemOS作为大模型记忆操作系统，在准确性、Tokens开销和时序推理任务上显著超越现有方案，平均准确性提升38.97%，Tokens开销降低60.95%，时序推理任务提升159% [2] - 该系统将记忆视为与算力同等重要的资源，通过MemCube标准化单元实现明文、激活状态和参数记忆的统一调度，赋予模型持续进化能力 [4] - 技术架构借鉴操作系统分层设计，包含API接口层、调度管理层和存储基础设施层，形成全链路记忆管理闭环 [10] - 在LoCoMo基准测试中全面领先，时序推理任务表现尤其突出，较Mem0和OpenAI实现20%绝对值和159%相对值提升 [34] - 框架采用开源模式，已实现核心功能模块并计划成立OpenMem社区推动生态发展 [24][44] 技术架构分层设计 - **API与应用接口层**：提供标准化Memory API支持记忆创建/删除/更新操作，赋能多轮对话和跨会话个性化场景 [11] - **记忆调度与管理层**：创新性引入Next-Scene Prediction机制，通过触发点监控和预加载记忆片段降低60%响应延迟 [12][13] - **存储基础设施层**：MemCube封装三种记忆形态，支持Graph/向量数据库等多种持久化存储方式并具备跨模型迁移能力 [15] 核心组件 - 参数记忆模块承担长期能力存储，激活记忆模块管理快速工作状态，明文记忆模块处理外部事件片段 [12] - MemScheduler实现优先级调度，MemVault提供版本化存储，MemGovernance负责访问控制 [12] - 后端驱动MemLoader/Dumper完成记忆搬运，MemStore支持记忆包共享部署 [12] 性能表现基准测试 - 单跳任务LLMJudge Score达78.44分，超越Mem0-Pro版本5.11分 [32] - 多跳任务F1值35.57，较OpenAI基线提升7.4% [32] - 开放领域任务得分55.21分，显著优于Mem0的45.83分 [32] - 时序推理任务LLMJudge Score 73.21分，达到同类最佳水平 [32] 效率优化 - TOP-20召回仅需1000 Tokens上下文，较对照组2000-4000 Tokens需求降低60%以上 [36] - KV Cache复用使Qwen3-8B模型长文本TTFT加速比达79.1%，Qwen2.5-72B模型提升至76.4% [40][42] - 检索P95延迟控制在1969ms，效果得分超越Full-Context方案 [39] 应用场景 - **个性化智能体**：持续积累用户偏好数据实现长期陪伴，对话体验迭代优化 [20] - **科研知识管理**：结构化保存研究资料和笔记，构建具备深度记忆的智能助手 [20] - **高可靠性领域**：金融法律场景提供精准知识溯源，审计覆盖率达100% [20] - **企业RAG**：解决新旧知识混用问题，长周期任务回答一致性提升45% [20] 发展计划 - **OpenMem社区**：聚焦记忆管理/增强/共享技术，打造开放生态体系 [44] - **联合开发计划**：与Agent团队合作推进对话机器人/企业知识管理等场景落地 [45] - **技术迭代方向**：重点突破记忆压缩、分布式调度、跨模型迁移等关键技术 [46] - **商业化路径**：已获招商证券、中国银行等头部机构认可，实现忆立方大模型落地 [47]

新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%

机器之心· 2025-07-07 12:48

核心观点 - 研究提出基于能量的Transformer（EBT）模型，通过无监督学习实现系统2思维（慢速思维）能力，突破传统Transformer在复杂推理任务上的局限性 [9][10] - EBT在语言和图像任务中展现出显著优势：语言任务性能提升29%，图像去噪PSNR最高提升3.5，同时计算量减少99% [12][81][83] - 模型具备跨模态泛化能力，在分布外数据上表现尤为突出，预训练扩展速率比Transformer++最高提升35% [11][14][46] 技术原理 - EBT通过能量函数为输入-预测对分配能量值，采用梯度下降优化至最低能量状态模拟思考过程 [17][18][21] - 引入三种关键正则化技术：重放缓冲区、Langevin动力学变体、随机化梯度步长，确保能量曲面平滑性与凸性 [25][26][27][28] - 设计两种架构变体：解码器EBT（类似GPT）和双向EBT（支持掩码建模） [32][33] 性能表现语言任务 - 扩展性全面超越Transformer++：数据效率提升35%，参数/FLOPs效率更高，预期千倍规模下优势更显著 [11][44][47] - 思考机制带来29%性能提升，自我验证增益从4-8%增至10-14%，且随训练规模扩大持续增强 [55][60][61] - 下游任务泛化能力更强，GSM8K困惑度降低6.3，BB Math QA降低7.2 [73][74] 视觉任务 - 图像去噪PSNR达27.25（比DiT高0.67），OOD噪声处理PSNR提升3.73，MSE降低413.5 [82][83] - 视频学习扩展速率快33%，SSV2数据集验证损失下降更显著 [76][78] - 仅需1%前向传播次数即可达到DiT同等去噪效果，PSNR提升速率更高 [86][88] 创新价值 - 首次实现无监督系统2思维建模，突破模态/问题依赖性限制，为AGI发展提供新范式 [8][10][15] - 能量机制自动捕捉预测不确定性（如文本token难度、视频帧可预测性） [63][65][80] - 计算效率革命性提升：图像任务减少99%计算量，语言任务优化多步推理 [83][88][92]

系统2思维

能量模型

大语言模型

基于能量的Transformer（Energy-Based Transformers

基于能量的Transformer（Energy-Based Transformers

EBTs）

Transformer++

复杂空间指令也能秒懂？RoboRefer 让机器人理解推理空间，开放世界也能精准行动！

机器之心· 2025-07-06 14:06

机器人空间指代技术突破 - 现实环境复杂多变，机器人需应对杂乱无序、物体种类繁多的场景，远超实验室可控环境[2] - 空间指代任务要求机器人理解"最远""第二列""等间距"等空间关系，动态定位交互目标[3][5] - 当前多模态大模型难以准确理解三维场景并动态推理交互位置，存在单步空间理解和多步空间推理两大挑战[6] RoboRefer模型核心能力 - 采用全参数微调(SFT)实现89.6%空间理解成功率，强化学习微调(RFT)在RefSpatial-Bench基准上超越Gemini-2.5-Pro达17.4%[8][22] - 集成独立图像编码器和深度图编码器，支持定量(物体距离)和定性(方位判断)空间问答[12] - 突破性实现多空间关系组合推理，如准确定位"笔筒与键盘中间且水瓶logo正对"的位置[13] 技术创新路径 - SFT阶段引入深度编码器增强三维感知，RFT阶段采用GRPO强化学习结合过程奖励函数提升泛化能力[15][17] - 创新设计过程奖励函数监控中间推理质量，显著提升多步指代任务精度[17] - 模型可集成至UR5机械臂、G1仿人机器人等平台，实现真实场景精准执行[9] RefSpatial数据集特性 - 包含250万样本、2000万问答对，规模达同类数据集两倍[20] - 标注31种空间关系(行业最高15种)，支持5步复杂推理链[20] - 覆盖室内外多场景，通过层级描述确保复杂环境下的表述清晰度[20] 性能基准对比 - RoboRefer-8B-SFT在CV-Bench达到98.33%准确率，显著领先GPT-4o(86.50%)和Gemini-2.5-Pro(91.00%)[21] - RGB-D输入模式下，2B-SFT版本在RoboSpatial任务取得82%成功率，超越专用模型SpatialBot-3B(63.33%)[21] - 在Where2Place基准上，RFT版本以71%准确率大幅领先Gemini-2.5-Pro(11.8%)[23]

一个气泡水广告，为何几十万人围观？原来整个都是Veo 3生成的

机器之心· 2025-07-06 14:06

AI视频生成技术进展 - Veo 3模型实现「音画同步」功能，推动AI视频创作进入声画一体化新阶段，显著降低视频创作门槛[4] - 完全由AI制作的广告在X平台获得超30万次观看，展示技术商业化潜力[2] - 案例视频在10个场景切换中保持角色一致性，仅出现车窗等细节微小跳跃，体现生成质量突破[7] 技术实现关键方法 - 采用超精细提示（Hyper-specific Prompting）技术，通过详尽上下文指令减少模型自由发挥空间[9][10] - 人类仍主导创意、脚本及最终剪辑环节，AI作为执行工具遵循概率而非创造性思维[11] - 扩散模型存在固有局限：依赖概率统计而非真实理解、局部与全局协调矛盾、帧间连贯性挑战及训练数据质量问题[19] AI视频应用创新方向 - 突破当前猎奇同质化内容，探索电影平行宇宙、游戏角色跨界等创意催化场景[17][18][22] - 商业应用潜力包括概念影片制作、企业网站建设等高效内容生产[24][25] - 技术瓶颈体现在角色一致性维护，需解决容貌突变、物体错乱等典型问题[8][14]

求医十年，病因不明，ChatGPT：你看起来有基因突变

机器之心· 2025-07-06 11:49

AI在医疗诊断中的应用趋势 - 用AI辅助看病正在成为新趋势，但目前仍需要人类医生作为最终决策者[2] - 典型案例显示AI能整合化验报告和症状史，成功诊断出人类医生多年未发现的基因突变（纯合型A1298C MTHFR基因突变，影响7%-12%人群）[4][5] - 多个Reddit用户案例证实AI在疑难杂症诊断中的辅助价值，包括15年未解决的呕吐症状和宠物误诊案例[7][8][9] AI医疗的优势与局限性 - AI具备快速检索海量医学文献的能力，在信息处理速度和数据容量方面超越人类医生[14] - 对于罕见病和多学科协作需求高的疑难症，AI能有效弥补人类医生的经验盲区[17] - 当前AI存在生成幻觉问题，无法承担误诊责任，必须与人类医生协同使用[22] 行业发展动态 - 微软等科技公司正在开发专业医疗AI产品，市场反馈积极[20] - 未来医疗行业可能形成"AI辅助+医生决策"的协作模式，AI将作为医生的"外挂大脑"[23] - 患者使用AI医疗建议时需保持谨慎，需经专业医生复核确认[22]

原来Scaling Law还能被优化？Meta这招省token又提效

机器之心· 2025-07-06 11:49

Transformer架构演进 - 2017年《Attention Is All You Need》论文提出Transformer架构，现引用量接近19万次，成为AI领域基础范式[1][2] - Transformer核心改进方向包括Multi-Token Attention和Multi-matrix Factorization Attention等新型注意力机制[2] - Meta最新研究提出旋转不变型三线性注意力机制，性能可改变Scaling Law系数[4] 2-simplicial Transformer技术突破 - 2-simplicial Transformer源自2019年研究，将点积注意力扩展为三线性形式[7][19] - 新型注意力机制通过三线性积构建三阶张量，计算复杂度为O(n^3)[22][23][35] - Meta采用滑动窗口参数化(O(n×w1×w2))降低计算负担，最优配置为w1=512,w2=32[32][37] Scaling Law理论框架 - 神经Scaling Law公式：L(N,D)=E+A/N^α+B/D^β，其中E为不可约损失[13][14] - Hoffmann等(2022)实验得出a≈0.49,b≈0.5，表明token数量需与模型规模同步扩展[15][17] - 2-simplicial Transformer展示更优参数扩展指数，token增长可慢于参数增长[10][50] 实验性能对比 - 在1B参数模型中，2-simplicial注意力使GSM8k和MBPP任务分别提升0.79%和0.88%[43] - 参数规模超过2B后，2-simplicial注意力优势减弱，3.5B模型在MMLU-pro任务下降2.15%[43][45] - 2-simplicial注意力斜率α更陡峭，显示其Scaling Law指数优于传统Transformer[49][50] 计算优化实现 - Meta使用Triton实现新型注意力机制，采用分组查询注意力(GQA)比率64提升计算效率[38] - 对比标准点积注意力(复杂度2n^2)，窗口化2-simplicial注意力复杂度为6πw1w2[33][35] - 引入在线softmax等核优化技术，延迟最优配置达55.1ms(16k窗口)[32][39]

Meta Platforms(US:META)

Scaling Law

Transformer

2-simplicial Transformer

Artificial Intelligence

旋转不变型三线性注意力机制

Scaling Law

Transformer

2-simplicial Transformer

Artificial Intelligence

旋转不变型三线性注意力机制

Previous Next