机器之心

搜索文档
WAIC特别企划视频栏目《AI面对面》,讲出你的「热AI」故事
机器之心· 2025-07-07 17:30
2025世界人工智能大会(WAIC) - 2025年7月26日至29日在上海世博中心与世博展览馆举行[1] - 大会主题为"智能时代 同球共济"[1] - 汇聚全球顶尖科研成果、行业领导者与前沿观点[1] - 成为AI技术、产业与治理交汇的重要节点[1] AI面对面栏目定位 - 由机器之心在WAIC期间推出的视频专题栏目[1] - 聚焦AI企业的核心技术能力、产品化进程和落地场景[3] - 通过企业专访和展馆探展两种形式呈现[3] - 构建"线上+现场"和"专家+用户"双通路传播闭环[3] 栏目价值主张 - 帮助AI企业将技术实力转化为可理解的价值故事[3] - 面向探索AI规模化部署的产业先行者[4] - 适合在多模态、智能体、工业智能等领域的创新企业[4] - 成为企业连接市场、塑造影响力的理想舞台[4] 栏目优势 - 绑定WAIC高势能平台[6] - 提供企业专访和展馆探展两种灵活形式[7] - 通过机器之心全域矩阵实现高效曝光[9] - 由专业AI科技媒体团队全流程执行[9]
Claude Code发布4个月,用户已经11.5万了,开发者:200 美元/月不算贵
机器之心· 2025-07-07 17:30
AI编程工具市场表现 - Claude Code发布4个月吸引11.5万名开发者,单周处理1.95亿行代码[2] - 风险投资机构估算Claude Code年收入潜力达1.3亿美元,单个开发者年均贡献超1000美元[3][5] - 用户中5%订阅Max计划,模型使用量中Sonnet与Opus各占50%[6] 产品技术优势 - 集成Claude Opus 4模型,提供文件操作、代码搜索、Git工作流管理等综合功能[9] - 在理解项目架构、生成上下文代码建议方面表现优异,支持开发环境内直接执行命令[10] - 自动测试代码、处理多文件、修复错误的能力显著降低开发者工作压力[21] 用户价值与市场趋势 - 开发者认为付费物有所值,即使处理1000+行代码模块出现问题仍可接受[11][13] - 专业开发者更关注时间节省而非成本,AI工具已超越"入门级"水平[18][23] - 模型开发者直接构建的产品(如Claude Code)比第三方封装工具(如Cursor)表现更稳定[20][22] 竞品定价策略 - Cursor Pro订阅调整为20美元/月token计算模式,新增200美元/月Ultra计划对标Claude Code Max[16] - 原Cursor按请求次数收费(500次/20美元)易被高token请求消耗资源[16] 行业挑战与突破 - AI编程工具仍需解决代码质量、安全漏洞、知识产权等问题[25] - 在提升开发效率核心价值上,Claude Code已获得开发者认可[25]
RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集
机器之心· 2025-07-07 15:50
核心观点 - RoboTwin 2.0 是一个开源的大规模域随机化双臂操作数据合成器与评测基准集,包含50个任务的评测基准和5款本体的支持 [8][23] - 该系统通过多模态大模型与仿真闭环优化专家代码生成,显著提升任务执行效率与成功率 [10][25] - 构建了包含147类731个物体的RoboTwin-OD数据集,为复杂场景提供丰富语义支持 [12][14] - 引入系统化域随机化策略,从5个维度增强模型鲁棒性 [16] - 实验表明该系统可显著提升双臂机器人在真实环境中的迁移性能 [30][33] 技术架构 专家代码生成 - 提供更精简易用的API库,降低多模态模型生成代码门槛 [10] - 结合关键帧视觉观测和实时反馈迭代优化代码,平均成功率从47.4%提升至71.3% [25][27] - 迭代次数从2.46次降至1.76次,LLM token消耗显著降低 [27] 物体数据集 - RoboTwin-OD包含147类731个实例,其中534个通过AIGC生成并优化 [12] - 精细标注操作点、方向及多级语义信息 [12] - 支持复杂场景布置和大规模任务设计 [12][14] 自适应抓取 - 为5种本体构建差异化抓取候选集 [15] - 平均成功率提升8.3%,低自由度平台提升更显著(Piper平台+22.7%) [28] 域随机化策略 - 场景杂乱:随机加入干扰物体并进行语义分组 [18] - 背景纹理:构建12000种高质量纹理库 [19] - 光照条件:随机化光源类型、数量、颜色等参数 [20] - 桌面高度:在合理范围内均匀采样 [21] - 语言指令:通过大模型生成多样化任务描述 [22] 性能表现 仿真环境 - 在32项任务9600条数据上微调,为RDT模型带来71.6%相对提升 [30] - 典型任务平均成功率从47.4%提升至62.1% [27] 真实迁移 - 引入1000条合成数据后,四种测试配置成功率提升13.5%-33.0% [33] - 纯合成设置下仍能取得20%以上的成功率提升 [33] 开源生态 - 代码获1.2k Github Stars,包含50个任务实现 [3][36] - 提供10万+条预采集操作数据和完整物体资产库 [37] - 配套用户友好文档和示例 [9][37] 行业影响 - 作为CVPR 2025等多项赛事的官方赛题 [3] - 吸引64支队伍400+人次参与相关竞赛 [39] - 优胜方案包含SEM和AnchorDP3等创新算法 [39]
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
机器之心· 2025-07-07 15:50
背景与问题 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,触及人类认知极限[2] - 开源Web Agent在极端复杂任务上表现不佳,BrowseComp-en基准准确率几乎为零[2] - 闭源系统如DeepResearch已实现"超人类"水平,开源模型存在显著差距[2] - 复杂任务需要多步推理和整合分散线索,如HBO剧集音乐创作者溯源案例[3] 技术创新 数据构造 - 构建SailorFog-QA数据集,包含Level-3高不确定性任务(非线性知识网络、模糊化信息)[8][12] - 通过维基数据选取模糊实体,随机扩展生成复杂知识图谱[12] - 信息模糊化处理(时间、地点、定量数据)提升任务难度[12] - 数据复杂度验证:工具调用呈长尾分布,20%样本需超5次交互[24] 训练方法 - 推理轨迹重构:保留LRM的Action-Observation序列,反向生成简洁推理过程[16] - 两阶段训练:RFT冷启动(数千条高质量轨迹)+ DUPO强化学习[17] - DUPO算法效率提升:训练速度比DAPO快2-3倍,采用动态样本复制策略[18] - 复合奖励机制:同时评估格式规范性与答案准确性[17] 性能表现 - WebSailor-72B在BrowseComp-en准确率达12%,超越所有开源模型[20] - WebSailor-7B以6.7%准确率超过32B规模竞品,验证训练范式优势[21] - 四大基准全面领先:BrowseComp-zh(30.1%)、Xbench-DeepSearch(55%)、GAIA(55.4%)[20] - 简单任务兼容性:在SimpleQA子集上超越直接推理和其他Agent方法[22] 行业意义 - 证明性能提升关键在训练范式革新,非单纯模型规模[27] - 提供通用蓝图:高难度任务合成→精炼逻辑监督→高效强化学习[27] - 推动AI从模仿人类转向构建极限挑战任务[27] - 未来方向:异步强化学习、多模态整合、跨领域综合任务[28]
重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%
机器之心· 2025-07-07 12:48
核心观点 - MemOS作为大模型记忆操作系统,在准确性、Tokens开销和时序推理任务上显著超越现有方案,平均准确性提升38.97%,Tokens开销降低60.95%,时序推理任务提升159% [2] - 该系统将记忆视为与算力同等重要的资源,通过MemCube标准化单元实现明文、激活状态和参数记忆的统一调度,赋予模型持续进化能力 [4] - 技术架构借鉴操作系统分层设计,包含API接口层、调度管理层和存储基础设施层,形成全链路记忆管理闭环 [10] - 在LoCoMo基准测试中全面领先,时序推理任务表现尤其突出,较Mem0和OpenAI实现20%绝对值和159%相对值提升 [34] - 框架采用开源模式,已实现核心功能模块并计划成立OpenMem社区推动生态发展 [24][44] 技术架构 分层设计 - **API与应用接口层**:提供标准化Memory API支持记忆创建/删除/更新操作,赋能多轮对话和跨会话个性化场景 [11] - **记忆调度与管理层**:创新性引入Next-Scene Prediction机制,通过触发点监控和预加载记忆片段降低60%响应延迟 [12][13] - **存储基础设施层**:MemCube封装三种记忆形态,支持Graph/向量数据库等多种持久化存储方式并具备跨模型迁移能力 [15] 核心组件 - 参数记忆模块承担长期能力存储,激活记忆模块管理快速工作状态,明文记忆模块处理外部事件片段 [12] - MemScheduler实现优先级调度,MemVault提供版本化存储,MemGovernance负责访问控制 [12] - 后端驱动MemLoader/Dumper完成记忆搬运,MemStore支持记忆包共享部署 [12] 性能表现 基准测试 - 单跳任务LLMJudge Score达78.44分,超越Mem0-Pro版本5.11分 [32] - 多跳任务F1值35.57,较OpenAI基线提升7.4% [32] - 开放领域任务得分55.21分,显著优于Mem0的45.83分 [32] - 时序推理任务LLMJudge Score 73.21分,达到同类最佳水平 [32] 效率优化 - TOP-20召回仅需1000 Tokens上下文,较对照组2000-4000 Tokens需求降低60%以上 [36] - KV Cache复用使Qwen3-8B模型长文本TTFT加速比达79.1%,Qwen2.5-72B模型提升至76.4% [40][42] - 检索P95延迟控制在1969ms,效果得分超越Full-Context方案 [39] 应用场景 - **个性化智能体**:持续积累用户偏好数据实现长期陪伴,对话体验迭代优化 [20] - **科研知识管理**:结构化保存研究资料和笔记,构建具备深度记忆的智能助手 [20] - **高可靠性领域**:金融法律场景提供精准知识溯源,审计覆盖率达100% [20] - **企业RAG**:解决新旧知识混用问题,长周期任务回答一致性提升45% [20] 发展计划 - **OpenMem社区**:聚焦记忆管理/增强/共享技术,打造开放生态体系 [44] - **联合开发计划**:与Agent团队合作推进对话机器人/企业知识管理等场景落地 [45] - **技术迭代方向**:重点突破记忆压缩、分布式调度、跨模型迁移等关键技术 [46] - **商业化路径**:已获招商证券、中国银行等头部机构认可,实现忆立方大模型落地 [47]
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
机器之心· 2025-07-07 12:48
核心观点 - 研究提出基于能量的Transformer(EBT)模型,通过无监督学习实现系统2思维(慢速思维)能力,突破传统Transformer在复杂推理任务上的局限性 [9][10] - EBT在语言和图像任务中展现出显著优势:语言任务性能提升29%,图像去噪PSNR最高提升3.5,同时计算量减少99% [12][81][83] - 模型具备跨模态泛化能力,在分布外数据上表现尤为突出,预训练扩展速率比Transformer++最高提升35% [11][14][46] 技术原理 - EBT通过能量函数为输入-预测对分配能量值,采用梯度下降优化至最低能量状态模拟思考过程 [17][18][21] - 引入三种关键正则化技术:重放缓冲区、Langevin动力学变体、随机化梯度步长,确保能量曲面平滑性与凸性 [25][26][27][28] - 设计两种架构变体:解码器EBT(类似GPT)和双向EBT(支持掩码建模) [32][33] 性能表现 语言任务 - 扩展性全面超越Transformer++:数据效率提升35%,参数/FLOPs效率更高,预期千倍规模下优势更显著 [11][44][47] - 思考机制带来29%性能提升,自我验证增益从4-8%增至10-14%,且随训练规模扩大持续增强 [55][60][61] - 下游任务泛化能力更强,GSM8K困惑度降低6.3,BB Math QA降低7.2 [73][74] 视觉任务 - 图像去噪PSNR达27.25(比DiT高0.67),OOD噪声处理PSNR提升3.73,MSE降低413.5 [82][83] - 视频学习扩展速率快33%,SSV2数据集验证损失下降更显著 [76][78] - 仅需1%前向传播次数即可达到DiT同等去噪效果,PSNR提升速率更高 [86][88] 创新价值 - 首次实现无监督系统2思维建模,突破模态/问题依赖性限制,为AGI发展提供新范式 [8][10][15] - 能量机制自动捕捉预测不确定性(如文本token难度、视频帧可预测性) [63][65][80] - 计算效率革命性提升:图像任务减少99%计算量,语言任务优化多步推理 [83][88][92]
复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!
机器之心· 2025-07-06 14:06
机器人空间指代技术突破 - 现实环境复杂多变,机器人需应对杂乱无序、物体种类繁多的场景,远超实验室可控环境[2] - 空间指代任务要求机器人理解"最远""第二列""等间距"等空间关系,动态定位交互目标[3][5] - 当前多模态大模型难以准确理解三维场景并动态推理交互位置,存在单步空间理解和多步空间推理两大挑战[6] RoboRefer模型核心能力 - 采用全参数微调(SFT)实现89.6%空间理解成功率,强化学习微调(RFT)在RefSpatial-Bench基准上超越Gemini-2.5-Pro达17.4%[8][22] - 集成独立图像编码器和深度图编码器,支持定量(物体距离)和定性(方位判断)空间问答[12] - 突破性实现多空间关系组合推理,如准确定位"笔筒与键盘中间且水瓶logo正对"的位置[13] 技术创新路径 - SFT阶段引入深度编码器增强三维感知,RFT阶段采用GRPO强化学习结合过程奖励函数提升泛化能力[15][17] - 创新设计过程奖励函数监控中间推理质量,显著提升多步指代任务精度[17] - 模型可集成至UR5机械臂、G1仿人机器人等平台,实现真实场景精准执行[9] RefSpatial数据集特性 - 包含250万样本、2000万问答对,规模达同类数据集两倍[20] - 标注31种空间关系(行业最高15种),支持5步复杂推理链[20] - 覆盖室内外多场景,通过层级描述确保复杂环境下的表述清晰度[20] 性能基准对比 - RoboRefer-8B-SFT在CV-Bench达到98.33%准确率,显著领先GPT-4o(86.50%)和Gemini-2.5-Pro(91.00%)[21] - RGB-D输入模式下,2B-SFT版本在RoboSpatial任务取得82%成功率,超越专用模型SpatialBot-3B(63.33%)[21] - 在Where2Place基准上,RFT版本以71%准确率大幅领先Gemini-2.5-Pro(11.8%)[23]
一个气泡水广告,为何几十万人围观?原来整个都是Veo 3生成的
机器之心· 2025-07-06 14:06
AI视频生成技术进展 - Veo 3模型实现「音画同步」功能,推动AI视频创作进入声画一体化新阶段,显著降低视频创作门槛[4] - 完全由AI制作的广告在X平台获得超30万次观看,展示技术商业化潜力[2] - 案例视频在10个场景切换中保持角色一致性,仅出现车窗等细节微小跳跃,体现生成质量突破[7] 技术实现关键方法 - 采用超精细提示(Hyper-specific Prompting)技术,通过详尽上下文指令减少模型自由发挥空间[9][10] - 人类仍主导创意、脚本及最终剪辑环节,AI作为执行工具遵循概率而非创造性思维[11] - 扩散模型存在固有局限:依赖概率统计而非真实理解、局部与全局协调矛盾、帧间连贯性挑战及训练数据质量问题[19] AI视频应用创新方向 - 突破当前猎奇同质化内容,探索电影平行宇宙、游戏角色跨界等创意催化场景[17][18][22] - 商业应用潜力包括概念影片制作、企业网站建设等高效内容生产[24][25] - 技术瓶颈体现在角色一致性维护,需解决容貌突变、物体错乱等典型问题[8][14]
求医十年,病因不明,ChatGPT:你看起来有基因突变
机器之心· 2025-07-06 11:49
AI在医疗诊断中的应用趋势 - 用AI辅助看病正在成为新趋势,但目前仍需要人类医生作为最终决策者[2] - 典型案例显示AI能整合化验报告和症状史,成功诊断出人类医生多年未发现的基因突变(纯合型A1298C MTHFR基因突变,影响7%-12%人群)[4][5] - 多个Reddit用户案例证实AI在疑难杂症诊断中的辅助价值,包括15年未解决的呕吐症状和宠物误诊案例[7][8][9] AI医疗的优势与局限性 - AI具备快速检索海量医学文献的能力,在信息处理速度和数据容量方面超越人类医生[14] - 对于罕见病和多学科协作需求高的疑难症,AI能有效弥补人类医生的经验盲区[17] - 当前AI存在生成幻觉问题,无法承担误诊责任,必须与人类医生协同使用[22] 行业发展动态 - 微软等科技公司正在开发专业医疗AI产品,市场反馈积极[20] - 未来医疗行业可能形成"AI辅助+医生决策"的协作模式,AI将作为医生的"外挂大脑"[23] - 患者使用AI医疗建议时需保持谨慎,需经专业医生复核确认[22]
原来Scaling Law还能被优化?Meta这招省token又提效
机器之心· 2025-07-06 11:49
Transformer架构演进 - 2017年《Attention Is All You Need》论文提出Transformer架构,现引用量接近19万次,成为AI领域基础范式[1][2] - Transformer核心改进方向包括Multi-Token Attention和Multi-matrix Factorization Attention等新型注意力机制[2] - Meta最新研究提出旋转不变型三线性注意力机制,性能可改变Scaling Law系数[4] 2-simplicial Transformer技术突破 - 2-simplicial Transformer源自2019年研究,将点积注意力扩展为三线性形式[7][19] - 新型注意力机制通过三线性积构建三阶张量,计算复杂度为O(n^3)[22][23][35] - Meta采用滑动窗口参数化(O(n×w1×w2))降低计算负担,最优配置为w1=512,w2=32[32][37] Scaling Law理论框架 - 神经Scaling Law公式:L(N,D)=E+A/N^α+B/D^β,其中E为不可约损失[13][14] - Hoffmann等(2022)实验得出a≈0.49,b≈0.5,表明token数量需与模型规模同步扩展[15][17] - 2-simplicial Transformer展示更优参数扩展指数,token增长可慢于参数增长[10][50] 实验性能对比 - 在1B参数模型中,2-simplicial注意力使GSM8k和MBPP任务分别提升0.79%和0.88%[43] - 参数规模超过2B后,2-simplicial注意力优势减弱,3.5B模型在MMLU-pro任务下降2.15%[43][45] - 2-simplicial注意力斜率α更陡峭,显示其Scaling Law指数优于传统Transformer[49][50] 计算优化实现 - Meta使用Triton实现新型注意力机制,采用分组查询注意力(GQA)比率64提升计算效率[38] - 对比标准点积注意力(复杂度2n^2),窗口化2-simplicial注意力复杂度为6πw1w2[33][35] - 引入在线softmax等核优化技术,延迟最优配置达55.1ms(16k窗口)[32][39]