机器之心

搜索文档
Who’s Adam?最逆天的NeurIPS评审出炉了
机器之心· 2025-07-25 18:34
机器之心报道 机器之心编辑部 这两天,大家都收到 NeurIPS 2025 的评审结果了吧? 按照以往经验,应该到了吐槽评审意见的环节。 这不,我们刚刚在 X 上看到今年最逆天的一个 NeurIPS 评论。 来自北大校友,西北大学工业工程与管理科学系的助理教授 Yiping Lu 的 X 账号。 刚刚发出数小时,已经被查看了十几万次。 审稿人意见如下: 两个架构都使用 Adam 优化。 「Adam」 是谁 / 是什么? 我认为这是一个非常严重的拼写错误,作者本应在投稿前删除。 没错,这正是 Lu 老师 NeurIPS 论文的评审意见。 Dan Roy教授都忍不住开喷:NeurIPS评审完全是一坨。 | 〔〕 Dan Roy 已转帖 | | | --- | --- | | Yiping Lu @2prime PKU · 9小时 | | | Anyone knows adam? | | | "dimension"? | · I. 336: "Both architectures are optimized with Adam | | Who/what is "Adam"? I think this is a ve ...
Agent KB:经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66
机器之心· 2025-07-25 15:15
近日,来自 OPPO、耶鲁大学、斯坦福大学、威斯康星大学麦迪逊分校、北卡罗来纳大学教堂山分校等多家机构的研究团队联合发布了 Agent KB 框架。 这项工作通过构建一个经验池并且通过两阶段的检索机制实现了 AI Agent 之间的有效经验共享。Agent KB 通过层级化的经验检索,让智能体能够从其他 任务的成功经验中学习,显著提升了复杂推理和问题解决能力。 论文地址: https://arxiv.org/abs/2507.06229 开源代码: https://github.com/OPPO-PersonalAI/Agent-KB Agent 记忆系统:从独立作战到协同学习 在 AI Agent 的发展历程中,记忆(memory)系统一直是实现持续学习和智能进化的关键组件。广义上的 Agent 记忆系统有用于存储当前对话或任务中的 临时信息的短期记忆,也有保存重要的知识、经验和学习成果的长期记忆,还有处理当前任务时的活跃信息缓存的工作记忆,部分还包括记录特定场景下的 问题解决策略的情境记忆。 然而,现有的记忆系统存在一个根本性限制:不同的 Agent 框架下的经验无法有效共享。由于不同的任务往往有着不同的 ...
A800、H800都低到这个价了,这个暑假搞了点算力福利
机器之心· 2025-07-25 15:15
这个暑假,在学校搞 AI 的你是不是还在卷研究? 是不是还缺点算力? 是不是想要点折扣? 它来了!面向 高校用户, 英博云特别推出「暑期现金消耗返券活动」。 满足规则,A800 低至 4.26 元 / 卡 / 小时起,H800 低至 9.33 元 / 卡 / 小时起。 活动时间 即日起至 8 月 31 日 返券规则 具体返利比例 消耗金额越高,返利比例阶梯式飙升, 满 10000 元及以上直接返 30%! 福利叠加 三重惊喜: 福利一:注册及首充赠券 福利二:充值满额赠券 福利三:现金消耗满额赠券(8 月 31 日截止) 福利叠加价格示例: 注册成功赠送 100 元代金券(8 月 1 日起赠送减半); 首次充值满 100 元赠送 200 元代金券(8 月 1 日起赠送减半); 高校用户单笔或累计消耗现金达指定金额,即可领取对应比例的代金券(可叠加使用) 消费达标:活动期间通过英博云平台消耗现金(支持单笔或累计) 返券流程:根据活动期消耗现金情况统一进行发放(活动结束后) 最后提醒 代金券有效期为 3 个月,建议提前规划,避免过期。 立即扫码,参与活动 (活动最终解释权归英博云所有) 关于英博云 北京英博数科科 ...
150PB工业数据+智能体革命,西门子开启AI制造新纪元
机器之心· 2025-07-25 12:29
机器之心原创 编辑:微胖 那是 1964 年,德国南部的小城爱尔兰根,阳光洒落在西门子数据中心的窗格上,一台名为 Zuse Graphomat Z64 的绘图仪静静运转着。 它并不懂何为艺术,却在工业数学家 Georg Nees 的指令下,画出了世界上最早一批由计算机生成的 图像。 1965 年,德国斯图加特大学的研究画廊举办了全球首个在爱尔兰根西门子公司数字计算机上通过算法生成的图形作品展览 Computer grafik (算法艺术), Georg Nees 是唯一参展的艺术家,这是当时展出的作品之一。 一段代码、一卷纸带、一组图形库,借由 ALGOL 语言缓缓运行。方格、曲线,轮廓与空白 —— 工业 数学家的灵魂在矩形与曲线中悄然跃动,没有人会想到,它会成为人工智能与工业融合的漫长序章。 次年,西门子在爱尔兰根设立研究中心。 超过 7 个足球场大的封闭园区,成为无数推动工业 4.0 技术 的母体。 60 年过去,城市依旧宁静,工厂早已焕然一新。在西门子爱尔兰根工厂中,超 100 项人工智能应用嵌 入制造流程,数字孪生技术成为理解现实的镜像。 机器人能识别陌生零件,借助虚拟物料进行训练,还能将直径仅为几十 ...
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
机器之心· 2025-07-25 12:29
模型概述 - OmniAvatar是由夸克技术团队与浙江大学联合开源的音频驱动全身视频生成模型,仅需输入一张图片和一段音频即可生成视频,显著提升唇形同步细节和全身动作流畅性,并支持通过提示词精准控制人物姿势、情绪及场景[1] - 模型已开源,提供播客、唱歌、交互、动态背景等多场景案例[2] - 实验数据显示其在唇形同步、面部/半身视频生成、文本控制等维度表现领先,平衡视频质量、准确度与审美[3] 技术架构与创新 - 基于Wan2 1-T2V-14B基础模型,采用LoRA微调方法引入音频特征,保留原模型视频生成能力的同时提升音频适应性[8] - 提出像素级多层次音频嵌入策略:通过Wav2Vec2提取音频特征并压缩映射至潜在空间,实现唇部运动精准对齐及全身动作自然协调[13] - 采用多层级音频嵌入设计,将音频信息嵌入DiT模块第二层至中间层,避免潜在空间过度干扰并保持各层独立学习路径[14] 性能对比 - 在FID t(67 6)、FVDt(664)、Sync-Ct(7 12)、Sync-D+(8 05)、IQAt(3 75)、ASET(2 25)等指标上优于Hallo3、Fantasy Talking等竞品[5] - 长视频生成通过参考图像嵌入和帧重叠技术优化,确保人物身份一致性与时间连贯性[6][19][20] 应用场景与优化 - 支持动态场景下人物情绪精确控制及镜头运动时的自然流畅表现[11] - 基于LoRA的平衡微调策略解决传统方法中连贯性差或唇形同步性能不足的问题,通过低秩矩阵更新权重高效学习音频特征[16][17] 未来方向 - 当前为多模态视频生成初步尝试,需在复杂指令处理、多角色交互等场景进一步探索以提升产品化能力[22] 资源链接 - 模型、代码、论文及项目页地址公开[4]
解道奥赛题成本5000美元?陶哲轩警告,AI下一步要规模化的「更便宜」
机器之心· 2025-07-25 12:29
人工智能和数学是密不可分的。 机器之心报道 机器之心编辑部 AI 的发展离不开数学的进步,同时 AI 的进步也离不开解决数学问题的能力。 在刚结束不久的 IMO 竞赛中,谷歌的新一代 Gemini 进阶版模型成功解决了六道超高难度试题中的五道,达到了今年 IMO 的金牌水平(35/42),成为首个获得奥 赛组委会官方认定为金牌的 AI 系统。 加州大学洛杉矶分校数学系终身教授,菲尔兹奖获得者,被称为「数学莫扎特」的华人数学家 陶哲轩 ,参加了今年度 IMO 竞赛的颁奖典礼。 他同样也对在 IMO 取得成绩的 AI 模型十分关注。 但他同样表达了一定程度的担忧,希望明年能够在更加受控的环境下对 AI 模型进行科学比较和评估。 陶教授认为:一些在标准考试条件下可能连铜牌都难以稳定获得的学生或队伍,在某些经过修改的赛制下,反而可能稳定地达到金牌水平。 因此,在 没有采用统一、非参赛队自选的控制性测试方法 的前提下,对于不同 AI 模型在类似 IMO 等竞赛中的表现,应当 谨慎看待 ,避免作出过于简单化的 「对等」比较。 陶教授对人工智能的发展和评估的关心是一贯的。就在刚刚,他在 mathstodon 上发表了对于人 ...
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
机器之心· 2025-07-25 12:29
核心观点 - LOVON框架创新性地整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决足式机器人在动态非结构化环境中长程目标导航的难题[2][5] - 该框架具备即插即用特性,兼容Unitree Go2、B2、H1-2等主流足式机器人平台,突破传统导航场景限制[2][19] - 在仿真与真实环境中均实现性能突破,如仿真成功率1.00(EVT为0.94),训练效率提升240倍[18] 技术架构 三大核心模块 - **LLM任务规划器**:分解长视野任务为子任务并动态调整顺序,例如“先跑向椅子再靠近行人”[16] - **开放词汇视觉检测**:识别从背包、盆栽到汽车、宠物等开放类别目标,适配多样化场景[16] - **语言-运动模型(L2MM)**:将指令直接转化为运动向量,实现精准速度与方向控制[16] 抗干扰视觉处理 - 采用拉普拉斯方差滤波技术过滤模糊图像帧,配合滑动平均滤波提升有效检测帧比例25%[11][12] 自适应执行逻辑 - 目标丢失时自动切换至搜索模式,新指令无缝衔接,外力干扰后快速重规划路径[14][15] 性能表现 仿真环境 - GymUnreal场景中成功率1.00(EVT为0.94),训练时间仅1.5小时(TrackVLA需360小时)[18] 真实世界 - **开放世界适配**:识别大小形态各异目标并在陌生环境快速适应[23] - **多目标长程追踪**:流畅执行“找椅子→找行人→找背包”等复杂任务链[23] - **动态环境鲁棒性**:在螺旋楼梯、杂草丛等复杂地形稳定跟踪移动目标[23] - **抗干扰能力**:目标移动或碰撞后快速重新锁定[23] 应用前景 - 覆盖家庭服务、工业巡检、野外科研等领域,推动足式机器人从实验室走向实际应用[21] - 通用框架设计加速技术落地,有望成为智能服务变革的关键技术[21]
Meta出走华人创业团队,种子轮800万美元,要打造视觉AI记忆大脑
机器之心· 2025-07-25 10:03
人才流动与创业动态 - Meta近期从谷歌挖走三位IMO金牌研究者以加强AI团队建设[2][3] - 前Meta Reality Labs顶尖科学家团队创立AI研究实验室Memoriesai并完成800万美元种子轮融资由Susa Ventures领投三星风投等跟投[6] 技术突破与创新 - Memoriesai团队开发大视觉记忆模型(LVMM)解决AI系统"记忆缺失"问题为视觉模型创造记忆大脑[7][13] - LVMM突破传统视频片段分析范式实现永久保留上下文信息/精准识别时序模式/智能对比分析三大功能[14][15][16] - 该技术将原始视频转化为可搜索数据库使AI具备无限视觉记忆能力在视频分类/检索/问答领域刷新SOTA基准[17][18][19] 应用场景与商业化 - LVMM可处理数月甚至数年视频数据实现秒级检索与分析已与三星等手机厂商展开合作[22] - 核心技术通过API开放并推出网页应用支持用户上传视频进行毫秒级精度检索与深度分析[24][25] - 推出Video Creator视频创作助手和Video Marketer智能营销工具等Demo Agents展示应用潜力[26][27] 行业影响与愿景 - 该技术有望在安防/媒体/营销/消费电子等领域带来变革性应用[22] - 公司愿景是赋予AI深度情境感知能力以构建更安全智能的世界[23] - 技术展示平台已开放欢迎企业/研究者体验视觉记忆与智能的交叉应用[29]
北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
机器之心· 2025-07-25 10:03
机器之心发布 机器之心编辑部 如今,GPT-4o、Gemini 2.5 Pro 等多模态基础模型在对话、代码生成和数学推理等任务中已经达到甚至超越了人类水平。研究者开始探索如何将这种智能从数字世 界延伸至 物理空间 ,以实现 具身智 能 。这其中最受关注的前沿方向之一,便是 视觉 - 语言 - 动作模型(Vision-Language-Action Models,简称 VLA) 。此类模 型借助基础模型的通用能力与大规模学习范式,可以处理通用的视觉(Vision)与语言(Language)输入,并生成实时动作(Action),极大地赋能了机器人系 统。 近两年来,VLA 相关研究爆发式增长,技术路线日新月异 —— 但这也造成了认知碎片化与理解上的困难。现有分类方法如 "大脑 - 小脑"、"快慢系统"、"分层 - 端到端" 等,直觉清晰但本质仍不明确。 领域急需系统化的分析框架,以梳理研究现状,指明未来方向。 为此, 北京大学 - 灵初智能联合实验室首次从动作词元化(action tokenization)视角,提出统一理解 VLA 模型的新框架 。综述系统分析了八种主流 action token,探讨了不同动 ...
MeanFlow再下一城,北大提出机器人学习新范式MP1,实现速度与成功率双SOTA
机器之心· 2025-07-24 17:33
核心观点 - MP1是一种全新的机器人学习框架,首次将MeanFlow范式引入机器人学习,实现毫秒级推理速度,为VLA动作生成模型打下基础[4] - MP1通过MeanFlow Identity直接建模平均速度场,无需积分求解,实现单次确定性前向传播,保证实时性[8][9] - MP1引入分散损失解决表征坍塌问题,提升少样本泛化能力,在极少量示教数据下仍能高效学习[11][12] - MP1在37个复杂操作任务测试中平均成功率78.9%,比FlowPolicy和DP3分别提升7.3%和10.2%[16] - MP1平均推理耗时仅6.8ms,比FlowPolicy快2倍,比DP3快19倍,完全满足实时控制需求[18][19] MP1核心技术 - 采用MeanFlow范式,直接学习从初始噪声到目标动作的区间平均速度场,摆脱传统Flow Matching的迭代式ODE求解[8] - 通过MeanFlow Identity实现单次前向传播生成完整动作轨迹,推理时间高度稳定[9] - 分散损失强制不同状态表征在特征空间相互分散,提升模型区分细微场景差异的能力[11] - 分散损失仅在训练时生效,不增加推理开销,保持毫秒级响应速度[12] 性能表现 - 在Adroit和Meta-World基准测试中,MP1平均成功率78.9%,最高难度任务上比FlowPolicy提升15%[16][17] - 成功率标准差仅±2.1%,远低于其他方法,证明结果高度可靠[17] - 在NVIDIA RTX 4090 GPU上平均推理耗时6.8ms,最快可达6.7ms[18][19] - 真机验证中,Hummer任务成功率90%,比FlowPolicy高20%,平均耗时仅18.6秒[23] 少样本学习 - MP1在所有数据量级上均优于FlowPolicy,尤其在2-5个示教的极端少样本场景表现突出[21] - 分散损失通过优化内部表征空间,显著提升策略少样本学习的泛化能力[21] - 该特性可大幅降低真机部署时的数据需求[12][21]