机器之心

搜索文档
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
机器之心· 2025-06-10 11:58
核心观点 - 香港科技大学与快手可灵团队联合推出EvoSearch方法,通过提高推理时的计算量大幅提升图像和视频生成模型的质量,支持diffusion-based和flow-based模型,无需训练和梯度更新即可显著提升效果 [1] - EvoSearch在SD2.1和Flux.1-dev上展示最优scaling up性质,测试计算量扩大1e4量级仍保持上升势头,在视频生成任务中Wan 1.3B能超过Wan 14B和Hunyuan 13B [2][30] - EvoSearch在人类评估中达到最优胜率,得益于高生成多样性,平衡了exploration和exploitation [33] Test-Time Scaling本质 - 将测试时扩展(Test-Time Scaling)和RL post-training分开定义,前者无需参数更新,后者需要计算资源进行后训练 [11] - 目标是激发预训练模型能力使其与人类偏好对齐,拟合目标分布p^tar=1/Z p0^pre(x0)exp(r(x0)/α),其中r(x0)代表人类偏好,KL距离防止偏离预训练模型分布 [12] - 直接从目标分布采样不可行,因diffusion和flow模型状态空间都是高维 [13] 当前方法局限性 - RL后训练方法需要构造数据及大量计算资源更新参数,代价大且难scale up [15] - Best-of-N基于重要性采样拟合目标分布,但样本通常是初始噪声 [15] - Particle Sampling拓展搜索空间为整条去噪轨迹,但缺少探索新状态空间能力并减少生成多样性 [15] - 当目标分布和预训练分布不一致时,RL方法会出现奖励过优化,best-of-N和particle sampling不能找到目标分布所有模态 [16] EvoSearch解读 - 将图像视频生成的test-time scaling问题重构为演化搜索问题,去噪轨迹看作演化路径,每个去噪步样本可变异演化探索更高质量子代 [19] - 演化空间沿去噪轨迹动态前移,起始于高斯噪声 [19] - 高质量样本在去噪轨迹中会聚集,可在父代周围空间探索找到更高质量样本 [21] - 设计两种变异模式:初始噪声变异保持高斯分布a_T^child=√(1-β²)a_T^parent+βε_T,中间去噪状态变异x_t^child=x_t^parent+σ_tε_t [22][23] - 变异方式加强新状态空间探索同时避免偏离去噪轨迹预训练分布 [25] - Evolution Schedule和Population Size Schedule避免冗余去噪步数节省计算开销 [29] 效果对比 - 在VBench和VBench2.0评估中,EvoSearch在Wan 1.3B上动态指标提升+3.3至16.48,语义提升-1.32至15.51,组成提升+13.49至51.57,平均提升+2.12至48.71 [33] - 在Hunyuan Video 13B上,EvoSearch语义提升-1.19至14.92,人类保真度提升+4.35至94.63,物理提升+5.44至61.54,平均提升+1.90至49.48 [33] - 项目论文和代码均已开源 [3][5]
大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
机器之心· 2025-06-10 11:58
语言模型与视频模型的对比 - 语言模型通过预测下一个token学习到丰富知识,而视频模型通过下一帧预测学习效果有限,引发对两者差异的思考 [1] - 语言模型核心算法简单(预测下一个词+强化学习调优),却展现出强大认知能力,包括解决新问题和空间推理 [18][23] - 视频模型虽能生成逼真视频,但在复杂问题解决、深度推理方面远不如语言模型,尽管视频数据信息量远超文本 [21] 语言模型的本质与局限性 - 语言模型并非直接学习世界运作,而是通过分析人类在互联网上的文字输出(思维投影)进行逆向工程,间接复制人类认知过程 [26][28] - 语言模型如同被困在柏拉图洞穴中,只能观察人类智能投下的阴影(网络文本),无法直接体验真实世界 [33][34] - 语言模型擅长模仿人类认知技能,但在从真实世界经验中自主学习新技能方面薄弱,这正是人类智能的核心优势 [36] AI发展的方向性思考 - 当前AI研究方向可能存在基础性错误,过于关注回忆和解决数学问题,而非人类从经验中学习的方式 [10] - 未来AI研究的关键挑战是:既要借鉴语言模型成功经验,又要探索从物理经验中自主获取表征的方法,实现真正灵活的智能 [38] - 有研究提出无需配对数据即可跨向量空间转换文本嵌入的新方法,可能为AI发展提供新思路 [39] 人类智能与AI的差异 - 人类智能强大之处在于能从经验中快速学习、适应新环境并解决全新问题,而非记忆力或数学能力 [19] - 早期研究者曾猜想人类大脑可能使用单一"万能算法",这一猜想对AI研究极具吸引力 [16] - 数字计算机理论上应能实现大脑所有功能,但当前AI与人类智能的实现路径存在本质差异 [2][25]
刚刚,苹果WWDC掀AI重构风暴!端侧模型全开放、AI版Siri却成最大「鸽」王
机器之心· 2025-06-10 07:49
操作系统更新 - 苹果全面改革操作系统命名规则 从版本号改为年份命名 如iOS 26、macOS Tahoe 26等[2][3] - 推出全新"液态玻璃"设计语言 带来半透明和玻璃光泽效果 是自2013年iOS 7以来最大软件设计革新[5][7][10] - 新设计将应用于按钮、滑块、媒体控件等界面元素 并重新设计工具栏和导航栏[8] AI功能升级 - Apple Intelligence成为发布重点 提供通话实时翻译、AI识物、智能搜索等功能[12][14] - 实时翻译功能集成到信息、FaceTime和电话中 支持iPhone、Mac等多设备使用[16][18] - 视觉智能可识别屏幕内容 支持截图搜索同款商品 并能自动建议添加日历事件[19][20][21][23] - 快捷指令功能增强 新增智能操作如写作工具和影像乐园[24][25] 开发者支持 - 开放端侧大模型访问权限 允许App直接利用Apple Intelligence基础模型[29][31] - 推出Foundation Models框架 支持三行代码调用本地AI推理[34][35] - 发布Xcode 26开发套件 内置ChatGPT支持 提供编码工具等AI辅助功能[37][38][40] Siri进展延迟 - 未如期发布AI版Siri升级 预计最早2026年才会更新[43][47] - 苹果将Siri项目负责人更换为Vision Pro开发负责人[48] - 股价在WWDC期间下跌2.5% 反映市场对AI进展不满[50][51] 市场反应 - 股价当日波动区间200.02-206美元 成交额147.32亿美元[52] - 部分用户认为新功能提升有限或国内无法使用 整体不够惊艳[54] - iPadOS桌面化和多任务能力更新被视为最大亮点[55]
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
机器之心· 2025-06-09 16:03
核心观点 - 西湖大学MAPLE实验室提出SLOT方法,通过在推理时让模型临时学习具体问题,显著提升大模型在复杂指令上的表现 [1][2] - 该方法简单高效,仅需优化一个轻量级参数向量delta,计算开销几乎可忽略不计(仅增加7.9%推理时间)[5] - 在多项基准测试中刷新纪录,部分模型在数学推理任务上准确率提升超过10个百分点 [7][22] 方法原理 - 将每个输入prompt视为迷你训练数据,让模型在生成答案前先学习理解具体问题 [2] - 仅在最后一层特征上加一个delta向量,在prompt本身上最小化交叉熵损失 [12] - 通过缓存中间结果,优化过程几乎不增加计算开销 [12] 性能表现 - Qwen2.5-7B在GSM8K数学推理任务上准确率从57.54%提升至66.19%(+8.65个百分点)[7] - DeepSeek-R1-Distill-Llama-70B在GPQA Diamond上达到68.69%,创70B级别开源模型新纪录 [7] - 在高难度AIME 2024数学竞赛题上,多个模型实现10%以上提升 [7] - Qwen2.5-32B在AIME24任务上从3.33%提升至13.33%(+10个百分点)[8] - DeepSeek-R1-Distill-Llama-8B在AIME24上从36.67%提升至50%(+13.33个百分点)[8] 技术优势 - 无需修改模型架构、额外训练数据或复杂采样策略 [19] - 适用于各种规模模型(1.5B到70B)和类型(基础模型到推理专家)[18][20] - 优化后的delta会显著调整输出词汇概率分布,鼓励模型深入思考 [17] - 在最具挑战性任务上提升最明显(如C-Eval Hard子集+8.55%)[22]
开启端侧长文本时代!面壁全新架构,让小钢炮最快提升220倍
机器之心· 2025-06-09 16:03
端侧大模型技术突破 - 面壁智能发布MiniCPM 4.0模型,实现行业首个系统级上下文稀疏语言模型创新,稀疏度达5%,开启端侧长文本时代[3][4] - MiniCPM 4.0分为8B和0.5B两个版本,8B版本在长文本推理速度上比Qwen-3-8B等模型快5倍,极限场景下最高220倍加速[5] - 在128K长文本场景下,8B版本仅需Qwen3-8B 1/4的缓存存储空间,大幅降低资源需求[5][16] 性能表现 - MiniCPM 4.0-8B在MMLU、CEval等基准测试中性能对标Qwen-3-8B,超越Gemma-3-12B[10] - 0.5B版本实现每秒600 token高速推理,性能超越Qwen-3 0.6B[11] - 采用"高效双频换挡机制",根据任务自动切换稀疏/稠密注意力模式,实现不同任务的高效响应[13] 技术创新 - 提出InfLLM v2可训练稀疏注意力层,稀疏度从行业40%-50%降至5%,计算量仅为1/10[26][29] - 自研CPM.cu推理框架实现5倍速度提升,BitCPM量化算法实现4-bit量化,模型瘦身90%仍保持性能[31][32] - 开发UltraClean数据过滤策略,验证成本下降90%,处理15万亿token数据仅需1000小时CPU时间[33] 行业影响 - 模型已在英特尔、高通、华为昇腾等主流芯片平台完成适配,支持多种开源框架部署[18] - 与DeepSeek形成技术互补,面壁专注端侧稀疏化方案,DeepSeek强化云端模型能力[42][43] - 提出大模型"密度定律",认为语言模型能力密度每100天翻一番[49] 未来发展 - 计划近期推出更多MiniCPM系列基础模型及多模态模型[51] - 模型已在可信调查问卷生成、工具使用等场景展现广泛可用性[38] - 技术突破将推动手机、车机等端侧AI模型更新,可能重塑应用生态[19]
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
机器之心· 2025-06-09 12:33
核心观点 - 研究团队提出首个支持超长视频理解的跨模态记忆压缩框架AdaCM2,解决现有模型在长视频场景下的显存瓶颈和冗余信息干扰问题 [2][5][6] - AdaCM2基于两大核心观察(帧内注意力稀疏性和层间语义冗余性)设计,通过跨模态注意力驱动的层级记忆压缩策略实现高效信息筛选 [7][9][11][15] - 实验显示AdaCM2在多项任务中超越SOTA模型,显存使用下降65%,支持处理超2小时长视频 [20][22][24] - 该技术为多模态大模型提供可控的长时记忆能力,拓展智能交通、医疗、教育等领域的应用边界 [23][25][26] 技术背景 - 现有视频理解模型(如VideoLLaMA、VideoChat)在短视频(5-15秒)表现优异,但面对分钟级/小时级视频时出现显存瓶颈和冗余信息干扰 [5] - 长视频处理存在三大核心问题:内存消耗指数级上升、视觉Token冗余严重、文本与视频缺乏精准对齐机制 [6] 关键观察 - **帧内注意力稀疏性**:长视频单帧中仅极少数视觉Token对文本提示强相关,注意力得分呈尾部偏置分布,高价值信息集中在少数Token [9] - **层间语义冗余性**:深层网络中临近帧/远帧间跨模态注意力相似度高,多个Token在不同时间或层次上表达重复语义 [11] 技术方案 - **逐帧回归式建模**:动态更新记忆缓存替代一次性输入全部帧,实现轻量连续建模 [20] - **跨模态注意力打分**:通过Q-Former模块计算视觉Token与文本提示的注意力权重,仅保留高分Token [20] - **分层压缩机制**:针对不同Transformer层设置可调压缩参数(α和β),实现精细内存控制 [20] - **LLM兼容性**:支持与Vicuna-7B、FlanT5等主流LLM无缝对接,仅需轻量微调Q-Former模块 [19] 性能表现 - **LVU分类任务**:平均Top-1准确率提升4.5%,在"导演""场景"等任务领先所有方法 [22] - **行为理解任务**:在COIN/Breakfast数据集上超越MA-LMM(94.4 vs 93.0) [21][24] - **视频字幕生成**:MSVD数据集达到189.4 CIDEr,显著优于GIT(180.2)和VideoLLaMA(175.3) [21][24] - **内存效率**:显存使用下降65%,极端情况下仍能稳定处理超2小时视频 [20][24] 应用场景 - **智能交通监控**:支持全天候视频智能分析与摘要生成 [25] - **医疗手术记录**:自动分析长时间术中操作行为 [25] - **教育/会议记录**:提取关键片段并生成总结 [25] - **机器人感知**:为具身智能体提供持续视觉记忆能力 [25]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
机器之心· 2025-06-09 12:33
AI算力集群的核心作用 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",支撑大模型训练和复杂AI任务处理[3] - 单台计算机算力无法满足万亿参数大模型需求,集群化方案解决算力瓶颈问题[3] - 集群需要解决设备协同工作、故障容错、训练中断恢复等世界级工程难题[4] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康状态并通过运维手段消除[7][8] - 系统层通过超时代答欺骗OS和网络路由切换防止系统级故障[7] - 业务层实现租户无感知的网络闪断重试,运维层构筑亚健康感知和优雅恢复技术[8] 集群线性度优化 - 通过拓扑感知协同编排(TACO)、网存算融合(NSF)等四项关键技术实现算力线性扩展[11] - 训练Pangu Ultra 135B模型时4K卡集群线性度达96%,718B稀疏模型8K卡集群线性度95.05%[13] - 理想状态下集群应实现算力与设备数量的线性增长,避免资源内耗[10] 万卡集群快速恢复 - 采用进程级重调度恢复技术将训练恢复时间缩短至3分钟内[15] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复[15] - 算子级在线恢复技术实现网络故障下的秒级重执行,保持训练连续性[15] MoE模型推理容错 - 大EP组网架构下提出实例间切换/实例内重启/实例内无损三级容错方案[19] - 实例内快速重启技术将恢复时间从20分钟降至5分钟[20] - TOKEN级重试技术在CloudMatrix 384场景实现30-60秒实例恢复[21] 故障感知与诊断 - 构建全栈可观测能力,包括集群运行视图、网络链路监控等模块[26] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断等能力[26] - 实时监控系统持续跟踪设备温度、算力利用率等健康指标[24] 建模仿真技术 - Sim2Train平台通过AdaptPack编排优化使训练吞吐提升4.5%-8.24%[31] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差6.6%[33] - 高可用仿真框架建模单步时长内的故障影响与恢复耗时[35] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口实现生态兼容[38] - 推理阶段支持HuggingFace权重一键部署,vLLM插件提升大模型服务能力[38] - 动态图执行通过多级流水线与JIT编译优化显著提升效率[38] 未来发展趋势 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环[39] - 算力专用化趋势下需异构加速,架构革新如光电混合将释放性能潜力[39] - AI运维等智能化手段将成为弥合系统复杂度鸿沟的关键[39]
质疑DeepSeek-R1、Claude Thinking根本不会推理!苹果争议论文翻车了?
机器之心· 2025-06-09 12:33AI Processing
ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD
机器之心· 2025-06-09 12:11AI Processing
最新!Ilya现身多大毕业演讲:AI会完成我们能做的一切
机器之心· 2025-06-09 12:11
机器之心报道 机器之心编辑部 大脑是一台生物计算机,数字计算机又有什么不同呢? 6 月 6 日,许久没有露面的 Ilya Sutskever 出现在了多伦多大学的校园里,接受母校授予他的荣誉理学博士 学位。 自去年宣布离开 OpenAI 之后,Ilya 鲜少出现在公众视野,社交媒体动态也很少更新,所以很多人都问 「Ilya 去哪儿了」?他创办的新公司 —— 安全超级智能(safe superintelligence,SSI)也非常神秘,大家只 有一个模糊的印象,即该公司业务围绕着开发一个安全、强大的超级智能系统展开。 回顾 Ilya 的学生生涯,他于 2005 年以数学荣誉理学学士学位(honours bachelor of science in mathematics) 毕业,随后继续深造,在多伦多大学先后取得计算机科学硕士学位和博士学位,师从图灵奖、诺贝尔物理 学奖得主 Hinton。 这次颁发的学位是为了表彰 Ilya 作为计算机科学家和人工智能领域先驱所做的基础性工作及全球影响力, 以及他在倡导安全、负责任的人工智能方面作出的杰出贡献。 仪式之后,Ilya 还在多伦多大学做了一场演讲。他指出,我们正生 ...