Workflow
机器之心
icon
搜索文档
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
机器之心· 2025-05-26 17:40
扩散式发散思维链技术突破 - 首次提出将反向扩散过程的每一步中间结果视为大模型的非线性思考步骤,通过基于结果的强化学习优化生成轨迹,最大化最终答案正确率[1] - 突破传统思维链(CoT)的线性生成限制,允许任意顺序生成且无需严格遵循语法结构,激发模型创造性推理[1] - 在连续时间扩散模型中直接优化得分函数策略分布,在离散时间模型中设计Plackett-Luce去掩码策略[2] - 成功训练有序掩码生成扩散语言模型LLaDOU,仅用16张H800显卡即超越现有扩散模型在数学推理和代码生成任务的表现[2] 技术实现原理 - 通过离散扩散过程建模文本分布,反向去噪时生成的中间结果序列构成发散思维链(DCoLT)[11] - 采用基于最终答案正确性的强化学习,对多步动作序列整体优化而不干预中间步骤[13] - 连续时间模型SEDD通过转移概率矩阵迭代计算,离散时间模型LLaDOU引入去掩码策略模块(UPM)实现有序生成[16][21] - UPM模块通过transformer层预测掩码得分,结合Plackett-Luce模型采样生成策略,计算量增幅小于1%[22][23] 性能验证数据 - SEDD模型在GSM8K-Aug数据集达到57%准确率,超越带CoT标注的DoT方法[30] - LLaDOU 8B在数学推理任务GSM8K和MATH分别取得88.1%和44.6%准确率,代码生成任务HumanEval和MBPP通过率59.1%和51.6%[32] - 性能超越Dream 7B、LLaDA 8B等扩散模型基线,接近DeepseekMath-RL 7B等微调后的自回归模型水平[32] 行业影响 - 证明自回归模型的线性token预测并非唯一范式,开辟非线性语言生成新路径[2] - 技术框架可应用于Gemini Diffusion等主流扩散语言模型,有望成为标准训练流程[3] - 实现从早期概念要素到完整回答的渐进式构建,更贴近人类发散思维特征[7][34]
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
机器之心· 2025-05-26 09:28
语音合成技术发展现状 - 语音合成技术从拼接式合成和统计参数模型发展到深度神经网络与扩散、GAN等先进架构,实现了接近真人的自然度与情感表达 [1] - 技术繁荣主要局限于英语、普通话等大语种,全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性面临巨大挑战 [1] 泰语TTS解决方案 - 提出数据优化驱动的声学建模框架创新方案,通过构建系统化泰语数据集结合先进声学建模技术,实现有限资源下的高质量TTS合成 [3] - 框架具备zero-shot声音克隆能力,展示优异跨场景适用性,为小语种TTS系统构建提供有效范式 [3] 数据驱动模型设计 - 整套框架以数据质量为核心抓手,以模块化设计保障可扩展性,解决小语种TTS"数据稀缺+语言复杂"双重瓶颈 [5] - 构建多维泰语语料库包括500小时多领域语音、40小时垂直领域语音、100万句文本语料等 [9][14] 预处理流程创新 - 设计"三步一体、逐层解耦"预处理流程,化解泰语文本无标点、无空格、声调复杂三重难题 [11] - 通过LLM增强的停顿预测、词切分与混合式G2P,将原始文本转换为结构化"音素-声调"序列 [8][15] 模型架构特点 - 集成"多源特征×声调感知×零样本克隆"组合设计,采取先独立训练预测器再联合微调策略 [13] - 使用Phoneme-Tone BERT显式融入五声调,GAN解码器直接从音素与预测特征合成波形 [16] 实验效果验证 - 系统WER为6.3%,NMOS达4.4,超越Google TTS和Microsoft TTS等商业方案 [19] - 零样本声音克隆取得SIM 0.91和SMOS 4.5,显著优于OpenVoice的0.85与4.0 [19][20] - 消融实验显示停顿预测、分词优化和G2P优化对系统性能影响显著,G2P影响最大 [20]
惊了,我的电脑在自动打工!花不到1块钱雇个「AI超人」,Office三件套被卷死
机器之心· 2025-05-26 09:28
核心观点 - 智能体成为大模型技术发展的下一站,具备实体化、自主性和交互性,已进化为全能工具 [3][4] - 昆仑万维发布天工超级智能体(Skywork Super Agents),以场景全、能力强、框架开源三大优势领先行业 [5][6] - Skywork在GAIA基准测试中全面超越Manus和OpenAI deep research,在SimpleQA测试中得分94.5超越当前SOTA [9][11] - 产品提供5个专家级AI Agent和1个通用AI Agent,覆盖文档、表格、PPT、播客、网页等多模态内容生成 [6][7] - 全球首个开源deep research agent框架,开放三大MCP接口,构建AI操作系统生态 [14][15] 产品功能 多场景创作 - 一键生成专业文档、数据表格、PPT、播客、网页五件套,支持B站风格脚本创作 [6][23][25] - 表格模式可智能分析原始数据,交互式确认统计维度和展示方式,自动生成可视化图表 [26][27][30] - PPT生成支持《日本镰仓旅游攻略》等主题,含高质量场景图、路线图和日程表 [31][32] - 网页开发实现Vibe Coding概念,输入自然语言即可生成可玩性高的HTML游戏 [33][35] 多模态生成 - 播客模式可基于书籍生成对谈内容,支持实时修改和语音语调优化 [37][38] - 音乐生成可创作清晨散步轻音乐,视频生成支持复杂Prompt如"发光小鸟汇聚成钟表" [41] - 多工具融合架构实现宣传片、MV、有声书、绘本等跨模态内容一键生成 [52][55] 技术优势 - 自研deep research模型实现深度搜索与推理,性能对标OpenAI竞品 [61] - agent workflow框架支持任务拆解与模型调用,在开源排行榜获SOTA成绩 [61] - 生成物模型提升内容真实性,在线编辑系统兼容主流办公软件格式 [61] - 复杂任务分解技术突破上下文限制,支持超长任务协同解决 [62] 差异化竞争力 - 信源追溯功能标注文本/图片出处,降低大模型幻觉风险 [56][57] - 个人知识库支持50文档上传,形成"素材-创作-积累"正循环 [58] - 任务协同能力整合文档/表格/PPT三件套,支持YouTube视频插入 [45][46] - 性价比突出,单个通用任务成本仅0.96元,无内测限制即开即用 [16] 行业影响 - 智能体技术从概念展示转向场景落地,推动Office生产力革命 [64][66] - 中国AI企业在智能体领域实现国际领先,形成技术+场景+生态全面优势 [66] - 产品通过GAIA等严苛测试验证,标志国产AI达到实用化门槛 [9][63]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]
开源·开放·开创,2025张江具身智能开发者大会暨国际人形机器人技能大赛即将启幕
机器之心· 2025-05-25 18:02
大会概况 - 2025张江具身智能开发者大会暨国际人形机器人技能大会将于5月29日在张江科学会堂举办,包含峰会、大赛、展览三大板块 [1] - 峰会邀请200余家人形机器人产业链企业、1000余位院士及行业专家参与,设置1场主论坛和9场开发者论坛 [1] - 展览面积达3000平方米,集中展示行业创新成果 [1] - 现场将发布《具身智能产业高质量发展若干政策措施》,成立创新中心联盟并启动智元机器人开源平台、张江具身智能基金等 [1] 张江产业生态 - 张江科学城依托政策支持、产业生态和科研实力推动人形机器人产业加速发展 [2] - 国家地方共建人形机器人创新中心已发布全球首台全尺寸人形机器人公版机"青龙",建立OpenLoong开源社区并制定首批行业标准 [2] - 2025年初全国首个异构人形机器人训练场将启用,可容纳100余台机器人同时训练 [4] - 上海具身智能基金首期规模10亿元,重点投资产业链关键环节 [4] 大赛赛道设置 - 国际人形机器人技能大赛设五大赛道:应用场景挑战赛、具身智能应用场景挑战赛、核心部件技术创新赛、足球挑战赛、达人秀 [5][6] - 应用场景挑战赛分为工业场景(汽车贴标、搬运等)、家庭场景(衣物折叠等)、全地形动态性能挑战 [7][10] - 具身智能应用场景挑战赛包含工业场景(料箱搬运)、商用场景(超市上架)、创新场景 [10][11] - 核心部件技术创新赛聚焦一体化关节、传感器、电子皮肤、控制器 [12][16] 参展企业与技术 - 上海开普勒K2大黄蜂团队、傅利叶N1机器人、智元远征A2等将展示行走、交互能力 [9][10][22] - 黑戈尔电机、良世机械等展示一体化关节模组,欣佰特科技等展示高精度传感器 [16] - 同济大学多模态仿生柔性电子皮肤团队、南京贞实科技分别展示电子皮肤和控制器创新成果 [16] 论坛与专家阵容 - 主论坛邀请毛明院士、孙立宁院士等专家探讨前沿趋势,设置三场圆桌讨论 [14][17] - 9场开发者论坛聚焦运动控制、具身智能操作系统等技术方向,由上海交大张伟楠教授等行业专家主讲 [17] - 国地中心首席科学家江磊将分享"具身智能创新发展'破壁'思考" [17]
只用图像也能思考,强化学习造就推理模型新范式!复杂场景规划能力Max
机器之心· 2025-05-25 11:51
核心观点 - 现有MLLM主要依赖文本作为推理媒介,导致视觉信息在文本化过程中丢失丰富细节,形成"模态鸿沟"[1] - 研究团队提出全新"视觉规划"范式,完全基于视觉表示进行规划,独立于文本模态[4] - 视觉规划通过图像序列编码推理过程,类似人类通过草图进行计划的方式[6] - 该方法在FROZENLAKE、MAZE和MINIBEHAVIOR等视觉导航任务中表现显著优于文本规划[25] 技术框架 - 采用两阶段强化学习框架VPRL,以GRPO为核心优化方法[16] - 第一阶段通过监督学习初始化视觉生成模型,保持探索多样性[16] - 第二阶段通过模拟未来状态获得奖励反馈,优化视觉规划策略[18] - 设计进度奖励函数,有效推进得1分,无推进得0分,非法动作扣5分[22] 实验表现 - 视觉规划器VPFT和VPRL在所有任务上均取得最高分[25] - VPRL在FROZENLAKE任务上达到91.6% EM和93.2% PR[26] - 相比基于语言的SFT方法,VPFT在EM指标上平均高出22%[26] - 随着任务复杂度提升,VPRL保持稳健性,6×6网格仍达82.4% EM[30] 行业意义 - 证明视觉规划是可行的替代方案,在图像推理任务中展现巨大潜力[14] - 为图像感知与推理领域开辟了新方向[14] - 显示当前前沿语言模型在复杂视觉任务中仍存在明显局限[27] - 强化学习方法相比监督微调展现出关键优势,能自由探索并学习潜在规则[28]
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
机器之心· 2025-05-25 11:51
电脑智能体技术突破 - 行业首次实现仅需312条人类标注轨迹即可训练出高性能电脑智能体PC Agent-E,性能提升达241%,超越Claude 3.7 Sonnet的extended thinking模式,成为Windows系统开源电脑智能体的新一代SOTA [1][10] - 关键创新在于轨迹增强(Trajectory Boost)技术,利用Claude 3.7 Sonnet为每一步合成多个动作决策,使模型性能相比仅使用人类轨迹训练提升141% [8][11] - 研究表明大模型已具备基础电脑操作能力,性能瓶颈在于长程推理(long-horizon planning)能力的激发,而该能力可通过少量高质量轨迹显著提升 [3][13] 数据收集与处理方法 - 数据来源仅需两位作者一天时间通过PC Tracker工具收集的真实操作轨迹,每条包含任务描述、屏幕截图及键盘鼠标操作 [4] - 原始轨迹经过思维链补全(Thought Completion),为每个动作步骤添加符合ReAct范式的思考逻辑 [7] - 轨迹增强阶段利用环境快照(environment snapshot)通过Claude 3.7 Sonnet为每一步合成9个额外动作决策,极大丰富数据多样性 [8][11] 模型训练与性能表现 - 基于开源模型Qwen2.5-VL-72B训练,PC Agent-E作为原生智能体模型可实现端到端任务执行,无需复杂工作流设计 [10] - 在改进版WindowsAgentArena-V2评测中表现优异,同时在OSWorld平台展现跨平台泛化能力 [10] - 实验显示模型性能随合成动作数量增加而显著提升,验证了轨迹增强方法的有效性 [11] 行业影响与未来方向 - 该方法证明少量高质量轨迹可替代海量标注数据,为构建更智能的数字代理提供新思路 [13] - 当前电脑智能体能力仍显著落后人类,在预训练和监督微调阶段引入人类认知仍是必要基础 [13] - 技术路径降低了数据需求,为未来开发自主操作数字世界的智能代理奠定基础 [13]
50年僵局打破!MIT最新证明:对于算法少量内存胜过大量时间
机器之心· 2025-05-25 11:51
计算资源理论突破 - MIT理论计算机科学家Ryan Williams最新研究颠覆传统认知 证明少量计算内存比大量计算时间更具理论价值 该成果打破计算机科学界50年来的固有观念[1] - 研究建立数学程序可将任意算法转化为占用空间显著更少的形式 空间需求降幅达时间预算的平方根级(O(√t log t))[1][14][16] - 该成果不仅揭示空间约束下的计算范围 还首次严格证明有限时间内无法完成的计算类型[3] 计算复杂性理论发展 - 1965年Hartmanis和Stearns开创性定义时间与空间的数学概念 奠定复杂性分类基础[5] - P类(多项式时间可解)与PSPACE类(多项式空间可解)的关系成为核心问题 学界普遍认为PSPACE包含更多难题[6][7] - 1975年Hopcroft团队首次建立时空关联 证明空间至少比时间略强 但后续研究陷入50年僵局[7][8] 关键技术突破路径 - 2010年Stephen Cook提出树评估问题 但证明存在内存占用假设的漏洞[10] - 2023年James Cook与Mertz推翻刚性存储假设 开发出空间效率显著提升的新算法[10][12] - Williams将Cook-Mertz算法扩展为通用工具 通过分块计算(t/b个块)和隐式树构造实现空间复杂度突破[14][15][16] 理论意义 - 采用柔性石子(squishy pebbles)存储模型 突破Paul等人证明的通用模拟不可能性[8][14] - 计算图规约至树评估问题的创新方法 使空间复杂度从线性关系降至平方根关系[15][16] - 虽无直接应用价值 但为P与PSPACE关系问题提供全新研究路径[14][16]
Now, Scaling What?
机器之心· 2025-05-24 22:12
Scaling What的阶段性探索 - 自2024年起Scaling范式发生转移,预训练环节的Scaling Law边际效益递减且文本数据受限,行业开始探索「Scaling What」的新目标[3] - 业界对「预训练Scaling Law收益递减」达成共识,OpenAI、Anthropic等团队仍保持乐观但转向寻找正确的Scaling对象[4] - 新研究方向包括Densing Law、「50%任务完成时间」等替代性评估指标,以及Self-Play RL+LLM、Post-Training Scaling Law等技术路线[4] 推理阶段计算优化(TTS)的兴起 - 谷歌DeepMind 2024年8月首次提出通过增加推理时计算提升模型输出质量,OpenAI o1模型和DeepSeek-R1的GRPO技术进一步验证该方向[4][5] - 2025年5月学术综述将此类技术统称为TTS(Test-Time Scaling),提出What-How-Where-How Well四轴分类框架,显示研究重点从预训练转向推理优化[6] - TTS应用范围从数学推理扩展到开放式问答,方法从重复采样演进为混合扩展和内部扩展策略[6][7] 四大Scaling技术路线 - Parallel Scaling:通过并行生成多个输出并聚合答案,依赖覆盖度和聚合质量,实现方式包括多模型采样和输入调整[9] - Sequential Scaling:模拟人类系统2思维,通过逐步更新中间状态分步骤解决问题[9] - Hybrid Scaling:结合并行生成与序贯筛选,先迭代候选解再通过选择函数聚合[9] - Internal Scaling:模型自主分配推理计算资源,如OpenAI-o1模仿人类长推理链[10] 后训练技术的范式重构 - 传统观点认为预训练奠定基础能力,微调(指令微调/SFT/RLHF)负责领域适应[11] - 当前趋势显示微调与推理优化(TTS)在后训练阶段具有同等重要性,共同塑造模型最终性能[6][11] 注:原文中未提供具体财务数据或公司运营细节,故未包含相关分析
让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板
机器之心· 2025-05-24 12:07
多模态大模型在文档理解领域的现状 - 当前多模态大模型(MLLMs)在文档理解基准测试(如DocVQA、ChartQA)中表现优异,但现有基准存在两大核心缺陷:脱离真实场景和无法评估鲁棒性[1] - 真实场景中文档多为手机/相机拍摄的纸质文件或屏幕截图,面临光照不均、物理扭曲、拍摄视角多变等复杂干扰[5] - 现有基准未模拟真实环境的复杂性和多样性,导致模型在实际应用中表现存疑[5] WildDoc数据集的构建与特点 - WildDoc是首个真实世界场景文档理解的基准数据集,由字节跳动OCR团队联合华中科技大学打造[3] - 数据集包含超过12,000张手动拍摄的图片,覆盖环境、光照、视角、扭曲和拍摄效果等五个影响因素[3] - 数据采集过程包括场景多样化、基准对齐和多条件拍摄,确保覆盖多维度干扰因素[11] - 对图像中的文本、布局等关键信息进行人工验证,并通过一致性分数评估模型在不同条件下的稳定性[11] 实验结果与发现 - 主流MLLMs在WildDoc上性能显著下降,例如GPT-4o平均准确率下降35.3,ChartQA子集下降达56.4[12] - 开源模型Qwen2.5-VL-72B平均准确率70.6,为开源最佳,但仍低于原始基准约15%[12] - 闭源模型Doubao-1.5-pro表现最优(平均准确率73.7%),但一致性分数仅55.0[12] - 物理扭曲最具挑战性,导致模型性能下降最显著(如GPT-4o下降34.1-34.7)[13] - 非正面视角与图像质量对性能影响较大,但屏幕捕获图像因数据增强算法成熟,性能下降较小[13] - 大参数量模型在WildDoc上表现略优,但未完全克服真实场景挑战[13] 未来改进方向 - 数据增强:通过更多增强技术模拟真实世界条件,如变化的光照、阴影等[19] - 鲁棒特征学习:让模型学会提取对真实世界变化不敏感的特征[19] - 真实数据引入:收集更多真实世界文档图像,丰富训练数据集[19]