Workflow
机器之心
icon
搜索文档
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 12:16
大模型智能体可用性瓶颈 - 当前大模型智能体应用主要集中在专业领域如代码生成、科研辅助等,在大众日常场景中普及率较低 [1] - 核心制约因素并非模型能力不足,而是Agentic ROI(投资回报率)未达实用化门槛 [1][3] - Agentic ROI衡量信息收益与使用成本比值,需同时满足信息质量阈值和成本节省比例要求 [4] Agentic ROI关键构成要素 - Information Quality:智能体生成信息的准确性和完整性 [5] - Human Time/Agent Time:人类与智能体完成任务的耗时对比 [5] - Interaction Time:用户与智能体交互过程的时间消耗 [5] - Expense:模型调用和API使用的经济成本 [5] 当前应用场景矛盾 - 高人力成本场景(如科研)因替代效应显著而ROI较高 [7] - 日常场景(如电商)因任务简单且交互成本低,智能体边际价值不明显 [7] - 额外交互成本和延迟导致日常场景Agentic ROI偏低 [7] 发展路径优化策略 - 采用「之字形」发展模式:先规模化提升信息质量,后轻量化降低使用成本 [8][9] - OpenAI模型系列(o1-mini到o3-mini)验证该路径有效性,新一代小模型在保持性能同时降低60%推理费用 [9] 规模化提升阶段 - 预训练规模化:扩大模型参数/数据量,扩展上下文窗口和记忆机制 [11] - 后训练规模化:通过用户反馈构建数据飞轮实现持续优化 [12] - 推理时规模化:构建多模态世界模型,支持复杂任务处理 [13] - 多智能体协作和工具调用扩展可提升任务分解能力 [15] 轻量化优化阶段 - 记忆机制复用历史知识减少重复计算 [18] - 模型压缩技术可降低50%推理延迟而不显著影响性能 [18] - 优化推理策略避免冗余链条,硬件升级(如Groq芯片)提升实时响应 [18] - 主动意图理解设计可降低30%用户交互时间 [18]
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 12:16
模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM),能够联合处理视觉和文本信息,继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM,LaViDa将文本生成视为在离散token上的扩散过程,通过前向过程将文本token序列退化为掩码token序列,再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势:可通过调整扩散步骤数量灵活控制速度与质量平衡,能够建模双向上下文,更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成,通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M,将输入图像调整为多个视图并独立编码,产生3645个嵌入,通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构,注意力掩码为非因果式,使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程:预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐,微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型:使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason,在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM,支持长度可变的文本填空,在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中,LaViDa-L在MMMU上取得43.3分,优于所有同类模型[22] - 在科学任务中,LaViDa在ScienceQA上取得81.4和80.2分,在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型,主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡:NFE=75%和50%时速度比自回归基线更快且质量更好,NFE=25%时速度明显更快但性能略逊[35]
美团开放AI代码工具,零代码实现全栈能力,项目负责人揭秘架构细节
机器之心· 2025-05-30 12:16
美团AI零代码工具NoCode核心观点 - 美团推出完全免费的AI零代码工具NoCode,用户通过自然语言对话即可生成应用,支持实时预览、局部修改和一键部署,大幅降低开发门槛 [2][4][12] - 工具定位为"全栈AI工程师",可创建个人提效工具、产品原型、交互页面等,内部已应用于网站页面、数据分析、简单游戏等多种场景 [18][26] - 采用三层技术架构:基础设施层、runtime sandbox层和Agent应用层,包含7B参数专用模型及多个垂直场景小模型,推理速度达每秒2000 token [24][25][27] - 内部测试显示非技术人员用户是技术人员的3倍,AI生成代码占仓库增量达50%,预计提效30-50% [21][40][41] 产品功能与技术特性 - **自然语言编程**:用户输入自然语言指令即可生成完整功能,支持指令拓展优化和一键优化 [12] - **实时交互能力**:具备Visual Edit功能实现局部修改,支持版本对比回退,每次对话自动生成带截图版本 [29][30] - **部署优化**:采用容器池化技术实现秒级启动,通过无状态设计和热更新保障实时渲染效率 [29] - **专业协同**:提供Dev Mode满足专业用户需求,实现非专业与专业用户的协同创作 [30] 内部应用案例 - HR团队用NoCode开发春节红包系统,覆盖10万员工,耗时仅1-2个工作日 [39] - 数据团队通过30-40轮对话即可创建定制化数据分析工具,大幅减少需求提交流程 [39] - 出海业务员工构建外语学习软件,HR/行政团队开发抽奖程序等多样化场景应用 [39] 技术架构创新 - 专用7B参数Apply模型基于美团代码基座训练,使用内部真实代码+合成数据,迭代超10个版本 [27] - 自研Embedding/Rerank等小模型集群,在精度不变前提下提升推理速度,优化token利用率 [28] - 图片检索服务结合网页上下文语义化处理,增强生成页面的视觉协调性 [30] 行业影响与未来规划 - 目标推动AI技术平民化,6月将发布专业开发工具Dev Mode,探索IDE领域创新 [48][49] - 长期方向聚焦打通非专业到专业的AI开发自动化,构建新型开发环境 [48] - 公司内部AI生成代码占比已达27%,预计将持续提升代码生产效率 [40][41]
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 11:28
多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心· 2025-05-30 11:28
核心技术 - 分块 KV 缓存(Block-Wise KV Cache)通过双向缓存策略实现90%以上的激活重用率,显著减少重复计算 [6][12] - 置信度感知并行解码(Confidence-Aware Parallel Decoding)通过动态阈值筛选(如≥0.9置信度)确保生成逻辑连贯性,避免无效组合 [9][13] - 伪代码展示无需训练即可集成到现有扩散LLM(如LLaDA、Dream)的即插即用加速流程 [15][16] 性能突破 - 在LLaDA模型上实现27.6倍端到端加速,1024 token长文本生成耗时从266秒压缩至12秒,单步延迟从0.26秒降至0.09秒 [18] - GSM8K任务中保持76%准确率的同时实现8.1倍吞吐量提升,HumanEval代码生成任务准确率提升1.2%且吞吐量增加3.7倍 [21] - 主流基准测试中精度损失控制在2%以内,验证技术通用性(兼容LLaDA、Dream等模型) [19][21] 应用价值 - 零训练成本特性支持快速集成到现有系统,不改变模型架构或训练流程即可提升推理效率 [20] - 特别适用于长文本生成(如代码、数学推理)和实时交互场景,解决传统扩散模型推理效率瓶颈 [17][23] - 技术设计为非自回归模型提供新优化范式,有望推动扩散模型在工业级部署中的普及 [23]
用Veo 3+Suno做了个AI Rapper,吊打音乐节上的流量明星
机器之心· 2025-05-29 19:38
AI视频生成技术 - Google Flow Veo3和Suno 4 5合作生成的嘻哈歌手rap视频效果逼真 网友难以分辨真实性[1] - Veo3生成的演唱会视频细节丰富 包括乐队成员动作 乐器演奏同步性 镜头切换等 几乎无瑕疵[4][6] - 典型案例包括另类摇滚乐队酒吧演出 怪诞钢琴家与交响乐团合作 混乱摇滚音乐会等场景[5][7][8] AI音乐生成技术 - Suno 4 5被称为"音乐界ChatGPT" 支持歌词输入和风格选择 但免费版Suno 3 5存在咬字不清 电音明显等问题[12][13] - 豆包音乐生成功能支持模板化创作 咬字清晰度优于Suno 尤其擅长处理生僻字发音 但旋律多样性不足[16] - 案例显示AI可将《木兰辞》等古诗改编为嘻哈风格 播放量超百万[10][19] 多模态AI创作流程 - Flow平台提供从文本提示到视频生成的完整工具链 包括摄像机控制 场景构建等功能[20][22] - 高质量视频需精细设计提示词 例如指定服装 舞台动作 观众反应等要素 并通过分段生成实现时长扩展[22][25] - 最终作品需结合Suno/豆包生成的音乐与Flow生成的视频 通过剪辑软件合成完整内容[27]
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心· 2025-05-29 19:38
大语言模型架构发展 - 近年来大语言模型领域的研究热点集中在取代Transformer的高效模型架构及预训练 主要包括线性序列建模和混合专家(MoE)两部分 但两者的结合研究较少 Linear-MoE架构的开源实现此前完全缺失 [1] - 近期广受好评的MiniMax-01模型(使用Lightning Attention-MoE)和腾讯混元TurboS模型(使用Mamba2-MoE)均属于Linear-MoE架构 [1] - 上海人工智能实验室团队最新成果Linear-MoE首次系统性地实现了线性序列建模与MoE的高效结合 并开源了完整技术框架 包括Modeling和Training两大部分 支持层间混合架构 [1] 线性序列建模技术进展 - 线性序列建模技术核心优势在于线性时间复杂度的训练和恒定内存占用的推理 主要分为线性注意力(Linear Attention) 状态空间模型(SSM)和线性RNN(Linear RNN)三大类 [5] - 代表性工作包括Lightning Attention GLA Mamba2 RWKV等 研究表明这些模型可通过统一的递归形式表达 反映出技术流派逐渐收敛至统一表达形式 [5] 混合专家(MoE)技术应用 - 国际上的GPT-4系列 Gemini系列 Claude系列以及国内的DeepSeek系列 Qwen系列 腾讯混元LLM 字节豆包 MiniMax-01 Moonshot-Kimi等都在All in MoE [8] Linear-MoE架构设计 - Linear-MoE支持线性序列建模层与MoE层的灵活组合 同时兼容传统Softmax Attention Transformer层 形成混合架构 [10] - 模块化架构包括LSM层(支持Lightning Attention Gated-DeltaNet Mamba2等方法)和MoE层(集成Qwen-MoE DeepSeek-MoE Mixtral-MoE等实现) [10] - 高效训练技术基于Megatron-Core框架开发 支持张量并行 流水线并行 专家并行 LASP和MegaBlocks等优化技术 [10] Linear-MoE性能验证 - 混合模型(线性+Softmax Attention)比纯线性模型表现出更稳定的训练曲线 [13] - 借助专家并行和MegaBlocks 系统在超大参数规模下仍保持高吞吐量 [13] - 线性模型推理速度比传统架构快2-5倍 内存占用降低50%以上 [13] - 在不同规模基准测试中 Linear-MoE展现出良好的性能线性增长 [13] 开源生态与未来方向 - Linear-MoE已全面开源 支持多种主流线性序列建模方法和MoE实现 填补了技术空白 提供可复现的高效训练方案 [13] - 未来将探索Linear-MoE在长上下文理解 Vision-Language模型架构中的应用潜力 [13]
135 个项目、七大趋势、三大赛道:撕开大模型开源生态真相,你会怎么卷?
机器之心· 2025-05-29 15:10
大模型开源生态全景图核心观点 - 蚂蚁集团开源团队发布《2025大模型开源开发生态全景图》,系统性梳理135个社区核心项目、19个技术领域,覆盖从智能体应用到模型基建的全链条 [2] - 模型训练框架、高效推理引擎、低代码应用开发框架成为当前最具主导力的三大技术赛道 [2] - 开源生态呈现"黑客松现象":热点驱动、短期速成、技术声誉兑现快,但高淘汰率与低维护意愿并存 [8] 技术赛道动态分析 主导赛道增长 - 三大主导技术赛道(模型训练框架、高效推理引擎、低代码平台)OpenRank同比显著上升,其中低代码平台工具涨幅达72.22% [6][14] - vLLM与SGLang成为推理领域顶流:vLLM完成核心架构升级后商业集成度增强,SGLang 2025年一季度OpenRank增长31% [32][34] - PyTorch在模型训练框架领域"一统江湖",被DeepSeek等头部公司列为关键依赖项 [31][32] 衰退赛道特征 - SDK范式工具(如LangChain、LlamaIndex)整体OpenRank下滑35.90%,被低代码平台取代 [14] - AI搜索类开源项目集体式微,因大模型已内嵌联网检索功能直接抹平工具价值 [10][11] - 向量数据库结束爆发期进入平稳发展,争议中验证真实需求存在 [29][31] 生态演进七大趋势 1. **智能体框架进入下半场**:从开发者工具转向场景落地,低代码平台Dify等契合企业需求崛起 [19][20][21] 2. **标准协议层爆发**:微软MCP、谷歌A2A、CopilotKit AG-UI等协议推动智能体互操作,但长程任务协作仍是未解难题 [25] 3. **AI编程持续繁荣**:百度、阿里、腾讯等大厂布局代码助手,但技术瓶颈在上下文感知与领域知识融合 [28][29] 4. **推理优化创新不断**:清华KVCache.AI团队KTransformers实现4090单卡千亿模型部署,OpenRank飙升34倍 [34][35] 5. **多模态数据治理重构**:湖仓架构"四足鼎立"应对非结构化数据,元数据治理向AI资产延伸 [36] 项目生命周期特征 - 昙花一现案例:RoomGPT(10,318星)、Chatbot UI(31,301星)等11个项目实质性开发停滞,进入"AI墓园" [9] - 成功转型路径:GPT Engineer等开源项目通过早期用户积累发展为商业化产品Lovable [8] - 高强度开发模式:SGLang、vLLM代表"中美网友24小时轮肝"式开发,版本迭代以周为单位 [8] 研究方法论 - 采用华东师范大学X-lab的OpenRank指标,入选门槛为2025年1-4月均值≥10,排除太旧或太新项目 [37] - 以PyTorch等明星项目为起点扩展技术上下游,结合专家讨论收敛出135个核心项目 [37] - 开源社区数据相比传统商业分析(如Gartner)能更早反映技术风向变化 [37]
中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考
机器之心· 2025-05-29 15:10
视觉思维的核心价值 - 视觉思维在人类认知中扮演核心角色,贯穿专业领域和日常生活,如生物化学家构建蛋白质三维结构、建筑师优化空间配置等[1][2] - 视觉思维能创造概念间独特组合和新颖连接,提供纯文本推理无法获得的洞察和创意[2] - 人类通过「脑补」场景图像辅助决策,将图像作为认知媒介[2] AI视觉思维的突破 - 研究团队提出Thinking with Generated Images,让大模型自发生成视觉中间步骤进行跨模态推理[3] - 突破性理念是从「看图像」到「脑补图像」的递进进化,实现真正的视觉预见性和想象力[5][9] - 该技术适用于需要空间想象、动态规划和创造性视觉构建的任务,相比纯文本推理具有根本性优势[9] 技术实现方案 - 提出「原生多模态长思维过程」框架,由交错的文本和图像token组成,支持动态生成视觉假设[12][13] - 实现三大模式:「看」图像(被动观察)、「对着」图像思考(有限变换)、「脑补」图像思考(主动生成)[13] - 具备四大优势:跨模态原生思维能力、统一生成式任务执行、自然测试时扩展机制、未来技术集成兼容性[14] 两种思维链模式 - 视觉子目标分解:将复杂任务拆解为子目标分步生成,避免元素遗漏和比例失调,如生成「沙发+酒杯」时先独立生成再组合[15] - 视觉假设自我反思迭代:通过「草稿-修改-完善」循环优化图像,包括内容完整性检查、视觉质量评估等[18] 模型架构与训练 - 选择Anole作为基础模型,因其具备原生交错生成能力和高效视觉表示机制[20] - 训练数据构建采用三大黄金法则:高质量图像生成提示词、高质量反思推理链、高质量中间视觉思维[28] - 分两阶段训练:基础能力强化(JourneyDB数据集)和专门化微调(视觉子目标分解与自我批判数据集)[34] 性能评估结果 - TwGI-Anole-7b-Obj在GenEval基准上「双对象」类别得分0.57,较基线提升50%[38] - TwGI-Anole-7b-Crit通过自我批判使GenEval总分从0.45提升至0.48,DPGBench分数从62.83提升至67.14[39] - 中间视觉思维生成显著提升模型在空间对齐和语义理解方面的能力[38][39] 未来应用展望 - 创造性设计:迭代生成建筑草图并记录调整理由(如优化采光)[44] - 科学发现:生成分子结构假设图像辅助药物研发[44] - 战术规划:可视化篮球战术配合和防守破解策略[44] - 代表多模态推理范式突破,为AGI发展铺平道路[45]
RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill
机器之心· 2025-05-29 12:53
视觉语言模型在机器人装配领域的应用 - 视觉语言模型(VLMs)为真实环境中的机器人操作任务提供了极具潜力的解决方案 [2] - 机器人难以胜任复杂的长时程任务(如家具装配),主要受限于人类演示数据和训练样本的稀缺性 [3] - Manual2Skill框架利用VLMs将基于说明书的视觉指令转化为机器人装配技能,弥合了抽象指令与物理执行之间的鸿沟 [9] Manual2Skill框架的核心阶段 - 阶段I:通过VLMs(GPT-4o)对说明书示意图和预装配场景图像进行联合推理,生成层级化装配图 [10] - 阶段II:预测每个装配步骤中所有部件的6D位姿,实现部件间的精确物理对齐 [12] - 阶段III:将预测位姿转化为真实世界的机器人动作,实现装配计划的自主执行 [18] 实验验证与结果 - 在102本真实宜家家具说明书上测试,对于部件数≤6的家具能较准确地生成装配图 [23] - 在50件家具的仿真测试中达成58%成功率,显著超越现有启发式方法 [29] - 在四款真实宜家家具上测试,框架在真实机器人装配任务中表现出色 [29] - 可零样本推广至轮轴、玩具飞机甚至机械臂等手册引导式装配任务,成功率100% [33] 技术优势与创新 - 通过整合多模态输入(多张图像的视觉信息与文本指令)完成关键子阶段 [11] - 分步骤预测位姿的方法能更好地学习基本连接方式,提高预测精度 [12] - 使用复合损失函数确保预测的鲁棒性与准确性,能处理可变数量的输入部件 [17] - 采用启发式抓取策略和稳健的运动规划算法实现机械臂的精确控制 [18]