机器之心

搜索文档
外媒:苹果内部讨论买Perplexity,140亿美元史上最大收购?
机器之心· 2025-06-21 12:36
苹果可能收购Perplexity AI - 苹果高管已就可能竞购AI初创公司Perplexity举行内部会谈 但讨论尚处早期阶段 最终可能不会促成收购要约 [1][2] - Perplexity是AI搜索领域新贵 其创始人团队拥有OpenAI、谷歌、DeepMind、微软等顶尖AI公司工作背景 [2] - Perplexity的核心优势在于卓越的检索、排序和整合信息能力 能综合运用多种第三方大模型和搜索引擎数据提供精准答案 [2] Perplexity的技术价值 - Perplexity的技术正是苹果改进Siri和开发新一代搜索引擎所需要的 [2] - 苹果计划将AI驱动的搜索功能整合到Safari浏览器中 可能使其摆脱与谷歌的长期合作关系 [5] - 收购Perplexity可帮助苹果将AI搜索功能整合进Safari和Siri 摆脱对谷歌依赖并顺应新用户趋势 [6] 行业竞争态势 - 大型科技公司正在AI领域不断加大投资 Meta曾与Perplexity就潜在收购进行商谈 但最终未能达成协议 [3] - Meta在与Perplexity谈判终止后 迅速敲定了对Scale AI的143亿美元战略投资 获得49%非投票权股份 [5] - Meta曾试图招募Perplexity首席执行官加入其"超级智能"团队 [4] 交易规模与影响 - Perplexity最近一轮融资估值达140亿美元 若苹果以此价格收购 将是其历史上最大规模收购案 [8] - 苹果与谷歌的默认搜索引擎合作协议每年价值约200亿美元 美国司法部反垄断案可能威胁该协议 [5] 市场趋势 - AI搜索选项如Perplexity和ChatGPT正迅速崛起 尤其受年轻用户欢迎 传统搜索引擎使用量出现下降 [6] - 人们越来越多使用基于大语言模型的AI助手获取信息 [6] 各方回应 - Perplexity发表声明称不了解任何涉及公司的并购谈判 [9] - Perplexity首席商务官表示收购"不太可能" 并驳斥与苹果实现类似Meta和Scale类型合作的可能性 [10]
7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式
机器之心· 2025-06-21 09:33
AI4AI 新范式突破 - 当前 AI 开发依赖人类专家手动调参,效率低下且成为制约 AGI 发展的关键瓶颈,AI4AI 通过让 AI 自主设计算法减少人工干预 [1] - 上海交大与上海 AI 实验室联合团队实现重大突破,仅用 7B 参数模型训练的 ML-Agent 在 9 个任务上学习后,设计能力超越 671B 参数的 Deepseek-R1 智能体 [2] - 该研究首次实现从"提示工程"到"经验学习"的范式跃迁,开创 AI 自主设计 AI 的新路径 [2][9] 传统自主机器学习的局限性 - 传统方法需要数天至数月进行模型设计和调优,效率低下 [4] - 现有基于 LLM 的智能体仍依赖人工提示词设计,形成"等待-修改-重试"的低效循环 [5] - 智能体缺乏从经验中自主学习和泛化的能力,难以摆脱对人力的依赖 [5] ML-Agent 的技术创新 - 采用在线强化学习范式,使智能体能够跨任务积累知识并持续优化决策 [7] - 开发探索增强微调技术,通过多样化专家轨迹数据集提升智能体探索能力 [14] - 提出逐步强化学习范式,重构目标函数使数据收集效率提升数倍 [15] - 设计定制化奖励模块,将复杂实验反馈转化为统一信号推动持续改进 [19] ML-Agent 的性能表现 - 在 10 个未见任务上全面超越 671B 参数的 Deepseek-R1,展现强大泛化能力 [20] - 在 cifar-10 任务上平均准确率达 68.88%,最佳达 81.45%,显著优于对比模型 [21] - 在表格数据任务 house-price 上平均 MAE 降至 20209,最佳达 18440 [21] - 在文本任务 feedback 上 MCRMSE 降至 0.5910,优于所有对比模型 [21] 行业影响与未来发展 - ML-Agent 标志着 AI 智能体从"工具执行者"向"自主学习者"的转变 [9] - 该技术大幅减少人类干预,加速 AI 算法设计迭代,为 AGI 发展奠定基础 [25] - 研究成果已纳入 MASWorks 开源社区,该社区旨在推动多智能体系统发展 [27] - 社区将在 ICML 2025 举办大语言模型多智能体专题研讨会 [28]
舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍
机器之心· 2025-06-21 09:33
核心观点 - 英伟达CUDA是当前大语言模型(LLM)训练和推理的核心计算引擎,但存在手动优化成本高、端到端延迟高等不足 [1][2] - CMU团队开发的MPK编译器可将LLM转化为优化的巨型内核,显著降低推理延迟1.2-6.7倍,逼近硬件理论极限 [3][4] - MPK通过自动化编译实现高性能推理,仅需几十行Python代码即可完成部署,大幅降低使用门槛 [5][41] 技术突破 性能优化 - 在A100-40GB GPU上,MPK将Qwen3-8B模型每个token的延迟从14.5毫秒降至12.5毫秒,接近10毫秒的理论下限 [4] - 通过消除内核启动开销、实现跨层软件流水线和重叠计算与通信三大机制,实现端到端延迟优化 [14][16] - 多GPU环境下性能提升更显著,计算与通信融合的巨型内核设计使扩展性随GPU数量增加而增强 [18] 架构创新 - 编译器将LLM计算图转化为细粒度任务图,在子内核级别显式捕获依赖关系,突破传统"单算子单内核"执行模型的限制 [20][26] - 运行时系统采用静态分区设计,将GPU流式多处理器划分为工作单元和调度单元,避免动态上下文切换开销 [30][32] - 事件驱动执行模型实现1-2微秒级的任务切换延迟,支持多层多GPU工作负载的高效调度 [35][36] 行业影响 技术替代性 - 直接解决PyTorch/Triton/TVM等现有框架无法生成端到端巨型内核的痛点 [11] - 突破NCCL/NVSHMEM/FlashAttention等专用内核库造成的碎片化问题,实现统一编译 [12] - 可能改变GPU上LLM推理工作负载的编译和执行范式 [41] 应用前景 - 已支持现代GPU架构,正在扩展至NVIDIA Blackwell等下一代平台 [43] - 计划增强对动态工作负载(如MoE模型)的支持,开发动态控制流编译策略 [43] - 探索优先级感知调度等高级功能,适用于延迟敏感型服务和混合批处理场景 [43] 实施细节 编译流程 - 将PyTorch定义的LLM计算图转化为优化任务图,最大化暴露并行性 [23] - 通过Mirage内核超优化器自动生成高性能CUDA实现 [28] - 输入输出仅需几十行Python代码指定,大幅简化部署流程 [41] 运行时机制 - 工作单元采用"获取-执行-触发"循环流程,保持持续满载运行 [33][37] - 调度单元采用分布式事件队列管理,单SM可并发运行4个调度单元 [34][38] - 通过触发/依赖事件机制实现细粒度任务同步 [31][39]
2025 年了,企业的 AI 采购预算都在怎么花?
机器之心· 2025-06-21 01:04
企业AI预算趋势 - 2023年企业在基础模型相关支出上平均投入700万美元,并计划在2024年增加2-5倍以支持规模化生产部署 [7] - 2025年企业领导者预计未来一年的AI预算将平均增长75% [7] - 2024年企业在LLM的花销有24%来自「创新预算」,而2025年这一比例骤降至7%,永久性IT预算占比从28%上涨至39% [9][10] - 企业内部员工AI采用率提升促使企业构建面向用户的AI服务,进一步推动AI支出大幅增加 [10] 企业采购LLM的偏好 - 企业倾向于在生产流程中部署多个LLM,既为规避单一供应商风险,也因不同模型的差异化能力和优势 [11] - 开源模型在企业采购中越来越受欢迎,但具体偏好因企业规模而异 [3] AI预算构成变化 - 企业不再以试点项目形式部署AI,而是以核心IT业务需求驱动,将AI采买纳入永久性预算 [8] - 2025年来自「创新预算」的LLM支出占比从24%降至7%,永久性IT预算占比从28%增至39% [9][10] AI应用生态发展 - 企业逐步从内部AI部署转向构建面向用户的AI服务,推动AI支出结构性增长 [10] - 报告从模型选择、采购流程和AI应用生态三个角度分析企业未来AI使用和规划 [10]
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 19:59
核心观点 - 上海人工智能实验室联合多所高校研究团队提出首个专为开放世界移动操作(OWMM)设计的多模态智能体架构OWMM-Agent,首次实现全局场景理解、机器人状态跟踪和多模态动作生成的统一建模 [1] - OWMM-Agent在真实环境测试中零样本单步动作预测准确率达90%,展现出强大的泛化能力 [2][12] - 该研究通过仿真数据合成方案微调多模态大模型OWMM-VLM,在模拟环境和真实环境中均取得突破性进展 [8][9][12] 问题背景 - 传统移动抓取机器人在处理开放指令时依赖预先构建的场景3D重建或语义地图,耗时且难以应对动态环境 [5] - OWMM任务面临三大核心难点:全局场景推理、具身决策闭环和系统整合问题 [5] 技术方案 多模态Agent架构 - 将OWMM问题建模成多轮多图推理和定位问题,实现端到端的感知-推理-决策-状态更新过程 [6] - 通过函数调用传统路径规划器和机械臂运动规划器,不依赖预定义策略技能库 [8] 数据合成方案 - 基于Habitat仿真平台设计数据合成方案,解决VLM基座模型在机器人领域的"幻觉"问题 [8] - 利用143个仿真场景、157种可抓取物体和1471个容器,采集20万+条多图加文本数据集 [9] - 通过GPT-4o重写思维链和文字总结内容,引入机器人第一视角图像增强数据多样性 [9] 模型表现 模拟环境测试 - OWMM-VLM-38B模型在单步动作决策、图像检索和动作定位三项任务上准确率分别达97.85%、87.54%和88%,远超GPT-4o和模块化方案 [15] - 在308次模拟测试中,OWMM-VLM-38B完成长序移动抓取任务成功率达21.9%,且零死循环,而基线模型成功率低于1%且频繁陷入死循环 [15] 真实环境测试 - 在Fetch机器人上仅通过模拟数据训练即实现90%的零样本动作生成成功率(30次测试中27次成功) [12] - 在"将豆奶盒从书桌移至会议桌"任务中展现出强泛化能力,能准确检索目标位置、规划导航路径并生成机械臂抓取坐标 [12] 未来展望 - 该研究首次证明通过大规模模拟数据微调的VLM模型可成为开放世界移动操作的通用基础模型 [14] - 为"会听、会看、会做"的通用家庭助手奠定关键技术基础,有望实现"一句话指挥机器人完成家务"的智能生活 [15]
刚刚,华为盘古大模型5.5问世!推理、智能体能力大爆发
机器之心· 2025-06-20 19:59
华为盘古大模型5.5发布 - 华为在HDC 2025开发者大会上发布盘古大模型5.5版本,其NLP能力比肩国际一流模型,并在多模态世界模型方面实现全国首创[3] - 新版本包含五大基础模型,分别面向NLP、多模态、预测、科学计算、CV领域,推动行业数智化转型[4] - 盘古系列模型坚持"不作诗,只做事"理念,从1.0到5.5版本持续深耕行业应用,获得市场广泛认可[2] NLP领域三大核心模型 盘古Ultra MoE - 7180亿参数的MoE深度思考模型,达到准万亿级别,基于昇腾全栈软硬件协同打造[9][10] - 采用Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现10+T token数据的长期稳定训练[12] - 具备高效长序列、高效思考、DeepDiver、低幻觉等核心能力,在知识推理等领域榜单位列前沿[13] 盘古Pro MoE - 72B A16B模型,在SuperCLUE榜单千亿参数量以内模型中并列国内第一[16][18] - 针对昇腾硬件特性优化设计,在300I Duo芯片上实现每秒321 token吞吐量,800I A2芯片上达1529 token/秒[21][23] - 采用分组混合专家MoGE算法,解决跨芯片负载不均衡问题,吞吐效率领先同规模模型15%以上[22][23] 盘古Embedding - 7B级小模型在学科知识、编码、数学和对话能力方面优于同期同规模模型[27] - 通过渐进式SFT和多维度奖励强化学习提升推理能力,优化长序列处理达100万token上下文[29][32] - 采用自适应快慢思考合一技术,根据问题难度自动切换模式,整体推理效率提升高达8倍[35][37] 其他领域创新 预测大模型 - 采用业界首创triplet transformer统一预训练架构,提升跨行业泛化性和预测精度[47] 科学计算大模型 - 与深圳气象局合作升级"智霁"模型,首次实现AI集合预报,减少单一模型误差[47] CV大模型 - 发布300亿参数视觉大模型,支持多维度泛视觉感知分析,构建工业场景稀缺样本库[47] 多模态大模型 - 推出世界模型为智能驾驶等构建数字物理空间,可生成训练数据降低路采成本[47] 深度研究能力 - 推出开放域信息获取Agent盘古DeepDiver,7B模型实现接近超大模型效果[41] - 通过合成交互数据和渐进式奖励策略优化,5分钟内完成10跳复杂问答并生成万字报告[42][43] - 增强模型自主规划、探索、反思等高阶能力,提升在科学助手等场景的应用效果[39][44]
Agentic AI时刻!多智能体驱动,「一人公司」这就要来了
机器之心· 2025-06-20 18:37
AI行业趋势与预测 - AI领域权威人士对未来持超预期乐观态度,Geoffrey Hinton预测AI将取代多数人类工作,仅顶尖技能岗位不可替代 [2] - Andrej Karpathy提出"软件3.0"时代概念,自然语言成为新编程接口,大模型承担主要工作 [2] - 预计到2028年15%日常工作决策将由Agentic AI自主完成,2024年该比例近乎为零 [68] Agentic AI技术突破 - 智能体技术实现从被动响应到主动执行的跨越,可长期独立运行并自主使用工具 [3] - 多智能体协作系统已实现中央协调器自动分配任务,完成PDF解析、报告生成等复杂流程 [15] - 智能体遵循大语言模型测试时扩展规律,通过强推理持续提升解题能力 [3] 亚马逊云科技技术栈 - 提供全栈式Agentic AI开发工具:Bedrock Agents支持复杂流程编排,Strands Agents实现轻量级开发 [17][46] - Amazon Q Developer实现90%代码自动生成,支持从需求分析到部署的全流程自动化 [6][8] - Amazon Transform实现5000行代码环境迁移,1分钟完成4800行修改 [9] 行业应用案例 - 复星医药利用生成式AI将医学报告检查从1周缩短至5分钟,翻译成本降低30% [24] - 合合信息构建文档处理Agent DocFlow,分钟级完成文档分类与信息抽取 [21] - 汤森路透应用现代化改造速度提升4倍 [60] 企业效率提升数据 - Java版本升级项目节省4500+开发工时,实现2.6亿美元年化成本节约 [56] - 五人团队两天完成1000个Java应用升级,单应用耗时从2天压缩至10分钟 [54] - 医学领域AI处理1.6亿字翻译,制药企业文档工作量占研发30-50% [23][24] 技术架构创新 - Bedrock平台集成DeepSeek R1、Claude等12种顶尖模型,支持多模型智能路由 [33][42] - 独家推出自动化推理校验功能,有效防止大模型幻觉 [38] - 模型蒸馏技术提升500%响应速度,成本降低75% [41] 商业价值与战略 - Agentic AI被定位为亚马逊云科技下一个十亿美元级业务,已成立直属CEO的专项团队 [64] - 生成式AI在生产力提升、成本优化和创新加速三方面验证商业价值 [19] - 中国区已有超1000家深度合作客户,全球超10万企业使用机器学习服务 [63]
打破推荐系统「信息孤岛」!中科大与华为提出首个生成式多阶段统一框架,性能全面超越 SOTA
机器之心· 2025-06-20 18:37
传统推荐范式的痛点 - 传统推荐系统采用多阶段范式(召回、排序),导致阶段间信息损失、偏差累积和协作困难 [3] - 独立训练的各个阶段难以完整传递信息,潜在兴趣点被过早过滤 [3] 生成式AI的解决方案 - UniGRF框架将召回和排序整合到单一生成模型中,实现信息充分共享 [4][6] - 通过序列生成任务统一处理两大核心任务,保持模型通用性和可扩展性 [6][8] UniGRF的核心优势 - 参数共享减少信息损失,提升任务协作效率 [7] - 支持与主流生成模型架构(如HSTU、Llama)无缝集成 [8] - 单一模型在训练和推理上可能比独立模型更高效 [9] 关键技术模块 - 排序驱动的增强器:利用排序阶段高精度输出来优化召回阶段 [10][11] - 梯度引导的自适应加权器:动态调整任务权重实现同步优化 [12] 实验验证结果 - 在MovieLens-1M、MovieLens-20M、Amazon-Books数据集上性能显著超越SOTA基线 [14][18] - 排序阶段性能提升尤为明显,直接影响最终推荐质量 [18] - 模型参数扩展时符合Scaling Law,展现良好可扩展性 [18] 未来发展方向 - 计划扩展至更多推荐阶段(如预排序、重排) [16][17] - 探索工业场景大规模应用的可行性 [17]
老罗数字人刷屏背后,AI导演正偷偷改写直播「剧本」
机器之心· 2025-06-20 18:37
AI直播技术突破 - AI数字人直播效果超越真人主播,618大促期间罗永浩数字人直播间吸引超1300万人次观看,GMV突破5500万元,部分核心指标反超真人首秀[3][5] - 百度多模协同数字人技术解决传统多模态割裂问题,通过剧本驱动实现「神、形、音、容、话」高度统一[6][7] - 技术方案包含五大创新:剧本驱动的多模协同、融合多模规划的剧本生成、动态决策实时交互、文本自控语音合成、超拟真长视频生成[7] 核心技术模块 剧本生成 - 以语言模型为核心,通过风格建模实现个性化台词定制,结合人设建模与双角色协同机制保持人设一致性[10][12] - 引入内容规划与深度思考机制增强说服力,通过事实校对避免「幻觉」输出[12] - 动态交互能力支持基于场景上下文的多模信息综合决策,如幽默回应观众提问[13] 语音合成 - 文本自控语音合成方案使语音模型理解「说什么」和「怎么说」,实现自然情绪波动与节奏变化[16] - 对话上下文编码器解决双人互动中的连贯性挑战,支持打断、附和等复杂交互行为[16] 视频生成 - 高一致性视频生成技术解决音容话同步难题,通过多模态信号输入实现6小时直播的稳定输出[18][20] - 独立建模人物ID与商品ID,确保长时间交互中动作精度与风格一致性[20] 商业应用验证 - 罗永浩数字人项目验证文心大模型4.5 Turbo在真实商业场景的高效性,实现强IP属性还原与复杂商品交互[20][24] - 技术突破推动直播电商模式创新,数字人展现超预期带货能力与用户接受度[5][24] 技术演进路径 - 百度持续迭代大模型体系,从文心3.0到4.5 Turbo逐步增强认知深度与生成能力[23] - 深度思考、知识增强等关键能力提升推动数字人向更拟真、智能化方向发展[24]
天工不止造物,也能修bug:Skywork-SWE给代码智能体补上软件工程课
机器之心· 2025-06-20 10:22
核心观点 - Skywork-SWE 是昆仑万维推出的自主代码智能体基座模型,专注于修复开源软件工程中的 bug,具备多轮交互、长上下文理解与逻辑推理能力 [2][7] - 该模型参数量达 32B,是目前同规模下最强的开源软件工程智能体之一,在 SWE-bench Verified 基准上取得 47% 的准确度,超越多个主流闭源模型 [7][25][33] - 其核心突破在于构建了业内最大规模、可验证的 SWE 数据集(10,169 个真实代码问题 + 8,209 条多轮交互轨迹),首次系统性验证了数据 Scaling Law 在复杂工程任务中的适用性 [11][13][40] 技术实现 数据集构建 - 从 15 万个 GitHub 仓库筛选出 10,169 个真实代码问题和 8,209 条多轮交互轨迹,覆盖 2,531 个仓库,远超同类数据集(如 SWE-Gym Lite 仅 230 个实例)[13][16][21] - 采用三阶段九步骤流程:数据采集与预筛选(阶段 A)、环境设置与执行验证(阶段 B)、智能体轨迹生成(阶段 C),确保每条样本可复现并通过单元测试 [12][16][17] - 数据复杂度显著更高:平均每个补丁涉及 2.3 个函数修改、6 个代码块、74 行代码变更,更贴近真实开发场景 [20][21] 模型性能 - 在 SWE-bench Verified 基准上,Skywork-SWE-32B 以 47% 准确度超越 DeepSeek-V3-0324(671B 参数)和 Claude 3.5(46%),并实现 38.0% pass@1 准确度刷新开源记录 [25][27][33] - 实验显示模型性能随数据规模呈指数级提升且未饱和,验证了数据 Scaling Law 的有效性 [27][29] - 采用测试时扩展(TTS)技术后,Best of 8 测试下准确率提升至 47% [30] 行业意义 - 填补了高质量 SWE 训练数据的空白,其数据集被类比为软件工程智能体的「ImageNet」[40] - 开创了「数据+系统+执行力」的智能体开发范式,未来将扩展至更多编程语言并支持在线强化学习探索 [41][42] - 是昆仑万维 Skywork 系列的重要落地成果,与其多模态推理模型、音乐模型、短剧创作模型等形成全链条布局 [42]