机器之心
搜索文档
内测输给Gemini,还套壳?!Meta千亿自研大模型遭延期
机器之心· 2026-03-14 14:33
Meta AI模型发布延期与性能评估 - Meta新一代基础大模型Avocado(牛油果)原定本月发布,因性能未达预期,发布时间被推迟至至少5月[2] - 推迟的直接原因是模型在内部测试中,其推理、代码生成和写作能力仍落后于竞争对手的最新模型[3][4] - 尽管Avocado明显优于Meta上一代模型,并超过了2025年3月版本的Gemini 2.5,但仍落后于2025年11月发布的Gemini 3.0[4] Meta的AI战略投入与布局 - Meta在AI上的投入极为激进,2025年AI相关支出达720亿美元,2026年预计支出最高达1350亿美元,数据中心长期规划投入为6000亿美元级别[9] - Meta投资143亿美元于Scale AI,并让Scale AI创始人Alexandr Wang直接担任Meta首席AI官[8] - 公司目标明确,旨在建立通向超级智能的AI体系[10] 内部研发团队与产品路线 - 开发Avocado的团队是Meta内部的新AI实验室TBD Lab(To Be Determined Lab),该实验室目前仅有约100人,但配置极高[10] - TBD Lab同时开发两类模型:基础大模型Avocado和图像/视频生成模型Mango[11] - 实验室于去年年底完成了Avocado的预训练阶段,并于今年1月开始后训练[13] - 公司已推出一个类似OpenAI Sora的视频生成应用Vibes[14] - 公司已规划下一代模型,命名保持水果系列:Avocado → Mango → Watermelon,且规模会更大[18] 内部挑战与战略分歧 - 在Avocado发布前,有研究员离职,且首席AI官Alexandr Wang与Meta产品负责人之间存在分歧,争论焦点在于AI如何提升广告业务[14] - Meta的AI战略主线明确,即AI必须服务于广告业务[14] - 关于Avocado的开源策略可能发生改变,内部讨论显示公司领导层更倾向于采用闭源路线,这与高昂的模型成本、激烈的竞争和商业化压力有关[14][15] 行业竞争态势与影响 - 此次延期释放了一个行业信号:大模型竞争焦点已从“能否做出”转变为“迭代速度”[16] - 当前头部玩家的差距体现在推理能力、工程效率、推理成本和迭代速度等方面,持续领先者将成为AI平台生态的中心[17] - 基础模型的能力差距会影响公司的生态吸引力、开发者资源和人才招募能力[6] - 公司内部甚至讨论过临时授权Google的Gemini模型来支持自身AI产品的方案,这凸显了其核心模型落后可能对AI助手、代码工具、视频生成等产品能力产生的牵制[6][7]
统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成
机器之心· 2026-03-14 12:03
研究背景与问题 - 当前多模态大语言模型领域几乎全被自回归模型主导,扩散模型在图像生成和理解任务中展现出潜力,但缺乏一个能统一处理多模态理解和视觉生成的扩散模型[2] - 将离散文本扩散和连续图像扩散直接联合训练,会因状态空间和扩散过程的异构性导致优化冲突和性能下降[2] - 现有全能扩散模型通常只能生成固定长度的文本,限制了其在开放式对话中的应用[2] 解决方案与模型发布 - 中国人民大学与蚂蚁集团联合团队推出了LLaDA-o,一个高效且支持长度自适应的全能扩散模型[3] - LLaDA-o使用了混合扩散框架,在多模态理解和文生图任务上均实现了SOTA性能[3] - 团队预计近期将开源训练、推理代码以及LLaDA-o的模型权重[5] 模型性能亮点 - 在10个主流多模态理解基准测试中,LLaDA-o展现了优秀的能力,稳居扩散类MLLM的SOTA位置[7] - 在数学推理任务MathVista上取得66.1分,在图表理解任务ChartQA上取得87.9分,相较于现有扩散类全能模型优势显著[7] - 在文本到图像生成任务中,于DPG-Bench上取得了87.04的SOTA高分,超越了SD3-Medium、Show-o2和Lumina-DiMOO等模型[9] - 推理速度飙升5.9倍[6] 核心技术:混合扩散框架 - LLaDA-o采用混合扩散框架,配置了两个“扩散专家”以解耦不同模态的优化冲突[12] - “理解专家”采用离散的掩码扩散机制,负责处理文本和视觉编码器提取的token[14] - “生成专家”采用连续扩散机制,负责处理视觉潜在token[14] - 两个专家共享同一个注意力主干网络,确保了跨模态信息的深度交互[12] 核心技术:模态内双向注意力 - 团队设计了模态内双向注意力机制以解决全局注意力在推理时的重复计算问题[15] - 将输入序列划分为不同的模态块,在块内使用全连接注意力,在块间强制执行因果注意力[15] - 该机制允许前置条件的图像和提示词一次性计算并复用KV Cache,极大地避免了冗余计算[15] 核心技术:自适应长度增强 - 研究团队引入了自适应长度增强,这是一种纯数据驱动的训练策略[17] - 在训练时,对目标回复进行随机的“延长”或“截断”操作,使模型学会在推理时根据上下文动态决定输出长度[17] - 该方法无需修改底层架构,解决了变长文本生成的痛点[17] 总结与行业意义 - LLaDA-o将离散的语言理解与连续的视觉生成统一在混合扩散框架下,证明了扩散模型有能力在多模态“理解+生成”赛道上与自回归模型竞争[19] - 这项工作为非自回归架构的发展开辟了极具潜力的新路径[19] - 随着底层大语言扩散模型的持续进化,基于扩散架构的统一大模型有望在未来的通用人工智能版图中占据重要地位[20]
三分钟手机实现「养虾」自由,阿里云出品,安全稳定,限时免费!
机器之心· 2026-03-14 12:03
阿里云推出JVS Claw产品,大幅降低AI智能体使用门槛 - 阿里云正式推出手机“一键养虾”产品JVS Claw,将跑通AI智能体的门槛拉至极低水平[2][4] - 用户无需代码知识,在手机上简单三步操作即可拥有即开即用、智能进化、安全稳定的AI智能体[3] - 从注册到唤醒专属AI智能体的全过程不到3分钟,是目前实现“养虾自由”的最短路径[13] JVS Claw实现全终端适配与极简操作 - 产品实现了真正的全终端适配,支持iOS、安卓手机端、网页端和Pad端[8] - 创建流程极简,用户只需为Clawbot命名、选择对话风格(提供幽默轻松、严谨专业、温柔陪伴、活泼俏皮四种)并选择模式即可[9] - 系统默认预置了13个技能,涵盖自媒体运营专家、智能浏览器操作引擎、智能行程助手、财经信息助手等常用场景[10] - 节点资源类型可直接选择阿里云提供的ClawSpace,即6核/12G的Linux服务环境,Python、Node.js均已预装,无需额外配置[11] 通过ClawSpace实现操作可视化与安全可控 - 产品打造了专属云端环境ClawSpace,能在屏幕上实时、透明地展现AI智能体的每一步操作流程[16] - 用户可随时通过分屏或全屏模式观察AI的执行动作,并可在AI遇到卡点时随时远程介入手动修正,避免操作失控风险[17][19] - ClawSpace是独立的云端沙箱环境,与本地设备完全隔离,兼顾了云端接管的便捷性与数据安全性[20] 智能体具备自进化“造工具”能力 - JVS Claw搭载了自进化的“万能skill”,用户可吩咐“如果没有这个技能,请搜索并创建”,智能体会自动寻找并创建最适配的技能来完成任务[22] - 技能池已覆盖浏览网页、抓取信息、自动填表单等大量实用办公场景[26] - 包含三种成长属性技能:基于Clawhub的技能查找1、在技能库中快速定位的技能查找2、以及可将业务流程封装成可复用技能的技能创建[26][28][30] - 测试显示,智能体可完成从信息抓取、内容生成到跨平台发布的复杂任务链,例如抓取AI新闻并整理发布为小红书笔记[32] 提供双模式切换与企业级解决方案 - JVS Claw支持“云端+本地”双模式自由切换,满足不同需求[34] - 日常轻量办公可使用低消耗、安全隔离的云端模式,处理私有数据或接入本地文档时可切换至本地模式[36] - 阿里云针对不同场景布局了多款产品:针对企业移动端场景推出MobileClaw,将OpenClaw引入Android生态云手机方案[38];针对大型企业安全合规需求,提供企业级数字员工构建和托管服务AgentBay Crew[41] 底层安全保障与市场策略 - 在数据安全上提供三重保障:每个用户实例运行在独立的容器化环境中实现数据隔离;通信链路采用端到端加密且云端存储卷默认落盘加密;权限最小化,默认无法访问本地局域网或个人文件[43] - 产品已全面上架苹果App Store和各大安卓应用商店,PC用户可直接访问官网[42] - 平台正开放邀请注册,申请通过后可免费享受前7日的大模型调用量[44]
ICLR2026|山大、理想汽车和中科院联合提出离线强化学习新范式:让Transformer学会「去其糟粕」
机器之心· 2026-03-14 10:30
核心技术突破:PRGS框架 - 针对离线强化学习中训练数据固定、质量不均且传统方法(如Decision Transformer)以“整条轨迹”为学习单位导致局部有效动作被整体低回报“稀释”的痛点,山东大学、中科院、理想汽车与清华大学的研究团队联合提出了名为PRGS(Peak-Return Greedy Slicing)的新框架[2][3] - PRGS框架的目标是在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更有学习价值的子轨迹用于训练,并在推理阶段避免“糟糕历史”对当前决策的干扰[3] - 该框架包含三个核心模块:1)基于最大均值差异的回报估计器,用于预测状态-动作对的潜在回报分布并获得乐观的回报估计值;2)贪心子轨迹切片,围绕轨迹中的峰值回报点进行递归切片,提取高质量子轨迹;3)推理时的自适应历史截断机制,当评估发现当前状态比历史更有前途时,会丢弃历史上下文以优化决策[11][16][19] 性能表现与实验验证 - 在D4RL、BabyAI等主流基准测试中,PRGS不仅超越了各种基线方法,更让Transformer类离线RL方法的平均性能提升了15.8%[4] - 在D4RL的Maze2D-Large迷宫任务中,应用了PRGS的DT-PRGS模型得分高达127.5,而原始Decision Transformer模型得分不到30分,展现了在需要极强“缝合能力”的复杂场景中的显著优势[22] - 在真实业务场景测试中,于阿里妈妈开源的广告竞价数据集AuctionNet上,应用了PRGS的行为克隆算法在多个周期内实现了显著的利润提升,例如BC-PRGS相比BC平均提升了9.1(从269.9提升至279.0)[25][27] 学术价值与行业影响 - 该研究成果已获接收于国际顶级机器学习会议ICLR 2026,该会议有效投稿接近19000篇,接收率约为28%,体现了其学术认可度[4] - PRGS的成功证明了在离线强化学习中,数据质量(“精”)与数据数量(“多”)同等重要,其技术框架为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考[28] - 该方法的核心逻辑模仿了人类从失败经历中学习最佳片段的过程,通过精细化操作到时间步级别,解决了传统方法粒度偏粗和缝合能力缺失的问题[15][13]
设计流程已死,Claude 设计负责人如何理解 AI 时代的设计?
机器之心· 2026-03-14 10:30
文章核心观点 - AI驱动的生产力飞跃导致传统设计流程失效,设计师需从交付方案转向协助执行,工作重心从视觉稿转向功能原型与工程协作,并通过快速发布与迭代来建立产品信誉[5][6][10] 01. 为何传统设计流程在 AI 时代不再适用? - AI编程工具极大提升了工程师的构建速度,使得传统的长周期设计推演成为开发瓶颈,设计师已无暇在工程前制作精美的视觉终态稿[6] - AI模型输出的非确定性特征,让依赖静态交互模拟的验证方式失去参考意义,设计验证必须从静态画布迁移至代码研发环境[7] - 产品的核心用例在用户与AI模型的实际交互中动态涌现,因此设计活动需直接调用底层模型,在真实运行状态下捕捉产品价值[8] - 建立产品信誉的方法论重构:通过发布“研究预览版”快速获取用户反馈,信誉取决于团队发现问题并快速迭代的能力,而非首发完美程度[8] - Claude Cowork的开发仅用了十天,实质是将内部已验证的实验性方案进行最终封装[9] - 基于真实反馈循环的研发模式,能帮助团队从用户使用中捕捉信息,精准确定后续优化重点与功能优先级[10] - 设计工作被划分为支持快速落地的“执行落地”与明确短期方向的“愿景指引”,设计师需从审美交付转向功能构建和共识达成[10] - 在执行层面,设计师工作重心从追求精美的演示文稿,转向指引技术方向的功能原型,节省的时间被重新分配到工程沟通与落地实现[11] - 在愿景层面,设计师制定长期规划的周期已从过去的2年、5年乃至10年,缩短至3到6个月[12] 02 . AI 时代需要什么样的设计师和管理者? - 设计师的角色正从方案交付者转向协助执行者[13] - 设计师需要将编程工具纳入工具箱[13] - 对于管理者,亲自处理看似低杠杆的具体事务,有助于保持对产品与团队的深度感知[13] 03 . 设计师如何发掘「难以识别」的创意? - 无相关内容 其他行业观察 - 设计师消耗在视觉稿的时间已从60-70%降到30-40%[1] - 设计师需要开始编写代码[1]
OpenClaw「App」榜单,国产Skill下载量冲上第一:能给龙虾接入现实世界
机器之心· 2026-03-13 18:41
OpenClaw智能体生态与技能市场现状 - OpenClaw是一个智能体“操作系统”,其Skill(技能)相当于AI智能体的App,用于扩展智能体执行具体任务的能力[2] - 其公共技能市场ClawHub上已有超过22,000个技能,涵盖自动发朋友圈、网页监控、自动编程等多种功能[2] 搜索类Skill的核心价值与市场格局 - 搜索类Skill是关键的“基础设施”,其核心作用是为智能体提供连接现实世界的“眼睛”和检索记忆的“海马体”,以获取最新、准确的增量数据[3] - 在OpenClaw生态中,百度搜索工具已成为全球下载量第一的搜索引擎官方技能插件,在ClawHub榜单中下载及收藏量稳居前列[3] - 百度官方出品的中文搜索Skill更懂中文权威信息,并具备信息安全背书,成为中文用户的首选[5] 百度搜索Skill的应用场景与能力展示 - 结合百度搜索与百度百科Skills,可快速构建如“足球智能观赛助手”等智能体,实现实时联网、背景知识调用与顺畅聊天[7] - 在实测中,智能体通过调用百度搜索,能精准检索本周欧战实时赛况,抓取九支球队最近一场比赛的比分,体现了时效性并规避大模型“幻觉”[9] - 智能体通过并发调用百度百科,能快速调取英超豪门的过往欧战履历、历史积分等,提供权威、结构化的背景知识[9] - 百度搜索Skill能有效支持信息查询任务,例如搜索特定公众号近期文章或查询明星演唱会详细信息(包括时间、地点、票价及购票平台)[14][16][17] 本土搜索Skill的竞争优势与战略意义 - 在智能体时代,搜索基础能力的精准度直接决定了整个智能体应用的智商下限,智能体对信息的容错率极低[19] - 本土搜索Skill(如百度)相比海外通用工具(如Brave Search)具备显著优势:提供中文语境下的精准能力、对中文内容的理解深度、对本地知识库的广泛覆盖、与国内主流平台的协同整合,并提供了免费额度以控制开发者成本[19] - 百度作为国内最早入局OpenClaw生态的大厂之一,其官方搜索Skill的推出标志着国产基础能力Skill走向成熟,一个以中文用户为核心的本土Agent应用层正在形成[20] 百度在OpenClaw生态中的能力矩阵与战略布局 - 百度在ClawHub上开放了一整套“生产级积木”,涵盖其优势能力的全矩阵[22] - 在知识获取环节,提供百度百科(结构化权威词条)、百度学术(学术检索)及视频AI笔记(拆解视频核心内容)等Skills[25] - 在文档处理环节,提供文心衍生・PaddleOCR文档解析与文字识别Skill,为智能体实现高精度内容提取与理解[26] - 在商业场景中,提供百度电商Skill(支持跨平台比价与决策)和百度地图Maps Skills(提供空间感知与导航能力)[27] - 百度以Skill为载体,系统性地将核心AI能力从信息检索、内容生产、视觉理解到商业决策等环节开放给全球开发者[28] Agent赛道发展趋势与基础设施重要性 - 随着大模型基础能力逐渐收敛,Agent赛道的重心正向工程化落地与本地适配转移[30] - 在此阶段,好用的基础设施组件是决定智能体应用能否真正投入生产环境的关键[30] - 大厂正将长年积累的搜索、百科、学术等底层业务能力封装成标准化、可直接调用的“积木”[31] - 搜索工具背后的信源权重判定、结构化数据及安全合规,为智能体应用投入生产环境提供了更高的确定性[32]
MLSys 2026 | StreamDiffusionV2: 将视频生成从「离线生成」带入「实时交互」,实现真正可用的生成式直播系统
机器之心· 2026-03-13 18:41
行业技术背景与挑战 - 基于图片扩散模型的AI直播系统(如StreamDiffusion、StreamV2V)存在时间一致性较差的问题,而视频扩散模型因其前后帧依赖关系能提供极佳的时间一致性 [2] - 近期自回归视频生成研究(如CausVid、Self-Forcing)提升了推理速度,使其吞吐量接近“实时”目标,但现有方法主要面向离线生成优化,难以直接适配对延迟和抖动有严格要求的实时直播场景 [2][7] - 实时视频扩散无法仅依赖离线生成范式的延伸,亟需一种从系统层面重新设计、以实时约束为核心目标的推理架构 [7] 现有系统瓶颈分析 - 现有系统面临四大挑战:1)无法满足实时服务级目标(SLO),首帧延迟高且抖动大;2)长时间生成中因误差累积导致时序漂移和风格漂移;3)面对快速动作时出现模糊、重影和画面撕裂;4)难以实现多GPU扩展,通信开销抵消了计算加速 [11] - 性能瓶颈分析表明,在自回归视频生成的低延迟单帧参数下,由于需要加载长序列的KV Cache,系统性能由内存带宽而非算力主导,处于内存带宽受限状态 [13] - 序列并行方法(如Deepspeed-Ulysses、Ring-Attention)在推理中每个DiT Block需执行一次跨设备通信,引入了显著的通信开销,加剧了系统数据传输负担 [13] StreamDiffusionV2 解决方案 - 研究团队提出一种无需训练、面向交互式直播的流式视频生成系统,旨在实现低延迟与高质量生成的平衡 [2] - 算法层面:引入Sink-tokens和滚动KV Cache机制,将早期生成帧的KV保留以指导后续生成,缓解误差累积;采用动作感知的动态加噪机制,根据视频运动强度自适应调整加噪比例以保持一致性或提升质量 [17][18] - 系统层面:采用SLO感知的流水线化批量去噪,将不同噪音程度的帧组成流水线并行处理;实施模型网络层的流水线并行,结合分片批量去噪与异步通信,以缓解流水线气泡,提升整体吞吐量 [17][19] 系统性能与结果 - 该系统已全面开源,在未应用TensorRT或量化的情况下,于双卡RTX 4090设备上能稳定实现16 FPS实时推理 [3] - 在H100上,系统首帧延迟低于0.5秒;在4卡设备上,14B模型实现58.28 FPS,1.3B模型实现64.52 FPS的吞吐量 [3] - 实验结果显示,系统端到端延迟分布紧密、抖动低,达到亚秒级实时应用要求,同时实现了稳定的高质量生成和良好的时间一致性,并对复杂提示词有更好适应 [26][27] 行业意义与未来展望 - StreamDiffusionV2弥合了离线视频扩散与实时直播之间的系统鸿沟,使高质量生成式直播首次具备工程可行性 [29] - 该工作顺应硬件与算法发展趋势:GPU计算能力增长快于显存带宽,且视频生成算法采用更高压缩率,加剧了推理阶段的内存访问压力,使得围绕内存访问与实时约束进行系统级调度设计成为关键能力 [32][33] - 该系统方案提供了一种面向未来实时生成场景的设计思路,以SLO为核心、系统协同驱动的流式推理架构,有望成为下一阶段生成式直播基础设施的重要方向 [34][35]
AI编程助手竟成「内鬼」?SKILLJECT:当「技能包」变成「特洛伊木马」
机器之心· 2026-03-13 17:21
研究核心观点 - 研究团队提出了首个针对AI编码智能体技能的自动化攻击框架SKILLJECT,该框架通过将恶意载荷隐藏于辅助脚本,并利用精心修改的技能文档进行诱导,能够以极高的成功率劫持受害者系统,揭示了模块化技能生态系统的重大安全隐患[2][48] - 实验表明,SKILLJECT攻击框架在多种主流大语言模型后端上平均攻击成功率高达95.1%,远超传统直接注入攻击的10.9%,并对现有防御机制表现出强大的穿透能力,彻底挑战了智能体架构天然稳健的假设[25][48] 研究背景与方法论 - 现代AI编码助手采用“技能”插件机制以增强能力,允许加载外部功能包,但此机制形成了比网页内容注入更高权限的攻击面,使第三方内容能直接进入智能体核心决策层[5] - SKILLJECT是一个由三个AI智能体协同工作的自动化攻击框架:攻击Agent负责生成带毒技能文档,编程Agent作为受害者执行被投毒的技能,评估Agent则判断攻击是否成功并提供反馈用于迭代优化[12][16] - 框架采用“载荷隐藏与诱导”的核心技术,将真正的恶意代码藏在辅助脚本中,仅在主技能文档中写入看似无害的诱导指令,利用编程智能体渐进式披露的设计,使其难以事前识别恶意意图[17][18] 实验设置与结果 - 研究构建了一个包含50种不同代理技能的基准数据集进行实验,攻击目标分为信息泄露、权限提升、未授权写入和后门注入四种高危后果[19][21] - 实验采用Claude Code作为受害者框架,并连接到Claude-4.5-Sonnet、GPT-5-mini、GLM-4.7、MiniMax-M2.1四个不同的后端大语言模型以评估攻击的可迁移性[20][21] - 攻击成功率计算采用严格的双层验证协议,需同时满足“调用检查”与“后果检查”才被视为成功[22][28] - 主要实验结果显示,SKILLJECT框架平均攻击成功率达到95.1%,而作为基线的直接注入方法平均成功率仅为10.9%[25] - 按攻击类别细分,对于信息泄露、权限提升和未授权写入这类高敏感性操作,基线方法成功率为0.0%,而SKILLJECT方法成功率大多超过94%[25] - 在后门注入场景中,攻击表现出强大的跨模型可迁移性,针对GLM-4.7生成的对抗性技能文档,在MiniMax-M2.1和Claude-4.5-Sonnet上分别达到86.0%和88.0%的攻击成功率[33][34] 攻击策略与消融分析 - 攻击Agent能自主进化出欺骗策略,例如通过结构模仿使恶意步骤看起来像常规工作流程,或利用视觉强调制造紧迫感以迫使受害代理执行脚本[31] - 消融研究表明,迭代优化循环是最关键的组件,移除后攻击成功率从98.0%下降至56.0%[37][38] - 生成约束的消融显示,结构对齐和最小编辑约束对于保持攻击隐蔽性至关重要,移除后攻击成功率分别下降至92.0%和94.0%[38][41] 防御评估与行业启示 - 使用SkillScan防御框架进行评估,结果显示其对信息泄露和权限提升攻击的检测率达90.0%,但对未授权写入和后门注入的检测率分别仅为30.0%和20.0%[42][43] - 研究发现当前基于静态分析和文本语义审计的防御机制存在盲点,难以应对SKILLJECT这类利用语义模糊性和上下文的社会工程攻击[44][49] - 研究结论强调,行业在追求AI系统可扩展性与功能灵活性的同时,必须重新审视技能共享机制的安全边界,未来设计需要更强的端到端防御,包括跨文件一致性检查、行为级审计和工具调用的运行时策略执行[44][46][48]
MCP已死,CLI当立!Perplexity首先放弃使用MCP,全网赞成
机器之心· 2026-03-13 17:21
文章核心观点 - MCP协议在推出一年多后正走向消亡,行业领先公司如Perplexity和Duetchat已放弃或删除对其的集成,其根本原因在于协议设计存在天生缺陷,尤其是在线性上下文成本、使用效率及可调试性方面表现不佳,而传统的CLI和API方案被证明是更优选择[3][4][8][9][11][14][17] MCP协议的现状与行业态度 - MCP协议由Anthropic于2024年11月推出,旨在成为大模型通信和交互的标准协议,但推出一年多后已声量微弱,甚至其“一周年纪念日”也在一片寂静中度过[3] - 行业对MCP的质疑始终存在,包括“builder多于user”和“旧瓶装新酒”的批评[3] - Perplexity的联合创始人兼CTO Denis Yarats在公司内部表示,正在放弃MCP,转而使用API和CLI[4] - 曾全面支持MCP集成并实现了OAuth和动态客户端注册的AI聊天工具Duetchat,在其v2版本中彻底删除了MCP功能[8] - Y Combinator总裁兼CEO Garry Tan公开批评“MCP sucks”,随着Skills逐渐占据智能体应用主场,MCP似乎早该消失[9] MCP协议的技术缺陷与问题 - **线性上下文成本高昂**:MCP协议要求将每个工具的名称、描述、参数Schema和示例都注入Agent的上下文窗口,若连接10个服务且每个服务有5个工具,在任务开始前就可能消耗掉数千个Token,极大地挤占了宝贵的上下文窗口资源[11] - **使用模式难以为继**:为应对高成本,用户只能在不理想的方案中做选择,包括:1) 预先加载所有内容,导致实际任务性能下降;2) 限制集成数量;3) 构建动态工具加载,但会带来延迟和复杂性[11][12] - **日常使用体验差**:存在初始化极不稳定、无休止的重新认证以及权限管理非黑即白(仅能通过名称白名单,无法限制为只读或限制参数)等问题[18] CLI与API方案的优势 - **大语言模型天然擅长使用CLI**:大语言模型在数以百万计的man手册、Stack Overflow回答及Shell脚本仓库中受过训练,给予它们CLI和文档,它们就能有效工作[14] - **CLI具备一致性与可调试性**:当AI操作出错时,人类可以运行相同的CLI命令来复现和调试,输入输出一致,没有谜团,而MCP下的工具操作仅存在于对话内部,出错后需翻查复杂的JSON传输日志[14] - **CLI具有强大的可组合性**:可以通过`jq`、`grep`等工具进行数据过滤、逻辑串联或重定向,这通常是唯一可行的方法,而使用MCP要么需将整个计划塞入昂贵且有限的上下文窗口,要么需在服务端构建自定义过滤功能,结果更差且耗费更多精力[15] - **CLI是经过时间检验的成熟工具**:CLI经历了数十年的设计迭代,可组合、可调试,并且能利用现有的认证体系,对人类和机器都友好,是一个已经足够好的抽象层[16][17]
3亿美元巨额融资,AI视频新独角兽爱诗科技,正在抢跑「实时世界模型」
机器之心· 2026-03-13 12:00
行业竞争格局与技术趋势 - AI视频生成赛道竞争已从初级的长视频、高保真度比拼,迈向实时交互与模拟真实物理规律的技术分水岭[1] - 2026年初行业技术迭代加速,OpenAI Sora 2、快手可灵 3.0、字节Seedance 2.0等模型能力升级,视频生成前沿技术距离实际落地仅一步之遥[3] - 行业技术演进路径从依赖GAN与扩散模型,到DiT架构全面引入迎来“GPT时刻”,当前趋势聚焦高度一致性的视频内容、实时生成能力及世界模型探索[14][15] 公司融资里程碑与市场地位 - 公司完成3亿美元C轮融资,约合20.6亿元人民币,是截至目前AI视频生成领域最大的融资之一,仅次于Runway上个月E轮的3.15亿美元[2][3] - 本轮融资由鼎晖旗下基金领投,中国儒意、三七互娱等产业资本,以及多家全球知名投资机构参投,标志着融资逻辑从“买GPU”升级为“产业深度绑定”[2][11] - 公司成立不到三年,累计融资额已接近30亿元人民币,跻身独角兽阵营,稳居AI视频生成第一梯队[8][11] - 自2024年11月商业化起,不到一年时间收入增长超过10倍,年度经常性收入超过4000万美元,是全球收入和用户增长最快的AI平台之一[31][32] 核心技术实力与产品迭代 - 公司自研PixVerse系列模型多次大版本迭代,PixVerse V5在Artificial Analysis等权威图生视频榜单中一度排名第二[16][17] - 最新版本PixVerse V5.6在图生视频与文本生视频领域继续名列前两位,是表现最突出的中国模型之一[20] - 公司于2026年1月发布PixVerse R1,是全球首个支持1080P分辨率的通用实时世界模型,标志着技术从“预录制”跨入“实时动态生成”时代[21] - PixVerse R1基于原生多模态基础模型Omni,实现了多模态统一、自回归流式传输与记忆增强注意力机制三大突破,旨在模拟物理世界运转规律[22][23] - 公司研发同级别模型的训练成本约为同行的10%[12] 产品商业化与用户生态 - 公司产品PixVerse/拍我AI向C端用户倾斜,主打“速度快、易上手、创意可控”,旨在降低视频创作门槛,将观看者转化为创作者[25][26] - 产品用户规模超过一亿,月活跃用户超过1600万,已形成高粘性数字内容创作社区,而非用完即走的SaaS工具[32] - 产品功能包括文生视频、图生视频、视频生视频,并推出人物一致性模型,确保角色在不同镜头下保持高度一致[30] - 除了C端订阅,公司为企业和开发者提供标准化API,单月API调用量达千万级别,高级功能正被影视、广告、游戏等专业创作者采用[32]