机器之心
搜索文档
VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物
机器之心· 2026-01-18 12:05
VerseCrafter模型的技术突破 - 复旦大学、腾讯PCG ARC Lab等机构的研究者提出了VerseCrafter,这是一个通过显式4D几何控制实现的动态逼真视频世界模型 [2] - 该模型能像“导演”一样精准控制相机运镜,同时指挥场景中多个物体的3D运动轨迹,为视频生成引入了物理世界维度 [2] - 其核心理念在于用一个统一的4D几何世界状态驱动视频生成,利用静态背景点云和每个物体的3D高斯轨迹,实现对相机和物体运动的解耦与协同控制 [5] 现有技术困境与解决方案 - 现有视频模型面临核心困境:视频在2D平面播放,但真实世界是4D的;现有方法难以在统一框架下同时实现精准的相机控制和多物体运动控制 [2] - VerseCrafter创新性地提出了一种基于3D高斯的表示方法,提供了一种软性、灵活且类别无关的表示方式,能以概率分布形式描述物体在3D空间中的占据情况 [9][11] - 模型采用冻结的Wan2.1-T2V-14B作为视频先验主干网络,并设计了一个轻量级的GeoAdapter,以极小的代价引入精确的4D控制 [12][13] 数据集构建 - 为训练4D世界模型,研究团队构建了VerseControl4D数据集,以解决缺乏大量带有精确4D标注的真实世界视频数据的问题 [15] - 该数据集使用静态背景点云表示环境几何,使用每物体3D高斯轨迹编码物体运动 [16] - 数据集构建结合了Qwen2.5-VL-72B、Grounded-SAM2、MegaSaM等先进工具进行自动化标注,包含35,000个训练视频片段,涵盖了丰富的动态和静态场景 [24] 模型性能与实验结果 - 实验表明,VerseCrafter在各项指标上均超越了现有的SOTA方法,如Perception-as-Control、Yume、Uni3C等 [21] - 在动态场景联合控制对比中,VerseCrafter能够精确地让物体沿着预设的3D高斯轨迹移动,同时完美执行相机运镜,且背景保持几何一致 [22][26] - 在静态场景运镜对比中,VerseCrafter的表现优于专门的ViewCrafter和Voyager等模型,在大幅度运镜下依然保持了建筑结构的笔直和纹理的清晰 [27][28] - 得益于统一的4D世界坐标系,VerseCrafter还支持多玩家视角生成,对于同一个动态事件,可以从完全不同的两个视角分别生成高度一致的视频 [29][30] 行业意义与应用前景 - VerseCrafter的出现标志着视频生成向可控4D世界模拟迈出了重要一步 [31] - 通过将显式的3D几何先验与强大的2D视频生成模型相结合,它不仅解决了复杂场景下的控制难题,也为游戏制作、电影预演和具身智能模拟提供了新的可能性 [31]
聊天框之外,AI 交互正在被哪些「新界面」重写?
机器之心· 2026-01-18 09:30
文章核心观点 - 当前以聊天对话框为主的AI交互形态是应用早期的权宜之计,存在固有局限,无法适配所有工作场景[1] - 业界正在特定场景中探索超越聊天框的新交互范式,以更贴近用户需求的方式承接复杂任务[1] 01. 聊天框只是 AI 应用早期的权宜之计? - 当前多数AI产品界面停留在聊天框,原因包括:技术原理上纯文本对话对模型最自然易于理解[4];产品参考上ChatGPT作为首个主要接口产生了巨大的锚定效应[5];运维上聊天框对AI出错的容错性高,可通过持续对话纠正而不中断流程[6];设计上聊天框是阻力最小的方案,可复用现有对话API和范式[7] - 有观点认为聊天交互时期将非常短暂,更成熟的交互范式将很快出现,类比早期Apple I电脑的原始形态[7] - 聊天窗口的局限不断被指出和改进,但无法解决的问题持续存在:对话界面导致不必要的交互轮次和时间消耗,部分产品通过专业场景功能(如深度研究)来缓解[7];聊天框存在用户学习成本高和上下文管理难的局限,衍生的Prompt工程不能完全改善表达障碍,会把近一半的潜在用户拒之门外[7];聊天框无法适配不同工作场景的普适性问题,例如产品经理需要的精确信息与AI散文式回答存在冲突,部分可通过表单勾选的任务在聊天窗口中仍需逐字回复[7] 02 . 聊天框之外,业内玩家如何探索特定场景下新的交互机会? - 单一的聊天对话界面在用户体验上的痛点,促使业界近几年探索不同形式的交互设计[9] - 探索方向包括在具有代表性的工作场景下,通过输入和输出模态、交互载体、交互流程等方面提供更符合用户偏好的AI产品[9]
AI 视频生成时代,留给人类的只有演技?
机器之心· 2026-01-17 14:21
行业技术突破 - AI视频生成技术已实现实时、高精度的角色替换,仅需一张参考照片即可在视频中“扮演”目标人物,效果逼真且与背景无割裂感[3][4] - 核心技术突破之一是快手推出的Kling 2.6 Motion Control Pro,能够精准控制长达30秒的肢体动作和面部表情,实现“角色替换”[8][9] - 技术进步显著,唇形同步、眨眼及微表情模拟更加自然,足以达到以假乱真的程度,不同模型在物理效果模拟(如Sora 2)和运动真实性(如Kling)方面各有专长[16] 应用场景与影响 - 技术应用已从专业影视制作下沉至个人用户,以前需要专业团队、摄影棚和灯光道具的镜头,现在仅需一部手机和一个AI工具即可完成[9] - 该技术正催生“虚拟网红”和AI直播等新业态,个人用户可在家中低成本实现“一人分饰多角”,制作出唇部同步完美、微表情和肢体语言高度一致的视频内容[5][11][12][13] - 技术对好莱坞等传统内容制作行业产生直接而重大的影响,可实现角色的无限替换且成本几乎可以忽略不计,引发行业变革讨论[6][8] 市场与产品现状 - 市场上已出现一系列可实现实时AI换脸或基于静态图片生成视频的工具,包括Kling 2.6、Deep-Live-Cam、DeepFaceLive、Swapface、SwapStream、VidMage和Video Face Swap AI等[15] - 相关工具价格日益亲民,每月费用在10美元到40美元之间,降低了使用门槛[16] - 基于此类技术生成的视频在社交媒体上传播广泛,单个视频动辄获得超百万播放量,显示出巨大的市场关注度和用户兴趣[7] 未来趋势 - 随着AI视频生成技术的持续进步,许多前所未有的创意和想法将得以实现,内容创作的门槛和形式将被重塑[18] - 在视频内容领域,建模质量的重要性可能下降,内容的流行度将更取决于创意和“整活”能力[17]
大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题
机器之心· 2026-01-17 11:24
行业核心问题:语音大模型的模态推理鸿沟 - 当前语音大模型面临“模态推理鸿沟”核心难题,即模型被赋予听觉后,逻辑推理能力会显著衰退[2] - 行业巨头如OpenAI、Google、Meta均面临此挑战,并将其定义为“Intelligence Gap”或“Multimodal Tax”[3] - 具体表现为:GPT-4o在纯文本任务准确率达92%,但在端到端语音模式下得分跌至66%,出现26%的巨大跌幅[3] 现有解决方案的缺陷 - 主流语音大模型采用“语音编码器+适配器+LLM”三段式架构,但引入语音模态后推理能力出现断崖式下跌[10] - 现有修补方法存在缺陷:输入端强行对齐无法解决深层的“表征漂移”问题[11] - 输出端通过监督微调或知识蒸馏的方法属于离线策略,存在“目标不可达”和“Exposure Bias”问题,导致模型容错性差[12][19] 创新解决方案:TARS框架 - 香港中文大学(深圳)与微软团队联合提出TARS,这是一个基于强化学习(具体采用GRPO)的全新对齐框架[7][13] - 核心创新在于不依赖死记硬背的监督微调,而是通过对齐“思维轨迹”来恢复推理表现[7] - 框架包含三大关键创新:表征对齐、行为对齐、以及非对称奖励与模态归一化[13] 技术细节:TARS的三大创新 - **创新一:表征对齐**:计算语音与文本输入下每一层隐藏状态的余弦相似度作为奖励,引导语音分支的思维路径紧跟文本轨迹[15][16] - **创新二:行为对齐**:利用外部Embedding模型判断语音推理与文本参考的语义一致性,允许措辞差异,解决了“目标不可达”问题[17][21] - **创新三:非对称奖励与模态归一化**:语音分支额外获得对齐奖励以追赶文本;采用模态特定归一化,保证语音分支在困难任务下也能获得持续优化梯度[22][23] 实验结果与性能表现 - 在MMSU和OBQA两个高难度语音推理榜单上验证,基于Qwen2.5-Omni和Phi-4-MM架构进行实验[25] - **核心战绩**:TARS在7B模型上达到了100.45%的模态恢复率,意味着语音推理能力不仅完全恢复,甚至略微超过了文本基座水平[26][33] - **性能对比**:TARS在Phi-4-MM上的平均准确率达到79.80%,稳居7B规模模型第一,显著优于SFT、DPO、SALAD、AlignChat等基线方法[26][27][33] - **附加效益**:使用TARS训练后,模型的文本准确率也同步提升(Qwen提升2.39%,Phi提升5.43%),证明语音模态学习能增强文本推理能力[28] 行业影响与未来展望 - TARS标志着语音大模型研究的范式转变,证明了On-policy RL在解决模态对齐问题上优于传统的Off-policy方法[30] - 提出的“表征+行为”对齐策略,为打造拥有与纯文本模型同等智商的全能型Omni模型提供了可行路径[31] - 该研究成功消除了模态推理鸿沟,为实现高智商语音交互奠定了基础[31]
开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布
机器之心· 2026-01-17 11:24
行业背景与问题 - 人工智能在代码和图片生成领域日益成熟,游戏领域成为AI研究的重要方向,早期研究已在Atari、星际争霸、Dota等游戏上训练出超越人类玩家的专用模型[2] - 然而,这些专用模型缺乏跨游戏的泛化能力,只能在单一游戏环境中运行[2] - 另一方面,ChatGPT和Gemini等通用模型在众多任务上表现出色,但在游戏环境中表现不佳,即便是简单的射击游戏也难以应对[2] 解决方案:Pixel2Play (P2P) 模型 - 来自Player2的研究员提出了Pixel2Play (P2P) 模型,旨在解决上述问题[2] - P2P模型以游戏画面和文本指令作为输入,直接输出对应的键盘与鼠标操作信号[2] - 该模型在消费级显卡RTX 5090上可实现超过20Hz的端到端推理速度,能够像人类一样与游戏进行实时交互[2] - P2P作为一个通用游戏基座模型,在超过40款游戏、总计8300+小时的游戏数据上进行了训练[2] - 该模型能够以零样本 (zero-shot) 的方式直接玩Roblox和Steam平台上的多款游戏[2] 开源与数据 - Open-P2P团队在无使用许可限制的情况下,开源了全部的训练与推理代码,并公开了所有的训练数据集[3] - 训练游戏AI模型需要高质量的游戏画面、文本指令以及对应的操作数据,这类“画面-操作”数据在互联网上很少见[5] - Open-P2P项目开源的大规模高质量人工标注操作数据,弥补了该领域的空缺[5] - 训练数据同时包括游戏图像画面与对应的文本指令,并提供了精确的键盘鼠标操作标注[8] 模型设计 - 为保证快速的推理速度,P2P选择了轻量级模型框架并从零开始训练[10] - 模型主体由一个解码器Transformer构成,并额外接入一个轻量化的action-decoder来生成最终的操作信号[10] - 该结构使得模型在推理时只需对主体模型进行一次前向计算,即可生成action-decoder所需的表征信号,从而使整体推理速度提升5倍[10] - 为实现跨游戏通用性,P2P采用自回归的离散token序列作为操作输出空间,每个操作由8个token表示:4个对应键盘按键,2个对应鼠标在水平与垂直方向上的离散位移,最后两个对应鼠标按键[10] - 在输入方面,除了当前帧图像与文本指令token外,P2P还会输入真实操作token,使模型能根据历史操作做决策,更贴近人类玩家的操作习惯[10] - 为保证模型的因果关系,训练时使用了特殊的掩码机制,以确保模型在预测时仅能看见历史真实操作[10] 模型规模与性能 - P2P共训练了四个不同规模的模型,参数量分别为150M、300M、600M和1.2B[12] - 在实测中,150M模型可以达到80Hz的端到端推理速度,而最大的1.2B模型也能达到40Hz,完全满足与游戏环境实时交互的需求[12] 模型评估结果 - 模型评估主要采用人工评估,评估环境选取自四款游戏:Steam平台上的Quake、DOOM,以及Roblox平台上的Hypershot、Be a Shark[13][14] - 在模型行为评估中,1.2B模型生成的游戏录像与较小模型进行人工比对,结果显示1.2B模型分别以80%、83%与75%的偏好度优于150M、300M和600M模型[13] - 在指令遵循评估中,对于“按下红色按钮”的文本指令,未接受指令的模型通过率只有20%,而接收指令后模型的通过率可大幅提高到80%,显示出优秀的文本指令理解和执行能力[15] 因果混淆分析与规模效应 - 因果混淆是行为克隆中的常见难题,在高频交互环境中尤其突出[17] - 研究发现,扩大模型的规模与增加训练模型的数据量能够有效提升模型对因果关系的理解能力,使其不再依赖虚假关联,从而学到更好的操作策略[17] - 随着训练数据增多与模型参数量增加,P2P模型在因果推断评估中的表现呈上升趋势[19] 团队与作者 - 本文第一作者岳煜光现任初创公司Player2研究员,负责游戏模型的开发和研究[21] - 在加入Player2之前,他曾先后在Amazon和Twitter担任研究人员,致力于语言模型与推荐系统的相关研究[21]
贴广告的ChatGPT,一夜之间让全球网友破了防
机器之心· 2026-01-17 11:24
OpenAI推出广告与低价订阅计划 - 公司宣布将在ChatGPT中引入广告,测试将在未来几周内率先在美国启动[1] - 广告将出现在免费版和新的低价订阅计划ChatGPT Go用户的AI生成回复底部,并标注“Sponsor”[5][8] - 广告不会打断对话流,且不会影响AI生成的答案内容[8][11] - 在涉及健康、心理健康、政治等敏感话题的对话中,不会显示广告[13] ChatGPT Go订阅计划详情 - ChatGPT Go是公司的低价订阅计划,已在全球上线,每月费用为8美元[5] - 该计划提供比免费版多10倍的消息额度、文件上传和图像生成功能、更大的内存、更长的上下文窗口,以及可以无限使用GPT 5.2 instant模型[5] - Go版用户无法使用GPT‑5.2 Thinking模型[7] - 更高层级的付费用户(Plus、Pro、Business和Enterprise版本)将不会看到广告[7] 广告运作模式与数据隐私 - 广告将根据用户的对话上下文进行匹配,例如询问食谱时可能出现相关食材或配送服务的广告[12] - 公司承诺广告商无法影响ChatGPT生成的答案内容[11] - 用户的具体对话内容不会被直接发送给广告商,只会用于匹配广告相关性[11] 公司面临的财务压力与战略转变 - 尽管公司估值即将达到7500亿美元,但其在算力和数据中心上的投入巨大,在2025年有高达1.4万亿美元的基础设施建设承诺[15] - 公司去年的预计收入为200亿美元,远不足以覆盖其巨额投入[15] - 为了维持运营并继续扩展AI大模型能力,引入广告被视为必要的商业化手段[16] - 这一决定标志着公司创始人兼CEO山姆・奥特曼立场的转变,他此前曾公开表达对广告的“精神上的厌恶”,并认为广告会干扰用户获取信息[17][19] 与马斯克的法律纠纷进展 - 加州北部地区法院解封的文件显示,OpenAI联合创始人Greg Brockman在2017年的私人日记中讨论了摆脱埃隆・马斯克控制并转向营利结构的想法[24] - 文件内容显示,Brockman曾写道“这是我们摆脱Elon的唯一机会……从财务角度,什么才能让我达到10亿美元?”并讨论了避免马斯克的控制“破坏经济利益”[24] - 马斯克在社交媒体上评论称“他们偷了一个慈善组织”[27] - 奥特曼回应称马斯克断章取义,并指出当时是马斯克自己大力推动公司改变结构,并提出了苛刻条件[29] - 加州联邦法官已裁定拒绝OpenAI的撤诉请求,该案件将于2026年4月27日进入陪审团审判[34]
黄仁勋年初对话:2025 的 AI 如何塑造产业的「五层蛋糕」?
机器之心· 2026-01-17 10:30
AI技术转化为社会产出的路径与模型 - AI行业的进步核心在于**Grounding(落地/基础能力)与推理能力的显著提升**,高质量推理Token已展现出巨大的商业价值和盈利潜力,例如某些公司毛利率高达90% [5][6] - 未来十年,**Token生成成本将实现十亿倍级别的削减**,这得益于硬件性能迭代和算法模型优化,构成了AI领域的“Token经济学” [6] - 实现这一价值转化的技术堆栈被定义为 **“五层蛋糕”模型**,从底层的能源与芯片,到基础设施层,再到核心的模型层,最终延伸至自动驾驶、机器人等垂直行业应用,将AI转化为实际生产力 [8][9][10] - **开源生态**是驱动技术普惠和加速创新的关键纽带,它降低了初创公司和科研机构的创新壁垒,使其能直接利用成熟模型进行研发,缩短了路径,并在医疗、工业等领域降低了准入门槛 [10][11][12] - **混合专家模型等架构优化**使得计算负载不再与模型规模同步增长,从底层保障了训练与推理成本的持续下降 [7] - 当前,**构建类似ChatGPT规模的模型成本已急剧下降**,从最初的高昂估算变为如今在个人电脑上仅需一个周末即可完成训练 [8] AI对能源产业的驱动与影响 - AI因其巨大的算力需求,正在**倒逼能源产业实现技术跨越**,特别是推动核能与小型模块化反应堆等可持续能源技术的发展 [13] - AI被视为**推动全球可持续能源转型的最强动力**,它通过驱动从芯片、超算到智能工厂的整个产业链,创造了实质性的工业增长 [13] 对“上帝AI”与“AI末日论”的产业观点 - AI的渗透趋势面临现实制约,其发展并非导向“上帝AI”或导致人类末日的叙事,相关论调存在漏洞 [4] - **AI成本正以每年超过10倍的速度下降**,这一趋势反驳了关于AI发展不可持续或必然导致泡沫的担忧 [1]
失去三个联创后,Mira公司危机持续:又有两人要出走
机器之心· 2026-01-16 16:13
事件概述:Thinking Machines Lab 核心团队流失事件 - 前 OpenAI CTO Mira Murati 创办的 Thinking Machines Lab 出现重大人事变动,联合创始人兼 CTO Barret Zoph 被解雇,另一位联创 Luke Metz 以及创始团队成员 Sam Schoenholz 一同离开,三人均回归 OpenAI [3] - 此前已离开的 PyTorch 大神 Andrew Tulloch 使公司失去三位联创,事件继续发酵,基础设施工程师 Ian O'Connell 和研究模型架构的研究员 Lia Guy 也被爆将离开,后者明确回归 OpenAI [4][7] - 多家媒体将事件描述为“OpenAI 对 Thinking Machines Lab 的人才突袭”,据称挖人行动已在 OpenAI 内部筹备数周 [8] 事件原因与各方说法 - 关于 Zoph 被解雇,公司宣称其任职期间曾出现严重不当行为并引发问题,同时内部质疑其是否曾向竞争对手泄露公司机密信息 [10] - OpenAI 应用业务首席执行官 Fidji Simo 在备忘录中表示,Zoph 早在被解雇前就告知 Mira Murati 正考虑离开,且 OpenAI 不认同 Thinking Machines Lab 对 Zoph 职业道德的质疑 [10] - 据知情人士透露,其他人集体出走是公司内部长期讨论的结果,核心原因在于团队在产品定位、技术路线与未来发展方向上存在分歧 [11] 公司面临的质疑与现状 - 公司长期面临没有“产品”的质疑,虽曾推出专注于解决后训练 Infra 复杂性的产品“Tinker”,但成果被认为不足以承载顶级人才的技术理想 [13][14] - 公司没有旗舰模型,没有明确的商业平台,似乎也没有一份与投资规模相匹配的公开路线图 [14] - 此次核心团队流失事件对公司造成打击,甚至有观点认为公司“已经完了” [11] 行业背景与趋势 - 在失去联创方面,Thinking Machines Lab 并非个例,统计显示近年来头部 AI 公司联创出走比印象中更频繁 [16] - 行业分析师表示,此类快速行动,如招聘、离职和迅速回归,已成为 AI 劳动力市场的一个常见特征,并可能改变项目路线图和时间表 [17]
不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
机器之心· 2026-01-16 16:13
文章核心观点 - 随着大语言模型上下文长度向1M演进,KV Cache已成为制约推理服务效率的核心瓶颈,其显存占用随上下文增长而膨胀,带来显著内存瓶颈[2] - 近期一篇深度综述从MLSys思维出发,以“时间-空间-结构”系统行为视角对KV Cache优化方法进行了系统性梳理,并整理了持续维护的Awesome资源库[2] - 该综述定义了sKis的边界:在推理服务阶段,以KV Cache为核心优化对象,在不依赖模型重训或结构修改的前提下,提升吞吐、延迟等核心系统指标[3] KV Cache优化技术系统行为视角 - 综述创新性地以系统行为视角组织KV Cache优化技术,按优化策略在系统中发生的时间、空间、结构三个维度划分,便于对齐工程实现与组合策略[6] - 基于三个维度,现有工作被归纳为7个二级类别:以KV为中心的调度、流水线与重叠、硬件感知的执行、跨内存层级的KV编排、跨计算设备的KV编排、KV Cache压缩、KV Cache留存管理[7] - 论文为每一类技术提炼了关键要点、局限与权衡,给出了可落地的实用指导[8] 时间维度:执行与调度 - 该分类关注KV何时被访问和计算,例如设计以KV为中心的调度策略,或采用流水线来掩盖延迟[9] 空间维度:放置与迁移 - 该分类关注数据的存储,例如在GPU、CPU、SSD构成的存储层级中如何使热点KV留在GPU显存中,或在分布式/异构计算设备中设计迁移策略[9] 结构维度:表示与留存 - 该分类关注数据表示,是目前最拥挤的赛道,包括量化、驱逐等论文密集的子领域,旨在直接减少KV Cache的物理体积[9] 深度洞察与开放挑战 - 作者对百余篇论文进行了全局交叉分析,归纳了7大关键观察,并引发了6大开放挑战[12] - 分析包括跨行为共现分析以揭示不同维度KV行为间的内在联系和协同模式,以及深入分析KV行为与优化目标的作用关系[12] - 开放挑战包括在追求效率时可能忽视了可信度的隐形崩塌等问题[13] 相关资源 - 论文作者同步维护了一个Awesome风格的资源库,收录并持续更新sKis领域的最新论文和代码实现,方便社区追踪进展[15] - 论文地址与项目地址已在文中提供[3]
美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?
机器之心· 2026-01-16 16:13
模型发布与核心特性 - 美团于1月15日发布了其最新大模型LongCat-Flash-Thinking-2601,这是一款拥有5600亿(560B)参数、基于MoE架构的大规模推理模型 [1] - 该模型的核心创新之一是引入了“重思考模式”,能够同时启动8路并行思考,并对结果进行总结以得出更全面可靠的结论 [4] - 模型的智能体能力获得重大提升,在工具调用、搜索和集成推理等基准测试中达到顶尖性能,并在分布外真实场景中实现了泛化能力的显著提升 [6] 技术架构与创新 - 模型技术底座为560B参数的高性能混合专家架构,并继承了领域并行训练方案 [42] - 核心技术改进包括“重思考模式”和“智能体能力”提升,其中重思考模式通过并行调用同一模型8次来实现高强度并行思考与交叉验证 [45][49] - 为提升智能体能力,公司引入了环境规模扩展、多环境大规模强化学习以及课程学习等方法,并系统分析了环境噪声以增强模型稳健性 [46][51][60] - 公司还提出了一种全新的智能体模型泛化能力评测方法,通过自动化流程随机生成复杂任务来检验模型在未知场景下的适应能力 [8][9][10] 实测性能表现 - 在数理逻辑与推理题实测中,重思考模式的8个Thinker能协同工作,通过代码验证、穷举等方法解决复杂问题,最终给出可靠答案 [13][15][18] - 该模式在开放性问题上(如评选歌手)也展现出多样性,不同Thinker给出不同答案,最终由模型汇总成多维度评估结果 [21][22][23] - 模型具备较强的编程能力,能够根据指令生成如Flappy Bird、康威生命游戏等完整可运行的程序 [26][29][30] - 在专门的智能体工具调用测试中,模型需处理包含近30个工具、具有复杂依赖关系的“营养补给方案”任务,展现了处理环环相扣逻辑的能力 [33] 竞品对比与优势 - 在工具调用任务的对比测试中,LongCat-Flash-Thinking-2601与Claude 4.5 Opus同台竞技,LongCat执行时间为265.9秒,标准覆盖率达到100%,而Claude执行时间为224.4秒,标准覆盖率为80% [36][38] - 具体而言,LongCat成功完成了所有5项评估标准,而Claude未能成功创建用户健康档案 [38] - 对比显示,LongCat在处理工具依赖关系时展现出更强的稳定性 [38] - 模型对环境的噪声和不确定性展现出强大的适应能力,在带噪声的评测集中,经过稳健训练的LongCat模型表现优于未经过稳健训练的模型及Claude [60] 未来发展与行业意义 - 公司即将发布ZigZag Attention注意力机制,据称能实现100万token的上下文长度,并已用于训练模型的一个分支版本 [63] - 美团大模型自2025年9月首次亮相后,保持了每月一更的开源节奏,从强调响应速度到专注逻辑,再到覆盖多模态,能力不断扩容 [65] - 此次模型升级聚焦于智能体与思考能力的全面提升,标志着从理解世界到融入真实世界的一次跃迁 [67] - 公司的长期追求在于利用技术又好又快地解决真实世界问题,最终实现“模型即服务” [68]