Workflow
量子位
icon
搜索文档
腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA!
量子位· 2026-03-19 09:02
文章核心观点 - 腾讯开源的多模态大模型Penguin-VL,其核心创新在于打破了主流“视觉编码器+语言模型”的拼接范式,提出了一种从纯文本大语言模型初始化视觉编码器的新路径[1][2] - 该方法旨在解决传统基于对比学习的视觉编码器在处理文档、图表、长视频等需要保留局部结构、空间关系和时序细节的复杂任务时的潜在不足[8][9][10] - 在2B和8B的紧凑参数规模下,该模型在多项复杂视觉理解任务上展现出强大竞争力,证明了此技术路线的有效性,并可能引领多模态模型向更原生、统一的方向发展[3][36][45][49] 技术路径创新 - **主流范式批判**:当前多数视觉语言模型采用固定模式,即使用CLIP、SigLIP等通过对比学习预训练的视觉模型作为编码器,再接上大语言模型进行训练[5][6] - **新路径提出**:Penguin-VL团队质疑上述范式是否为复杂视觉理解的最合适起点,并创新性地提出直接从纯文本大语言模型初始化视觉编码器[8][15] - **核心优势**:从大语言模型出发的视觉编码器,与下游语言模型的表示空间更近,复用了其成熟的序列建模、因果逻辑等能力,为视觉理解提供了更强起点[18][19] 模型架构与训练 - **关键改造**:对初始化的纯文本大语言模型进行两处关键改造,将因果注意力改为双向注意力,并引入2D-RoPE以更好地处理图像和视频的二维位置信息[21][22] - **三阶训练**: - Stage 1:训练Penguin-Encoder本身,采用从低分辨率预训练到高分辨率微调的路线,并引入重建损失和关系损失以保留结构化视觉信息[28][29] - Stage 2:进行视觉语言模型预训练,让编码器、投影层和语言模型共同学习多模态知识[30] - Stage 3:进行监督微调,将模型能力对齐到具体用户任务[31] - **视频处理**:引入时序冗余感知令牌压缩策略,优先将计算预算分配给关键帧,以高效保留重要的时序信息[32][33][34] 性能表现 - **整体竞争力**:在2B和8B的紧凑参数规模下,Penguin-VL在文档理解、图表理解、视觉知识和长视频理解等复杂任务上均表现出极强竞争力[3][36] - **2B模型表现**:在InfoVQA、ChartQA、DocVQA、V-star、LongVideoBench、NextQA、Perception Test等任务上表现亮眼[37] - **8B模型表现**:在更完整的配置下延续优势,在InfoVQA、ChartQA、DocVQA、AI2D、RealWorldQA、V-star、LongVideoBench、NextQA、CharadesSTA、Perception Test等任务上保持强劲表现[39][40][41] - **基准测试数据**:以8B模型为例,在InfoVQA上得分86.8,ChartQA上得分90.5,DocVQA上得分96.2,LongVideoBench上得分67.0,均优于或接近部分同规模竞品[43] - **编码器有效性验证**:消融实验表明,使用大语言模型初始化的Penguin-Encoder平均分达34.6,优于随机初始化的31.3分;在模型集成比较中,Penguin-Encoder以约2.4亿Stage 1训练样本,取得了49.3的平均分,超过了依赖更大规模对比学习预训练的视觉编码方案[44] 行业意义与趋势 - **范式探索**:该研究证明,未来的视觉编码器不一定必须源自传统视觉模型,也可以从更通用的语言模型出发,为多模态模型设计提供了新思路[45][47] - **行业趋势**:这与DeepSeek-OCR2等工作呈现的趋势相通,表明行业正逐步跳出传统的多模态拼接路线,开始探索更原生、统一的建模方式[48][49] - **开源与可及性**:腾讯已开放该项目的相关代码、模型权重,并提供交互式体验,降低了行业研究和应用的门槛[50][51]
全行业都在忙着“吃虾”,MiniMax M2.7已经让虾自己拿起筷子了
量子位· 2026-03-18 19:32
MiniMax M2.7模型发布与核心能力跃升 - 公司于M2.5发布仅一个月后,再次重磅推出全新的M2.7模型 [1] - 新模型的推理、工程能力及处理复杂任务与多智能体协作能力显著增强 [2][3] 核心性能亮点与基准测试表现 - 在指令遵循与多智能体协作方面表现稳健,在包含40个复杂技能的场景下保持97%的遵循率,在MM-Claw“龙虾测试”中正确率达62.7%,直逼Claude Sonnet 4.6 [8] - 代码能力从生成拓展至高阶领域,在SWE-Pro测试中以56.22%的正确率追平GPT-5.3-Codex [10][11] - 在办公场景处理能力上,于GDPval-AA评测中ELO评分位列开源第一,并超越GPT-5.3 [13] - 原生支持十种语言,并在角色扮演场景中强化了人设稳定性与对话情商 [16] 多智能体协作与复杂任务执行能力 - 模型原生支持多智能体协作,无需外部框架即可组建Agent团队,能稳定锚定身份并自主决策,协作完成长流程任务 [8] - 实测中成功统筹1个主持人和5个玩家Agent,完成“谁是卧底”游戏的全套搭建,包括撰写独立人设文件、开发后台程序与前端网页 [20][21][23] - 六个原生Agent能基于规则在游戏房间内进行顺畅交流,并完全自主地跑通整个游戏流程 [27][28] 工程与系统故障排查实战能力 - 在模拟真实生产环境的SRE级故障排查测试中,能迅速从复杂日志中精准定位导致数据库CPU飙升的根本原因 [30][31] - 提供的紧急恢复脚本专业地使用了PostgreSQL的CONCURRENTLY语法执行非阻塞建库索引,严格遵守生产环境“严禁锁表”的安全红线 [32][33] - 能生成完整、规范的数据库迁移文件代码,可直接用于提交合并请求 [35] 技术底层进化:自我构建与迭代能力 - 模型具备了自我构建复杂Agent Harness(工具箱/操作台)的能力,不再局限于使用人类提供的工具,而是能够自己创造工具 [39][41] - 在强化学习实验中,给定初始想法后,模型能自主运行实验、监控状态、查看日志、排查故障、修改代码并完成提交合并请求和冒烟测试 [42][43] - 模型能主动迭代优化Harness本身,在内部测试中通过自主试错探索优化路径,使模型在内部评测集上的效果提升30% [45] - 模型具备自主训练和升级机器学习模型的能力,通过短时记忆、自反馈和自优化机制,在MLE Lite的22道高难度竞赛题中,于24小时内自主优化ML模型并取得9金5银1铜的成绩 [47][48] 行业意义与战略定位 - 行业普遍在适配OpenClaw等开源框架以追赶热度,但公司已切入让模型自主造工具、搞研发的新阶段,使模型成为自身研发链条的一环 [49][50][51] - 这种让模型具备主动进化、自我迭代的能力,被认为是决定下一代大模型核心竞争力的关键分水岭 [52] - 具备此能力的M2.7模型,标志着公司已抢先开启模型自我迭代的新纪元 [53]
结构化扩展拿下Agent工具检索新SOTA,精准找到API|ICLR'26
量子位· 2026-03-18 18:21
EIT-NLP 团队 投稿 量子位 | 公众号 QbitAI 在大模型时代,Tool-Use已经成为智能体能力的核心组成部分。 从代码生成到数据分析,从网页查询到复杂API调用,LLM正在学会"使用工具"。但一个现实问题越来越明显: 工具真的难找。 来自宁波东方理工大学/宁波数字孪生 (东方理工) 研究院沈晓宇团队的研究工作,在 ICLR 2026 发表论文: 《Tools Are Under-Documented: Simple Document Expansion Boosts Tool Retrieval》 论文提出一个直接但重要的判断: 当前工具检索的瓶颈,往往不在模型能力,而在于工具文档。 目前,该论文已被 ICLR 2026 接收。 背景:Tool Retrieval的隐形障碍 随着API数量扩展至数千甚至上万,工具检索逐渐成为Tool-Use系统中的关键前置步骤:模型必须先在庞大的工具集合中找到合适的工具, 随后才能完成调用与执行。 论文构建了三个关键组件: 1. TOOL-REX:扩展版工具检索基准 近年来,一系列benchmark (如ToolBench、ToolRet等) 推动了相关模型的 ...
担心被曝“于谦门”,57岁的于谦到底用龙虾做了什么?
量子位· 2026-03-18 18:21
核心观点 - 于谦的视频播客《多新鲜呐》通过一次非技术性的公开测试,揭示了AI产品从行业自嗨走向大众破圈的关键在于将技术叙事转化为生活叙事,关注普通用户的真实需求、体验和顾虑,而非仅仅展示技术先进性 [2][3][25][27] 用户视角与真实需求 - 用户首要关注的是AI生成的结果是否贴近自己、是否酷似自己,而非背后的技术实现过程是否先进 [5][6] - 用户的核心需求是AI能否替自己省事,例如自动分析评论而无需手动翻看,关注点在于功能带来的便利性而非技术细节 [15] - 用户对AI的感知会因其拟人化的细节(如使用“得嘞”这样的口语)而显著增强,产生“它即是我”的亲近感 [9][10][11] - 于谦在节目中的好奇、惊讶和担忧,真实再现了绝大多数普通用户接触AI时的心理路径 [32] 被行业忽视的关键问题 - 行业内部多聚焦于模型能力、工具生态、Skill数量、Token、Agent架构等技术指标,而普通用户关心的是“我要不要装”、“安不安全”、“会不会出事”等基础但决定性的问题 [18][23] - 许多AI产品的对外沟通容易忽略用户对“省事”和“控制权”的关切,而这恰恰是产品能否被广泛接受的关键 [16][18] - 当把权限交给AI时,用户担忧的是可能失去的控制权以及潜在风险(如“于谦门”事件),这类安全问题在行业讨论中常被置于次要地位 [17][18] 传播与破圈的关键 - AI从行业走向大众的关键一步,是将沟通语言从“能做什么”、“模型能力”、“系统架构”转变为“我用它能干嘛”、“我会不会出事”、“它居然会说得嘞”等生活化叙事 [25][26][27] - 决定科技产品传播效率的,不仅是产品能力本身,更是谁能用普通人能理解的方式将其讲述出来 [35] - 于谦作为57岁的非技术背景人士,其真实的临场反应完成了一次面向大众的有效“转译”,为从业者提供了宝贵的用户视角参考 [30][31][34][36] - 这期节目的结构具有代表性:技术专家(GenJi)讲解技术逻辑,而于谦将其“翻译成人话”,这个过程补齐了用户视角,模拟了完整的用户路径 [22]
OpenAI新模型Day0就被嫌弃!排名拉垮,不如一月底发布的国产模型
量子位· 2026-03-18 17:18
文章核心观点 - 文章对OpenAI新发布的GPT-5.4 mini和nano模型进行了全面评测,核心观点是:尽管新模型在特定任务上相比前代有性能提升和速度优势,但其在综合基准测试中的排名并不突出,且与竞争对手相比,在性价比和部分性能上存在劣势,市场初期反响平平 [1][2][43] GPT-5.4 mini/nano 模型的市场定位与性能表现 - 新模型主打**快速和经济**,专门针对**编程、计算机操作、多模态理解以及子代理(subagent)** 进行了优化 [8] - 相比前代GPT-5 mini,新版mini和nano在性能上有提升,同时**运行速度提升超过两倍** [9] - 在多个专业评测中,mini/nano模型与满血版GPT-5.4的差距已经不大,性能上也基本与谷歌、Anthropic的轻量模型持平 [10] - 例如,在SWE-Bench Pro(软件工程)测试中,GPT-5.4得分为57.7%,GPT-5.4 mini为54.4%,GPT-5.4 nano为52.4%,而GPT-5 mini为45.7% [10] - 在OSWorld-Verified(计算机使用)测试中,GPT-5.4为75.0%,GPT-5.4 mini为72.1% [10][25] - **GPT-5.4 nano**是系列中最小、最经济的版本,适合速度和成本敏感的任务,如分类、数据提取、排序及简单的辅助编程任务 [13] - 这两个新模型适合延迟直接影响产品体验的工作负载,例如**编码助手、子代理、屏幕截图解析、多模态应用** [14][15] 模型在综合基准测试中的排名与竞争对比 - 根据公开的大语言模型评测基准Vals,GPT-5.4 mini在**综合排名中仅位列第13名**,其准确率为57.88% ± 1.97,优于OpenAI半年前发布的GPT-5(排名第16,准确率56.10% ± 2.00)[2][3] - 在**拓扑证明**测试中,GPT-5.4 mini和nano的表现中规中矩,分别排行第九和第十,不如早前发布的Kimi、Qwen、DeepSeek等模型 [4] - 具体得分:GPT-5.4 mini为26分(第9名),GPT-5.4 nano为23分(第10名)[5] - 横向对比显示,竞争对手模型在性价比上可能更具优势 - 有网友指出,排行第12的Kimi 2.5比新出的5.4 mini**便宜一倍多,延迟还更低** [4] - 在AI Benchy Compare评测中,Gemini 3.1 Flash Lite的**综合得分(8.10)和成本效益**均显著优于GPT-5.4 mini和nano [18] - GPT-5.4 nano成本效益(Cost Per Result)为0.769,总成本(TOTAL COST)为$0.077;GPT-5.4 mini成本效益为3.610,总成本为$0.289;而Gemini 3.1 Flash Lite成本效益为0.413,总成本仅为$0.0507 [18] 模型定价策略与成本效益分析 - OpenAI官方表示,在输出tokens上,性能近似的mini版本比GPT-5.4**便宜三倍**,nano版本则**便宜十二倍** [6] - 然而,若与旧版GPT-5 mini对比,同为mini档的模型,**价格却上涨了大约三倍** [6] - **GPT-5.4 mini定价**:输入每百万tokens $0.75,输出每百万tokens $4.50 [7][16] - **GPT-5.4 nano定价**:输入每百万tokens $0.20,输出每百万tokens $1.25 [7][16] - **GPT-5 mini定价**:输入每百万tokens $0.25,输出每百万tokens $2.00 [7] - 在实际任务中,nano模型展现出显著的成本节省 - 在**分类任务**中,nano准确率达70%,成本比GPT-5.4**降低十二倍**;调用超过一万次时,GPT-5.4花费约20.30美元,GPT-5.4 nano仅花费1.64美元,**节省幅度约91.9%** [29][31] - 在**翻译任务**中,nano得分55分(GPT-5.4为63分),超万次调用后**节省幅度仍达到91.3%** [32] - 在**写作任务**中,mini版本成本比满血版**低约六成**;超1万次调用时,mini花费29.61美元,nano仅花费10.30美元 [34] - 在**图片描述任务**中,nano模型使用2751个输入tokens和112个输出tokens,**费用仅为0.069美分** [38] 模型在特定应用场景下的实际表现 - 在**编程和Agent任务**中,新模型能够低延迟完成代码修改、调试循环和库导航,快速迭代 [19][20] - 在**子代理场景**中,开发者可将较小任务并行委派给mini子代理(如搜索代码库、处理文档),随着小型模型速度提升,这种模式价值凸显 [23] - 在**计算机操作和多模态任务**中,mini能够快速解析复杂用户界面截图,高效完成操作任务 [24] - 在**创意任务**上,如生成SVG图,nano和mini与满血版GPT-5.4仍有差距,但完成基础创作任务完全可行 [39] - 有用户实际测试后给予高度评价,认为在一些真实场景任务中,新模型**更便宜、更快、也更好用** [28] 行业与市场反应 - 文章指出,在当前的“龙虾热”(行业热潮)中,**全球所有模型厂家都在涨价**,OpenAI也不例外 [7] - 不少网友对新模型持保留态度,认为对比基准是老版本,而非其他厂家的新模型,甚至直言换新“**还真没必要**” [5] - OpenAI总裁发布新模型的评论区,最火热的讨论并非关于模型能力或价格,而是刷屏要求“**让4o回来!**” [45][47]
求码10天,我终于过上了在微信上使唤🦞的日子
量子位· 2026-03-18 17:18
文章核心观点 - 腾讯旗下产品QClaw通过升级为微信小程序,显著降低了AI Agent(文中昵称“龙虾”)的使用门槛,并增强了其在移动办公场景下的实用性,特别是在文件操作、内容生成等基础任务上表现出便捷性,但面对复杂任务时仍存在优化空间 [1][3][5][49][50][51] QClaw产品升级与核心功能 - 产品将微信入口从聊天窗口升级为**小程序**,支持上传或接收电脑端文件,并上线了可一键调用skills的**灵感广场**功能 [3] - 产品支持通过API进行自定义模型配置,同时自带默认模型,用户可按需选择 [11] - 相较于其他主流Claw产品,QClaw接入微信的流程非常简化,仅需**远程设置、扫码验证、确认**三步即可完成 [13][14] - 产品具备**本地部署**能力,支持Windows和苹果系统,对新手友好 [15] - 其**skills能力**完全兼容OpenClaw技能包,且“灵感广场”内置了许多可用技能 [15] 微信端场景实测表现 - **文件远程操作**:能够高效执行远程桌面文件整理任务,例如将152个图片文件一键清空,或将杂乱的桌面文件打包成不同类别的文件夹,耗时约**1分钟** [5][7][17][20] - **文件编辑与传输**:能够根据指令在电脑端找到特定文件、编辑内容(如输入指定标题)并将文档发送给用户,成功完成“远程操作+文字编辑”组合任务 [22][24] - **内容生成**:能够调用网络资料生成行业分析报告,例如生成一份近三个月OpenClaw热度分析报告,包含趋势、产品、关键词等内容,耗时约**五分钟**,但生成PPT的效果偏基础 [30][31][33] - **代码生成与创作**:能够在微信上根据简单指令创建功能完整的**俄罗斯方块小游戏**,并自动补全游戏规则和操作方式,耗时约**一分钟** [9][35][36] 电脑端与微信端能力对比 - 在电脑端执行相同的**调研报告生成任务**时,其信息增量和内容维度比微信端更充实,效果更好,虽非可视化形式但可直接使用 [47] - **灵感广场**功能在电脑端可用,内置大量实用skills供用户一键调用,增加了玩法和便利性 [47][49] 当前产品存在的局限与优化方向 - **复杂任务支持不足**:对于**定时推送**等偏复杂的定时任务,或**操作文件+知识搜寻**等复合任务,在微信端执行会显得吃力,流程不够顺畅,建议在电脑端运行更稳妥 [38][40] - **交互与流程透明度问题**:在微信端执行任务时,用户**无法看到Agent的思考和执行过程**,难以判断任务是卡住还是进行中,影响使用体验 [42][43] - **跨端操作不互通**:电脑端无法打断微信端正在运行的任务,相关操作仍需回到微信内完成,形成了操作闭环但体验割裂 [44] - **存在技术小问题**:实测中偶尔会出现**消息延迟**以及定时任务存在bug的情况 [40][51] 行业趋势与产品意义 - AI Agent(“龙虾”)的部署和使用门槛正在快速降低,从一个月前需要数小时折腾部署,进化到如今能便捷地接入微信等高频场景 [11][49] - 当AI Agent能够嵌入微信这类超级应用时,显著改变了用户对该类产品的使用习惯,推动了其向更日常、更移动化的场景渗透 [50][51] - 尽管存在不足,但此类产品的演进将大众对于AI Agent的想象力和应用边界向前推进了一大步 [52]
打破视频推理「先看后想」惯性,实现真正的「边看边想」丨CVPR'26
量子位· 2026-03-18 09:37
当前大型视觉语言模型在实时视频分析中的局限性 - 主流VLM视频推理系统采用“完整视频→统一编码→开始推理→输出答案”的逻辑,这在离线任务中可行,但在实时流式视频中会导致两个主要问题:延迟不可控,视频越长,首字输出时间越慢,交互体验差[7][8];证据错配,推理发生在“很久以后”,早期线索被长序列淹没,容易导致推理漂移或幻觉[9] - 为提升实时性,一些方法采用“帧文交错”的流式推理范式,即“看一会,说一会”,但这本质仍是串行处理,算力利用率低[9];当面对需要多步推理的复杂任务时,此范式问题加剧,因为引入Chain-of-Thought会显著拉长推理时间,模型在长时间思考时会阻塞生成通道,导致新的视频帧无法及时处理,造成推理过时或思路被打断[3][12][13] - 需要复杂多步推理的实时视频任务包括:因果事件推断、行为意图理解、长时序事件归纳和复杂交互分析等[16] TaYS解决方案:从串行到并行的流式推理范式 - 宁波东方理工大学沈晓宇团队的研究提出TaYS,核心结论是:要让VLM真正具备实时视频推理能力,必须从“帧文交错”切换到“并行”处理[4] - 该方案包含三大关键技术:流式注意力掩码,确保推理token只能看见已到达的视频帧,防止“偷看未来”,解决了流式场景下输入动态到达的问题[18][19];解耦式位置编码,将视频帧的物理时间轴与推理的逻辑生成轴分开,让视觉token和推理token各走各的位置索引,避免跨模态索引冲突,使时序推理更稳定[20][21];双KV-Cache机制,将缓存分为视觉KV-Cache和推理KV-Cache两套,使视觉编码(生产者)与LLM推理(消费者)能够真正并行运行,从而显著降低首字生成时间和整体延迟[22][23] TaYS方案的性能表现与实验验证 - 在Qwen2.5-VL等主流模型上的实验表明,TaYS在准确性上整体优于批处理基线和朴素的交错流式基线,尤其在事件动态、因果推断、主题理解等视频思维链任务上表现更佳[25] - 在延迟方面,TaYS大幅降低了首字生成时间,并且端到端的延迟更低、更稳定[26] - 消融实验验证了各组件的关键作用:去掉双KV-Cache会导致延迟明显反弹,证明并行是关键;去掉解耦位置编码则会使时序理解更易错位[27] - 实验数据量化对比显示,在不同帧率下,TaYS的首字生成时间极低,而批处理方法的TTFT高达10.36秒以上,交错流式方法的延迟则随帧率升高而增加;在准确性上,TaYS在多个任务上取得了优于或可比拟其他方法的表现[28] 技术突破的应用前景与行业影响 - TaYS将推动VLM从“离线分析”走向“在线智能”,开启更真实的应用形态[29] - 具体应用场景包括:机器人/具身智能,可实现边看动作演示边给出下一步指令,消除交互“卡顿”[29];安防监控,从事后检索转向事中预警,能在异常出现时及时推理更新[30];直播/教育,支持实时总结、答疑和解释画面内容,让AI真正参与互动[31] - 该技术代表了一次范式切换,Streaming reasoning可能成为下一代多模态系统的默认形态[31]
量子位编辑作者招聘
量子位· 2026-03-18 09:37
公司业务与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万+[12] - 公司在新榜和清博等第三方数据平台是AI及前沿科技行业TOP1新媒体[12] 招聘岗位方向与职责 - AI产业方向岗位关注基建层创新,包括芯片、AI Infra、云计算领域新进展及核心玩家动态[5][6] - AI财经方向岗位关注AI领域创投和财报,跟踪产业链资本动向,产出创投融资、招股书财报解析等稿件[6][11] - AI产品方向岗位关注AI在应用和硬件终端方向的进展,撰写AI应用产品深度评测,跟踪多终端新品发布[6][10] - 所有岗位均开放社招(编辑、主笔、主编)和校招(应届毕业生)[4][6] 岗位任职要求 - AI产业方向要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解,熟悉AI行业供应链与生态[11] - AI财经方向要求对数据敏感,对财报、股权结构、战略规划感兴趣,逻辑结构强且对商业叙事敏感[11] - AI产品方向要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士,熟悉各大终端厂商业态[11] 员工发展机会与福利 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人会由主编级编辑提供一对一指导[6] - 公司提供行业TOP薪资待遇,五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] - 公司团队氛围扁平、简单、开放、多劳多得[6]
阿里“悟空”上线!钉钉给企业送来龙虾大军
量子位· 2026-03-18 09:37
产品发布与战略定位 - 阿里巴巴在AI toB领域推出旗舰应用“悟空”,这是钉钉成立11年来推出的第一款独立APP,也是一个面向全球的AI原生工作平台[3][4] - 产品发布正值Alibaba Token Hub成立第二天,阿里巴巴集团CEO吴泳铭现身发布会,显示出公司高层对该战略产品的重视[12] - 此次发布并非简单的“钉钉加AI按钮”,而是钉钉11年来的一次自我突破,也是阿里在AI toB领域的重要布局[64] 产品核心功能与能力 - “悟空”以企业智能体为核心,拥有超强执行力,能落地于企业办公场景,可操作电脑、编辑文件、调用各类应用程序[6] - 产品能高效承接串联多平台、多任务,实现“一人搞定一个团队的活”,从日常办公提效到垂直行业深耕,实现指令即交付[13] - 通过“场景化Skill套件+预编排工作流+行业数据沉淀”组合拳,用户可一键启用行业解决方案[37] - 产品同步发布OPT十大行业解决方案,覆盖电商、跨境电商、知识类博主、开发、门店、设计、制造、法律、财税、猎头十大核心场景[34] 技术架构与核心创新 - 团队为让AI能真正替人干活,重写底层代码,将所有产品能力全面CLI化[9] - 全面CLI化意味着将所有核心能力逐一拆解、重写为标准化的CLI指令,为AI Agent打造了一套“原生操作语言”,解决了AI与办公软件之间的语言壁垒[52] - CLI化为AI实现推理与行动闭环、大规模上下文吞吐提供了底层权限与灵活性,这是传统GUI界面难以企及的,是AI Agent从“能聊天”到“能干活”的核心支撑[54][58] - 钉钉是首家明确提出并全面推进CLI化的头部应用,显示出阿里对AI原生的深度理解[60][61] 企业级安全与合规 - “悟空”针对企业级应用的关键短板——安全,搭建了四层安全防护体系[44][46] - 安全体系包括:Agent权限控制、安全沙箱运行、专属模型部署、Skill安全认证,确保操作权限可控、全程留痕、数据隔离[48] - 产品从第一天起就是为企业设计,能自动继承企业既有权限规则,操作全程留痕可追溯,token消耗与使用成本清晰透明[46] 市场影响与生态整合 - “悟空”作为独立应用已开启全球邀测,同时其Agent也将内置到钉钉最新AI 2.0版本中,用户可通过双入口使用[7] - 这意味着中国超过2000万家企业组织,将拥有自己的“AI员工军团”[8] - 阿里巴巴集团旗下淘宝、天猫、1688、支付宝、阿里云等核心业务的Skills将逐步接入“悟空”,使其成为阿里AI能力在企业工作场景的统一出口[66] - 产品将联合开发者生态共建企业级Skill生态,并全面兼容开源Skill体系,目标指向打造“全球最大的toB Skill市场”[39][40] - 在全球化布局上,产品后续将打通微信、Slack等全球主流即时通讯平台,支持电脑、手机多端远程唤醒[67] 应用场景与效率提升案例 - 在本地生活获客场景中,“悟空”能自动拆解任务,完成竞品分析、内容创作、发布及评论区互动引导的全流程,使“1个店长+悟空”等于一个7×24小时在线的智能门店团队[13][14][15][17][19][21][22] - 在企业人才招聘场景中,“悟空”能化身全职猎头,自动完成岗位分析、简历智能匹配、生成人才画像与沟通策略,使“1个管理者+1个悟空”轻松闭环招聘流程[23][24][25][26][27][29][32] 公司战略与组织调整 - 阿里巴巴宣布正式成立Alibaba Token Hub事业群,千问事业部、悟空事业部等归入其中[67] - 悟空事业部的定位是“打造B端AI应用入口,将模型能力深度融入企业工作流”[67] - 千问提供底层模型能力,悟空承载上层应用场景,“模型+应用”的闭环已然成型,体现了阿里在AI toB赛道上从基础设施到应用层的完整布局[68][69]
0产品获苏妈投资!前腾讯AI大牛刘威视频创业,又融了8000万美元
量子位· 2026-03-18 08:21
公司融资与战略 - AI视频初创公司Video Rebirth完成总额达8000万美元(约合人民币5.5亿元)的新融资[2] - 融资将用于其前沿视频生成产品线Bach系列模型的商业化落地与全球市场扩张[6] - 投资方包括亚洲顶尖风投机构、AMD Ventures、现代汽车(Hyundai)以及泛娱乐、出行和科技领域的领军企业,属于跨界战略联合投资[5] - 公司总部设在新加坡,业务目前只涉及海外市场,客户主要面向企业和专业个人用户[7] - 此次融资于2025年11月启动,当时公司产品仍处于研发阶段[8] - 公司计划在本月底进行新一轮较大规模的融资,目前已在小范围接触投资人[25] 创始人背景与团队 - 公司创始人兼CEO刘威是前腾讯杰出科学家、IEEE/AAAS Fellow,曾担任腾讯混元大模型核心技术负责人[2] - 刘威拥有深厚的计算机视觉与多模态AI领域积累,于2024年底离职后聚焦AI视频生成赛道创业[2] - 其学术背景强劲,是浙江大学竺可桢学院校友,拥有哥伦比亚大学计算机科学与电气工程博士学位[16] - 职业履历包括在IBM从事3年大规模机器学习与大数据分析研究,以及2016年6月加入腾讯,负责AI Lab计算机视觉、多媒体AI及混元大模型研发[18][19] - 刘威的学术影响力显著,Google Scholar统计其论文被引数超过5.9万,h-index指数高达116[20] 产品与技术 - 公司正在自研工业级视频生成模型Bach,该产品尚未对外发布[4] - Bach模型旨在解决现有AI模型常见的“画面崩坏”或物体变形等痛点[22] - 技术特点包括运用物理原生注意力机制(PNA)精准模拟时空动态,确保长镜头中角色与物理逻辑的绝对连贯性[22] - 凭借独有的MSSL创新技术,可提供流畅的原生30fps素材[22] - 模型采用独创的Dual Diffusion Transformer(DDiT)架构,以实现极致的指令遵循,解决专业创作者反复生成的痛点[23] - 刘威认为视频生成是通向构建交互式世界模型的最直接路径[21] - 在GDC2026活动上设有展位,外媒曾评价其产品可与OpenAI的Sora竞争[24] 行业趋势与市场定位 - AI视频生成行业已从技术验证期正式进入商业化落地与规模化扩张的关键阶段[12] - 以Seedance 2.0、Sora、PixVerse为代表,AI视频已解决音画同步、角色稳定、叙事可控等核心技术痛点[13] - 技术成熟度跨过临界点后,在广告营销、短剧创作、电商展示、影视预演、游戏动画等场景快速放量[13] - AI视频正从“尝鲜工具”升级为内容行业的新一代基础设施[13] - Video Rebirth通过视频原生的方式来构建世界模型,其技术路线和差异化定位受到投资方认可[9] 投资方观点与战略协同 - AMD Ventures投资是因为其视频原生构建世界模型的技术路线与AMD赋能前沿AI技术的战略愿景高度契合,AMD将作为其长期的底层基础设施伙伴提供算力支持[9] - 现代汽车集团看好该AI引擎能构建极度逼真的数字世界,为训练实体AI(Physical AI)提供绝佳的仿真场景,商业潜力远超传统创意媒体范畴[11] - 韩国CJ集团期待在其广泛的娱乐生态圈中,与Video Rebirth共同探索真正落地的商业应用场景[12] - 投资机构在投资时主要看重团队背景、技术路线和差异化定位[9]