量子位
搜索文档
20亿砸向00后创业机器人公司!估值一年暴涨7倍,国家级资本重仓
量子位· 2026-03-11 10:45
公司融资与团队背景 - 灵初智能近期完成总额约20亿元的天使轮及Pre-A轮融资,这是公司首次系统披露融资进展[3][4][5] - 融资资金将用于加速公司在物流场景的规模化落地与数据采集体系建设[4] - 公司创始人兼CEO王启斌在手机、智能音箱及机器人领域拥有20年产品操盘经验,曾担任黑莓、Sonos及云迹科技高管[8] - 联合创始人陈源培是00后,师从强化学习代表人物杨耀东,曾与李飞飞深入交流,并拒绝了华为“天才少年”的高薪offer[8] - 天使轮投资方包括国开金融、国中资本、央视融媒体产业投资基金等国家级资本、产业龙头资本及多家知名基金[10] - Pre-A轮由上海国资徐汇资本等领投,地方国资及市场化基金跟投,多家老股东超额跟投[10] - 过去一年中,公司估值已提升约6–7倍,正在向独角兽迈进[55] 核心战略与数据范式 - 公司核心战略是放弃昂贵低效的机器人遥操,All in人类原生数据,从Robot-Centric转向Human-Centric[9][13] - 公司认为具身智能的胜负手可能不在机器人本身,而在于数据范式[1][13] - 行业面临三大数据难题:仿真环境存在Sim-to-Real差距;机器人遥操成本高昂且碎片化;数据与硬件深度耦合形成封闭孤岛[10][11] - 公司认为UMI(Universal Manipulation Interface)设备数采是“美丽的陷阱”,本质是让人模拟机器,长期可能锁死模型能力上限[12][14] - 公司主张数据源头应来自人类本身,让模型学习“任务本质”而非“机器结构”,这决定了具身智能未来的天花板[14] 技术方案与成本优势 - 公司全栈自研并发布了全球首个具身原生人类数据采集方案Psi-SynEngine,核心逻辑是“以人为本”[17][19] - 方案使用便携式外骨骼触觉手套,精准捕捉人手21个关节自由度及全手触觉信息,不影响工人正常作业[19] - 通过手套采集数据的综合成本仅为真机遥操方案的10%[21] - 方案具备跨本体迁移能力,通过基于世界模型与强化学习的迁移算法,能将人类动作高质量映射到不同构型的灵巧手上,弥合Embodiment Gap[22][25] - 数据源头脱离硬件本体,使模型的能力上限被重新打开[25] 商业模式与能力飞轮 - 公司定位不是数据供应商,而是提供“会干活的脑”,即由数据喂养出来的、可迁移的通用操作能力[29][30][31] - 公司采用“模型驱动数据”的闭环路径,通过模型验证能力边界,再反过来定义数据体系,让数据成为紧贴模型目标、不断进化的结构化资产[32][33][34] - 2025年下半年,公司停止资源投入纯展示型Demo,全面转向真实数据采集与细分场景交付[37] - 公司选择高复杂度、强柔性的细分场景切入,例如“衣服供包”,已实现对上千件衣物的泛化抓取,节拍提升至800 UPH[39] - 公司形成了“能力飞轮”:每一个新场景的落地都在喂养模型,变强的模型又成为敲开下一个复杂场景的敲门砖[41][42] 全栈策略与竞争壁垒 - 在具身智能软硬耦合的赛道上,公司采取有边界的全栈策略,将精力集中在核心链路[43][45] - 对于市场上能买到且够用的环节绝不碰,但对于卡住核心能力的环节必须自研,例如自研数据手套和灵巧手[46][47] - 公司将自身定位为通用灵巧操作能力的“大脑驱动公司”,核心算法与数据链路自控,硬件形态保持开放,能根据不同场景灵活适配[49] - 公司认为真实场景的数据反馈具有复利效应,进场早、碰到复杂任务多才能抢先触达决定胜负的长尾数据[52] - 随着数据飞轮启动,数据成本下降,模型能力上升,这种领先优势具有排他性,时间差一旦形成,差距会快速放大[53][59][60] 行业趋势与资本动向 - 具身智能正在进入资本与产业共振阶段,灵初智能的融资结构释放出产业界对“具身数据基础设施”提前押注的信号[54][57] - 行业争夺的筹码已超出资金本身,时间成为最稀缺的通货[58] - 随着数据飞轮转速加快,比拼的本质从谁账面上钱多,转变成了谁跑在了时间的最前面[59]
养虾人狂吃国产模型!4.19万亿Token调用量激增34.9%超越美国
量子位· 2026-03-11 10:45
全球大模型调用量趋势 - 根据OpenRouter数据,上周(3月2日-8日)中国大模型周调用总量飙升至4.19万亿Token,环比激增34.9% [2][6] - 同期美国大模型周调用总量为3.63万亿Token,环比下降8.5%,中国在调用总量上反超美国 [6] - 这是继今年2月(9日至15日当周,中国4.12万亿Token首次超越美国2.94万亿Token)后,中国大模型再度强势登顶全球榜首 [3][9] - 在2月16日-22日当周,中国模型调用量曾达到5.16万亿Token,三周内增幅达127%,而美国模型则萎缩至2.7万亿Token,差距持续拉大 [9] 热门应用与模型排名 - 热门应用“OpenClaw”持续霸榜,自一月起已消耗全球9.16万亿Token,成为算力消耗的“黑洞” [4][32] - 上周全球大模型调用量Top 5中,中国产品占据三席 [12] - MiniMax M2.5表现稳健,继续蝉联全球榜首;DeepSeek V3.2持续增长;Step 3.5 Flash成为上周最大黑马,成功跻身全球前五 [13] - 在2月16日-22日当周,Step 3.5 Flash曾一举超越谷歌,成为全球第一 [15] - 本月OpenClaw使用最多的模型前三均为国产:Kimi K2.5(1.2万亿Token)、Step 3.5 Flash(1.18万亿Token)、MiniMax M2.5(1.07万亿Token),均超过1万亿Token,形成三足鼎立格局 [34][35][37] 不同任务场景下的模型表现 - 在编程(代码生成、调试、开发)使用情况中,上周前三名分别是MiniMax M2.5、Kimi K2.5、Claude Opus 4.6 [17] - 在英文语境下,中国大模型上周表现亮眼,包揽全球前三名,证明国产模型在全球开发者生态中的地位日益增长 [19][21] - 在不同上下文长度的Token消耗上存在差异:在1K-10K tokens任务中,海外主流模型(如GPT-oss-120b、Gemini 2.5 Flash)占据上风;在10K-100K tokens任务中,MiniMax M2.5和DeepSeek V3.2成为更多选择;在更长的100K-1M tokens上下文里,MiniMax M2.5优势明显 [23][24][25] - 在工具使用情况上,MiniMax M2.5以3000万次调用、占比16.9%一骑绝尘 [27][30] - 在图像生成上,谷歌的Gemini 2.5 Flash Lite更受青睐,上榜的国产大模型为Qwen 3 VL 235B [30] 模型性能与成本评估(PinchBench榜单) - 在专为OpenClaw适配的PinchBench榜单的成功率维度上,Claude Opus 4.6位居第一(82.5%),国产大模型Kimi K2.5(80.1%)、MiniMax M2.1(79.5%)、Qwen3-Coder-Next(79.1%)得分均超过79%,位于榜单前列 [39] - 在速度维度上,国产大模型整体排名靠后,Kimi K2.5位于第20名,MiniMax M2.1是第23名,MiniMax M2.5是第26名 [40][41] - 在成本(价格)维度上,国产模型展现出性价比优势:Qwen/Qwen-2.5-7B-Instruct($0.08)、DeepSeek/DeepSeek-Chat($0.11)、Z-AI/GLM-4.5-Air($0.12)、MiniMax/MiniMax-M2.5($0.16)、Stepfun/Step-3.5-Flash($0.26)均榜上有名 [43] - 综合来看,国产大模型在调用量和实际应用中已实现局部领先,但在极致的响应速度方面仍有待提升 [44]
龙虾社交上线40天被Facebook收购!俩文科创始人加入超级智能实验室
量子位· 2026-03-11 09:18
收购事件概览 - Meta公司收购了上线仅40天的AI Agent社交网站Moltbook,交易预计在3月中旬完成,具体金额未披露[1][2][7] - 此次收购被市场解读为具有防御性收购的意味[7] - Moltbook的两位联合创始人Matt Schlicht和Ben Parr将加入Meta的超级智能实验室,并向该实验室负责人汇报[2][8] Moltbook平台与业务 - Moltbook是一个专为AI智能体打造的社交平台,旨在让AI之间能够像人类一样交流、互动和协作[4][13] - 该平台被描述为相当于OpenClaw的专属Reddit,允许AI自主浏览论坛和发帖互动[5] - 平台的核心底层能力是能让AI智能体保持在线、互相发现并自动建立连接,相当于一个“永远在线的AI通讯录”[22][23] 创始人背景与平台走红 - Moltbook的两位创始人Matt Schlicht和Ben Parr均为媒体人背景,而非技术背景[9] - Matt Schlicht曾是硅谷产品经理并创办过拥有75万读者的科技杂志Chatbots Magazine,Ben Parr曾是Mashable和CNET的专栏作家[10][11] - 平台戏剧性走红的主要原因是一系列人类冒充AI发布的虚假帖子,内容涉及AI秘密研发加密语言以避开人类交流,这些帖子引发了广泛关注[15][16][18] 平台问题与Meta的收购动机 - 平台的爆火暴露了其致命的安全漏洞,即任何人都能轻松冒充AI发帖和操控账号,缺乏基本的身份验证与安全防护[19][20][21] - Meta首席技术官Andrew Bosworth曾公开表示,对“AI模仿人类聊天”兴趣不大,但更关注该平台存在的安全漏洞和人类入侵问题[27][28] - Meta官方表示,收购主要看中Moltbook让AI智能体持续在线并自动连接的底层能力,这被认为是其智能体生态布局的关键一环[22][24] - 市场推测Meta收购后的重点可能是优先修复平台安全问题,并在此基础上进一步完善和规范化其AI在线连接机制[29]
快排算法之父Tony Hoare去世,从古典学文科生出身到图灵奖得主,他的人生比算法更传奇
量子位· 2026-03-11 09:18
快速排序算法 - 快速排序是世界上使用最广泛的排序算法之一,被写进了几乎所有主流编程语言的标准库,如C、Java、Python [2][3] - 该算法由托尼·霍尔于1959年在莫斯科学习期间构思,旨在解决机器翻译项目中俄语单词排序的效率问题 [5][6][8] - 算法核心思路是“分而治之”,选择一个基准元素,将小于它的元素移到左边,大于它的移到右边,然后递归处理左右两部分 [13] - 其平均时间复杂度为O(n log n),是原地排序算法,仅需O(log n)的辅助空间,且对现代计算机缓存机制友好,实际运行速度快 [19][20][21] - 霍尔用一下午时间完善算法细节,并在一场与同事关于希尔排序速度的赌局中获胜,赢下六便士 [14][18] 霍尔的其他学术贡献 - 于1969年提出霍尔逻辑,这是一套用于验证程序正确性的形式化系统,为软件可靠性和安全性研究奠定了理论基础 [28] - 于1978年提出通信顺序进程模型,该模型专门用于描述并发系统中多个进程间的交互行为,并直接影响了Go语言中goroutine与channel的并发设计 [30][31] - 于1969年发表论文《计算机编程的公理基础》,提出了“霍尔三元组”概念,使程序的正确性可在开发过程中同步构造,成为编程理论领域最具影响力的论文之一 [61][62] - 其1961年用Algol 60语言实现的快速排序代码于1962年发表在《计算机杂志》上,成为其第三篇学术论文 [25] 空引用及其影响 - 霍尔于1965年在设计ALGOL W语言时引入了空引用概念,初衷是为了方便表示变量“没有值”,且实现成本极低 [41][42] - 此设计被后来的Java、C、C++等主流编程语言大量采纳 [43] - 霍尔在2009年的一次公开演讲中反思,称其为“十亿美元的错误”,指出它导致了无数的错误、漏洞、系统崩溃,在过去四十年可能造成了十亿美元的损失 [45] 霍尔的职业生涯与荣誉 - 霍尔最初在牛津大学学习古典学和哲学,后因在军队学习俄语,得以在莫斯科国立大学学习机器翻译 [50][51] - 1960年,他加入英国Elliott Brothers公司,领导团队完成了ALGOL 60编程语言的首个商用编译器开发,并成为公司首席科学家 [60] - 1968年转入学术界,先后在贝尔法斯特女王大学和牛津大学担任计算机科学教授,并在牛津领导编程研究小组长达22年 [60] - 1999年从牛津退休后,加入微软剑桥研究院担任高级研究员 [68] - 他于1980年因“对程序设计语言的定义和设计的根本性贡献”获得图灵奖 [35] - 他还曾获得京都奖、IEEE约翰·冯·诺依曼奖章,并被英国女王伊丽莎白二世册封为爵士 [74]
训练即服务!让模型训练回归算法语义,150行代码跑通RL
量子位· 2026-03-11 09:18
文章核心观点 - ModelScope团队开源了名为Twinkle的模块化训练框架,旨在为大模型后训练(尤其是强化学习)提供一条同时兼顾“易用性”与“灵活性”的新路径[1] - 该框架采用Client-Server架构,通过将训练流程组件化、提供算法语义抽象的API,使算法开发者能专注于训练逻辑,而将底层调度、资源分配等工程复杂性交给框架处理[1][5][14] 框架定位与设计理念 - 针对现有训练框架的不足:完全自定制训练门槛高,需兼顾GPU调度、资源分配等工程细节;而通用框架(如ms-swift)封装较深,算法定制需修改源码,且算力与算法深度耦合[12] - 核心设计理念是“组件化”,将大模型训练中可独立构建的部分收敛为标准模块,如Dataset、Model、Sampler等,当前已支持20余种算法组件[16][45] - 旨在通过API将训练算法语义进行抽象,让开发者关注算法逻辑,而将复杂训练流程(如Rollout -> Reward -> Update)的准确实现交给框架[14] 系统架构与核心特点 - 采用解耦的Client-Server架构,提供最大灵活性[21] - 支持多种运行模式:包括本地一体化部署、远端集群部署以及直接使用公用Serverless训练服务[8] - 提供灵活的后端支持,包括Transformers、Megatron等多样化训练后端[9] - 支持多租户训练服务:可在共享的基础模型部署上,同时训练来自多个用户的LoRA,实现算力效率提升[10][27] - 支持Python源代码启动,约150行代码即可编排复杂的RL训练循环[1][34] 接口设计与控制能力 - 在兼容Tinker API(如forward_backward, optim_step, sample)的同时,提供了更丰富的原生API以实现细粒度控制[7][22] - 细粒度训练控制:将训练步骤解耦,允许用户像编写本地PyTorch代码一样编排复杂循环,支持计算loss而不反向传播、清空梯度、仅执行前向计算等操作[23] - 动态组件配置:支持在运行过程中动态更新模型核心组件(如loss函数、优化器、对话模板等),无需重启服务或重新加载权重[24] - 远程数据处理:架构支持存算分离,可将数据逻辑(如dataset和dataloader)卸载到服务端运行,以处理Driver进程无法运行的大数据量场景[25] 多租户与并发训练 - 凭借“LoRA池+租户应用”架构,支持N个租户在完全隔离的环境下于同一基础模型上并行训练[27] - 支持异构配置:每个租户可使用独特的训练数据、优化器及损失函数[27] - 应用示例:不同租户可并发进行SFT微调、预训练、GRPO损失计算及logps推理等不同任务[29][30][31][32] - 服务端实现具备自动化集群管理与动态扩缩容功能,为规模化训练服务奠定基础[32] 性能表现 - 基于Qwen3-4B模型和GSM8K数据集的评估显示,在训练效果(奖励曲线趋势)与训练效率方面,Twinkle与基线框架veRL表现相近或更优[49][54] - 在torchrun条件下,Twinkle完成一个global batch的平均耗时约为70秒,veRL约为80秒[54] - 在昇腾(国产化)硬件上,Twinkle完成一个global batch的平均耗时约为20秒,veRL约为30秒,显示出优化后的速度优势[56][59] 开源、生态与合作 - 项目代码在GitHub上完全开源,覆盖Client和Server全部实现[6][11] - 与招商银行信息技术部深度技术合作,兼顾易用性与生产可用性,并完成了对昇腾等国产化硬件的原生支持与优化[6][56] - 作为开源社区项目,鼓励开发者通过提交PR开发新组件、贡献组件至ModelHub、共建新项目等方式参与[55] - 在ModelScope上提供了可直接使用的Serverless训练服务,当前支持通过Tinker API访问,后续将开放更多原生API[11][40]
量子位编辑作者招聘
量子位· 2026-03-10 18:00
公司业务与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年积累,在AI及前沿科技行业具有顶流影响力[1] - 截至2025年,公司在微信公众号拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 在新榜和清博等第三方数据平台,公司已成为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2] - 所有岗位均面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 工作地点位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层(芯片、AI Infra、云计算)新进展与核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会(如Hot Chips、NeurIPS、MLSys)报告进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业的供应链与生态(训练-推理、算力-成本、云-芯片关系)[11] - 要求能把复杂技术内容结构化表达,有技术背景、理工或CS/EE方向优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 职责包括产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访,具备社交型人格[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 职责包括撰写AI应用产品深度评测、跟踪多终端新品发布(手机、PC、XR、车机等)[11] - 需要对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并具备强逻辑、体验表达和结构化能力[11] 岗位通用要求与职业发展 - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能够用通俗语言解释AI新进展[6] 加入公司的优势 - 员工可站在AI浪潮之巅,第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工能玩转AI新工具,将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 员工有机会打造个人影响力,通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可拓展行业人脉,与AI领域大咖零距离接触,参与重要科技活动和发布会[6] - 应届新人会由主编级编辑担任mentor,提供一对一指导,帮助快速成长[6] - 公司提供扁平、简单、开放、多劳多得能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
最强龙虾终端!苹果M5 Max版MacBook Pro大神实测结果来了
量子位· 2026-03-10 18:00
核心观点 - 新款MacBook Pro搭载的M5 Max芯片通过底层架构重构,实现了显著的性能、续航及AI算力提升,尤其在专业内容创作和本地AI模型部署方面展现出强大竞争力 [1][4][8] 芯片架构与性能 - 采用Fusion Architecture技术,将CPU与GPU物理拆分为独立硅晶圆后再统一封装,突破了传统设计的散热与算力分配瓶颈 [9][11][12] - 彻底抛弃传统节能核,转向由超级核心与高频性能核构成的Bigger.BIG架构,实测性能核主频高达4.3GHz [13][14][15][16] - 满负载运行时功耗比M4 Max上升23%,但系统能有效控制发热,长时间高负载任务中主频可稳定在3.9GHz以上,未出现降频 [29][30] AI与GPU性能 - GPU的40个核心中均集成了独立的Neural Accelerator硬件加速单元,在重负载3D渲染测试中可提供约35%的额外性能提升 [17][18] - 12核Neural Engine显著提升了日常应用(如摄像头人像追踪)的AI算力表现,尤其在复杂光线或背景环境下 [26][27] - 614GB/s的超大内存带宽与翻倍的存储控制器带宽,为在本地高效部署和运行大规模AI模型提供了硬件基础 [6][22][28] 续航与能效表现 - 在PCMag的极限暴力测试中,视频播放续航达到27小时4分钟,比苹果官方公布数据长5小时 [1][2] - 在拔掉电源的离电模式下,其跑分成绩与插电时完全一致,实现了移动场景下的“满血”性能输出 [32][33] 专业生产力与接口 - 在达芬奇软件实测中,得分达到12509,性能超越上一代桌面级M4 Max设备,跨度显著 [23] - 单个Thunderbolt 5接口凭借120Gbps带宽,可同时驱动四台6K外部显示器,解决了多屏办公的连接瓶颈 [5][28] - 纳米纹理屏幕在强光干扰下仍能保持96% DCI-P3色域准度,保障了专业调色工作的环境适应性 [28]
LeCun三顾茅庐,谢赛宁终于入伙!新公司获投10亿美元
量子位· 2026-03-10 18:00
公司融资与估值 - 世界模型初创公司Advanced Machine Intelligence(AMI)完成10.3亿美元(约70.8亿人民币)种子轮融资,融资前估值达到35亿美元(约240亿人民币)[2] - 此轮融资由Cathay Innovation、Greycroft、Hiro Capital、HV Capital和Bezos Expeditions共同领投,知名个人投资者包括Mark Cuban、前Google CEO Eric Schmidt及Xavier Niel等[14][15] - 此次10.3亿美元融资刷新了世界模型初创公司的融资纪录,金额比此前李飞飞教授World Labs的10亿美元融资多出3000万美元[12][13] 核心团队构成 - 公司由深度学习三巨头之一、图灵奖得主Yann LeCun推动创立并担任董事长,其目标是将其AI理念商业化[1][24][44] - DiT(Diffusion Transformers)作者、纽约大学助理教授谢赛宁官宣加入,担任联合创始人兼首席科学官(CSO)[2][30] - 公司CEO由法国连续创业者、AI医疗公司Nabla创始人Alex Lebrun出任,COO Laurent Solly为前Meta欧洲副总裁[6][28] - 公司团队汇聚多位前Meta核心成员,包括前Meta副总裁、FAIR创始成员Michael Rabbat,其担任世界模型副总裁[36] - 香港科技大学教授Pascale Fung加入公司,出任首席研究与创新官[39] 公司背景与目标 - 公司全名Advanced Machine Intelligence(AMI),总部位于巴黎,成立于2023年12月,并在蒙特利尔、纽约和新加坡设有研究团队[41] - 公司的明确目标是打造能够理解现实世界、拥有持久记忆、具备推理与规划能力,同时保持可控与安全的新一代AI系统[43] - 公司技术方向被认为是LeCun在Meta时期提出的JEPA(Joint Embedding Predictive Architecture)框架的延续与落地,核心是开发能从传感器数据中学习并进行预测的世界模型[45][47] 技术路线与商业模式 - 公司坚持LeCun推崇的自监督学习范式,而非基于下一个token预测的监督学习范式,旨在探索不同于大语言模型(LLM)的通用智能路径[48][59] - 短期内公司没有明确的营收目标,但计划尽早与潜在客户合作,包括制造商、汽车厂商、航空航天、生物医药及制药集团[50][51] - 公司公开的首个合作伙伴将是CEO Alex Lebrun此前领导的AI医疗公司Nabla[52] - 公司计划延续开放研究理念,持续发表论文并尽可能开源代码,以构建围绕自身的研究社区和生态系统[54][55]
OpenAI为龙虾紧急收购了一家23人公司
量子位· 2026-03-10 16:00
OpenAI收购Promptfoo的战略布局 - OpenAI近期收购了专注于AI安全与评测的初创公司Promptfoo,旨在加强其在智能体(文中喻为“龙虾”)时代的安全能力[1][4][8] - 此次收购紧随OpenAI挖来“龙虾之父”Peter Steinberger之后,是其布局智能体协作领域的关键一步[1][52] 被收购方Promptfoo公司概况 - Promptfoo成立于2024年,是一个由23人组成的小团队,其核心产品是AI应用评测领域最流行的开源框架之一[10][17][21] - 公司两位联合创始人背景深厚,CEO曾任Discord LLM工程与开发者平台负责人,CTO曾任数字身份认证公司Smile Identity的工程副总裁及AI主管[11] - 公司在开源社区影响力显著,其框架拥有超过30万开发者用户,GitHub上获得11.2K星标,在被收购前,OpenAI、Anthropic、亚马逊等公司已是其用户[5][6] - 公司商业化进展迅速,拥有超过35万名开发者用户,月度活跃用户达13万,财富500强企业中超过25%(约125家)的团队使用其产品[17] - 公司在2025年7月完成了由Insight Partners领投、a16z参投的1840万美元(约合人民币1.27亿元)A轮融资,投后估值达到8600万美元(约合人民币5.92亿元)[18][20] Promptfoo的核心产品与技术能力 - Promptfoo的核心产品是一个开源评测框架,旨在解决大模型难以测试的工程化问题,将AI应用测试转变为标准化的工程流程[21][22][25] - 框架具备三大核心能力:一是自动化评测,允许开发者批量测试不同提示词和模型并自动评估输出效果[25];二是AI红队演练,模拟真实用户攻击以发现LLM应用潜在漏洞并生成安全报告[29];三是工程化集成,可嵌入CI/CD流程自动运行测试与安全扫描[31] - 该框架支持网页可视化界面和命令行工具,允许开发者在本地或服务器运行大规模评测任务[33] - 公司的长期愿景是使其框架成为AI领域的“标配工具”,类似于持续集成在DevOps中的地位,确保每次引入新模型或更改提示词时都能自动评估与测试[34][35] 行业背景与收购动因 - 行业正进入“智能体时代”,智能体被赋予访问邮箱、文档、数据库及调用各类API的高权限,其操作失误可能带来真实世界风险,使得安全性成为企业部署的刚性需求[7][45][46][47][49] - 智能体(龙虾)的流行与随之暴露的安全问题(如著名删邮件事件)使得市场对安全工具的需求变得刻不容缓[42][44] - 互联网为智能体重构呈现四大趋势:多智能体协作、MCP成为标准协议、语音交互爆发、测试驱动开发,Promptfoo的使命正从提示词评测工具进化为智能体时代的安全基础设施[37][38][39] 收购后的整合与影响 - Promptfoo被收购后将保持开源和独立运营,其技术将被整合进OpenAI的智能体创建和运行平台“OpenAI Frontier”中[9][56][57] - 此次收购被视为双赢,既补全了OpenAI在智能体安全方面的关键能力,也使Promptfoo的技术能更广泛地应用于前沿平台[8][58] - 在智能体时代,能自动执行任务的智能体本身也可成为评测大模型真实能力的新工具,推动了行业评测标准从“刷榜”向实战能力检验的演进[59]
给龙虾定MBTI、发工牌,还让龙虾偷技能…打工人得适应新环境了
量子位· 2026-03-10 16:00
文章核心观点 - AI智能体技术正从单兵作战的聊天机器人阶段,迈向能够深度融入真实业务场景、具备感知与执行能力的“智能体”阶段,其关键在于为AI大脑配备传感器、手脚和记忆系统[31][32][33] - 智能体要在真实商业环境中有效工作,必须解决三大组织管理命题:理解组织结构与权限、拥有稳定身份、具备分层的记忆系统[36][39][43] - 当前行业最缺乏的是一个能让智能体“安家落户”的合适工作台,该平台需具备通畅的通信能力、结构化的业务数据流和丰富的协作上下文[46][47] - 飞书平台因其API模块化、天然承载企业通信与业务数据、以及低门槛部署等优势,成为众多开发者将智能体接入真实生产环境的首选平台[47][48][49][50] 智能体技术发展现状与案例 - 行业动态:近期多家公司发布新的AI模型,旨在降低本地部署门槛,例如智谱和腾讯的模型最快可在1分钟内完成部署[1] - 创意应用案例:开发者利用智能体技术创造了嵌入语音识别芯片的“赛博小马”,可通过语音指令操作电脑完成打开网页、生成视频、创建文件夹等任务[2][3][6] - 管理可视化创新:有项目为智能体开发了RPG风格的可视化面板,可实时查看AI状态(休息、工作、同步数据、修复Bug),并能实现“搬家”、探索新地图、自动生成技能树及联机共享技能[7][9][10][11][12] - 实用工作场景案例: - **视频自动剪辑**:智能体可根据指令自动对视频进行静音检测、语音转录和切片剪辑,例如将一段9分钟的视频精剪至39秒,并能处理多段素材的自动选取与拼接[16][17][18][19] - **电子班主任**:在教辅场景中,智能体可读取学生文档并给出评分与修改建议,辅助复试、搜索资料、评价文献综述,在一周内被调用超过**2万次**API,能实现规模化个性培养[22][23] - **MCN海外营销**:采用多智能体协同的“蜂巢虾群”系统,为不同智能体设定MBTI性格以增强拟人化协同,精准解决传统MCN依赖人力堆叠的痛点[28][29][30] 智能体融入生产环境的核心挑战 - **挑战一:理解组织结构与权限**:智能体必须融入企业现有权限体系,明确自身角色、服务对象及数据访问权限,否则无法进行有效的数据查询或自动化审批[36] - **挑战二:需要稳定的身份**:如同员工拥有工牌,智能体需要一个绝对唯一的标识,这是建立长期信任、实现多智能体及人机协作的基础[39][40][41] - **挑战三:需要分层的记忆系统**:智能体需具备短期记忆处理即时指令,以及通过长期记忆(如向量数据库)沉淀项目背景、用户偏好和历史记录的能力,以做出符合上下文的决策[43][44] 平台的关键作用与飞书的优势 - **平台的核心价值**:一个开放、包容、数据结构化且具备协作基因的底层平台,决定了智能体在实际应用中的表现上限[54] - **飞书平台的具体优势**: - **API模块化**:将云文档、日历、多维表格等核心办公组件进行了API封装,简化了开发流程[48] - **天然的业务数据承载**:平台本身已承载企业通信和业务数据,智能体可直接接入,无需额外导入历史数据[49] - **低门槛部署**:已实现一键在飞书上部署智能体,大幅降低了使用门槛[50] - **本土化普及优势**:其普及速度体现了中国式优势,是国外软件难以比拟的[51] - **行业影响**:智能体技术已走出实验室,正在飞书等平台上经历真实生产环境的大考,先行者们正在重塑未来的工作与协作方式[52][55][56]