AI前线
搜索文档
模力工场 034 周 AI 应用榜:OpenClaw 爆火,永不掉线的 AI 打工人时代来了
AI前线· 2026-03-13 13:01
OpenClaw引爆的AI代理生态与趋势 - 开源智能体框架OpenClaw的爆火,彻底破圈并催生了一整条AI代理生态链,从降低调用门槛、免部署托管到企业级自动化和社交实验,相关应用扎堆涌现[3][9] - OpenClaw因其用Python编写、文档友好、几行命令即可运行并能调用工具做自动化任务的特点,为技术爱好者提供了一个真正能跑通的框架,是其出圈的基础[9] - 本周上榜的十款应用共同回答了核心问题:当每个人都能拥有一个永不掉线的AI打工人,数字生活正在被重新定义[3][13] 降低开发与使用门槛的应用 - **WellAPI**:作为聚合主流AI模型的“超市”,它聚合了500多个主流模型,统一成OpenAI标准接口,使开发者一行代码就能切换模型,且价格比官方便宜80%以上,有效降低了调用AI模型的成本与复杂度[5][9] - **Happycapy**:提供轻量级入口,是一台运行在浏览器里的“Agent-native电脑”,用户无需部署,打开网页即可用自然语言交代任务,完成写代码、设计、整理文档等工作[5][10] - **MaxClaw**:基于OpenClaw的一键托管智能体服务,用户无需管理服务器、配置Docker或管理API密钥,点击部署即可获得一个拥有长期记忆、24小时在线的AI助理,并可绑定通讯工具实时响应[5][10] 企业级自动化与生产力工具 - **神笔AI Agent**:企业级AI自动化平台,提供400多个电商、营销、客服等场景模板,业务人员无需编程,用自然语言描述或录制操作即可搭建自动化流程,将业务响应速度从周级缩短到天级[5][11] - **Tabbit AI浏览器**:内置AI代理的智能浏览器,用户通过自然语言指令(如“帮我查竞品报告并整理成表格”),代理即可自动完成网页信息检索、数据汇总等复杂任务,是OpenClaw浏览器自动化能力的产品化版本[5][12] - **Zread.ai**:专为解决读代码困难,输入GitHub仓库链接,AI可自动扫描整个代码库并生成结构化项目说明书,帮助开发者快速理解陌生代码,本周被OpenClaw社区广泛用于理解skill代码[5][12] AI代理的社交属性探索 - **Moltbook**:首个专为AI代理打造的社交平台,界面类似Reddit,所有互动主体均为AI代理,人类仅作为观察者,上线几天已有几十万代理注册,代理自主发帖、评论、形成社群,甚至出现了“龙虾教”等自发社区[5][7][11] - **Second Me**:通过创建用户的AI数字分身,让分身先行与他人代理进行社交互动,找到共鸣后再促成真人深度交流,旨在降低社交门槛[5][11] 创意与工具集成 - **Udio**:AI音乐创作工具,输入提示词即可生成完整歌曲片段,越来越多的开发者开始将其API集成到自己的agent中,使代理具备“作曲”能力,成为代理工具箱里的神器[5][13] 生态活动与社区互动 - **OpenClaw中国行**:模力工场倾力参与,活动旨在让每个人都能在30分钟内跑通自己的AI,包含公益装机、应用实战、项目闪电秀等内容,北京站(3月15日)和杭州站(3月21日)已开放报名[4] - **直播对谈**:模力工场创始人将于3月13日与白话Agent主理人进行直播,探讨OpenClaw与“6个月挑战100个行业智能体”计划碰撞下的AI Agent开发真实路径与想象力边界[4]
30分钟跑通AI! OpenClaw中国行北京站本周日启动,CTO、投资人实战分享 | 模力工场
AI前线· 2026-03-12 15:15
活动概述 - 极客邦发起的“OpenClaw中国行”全国巡回活动正式启动,其宣言是“让每个人30分钟跑通自己的AI”,旨在发起一场“AI装机运动”[2] - 活动第一站“北京站”将于3月15日(周日)14:00在北京望京科技园E座OPC智创社区举办[3] - 活动鼓励参与者仅需携带个人电脑,现场将共同完成装机、跑模型、制作首个AI应用及社交等环节[4] 讲师与分享内容 - 讲师阵容涵盖连续创业者、企业高管、AI解决方案专家及投资人,他们将分享OpenClaw的实践经验[5] - 量子保创始人、原易到CTO汤鹏将分享OpenClaw在实际应用中的观察与判断[6] - 极客邦科技VP尹会生将分享主题《OpenClaw避坑指南:从“Agent神话”到生产级落地的7个致命陷阱》,提供实战经验[7] - 飞书AI解决方案专家刘海波将拆解OpenClaw在企业场景中的落地路径[8] - 领骏资本创始合伙人刘霄也是讲师之一[9] 活动形式与流程 - 活动流程融合了“公益装机运动、AI应用三板斧、AI项目闪电秀、AI工具市集、AI社区交流”五大环节[10] - 活动面向广泛人群,包括想学习AI的开发者、产品经理、创业者、学生、对AI感兴趣者及无经验者[11][13] 活动目标与行业意义 - 活动认为AI时代已经到来,每个人都应掌握AI能力,中国需要更多AI开发者[15] - 活动旨在通过OpenClaw中国行连接更多开发者、创业者和技术爱好者,壮大AI开发者队伍[16] - 活动获得了包括朝阳区人才工作局、望京科技园、InfoQ、极客时间、TGO鲲鹏会、模力工场等多家机构与社区的支持[16]
OpenClaw 走红背后:Agent、AI Coding 与团队协作的新问题
AI前线· 2026-03-12 15:15
OpenClaw的技术本质与出现背景 - OpenClaw并非偶然的技术突破,而是多项技术(如大模型长上下文、Programmatic Tool Calling (PTC)、技能工具使用机制)逐渐成熟后的集中呈现,代表了一种“product-technology fit”趋势 [6] - 其出现与Manus等产品类似,是技术能力达到阈值后的自然结果,例如2024年9月工具使用能力成熟,2025年年中大上下文窗口模型普及 [4] - 核心创新在于抓住关键痛点:将桌面Agent与聊天工具打通,通过channel网关等机制连接不同渠道,实现开箱即用的配置,让用户通过聊天工具驱动Agent执行任务 [7] OpenClaw的产品定位与用户门槛 - 迅速走红是因为满足了特定用户群体的需求,如自媒体从业者、一人公司和独立开发者,高度契合其多渠道信息收集、数据分析、自动发帖的Bot操作以及运维和信息聚合场景 [6] - 并非低门槛产品,要真正用好需要熟悉JSON配置、具备排障能力,并持续调试和优化skill,对普通用户存在相当门槛 [5][12] - 在实际使用中,稳定性管理非常重要,配置文件可能不稳定,重启后JSON配置可能被自动修改或损坏,且浏览器访问稳定性有待提升 [12] OpenClaw的架构设计与扩展性 - 架构核心是一个名为Pi的轻量智能体,只保留记忆检索和tool calling等能力,具体能力全部沉淀在skill工具中,扩展性较强 [15] - 核心思想是Programmatic Tool Calling (PTC),用代码描述整个工作流程,遇到无法解决的问题时会自己生成Python脚本并在沙盒中运行,解决了通过MCP或传统tool calling难以处理的问题 [14] - 其运作方式是动态加载skill,只需要用MD文件描述清楚,需要时便会自动检索并安装并执行任务,未来像LangChain或CrewAI这样的agent框架也可能变成skill被整合 [16] AI Coding的核心挑战:可控性 - AI生成代码的最大问题是不稳定与不可控,主要体现在需求理解容易出现偏差的幻觉问题、生成技术栈与团队现有技术栈不一致、以及生成代码可维护性较差 [18][19] - 在业务功能层面,即使使用Given-When-Then的验收条件,让AI自行检查也未必可靠,开发人员仍需进行集成测试,目前较困难 [20] - 一个关键挑战是如何将“什么是正确的需求实现”转化为AI可验证的形式,单个AI在提示词中自检往往非常自信,但人指出后又会承认错误,难以形成闭环 [21] 应对AI Coding挑战的方法论:SPEC Driven - SPEC driven方法通过在需求理解阶段将需求结构化,再转化为技术设计供架构师评审,之后进入plan阶段逐步执行,以保障AI coding在可控框架内落地 [5][19] - 团队可以使用EARS规则(Easy Approach to Requirements Syntax)将需求转化为标准化描述,帮助消除歧义,使AI理解更准确 [25][26] - SPEC driven开发模式适合多团队协作,产品经理需参与SPEC评审,架构师需评估技术栈与设计,一线研发需关注结果可验证性并基于SPEC生成TDD用例在CI/CD中执行 [32] 团队落地AI Coding的策略与护栏 - 需根据场景选择方法:需求具有探索性时可使用Vibe Coding(如Cursor、Claude Code)试错;需求明确且需对结果负责时,应采用SPEC driven等规范化流程 [28] - 最有效的三条护栏包括:1) 需求层面控制,通过需求标准化(如EARS)保证质量;2) 避免生成结果失控,关键手段是TDD,让AI自动生成测试用例并在CI/CD中执行;3) 制定统一的团队规范,如Skills、Lint规则、CI规则等,保证产出稳定性 [35] - 在开发过程中,不仅要完成业务功能,还要为代码库留下知识和规范,例如让AI持续总结每个模块,形成树状知识体系,或对历史代码进行总结以生成与代码库风格一致的规范 [36] AI Coding的实际应用场景与效果 - 一种新的开发模式是:在版本开始时,将整个版本需求交给Agent,让其生成包含大量代码片段的设计方案,其中约70%–80%可直接使用,开发人员只需筛选调整 [9] - 在具体实践中,不让AI直接修改代码,而是生成设计文档级别的修改方案并整理成可视化HTML报告,约有60%的代码片段可以直接使用,准确率高 [8] - 典型应用场景包括:让Agent自动整理CI/CD流水线状态和项目进展生成报告,或作为PM助手监督程序员进度、催收作业 [9][44] AI Coding的未来发展趋势 - 未来6-12个月的拐点可能包括:1) 多模态能力(如图像识别、复杂文档理解)提升;2) Context与Codebase处理方式变化,随着上下文窗口扩大,直接通过GREP搜索代码放入上下文的方式可能成为主流;3) 代码生成能力在底层领域(如驱动开发、系统编程)取得突破 [37] - AI Coding未来会朝更高自动化程度发展,类似OpenClaw的系统可能在更高层级协调多个系统,实现从需求接收到任务拆分、各微服务自动分析设计与编码、结合反思机制循环生成检查修复代码、自动集成测试的智能化全流程 [38] - 如果未来AI原生应用大量出现,应用只需一个超级框架,功能封装为skills,AI既负责开发又负责调用,那么AI Coding开发AI原生应用可能成为一个爆发点 [38] 企业实践与老项目维护 - 对于大多数公司,没有必要重复开发Agent,可以直接基于开源的PI Agent Core(约一千多行代码)进行二次开发,或Fork龙虾项目,重点是根据使用目的开发适合自己的skills或封装现有Agent框架 [42] - 维护老项目时,DeepWiki等工具非常重要,可帮助新人快速理解项目结构、依赖关系和架构设计,同时需结合需求文档、技术设计文档、历史Bug记录等知识库,让AI参考以判断正确实现方式 [49] - 针对老系统,可优先对修改频率最高的前20%热点模块进行知识工程整理,让AI帮助生成结构和文档规范,这可能解决80%的实际问题 [50]
狂裁1600人,换掉CTO、晋升“下一代AI人才”!SaaS巨头的转型焦虑
AI前线· 2026-03-12 15:15
公司重组与裁员 - 软件巨头Atlassian宣布进行重组,将裁撤约10%的员工,涉及约1600个岗位,并更换首席技术官,以进一步投资AI [2] - 裁员决定由联合创始人Mike Cannon-Brookes宣布,其表示这是经过“深思熟虑、极其全面”流程后的决定,旨在应对软件行业在增长、盈利、速度、价值创造方面已提高的“优秀标准” [3] - 超过100名员工参与了裁员岗位评估,优先保留拥有AI相关技能和可迁移技能的员工,公司正在将自身重新定位为一家“AI优先公司” [4] - 此次裁员将产生2.25亿至2.36亿美元的相关费用,其中裁员及相关成本预计总计最高可达1.74亿美元,缩减办公场地产生的退租相关费用至少为6200万美元,大部分成本将在3月底前产生并于6月底前支付完毕 [8] - 被裁员工预计将获得至少16周薪资的遣散费、每工作一年额外增加一周,以及延长的医保计划、按比例提前发放的奖金、归还公司笔记本电脑后可领取的1000美元“技术补贴” [8] 裁员影响与内部反应 - 受影响岗位中超过900个来自软件研发部门,裁员后公司股价在纳斯达克盘后交易中上涨逾4% [2] - 受影响员工中约640人位于北美,480人在澳大利亚,250人在印度,其余分布在日本、菲律宾、欧洲、中东和非洲 [4] - 内部员工对裁员筛选方式感到困惑与不满,有案例显示上轮绩效超预期、已任职五年的资深员工被裁,而入职不到三个月的新人未受影响 [4] - 有员工猜测裁员是因为公司之前招聘过多,并希望借此推高股价,同时公司上月已宣布暂停招聘工程师及相关岗位,叫停全球招聘计划,导致部分求职者被收回录用通知 [5][6] - 公司将内部办公聊天工具Slack的开放时间比往常延长了至少6小时,以便员工与同事道别,并计划举行全公司线上问答会 [8] 高层人事变动与AI战略转向 - 重组后,在Atlassian任职近四年的首席技术官Rajeev Rajan将于3月底卸任 [7] - 首席技术官职位将由内部晋升的Taroon Mandhana与Vikram Rao联合接任,两人被公司称作“下一代AI人才” [7] - 公司计划专注于AI开发和企业销售,将重点转向AI工具和协作产品,此前已在大力推进AI战略,包括自研AI工具Rovo、收购The Browser Company以及开发者智能平台DX,并计划将这些技术整合到Jira和Bitbucket等产品中 [7] - 公司希望通过重组重新平衡资源,为AI时代团队合作未来做准备,将支出和团队重新引导至与AI相关的技术和服务 [9] - 联合创始人强调,重组将改善公司财务状况,并“自筹资金进一步加大对AI和企业销售业务的投入” [11] 公司财务与市场表现 - 在过去12个月里,公司股价暴跌近74%,由于投资者担忧AI会让其服务被淘汰,市值已蒸发过半,两位联合创始人的净资产也缩水逾半 [2][11] - 公司通过Jira、Confluence、Trello等应用的订阅服务获得收入,2025年第四季度营收达16亿美元(合23亿澳元),同比增加3亿美元 [12] - 公司自2017年以来的每个财年均处于亏损状态,2025年第四季度净亏损4200万美元,高于上年同期的3800万美元 [11][12] - 联合创始人表示,此次重组将加快公司实现盈亏平衡的进程 [12] - 分析师认为,像Atlassian这样的软件公司有机会通过采用AI工具提升业务效率,重组可以减少实现现有业务并实现更高盈利增长所需的资源 [12] 行业背景与外部观点 - 联合创始人认为在AI时代所有企业都需重新自我审视,并非每一家SaaS公司都能在未来十年存活下来 [12] - 在Atlassian宣布裁员数周前,科技巨头Block裁掉了全球40%的员工(员工规模从1万人缩减至6000人以下),澳大利亚科技公司WiseTech宣布将在两年内裁员2000人(约占员工总数的30%),两者均提及AI相关原因 [13][14] - 有网友评论认为AI可能威胁Atlassian的核心产品,称“一个提示词就能建立Jira”,并预测其股票将归零 [13] - 也有网友评价许多公司因相信AI梦想而裁员,但结果惨败,几乎所有人不得不紧急重新招人 [14]
从概念到产线:具身智能真正卡在哪?| 直播预告
AI前线· 2026-03-11 17:32
文章核心观点 - 文章旨在探讨具身智能从概念走向产业落地过程中面临的核心挑战 通过一场汇集了产业界与学术界专家的直播活动 对算法 数据 物理交互和系统经济性四大关键瓶颈进行拆解[2][4][8] 直播活动信息 - 直播主题为“从概念到产线:具身智能真正卡在哪” 定于3月12日20:00至21:30进行[3] - 主持人为地瓜机器人算法副总裁隋伟博士 嘉宾包括地瓜机器人具身智能负责人何泳澔博士 乐享科技CTO李元庆 北京科技大学副教授彭君然博士[3][4][8] 具身智能落地面临的四大核心挑战 算法挑战 - 探讨了视觉-动作模型与视觉-语言-动作模型在算法层面的可行性与瓶颈 即“模型到底行不行”[4] 数据挑战 - 指出工业领域缺乏类似互联网的海量数据红利 因此如何利用有限的工业数据培育出智能成为关键难题[4] 物理交互挑战 - 提出机器人的“身体智商”问题 认为实现机器人与物理世界安全 可靠的交互比开发大模型更为困难[4][8] 系统与经济性挑战 - 聚焦于机器人的总体拥有成本与经济回报核算问题 即“经济账算不过来”是阻碍其大规模系统落地的主要障碍[5][8]
黄仁勋砸千亿兆瓦算力,押注下一个“Open AI”
AI前线· 2026-03-11 17:32
Thinking Machines Lab与英伟达的战略合作 - 英伟达与Thinking Machines Lab达成长期战略合作,将提供至少1吉瓦的下一代NVIDIA Vera Rubin系统,预计明年初部署,用于前沿模型训练和平台建设[2] - 合作不仅是算力采购,更是资本、芯片和技术路线的深度绑定,英伟达提供下一代算力底座,Thinking Machines Lab则在其上打磨训练体系、推理系统和模型能力[2] 合作规模与行业对比 - 1吉瓦算力规模巨大,相当于接近10个100兆瓦级大型数据中心的总量级,足以覆盖约75万个美国家庭的用电规模,整体投入成本可能高达500亿美元[4][5] - 该规模已与AI巨头处于同一量级:是OpenAI与英伟达10吉瓦历史性合作的十分之一,与马斯克为xAI规划的近2吉瓦及Meta在得州推进的1吉瓦级数据中心目标相近[5] - 如此庞大的算力指向持续的基础模型训练、多模态系统开发、推理平台搭建及大规模服务能力,而非小模型或轻量化工具[6] Thinking Machines Lab的公司背景与融资 - 公司成立于2025年2月,初始团队约30人中至少有20人来自OpenAI[10] - 成立仅5个月便获得20亿美元种子轮融资,为硅谷史上最大种子轮之一,投资方包括a16z、英伟达、AMD、思科等巨头[10] - 英伟达在种子轮后再度通过本次合作加码投资并绑定算力,黄仁勋曾称其团队为“世界一流的团队”[10] 英伟达的产业布局逻辑 - 英伟达通过提前锁定未来大客户进行全局布局,而非等待其成长后再抢单,旨在分享整个生态成长的红利,而非仅依赖芯片收入[12] - 面对成型AI巨头:与OpenAI达成10吉瓦算力合作;通过微软、英伟达、Anthropic三方绑定,为Anthropic提供下一代硬件、1吉瓦算力与最高100亿美元投资,实现技术深度锁死[11] - 面对AI新势力:广泛下注,包括向AI搜索公司Perplexity投资5亿美元,参投Runway、Figure AI、Wayve等明星项目,覆盖下一代热门赛道[11] - 投资Thinking Machines Lab是押注其成为下一个OpenAI级别的平台型公司,看重其未来长成平台的潜力[12] 英伟达的战略升级与标准争夺 - 英伟达的战略从“卖铲子”升级为“参与建矿”,希望深度嵌入下一代AI公司的资本结构、算力供给和技术路线图之中[13] - “绑定”方式是将客户锁进从芯片、网络、系统软件到数据中心的整套AI Factory全栈方案,旨在将自身架构写入客户训练、推理和运维体系,大幅提高未来迁移成本[14] - 英伟达CEO黄仁勋将AI产业概括为自下而上的五层架构:能源、芯片、基础设施、模型和应用,并强调最底层的能源是AI基础设施的第一性原理[14][16] - 黄仁勋预测到本世纪末,全球AI基础设施支出将达到3万亿至4万亿美元[17] - 英伟达正推进成为“AI工厂总包商”,最深层的争夺是未来AI工厂的**标准制定权**,包括训练大模型、跑推理、建设吉瓦级园区的默认架构、网络、供电冷却方式及系统软件栈[18] Thinking Machines Lab的业务定位与野心 - 公司切入的是模型后训练和微调基础设施领域,提供现成的训练工具解决分布式训练、任务调度等底层问题,让开发者专注于模型本身[20] - 其核心是搭建一套面向未来的AI基础平台底座,以支撑更大规模模型训练、复杂实验流程和高强度推理需求[20] - 公司强调多模态是核心,且研究与产品不可分,依赖稳定、可扩展的底层基础设施[23] - 大规模算力旨在同时支撑多个任务:前沿基础模型预训练、多模态与大规模MoE模型持续实验、模型后训练与优化、企业客户服务及面向科研机构的开放访问[23] - 野心不止于做出单一模型,而是将模型能力、训练能力和服务能力铺成一张可扩展的分发网络,旨在与OpenAI、Anthropic等巨头正面竞争[24] 行业竞争态势与公司挑战 - 当前AI竞争已从比拼“谁拥有更好的模型”转向比拼“谁能同时攥住资本、芯片、供电、园区和系统架构协同”[24] - Thinking Machines Lab在成立约一年内,团队从约30人扩张至约120人[24] - 公司面临核心联合创始人集体“叛逃”的组织动荡:2025年10月联合创始人Andrew Tulloch加入Meta;2026年1月,联合创始人Barret Zoph和Luke Metz与研究人员Sam Schoenholz回到OpenAI[24] - 公司的“全栈野心”正经历快速扩张期组织动荡的考验[25]
让LLM互相“审稿”:简单的LLM Collaboration/Ensemble方法实现7%性能提升
AI前线· 2026-03-11 17:32
文章核心观点 - 针对大语言模型性能差异和单一模型局限性,提出了一种名为LLM-PeerReview的完全无监督、简单有效的LLM集成方法,该方法受学术同行评审启发,通过创新的“翻转三元评分技术”来综合多个LLM的优势,实验表明其性能显著超越单一模型及其他集成基线方法 [4][16][27] LLM集成领域的背景与挑战 - 当前Hugging Face上已有超过182,000个模型可用,但LLM普遍存在准确性有限、幻觉等性能问题,且不同模型对同一提示的回答表现出显著差异 [2] - 现有“推理后集成方法”存在局限性:一类方法依赖任务特定训练数据且需微调大模型,缺乏灵活性;另一类基于相似性选择的方法设计粗糙,依赖浅层度量,其潜力未被充分开发 [3] LLM-PeerReview方法框架 - 框架包含三个顺次模块:评分、推理、选择 [12] - **评分**:复用模型集合中的LLM作为评估员,为每个回答打分,并提出了关键的“翻转三元评分技术”以减少评估偏差 [12][13] - **推理**:聚合多份评分,衍生出两个版本:LLM-PeerReview(简单平均)和LLM-PeerReview-W(加权平均) [12][15] - **选择**:对于每个提示,选择得分最高的回答作为最终集成结果 [12] 核心技术:翻转三元评分技术 - 具体操作包括:对同一提示的多个回答随机洗牌;通过滑动窗口对三元组及其翻转版本进行评分;每个回答从同一位评估员处获得6个分数,取均值作为最终评分 [13] - 该技术旨在缓解LLM-as-a-Judge中的两种偏差:一致性偏差和位置偏差 [14] - 实验证明,该技术是性能提升的关键功臣,使用该技术的单评审员变体比传统单点打分方法性能大幅提升(4个单评审员的提升分别为8.4%、7.2%、6.4%、7.1%) [24] 实验性能与结果分析 - 实验涵盖3种流行任务类型和4个常见数据集,对比了单一LLM、流行的集成基线及本文方法 [11][24] - **巨大性能提升**:LLM-PeerReview和LLM-PeerReview-W在平均性能上,以6.9%和7.3%的优势超越了先进的“推理后集成”方法Smoothie-Global,以7.2%和7.6%的优势超越了经典的“推理时集成”方法GaC [24] - **具体数据表现**:LLM-PeerReview在TriviaQA、GSM8K、MATH、AlpacaEval数据集上的得分分别为76.9、92.7、69.5、30.4,平均为67.4;LLM-PeerReview-W得分分别为77.0、93.0、71.0、30.2,平均为67.8,均显著优于所有基线 [24] - **其他发现**:使用较少的评估员(如单一LLM作为评估者)结合翻转三元评分技术,也能获得不错的结果;加权版LLM-PeerReview-W相较于基础版表现出了一些性能提升 [24] 方法优势与特点 - 方法完全无监督且无需微调,框架具有良好的可解释性 [17] - 既可应用于有标准答案的精确匹配生成任务,也可应用于开放式的生成任务 [17] - 相较于需要多轮交互的基于辩论的LLM协作方法,LLM-PeerReview仅需一轮打分,具有更好的计算效率 [21]
哈萨比斯唯一官方传记首度揭秘:曾想让DeepMind脱离谷歌,还准备了一个疯狂的“B计划”
AI前线· 2026-03-10 13:50
核心观点 - 文章核心揭示了DeepMind联合创始人德米斯·哈萨比斯在2022年ChatGPT爆发后,为守护公司“AI服务科学”的独立研发权,秘密策划了一项从谷歌母公司Alphabet剥离的“赎身计划”,计划筹集50亿美元转型为公益性质的AGI实验室,但最终因内部博弈而流产 [2][3] DeepMind的“B计划”与独立构想 - 早在2016年底,DeepMind领导层就酝酿了“B计划”,计划从外部投资者筹集50亿美元承诺资金,以脱离谷歌母公司Alphabet的掌控,这笔资金足以覆盖公司5年多的运营成本 [3] - 该计划旨在将AGI置于安全环境并建立可靠治理机制,为此组建了由律师、沟通策略师和投资银行家组成的团队,并计划采用“担保有限公司”的法律形式,强调公司向善、不分红的非营利性质 [3][4] - 团队意识到脱离谷歌面临复杂的法律障碍(如员工雇佣关系、知识产权归属),但准备以“符合英国公众利益”为由进行辩护,认为拆分能加强AI安全,且法律威胁本身对谈判具有价值 [5] 阿西洛马会议与关键融资进展 - 2017年1月,哈萨比斯与穆斯塔法·苏莱曼在阿西洛马AI安全会议期间,秘密会见了硅谷投资人里德·霍夫曼,商讨脱离谷歌并成立公益AI公司的融资计划 [7] - 里德·霍夫曼个人净资产达38亿美元,他出于对AI治理架构理念的认同,当场口头承诺注资10亿美元支持DeepMind的独立愿景,这一金额比他一年多前向OpenAI承诺的资金高出100倍 [8][9] - 霍夫曼支持独立、以公共利益为使命的DeepMind,认为AI技术不应被用于巩固垄断,并计划将90%的财富用于造福人类 [9] DeepMind与谷歌/Alphabet的内部博弈 - 哈萨比斯与苏莱曼同时推动“Alphabet拆分计划”,即让DeepMind在Alphabet架构下获得半独立地位,并设计了包含Alphabet代表和独立董事的“3-3-3”董事会治理结构 [11][12] - 谷歌CEO桑达尔·皮查伊表面上对拆分计划持开放态度,但通过首席法律官大卫·德拉蒙德明确表示反对,导致谈判陷入僵局 [12] - 皮查伊为打破僵局,提出一项“分而治之”的替代方案:将DeepMind一分为二,研究部门(由哈萨比斯领导)可半独立追求AGI,而应用部门(由苏莱曼领导)则并入谷歌,此方案在2017年春季缓慢推进 [14][15] - 2017年6月,在DeepMind公司全员会议上,苏莱曼展示了名为“DeepMind:一家全球利益公司”的组织结构图,暗示部分并入、部分拆分的计划,但随后因谷歌反馈的反对立场而被迫收回,导致双方关系降至冰点 [17][18] 行业背景与竞争格局 - 2016年底,OpenAI曾自豪地宣称获得10亿美元承诺资金,而DeepMind的“B计划”募资目标是其5倍,达到50亿美元 [3] - 行业内在AI治理模式上存在探索,OpenAI以非营利组织形式成立,其章程要求技术服务于社会,部分灵感来自DeepMind,但怀有更宏大的治理创新抱负 [8] - 科技巨头与旗下AI实验室关系普遍紧张,OpenAI与微软之间也存在类似情况,微软试图将合作打造成公关亮点时曾引发埃隆·马斯克的强烈不满 [7]
Anthropic工程师都离不开!深夜随手撸出的开源神器,被OpenAl高价收购,23人创业逆袭
AI前线· 2026-03-10 13:50
收购事件与公司概况 - OpenAI宣布收购专注于大语言模型安全的初创公司Promptfoo,以强化其企业级AI智能体平台Frontier的安全测试与评估能力[2] - Promptfoo成立于2024年,由23名员工组成,其开源工具被超过35万名开发者以及超过25%的世界500强企业使用[3][4][9] - 公司自成立以来融资总额为2300万美元,最新一轮A轮融资1840万美元后估值达到8600万美元[8] 产品技术与商业模式 - Promptfoo的核心产品是用于测试AI系统安全的开源工具,通过模拟攻击(红队演练)来发现提示词注入、数据泄露、模型越狱等风险[4][7] - 其产品通过自动化攻击者模拟用户或攻击者行为,对接客户AI应用进行测试,并记录结果、分析成因以迭代优化,暴露深层漏洞[7] - 公司于2024年正式商业化运营,并获得a16z 500万美元种子轮融资,吸引了Shopify CEO、Discord CTO等知名天使投资人[7] 收购后的整合与承诺 - 收购后,Promptfoo团队将加入OpenAI,其技术将整合进Frontier平台,为该平台新增自动化安全测试与红队演练功能[2][11] - OpenAI承诺Promptfoo将在现有许可下保持开源,继续维护项目并支持现有客户,该项目在Github上拥有11.3k Stars和超过248名贡献者[12] - 该开源项目允许开发者测试各类AI提示词和智能体,并对比ChatGPT、Claude、Gemini等大语言模型的性能,被Anthropic、谷歌等行业开发者广泛使用[12] 行业背景与竞争动态 - AI智能体(Agentic AI)的发展在提升生产力的同时,也带来了新的安全挑战,如被用于窃取敏感数据或操控系统[14][15] - 各大AI开发商正通过不同方式确保产品安全以推动企业付费,OpenAI收购Promptfoo是其加强企业级AI安全可靠性的明确举措[15] - 除了收购,OpenAI近期还推出了用于发现并修复大型数据库漏洞的AI智能体Codex Security;而Anthropic则选择自研,推出了利用Claude Opus 4.6扫描代码库的Claude Code Security工具[15][16] 创始团队背景 - 联合创始人Ian Webster此前在Discord领导LLM工程和开发平台团队,将AI产品扩展到2亿用户,他因发现AI安全测试基础设施缺失而创立了Promptfoo[5][7] - 另一位联合创始人Michael D'Angelo曾担任身份验证公司Smile Identity的工程副总裁兼AI负责人,拥有将机器学习解决方案扩展到服务超过一亿人、覆盖数百家企业的业绩[4]
OpenAI工程师不写代码了:AI写得太快,人类检查跟不上,Agent直接包办开发
AI前线· 2026-03-09 18:06
OpenAI内部开发模式的转变 - OpenAI工程师已基本不手写代码,在一个内部项目中,五个月内由Codex生成了100万行代码,构建了包括应用逻辑、基础设施、工具、文档和内部开发者工具在内的完整软件产品Beta版[2][3] - 公司内部文化为自下而上的创业公司氛围,团队小、决策快,工程师自主权高,好想法常由小团队自然形成并推进,而非来自高层制定的宏大计划[5][6][7] - 工程师的角色转变为“能力架构师”或“AI驾驭工程师”,核心工作从“写代码”变为设计环境、搭建反馈循环、定义架构约束,然后让AI智能体执行,即“人类掌舵,智能体执行”[11][12][13][14] AI驱动开发流程的核心实践 - 让应用对AI“可读”:将AI智能体接入Chrome DevTools协议,使其能像开发者一样操作页面、读取日志、抓取DOM和截屏观察界面,从而具备“眼睛”和“手”以进行测试和调试[20][40][41][42] - 将隐性知识显性化并写入代码仓库:确保所有规则和说明对机器可读,但采用“给地图而非千页说明书”的策略,提供导航而非一次性塞入所有细节,以避免上下文资源浪费和文档过时[21][22][23][24] - 设计“AI友好”的严格架构:例如强制规定每个业务域按固定层级组织,并强制依赖方向,任何违反都会被自动阻止,以此提升AI的工作效率[26][27][28] - 将人类“品味”编码为规则:将工程师的审美偏好(如文件大小限制、命名规则等)写成lint规则,使AI每次写代码都能自动遵守,实现“人类的品味一旦被捕捉,就可以应用到每一行代码”[29][30][31] - 建立自动化“垃圾回收”机制:针对AI可能复制代码库中不良模式导致的代码风格“漂移”问题,将清理原则编码进仓库,让Codex自动扫描问题并发起重构PR,防止技术债累积[32][33][34] AI智能体能力的演进 - AI智能体能够承担完整的软件开发与质量保证流程:包括写代码、启动应用、像用户一样操作UI、检查结果,并在发现问题后自动修改代码、提交PR、重启应用、重新运行任务,形成一个“发现问题 → 修改代码 → 再运行 → 再观察”的自动反馈循环,直到问题解决[44][45][47][52][53][54][56] - 智能体具备系统级的可观测能力:通过接入收集日志、性能指标和调用链的可观测系统,AI能像工程师一样排查服务错误、接口性能等问题[48][49][50] - 该全自动开发流程的成功运行高度依赖为特定代码仓库专门设计的结构和工具链,目前尚难直接照搬到其他环境[58] 对软件工程领域的潜在影响 - 软件工程的重点可能逐渐从“写代码”转向设计环境、规则和反馈机制,以使AI智能体能更稳定地参与构建和维护复杂系统[59] - 这种“AI驾驭工程”模式被视为一种现代控制论,历史上类似模式(如瓦特蒸汽机调速器、Kubernetes控制器)的出现,都意味着人的角色从执行者转变为系统的设计者和校准者[35][36]