通用智能体
搜索文档
入职Meta的吴翼,清华叉院官网已撤其教职信息
是说芯语· 2026-04-13 15:00
吴翼职业变动与背景 - 吴翼可能已不再担任清华大学交叉信息研究院的教职,其名字已从该院官网人员队伍页面消失[1][2][3] - 吴翼已正式加盟Meta的超级智能实验室,该实验室是Meta于2023年7月成立的核心AI业务单元,聚焦打造超越人类能力的通用智能系统[5][6] - 此次加盟由Meta首席执行官扎克伯格亲自出面挖人,吴翼将直接参与Meta在超级智能及多智能体系统的前沿攻坚[7][8] 吴翼的教育与职业经历 - 吴翼是1992年出生的IOI银牌得主,被保送至清华大学交叉信息研究院姚班,师从图灵奖得主姚期智[13][14] - 他在加州大学伯克利分校获得人工智能博士学位,师从Stuart Russell,研究方向包括多智能体系统、深度强化学习等[15][21] - 截至当前,吴翼累计在ICML、NeurIPS、ICLR等顶级会议发表论文40余篇,其主导提出的MADDPG、MAPPO等多智能体强化学习算法是该领域的重要工作[18][19] - 他的职业经历包括在Meta、MSRA实习,在OpenAI担任4个月的访问研究员,以及回国后在清华大学担任助理教授并在上海期智研究院担任首席研究员[15][20][22][25] 清华叉院的产学研模式 - 清华大学交叉信息研究院允许教职人员同时在产业界任职,与吴翼同称为“伯克利归国四子”的另外三位助理教授均在具身智能赛道创业[28][30] - 图灵奖得主姚期智的嫡传弟子楼天城既是小马智行联合创始人兼CTO,也是清华叉院的兼职教师之一[32] - 这种模式是清华叉院因应AI领域产学研特性的灵活体现,旨在培养复合型人才[32] 吴翼的近期职业活动 - 2023年,吴翼创办了聚焦AI方向的边塞科技,该公司于2024年11月下旬被蚂蚁集团收购,团队整体并入蚂蚁生态但保持独立[26] - 收购后,吴翼同时担任蚂蚁集团强化智能实验室首席科学家与边塞科技负责人,并保留清华叉院与上海期智研究院的职务[26] - 目前清华叉院的招聘信息显示,教职人员工作地点要求在北京,而Meta在中国无研发办公室,这可能是吴翼教职变动的原因之一[10][11]
清华大学:《2026全球通用智能体竞争研究报告》
欧米伽未来研究所2025· 2026-04-06 22:49
清华大学清新研究团队《2026全球通用智能体竞争研究报告》核心观点 - 判断通用智能体竞争格局的核心指标已从模型基准分数转向任务交付能力与工作台入口控制力 市场对AI竞争格局的解读不应再以OpenAI、谷歌、Anthropic等“底座能力层”的模型供应商为中心 真正的竞争主战场在产品层 由Manus、Genspark、Flowith等平台争夺成为用户的“默认任务承接方” [1] - 通用智能体的本质被重新定义 核心不是“谁更会答题” 而是“谁更像一个能接活、能交付、能持续协作的数字同事” 必须能够接收开放性任务、自主拆解步骤、调用工具执行并交付可用结果 [2] - 报告提出了“原语层与产品层分离”的首创概念 明确区分底座厂商与产品层玩家在价值链上的不同位置 前者提供能力基础设施 后者提供用户实际工作体验 [8] - 竞争的未来决定性变量不是谁拥有更大的模型 而是谁掌握了用户的工作流 通用智能体竞争将越来越像产品竞争而非模型排名竞争 [10] - 报告划定了新的分析标准 如果报告主轴还是GPT、Gemini、Claude 那就还不是通用智能体报告 [11] 产品层竞争的三条核心路线 Manus:强执行代理路线 - 关键差异化在于BrowserOperator机制 允许系统直接在用户本地浏览器中操作 利用现有登录状态与活动标签页 比纯粹的云端浏览器代理更接近真实生产环境 [4] - 具备文件生成与交付能力 能将任务结果输出为PPT、网站、代码等实质性产物 实现了从“信息交付”到“成果交付”的跨越 [4] - 报告将其定位为争夺“交付心智” 其官方表述为“不像ChatGPT给出答案 Manus交付的是工作成果” [4] Genspark:套件化工作台路线 - 被定义为“agent-native工作套件” 通过整合AI Slides、AI Sheets、AI Docs、AI Designer、AI Developer与Teams等模块进入统一工作台 [5] - 争夺的是更持久的“工作台入口” 而非单次任务交付 这种结构设计能形成“工作台护城河” 用户迁移成本随使用深度快速累积 [5] - 报告将其定位为争夺“工作台入口” 其护城河类比于操作系统层面的切换成本 入口一旦固化 竞争对手以功能对抗很难形成有效冲击 [5] Flowith:上下文操作系统路线 - 定位为“canvas-first的上下文空间” 通过Canvas、Recipe、Nodes与Knowledge Garden将智能体行为显式化 构建支持深度研究、复杂项目推进与长期知识积累的协作环境 [6] - 将自身定义为“next-generation AI Agent Operating System” 野心是成为智能体运行的默认环境本身 而非某类任务的最佳工具 [6] - 报告以“自我优化、记忆与速度”为关键词捕捉其产品哲学 判断其在深度研究与长期知识工作场景中具有最高辨识度 定位为争夺“上下文操作系统” [6] - 三条路线短期内更可能共存于市场 而非某一方完成对另外两者的全面覆盖 [6] 对大型AI实验室的重新定位 - OpenAI、谷歌、Anthropic的主要贡献发生在“原语层”而非“产品层” 它们更接近“底座能力层”的动作原语供应商 [1][7] - 报告将三家的核心价值概括为提供“computer use、browser use、tool use”等动作原语 这些是感知、理解、操作与交互能力的基础层供给 决定了智能体的能力上限 [7][8] - 能够点击网页、切换工具、执行复杂流程 不等于成为用户心目中默认的通用智能体 真正占领用户心智的是把原语做成完整任务产品的人 [8] - 原语层与产品层的关系是垂直分工 而非零和对立 [8] 竞争维度的重构与核心概念 五个核心竞争维度 - 报告系统提出了五个核心竞争维度以替代以模型参数和基准测试为中心的评价体系 包括任务交付能力、环境控制能力、工作台与记忆、用户入口与平台黏性 以及企业治理与控制面 [9] - 这五个维度覆盖了从单次任务交付到长期工作流控制的完整竞争图谱 [9] 广度智能体与深度智能体 - 报告引入“广度智能体”与“深度智能体”的区分框架来处理通用型平台与垂直代理之间的关系 [9] - 以Devin为例 其被定性为“最典型的高价值垂直代理” 核心场景是软件工程 其深度优势来自于放弃广度覆盖 [9] - 判断广度智能体与深度智能体将长期并存 前者争夺通用任务的默认入口 后者在专业场景建立难以替代的纵深壁垒 [10] 交付替换权 - “交付替换权”是报告提出的最具战略落地价值的原创概念 指一旦某个智能体成为用户处理各类任务的默认承接方 它便会演变为新的工作入口 具备持续的任务支配力 [10] - 谁先在这一位置建立稳定的用户认知 谁便更接近通用智能体时代的平台红利 [10] - 用户会围绕那些真正能把活做完的智能体迁移 这种迁移产生的数据、记忆与工作流惯性将形成远比模型领先更持久的竞争优势 [10]
企业智能体“三宗罪”
36氪· 2026-02-13 19:15
文章核心观点 - 企业智能体在2025年面临发展困境,其宣称的业务落地优势正被快速进化的通用智能体所覆盖,同时自身存在性价比低、技术壁垒薄弱等问题,可能只是一个过渡性方案 [1][3][7][17] 通用智能体与企业智能体的市场认知对比 - 通用智能体(如Manus, openclaw)被视为长盛不衰的技术网红,自带流量,能吸引企业决策者目光,因其展示了将模糊想法转化为可执行行动、自主完成复杂任务的AGI蓝图,符合企业对“数字员工”的终极期待 [3][5][7] - 企业智能体被部分员工和软件公司认为能扎根业务、无缝融入现有工作流(如ERP, CRM),自动化繁琐流程,但被老板视为不顶用,在员工眼中存在纯忽悠的认知,市场表现雷声大、雨点小 [1][3][5] 企业智能体的核心问题(“三宗罪”) - **问题一:叙事吸引力不足** 企业智能体缺乏性感的商业故事,无法像通用智能体那样提供解放生产力的宏大叙事和创意吸引力,决策者内心更青睐通用智能体,企业智能体仅是当前技术、成本、风险约束下的短期理性选择 [4][5][7] - **问题二:技术壁垒脆弱** 企业智能体的能力优势正被基础大模型进化所侵蚀 - **脑力短板**:2025年基础模型升级后,通用智能体(如openclaw)的多步骤推理逻辑性、准确性显著提升,能稳定处理复杂任务并自主优化策略,而许多企业智能体仅是基础大模型与RPA的简单拼接,缺乏真正技术壁垒 [8][9] - **能力短板**:随着智能体通信协议(如MCP, skill)出现,通用智能体可实现成熟的多智能体调度并灵活调用技能,覆盖了部分原本属于企业智能体的工作内容 [11] - **眼力短板**:通用智能体通过升级的上下文处理能力,能记忆更长对话历史、精准理解复杂业务背景,高效适配长篇文档处理、复杂业务流程对接,正在打破企业智能体依靠行业专属数据微调与集成的优势壁垒 [11] - **问题三:性价比堪忧** 企业智能体开发成本高、商业模式不成熟,导致其性价比低 - **成本高**:开发需经历数据准备、模型微调、与老旧系统集成对接、驻场开发及持续维护,投入大量人力,走传统软件“卖人天”的老路 [13] - **收益不确定**:主要商业模式(License, SaaS, Outcome-based)中,按结果付费的定价方式仍在探索,企业客户付费意愿保守,不愿为不确定价值支付高额成本,且企业智能体无法像通用智能体那样带来估值提升、品牌溢价等附加收益 [15] - **定位尴尬**:既不如通用智能体灵活易开发、标准化程度高,也不如传统SaaS软件投入产出匹配,如同企业“中层”,消耗成本高但创造价值有限 [12][13][15] 行业发展趋势与结论 - 2025年是智能体发展的里程碑,其作为企业数字化转型核心引擎的地位已确立,但也是从理想回归现实的清醒之年,将技术Demo转化为稳定创造价值的生产力工具存在巨大鸿沟 [17] - 企业智能体作为一条产品路径,其技术迭代更替是常态,如同编程语言的演进,真正受影响的是仅掌握该单一技能的从业者 [17] - 通用智能体能力持续快速提升(例如2025年底的openclaw比年初的Manus更好用),正不断覆盖企业智能体的能力边界,两者能力差距远比想象中要小 [8][11]
DeepAgent与DeepSearch双双霸榜!答案指向openJiuwen这一新兴开源项目
机器之心· 2026-02-12 13:16
行业趋势与市场背景 - 2025年被称为“AI智能体元年”,行业涌现大量智能体,市场对更高级、更通用、更可靠的超级智能体存在全球性集体渴望 [1] - 衡量智能体实力的两大权威基准是GAIA(通用智能基准)和BrowseComp-Plus(深度研究与网页浏览能力基准),它们已成为行业核心比拼赛场 [1] 核心事件与成就 - 基于新兴开源项目openJiuwen构建的智能体DeepAgent和DeepSearch,双双登顶GAIA和BrowseComp-Plus两大权威榜单榜首 [2] - DeepAgent以91.69%的平均得分登顶GAIA榜首,超越了英伟达Nemotron等一众海内外领先智能体 [4][5] - DeepSearch以80.00%的准确率登顶BrowseComp-Plus榜首,领先第二名(准确率78.41%)1.59个百分点 [26][28] GAIA基准与DeepAgent分析 - GAIA是由Meta与Hugging Face联合打造的通用智能体评测基准,覆盖长程任务规划、多模态理解、工具调用等12类核心能力,设置三个难度等级,Level 3任务难度接近人类水平 [8] - 人类参与者在GAIA测试上的平均成功率约为92%,而GPT-4(即使有插件帮助)的表现仅约15%,凸显了该基准的严苛性 [9] - DeepAgent得分91.69%,已无限接近人类92%的水平,意味着其在规划、执行稳定性、工具协同等维度形成系统级优势,通用智能体任务执行能力接近人类 [13] - DeepAgent的三大核心理念支撑其登顶:1)具备动态自演进引擎,实现从“线性执行”到“闭环自治”;2)拥有多层级上下文引擎,保障认知一致性;3)采用异步工具编排总线,实现异构工具的统一调度与可靠执行 [16][17][19][20][21] BrowseComp-Plus基准与DeepSearch分析 - BrowseComp-Plus是衡量智能体深度搜索、研究与网页浏览能力的核心权威基准,覆盖多跳检索、跨源信息整合、检索推理规划及网页内容理解等核心能力 [29] - 该基准采用固定人工验证语料库和严格准确率评分,规避了实时网络动态性带来的评测偏差,结果可复现、可审计 [30][31] - DeepSearch登顶意味着其在多跳深度搜索、跨源信息整合、干扰信息甄别、网页内容理解等维度形成了核心技术优势 [31] - DeepSearch通过构建三大核心引擎实现突破:1)实体认知引擎,自动识别关键实体并建立可追踪的状态演变历史;2)并行推理路径管理,将复杂问题分解为多分支推理路径动态探索;3)智能行动探索系统,通过异步并发与自适应调度平衡探索深度与路径多样性 [32][33][35][37][39] 底层技术平台:openJiuwen - DeepAgent和DeepSearch的硬核实力均依托于同一个技术底座——开源平台openJiuwen [42] - openJiuwen是一个面向生产环境打造的平台,聚焦智能体的高精准、高可控执行,构建了从开发、调度、执行到优化的全链路能力体系 [42] - 平台原生支持多智能体协同和智能体自演进,其智能体控制器结合上下文引擎的异步压缩与动态卸载能力,适配复杂任务的调度需求 [43] - openJiuwen创新性地将Agent自演进融入架构原生设计,支持上下文、工具、记忆等多元要素协同工作并参与闭环自主优化,让智能体能够持续演进 [43] - openJiuwen已在华为云行业智能体平台和小艺智能体开放平台完成商业化落地,赋能鸿蒙智能体开发,并逐步进入金融、制造等行业核心生产系统 [43] 行业意义与定位 - 基于openJiuwen构建的智能体在两大权威榜单登顶,标志着智能体领域出现清晰分水岭:一边是停留在“语言交互”的智能体,另一边是能够规划任务、调度资源、稳定执行、自我修复的生产级系统 [45][46] - openJiuwen的定位是为生产级智能体提供一个高准确、高可用、高效率的一站式AI Agent平台,开发者可基于此构建复杂、可靠的智能体应用 [46][47]
2026北京青年经济:多元深耕科技赋能
新浪财经· 2026-01-22 05:34
文章核心观点 2026年北京青年的经济生活将呈现多元深耕、科技赋能、稳健前行的特征 十大关键词揭示了青年在经济活动中的主要趋势和方向 包括职业选择、理财观念、消费行为、技能发展、创业模式以及前沿技术应用等多个维度 [1] 关键词一:新职破圈 - 青年职业选择从“被动就业”转向“主动择业” 以热爱锚定方向 从“专业对口”转向“能力适配” 跨领域技能成为核心竞争力 从“按部就班”转向“创新突破” 在细分赛道实现差异化发展 [2] - 截至2025年7月 中国已累计发布7批共110个新职业 广泛分布于人工智能、低空经济、现代服务等领域 成为吸纳青年就业的“新海绵” [1] - 具体案例包括:独立开发者李星佑践行“2+2+2”产品工作法 其开发的Dino输入法成为visionOS首款中文输入法 MoniCon收获13万用户认可 [2];85后吴瑕转型为AIGC职业创作者 借助AI工具一人完成过去五六人团队的工作量 [2];26岁的刘佳昕跨专业成为“无人机导演” 在西藏海拔3700米高原完成极限挑战 [2] 关键词二:稳健理财 - 北京青年的理财观念更趋理性务实 72.8%的受访青年将“稳步积累财富”作为核心目标 “风险可控”“长期增值”成为决策关键 [3] - 2025年北京非银行业金融机构存款余额较年初增加5359.1亿元 资金从储蓄账户向低风险投资市场迁移趋势明显 [3] - “强制储蓄+定向配置”成为青年理财典型模式 例如互联网白领张琳月薪3万元 通过数字人民币“子钱包”将20%收入定向存入理财账户 并将副业5000元收入全部用于基金定投 一年攒下18万元 [3] 关键词三:政策红利 - 2025年北京构建起覆盖就业、创业、生活保障的完整政策支持体系 [4] - 就业支持层面 “应届身份放宽2年”政策覆盖超12万高校毕业生 机关事业单位、国有企业招录向毕业2年内毕业生开放 [4] - 创业扶持层面 “大学生创业贷”年化利率低至3.85% 科研经费“包干制”让创业者聚焦核心业务 北京市千亿级政府投资基金为青年创业提供资金支撑 [4] - 生活保障层面 北京经开区推出阶梯式住房支持 保障年龄扩大至35周岁以下青年人才 朝阳、海淀等区同步推出安居补贴 [5] 关键词四:绿色消费 - 绿色消费核心导向是“简约适度、低碳环保” 68%的北京青年愿意为环保包装支付适度溢价 选择绿色产品的首要考量是“来源可靠、品质优质” [6] - 市场监管总局修订发布的《绿色产品认证与标识管理办法》将122种民生产品纳入绿色产品认证目录 有效认证证书近4万张 [6] - 具体案例:95后白领李然购物时优先选择简约包装产品 快递默认使用循环快递盒 通过“北京通”碳账户积累的碳积分兑换优惠 [6] 关键词五:技能深耕 - 北京构建“政策引导+校企协同+双证赋能”的培养体系 聚焦新一代信息技术、先进制造等紧缺领域 推动职业院校与企业共建产业学院 [7] - 截至2025年6月 北京已开展“订单式”职业技能培训超200万人次 高技能人才占技能劳动者比例提升至35% [7] - 具体案例:北京经济管理职业学院2025届毕业生王浩通过学校与软通动力合作的现场工程师专班 在企业真实生产场景中完成“手机测试项目”实训 掌握AI测试核心技能 毕业后被直接留用 起薪较传统岗位高出30% [7];该校与科大讯飞、商汤等企业合作的13个本科专业 毕业生就业率连续三年保持在98%以上 [7] 关键词六:跨域协同 - 京津冀协同发展战略深入推进 三地人社部门联合开展“京津冀人社协同活动月” 2025年累计举办专场招聘会254场 提供岗位15.5万个 [9] - 创业担保贷款、技能培训补贴等政策实现互通 技术合同成交额突破600亿元 [9] - 随着“一小时经济圈”成熟 青年跨域协同将呈现“就业半径扩大、创业资源聚合、生活成本优化”的特征 [10] 关键词七:轻产创业 - 轻产创业核心在于“小投入、高灵活、强创新” 目前北京市每天新增300家科技型企业 其中62%为青年项目 且80%采用轻资产模式 [10] - 市科委推出的“青年创业一站式服务平台”整合12类服务 2025年累计服务青年创业项目超2.3万个 [10] - 具体案例:大学生陈芳通过电商平台众筹50万元启动资金 与代工厂合作按需生产“非遗潮玩”IP 2025年实现年销售额超500万元 [11];互联网从业者张萌以15万元积蓄分散投资3个AI应用项目 其中智能办公软件项目已完成Pre-A轮融资 账面收益超30% [11] 关键词八:健康消费 - 健康消费成为消费升级核心方向 2024年中国大健康产业总收入规模达9万亿元 其中18岁至35岁消费者占比超过八成 北京青年健康消费支出年增速达15% [11] - 健康消费场景日益多元:养生市集体验项目吸引青年参与 [12];同仁堂知嘛健康推出的“熬夜水”“草本咖啡”门店年轻消费者占比超80% [12];北京中西医结合医院“精准食疗”咨询服务预约量较上年增长60% [12] - AI健康监测App、线上问诊平台成为青年的“日常工具” [12] 关键词九:具身智能落地 - 具身智能(含人形机器人、自动驾驶等)是北京“十五五”前瞻布局的未来产业核心赛道 北京市计划培育千亿级产业集群 实现万台具身机器人落地 [12] - 目前北京已集聚具身智能企业297家、人形机器人整机企业22家 均居全国首位 [12] - 预计2026年人形机器人将突破原型展示 转向真实的工业与服务场景应用 [13] 随着数据基地建设和开源社区完善 将在工业制造、应急救援等更多场景规模化应用 [14] 关键词十:通用智能体应用 - 通用智能体已从技术概念走向多场景规模化应用 北京市对首次上架的通用智能体给予最高3000万元算力支持 并通过“创客北京”专题赛推动技术转化 [14] - 具体应用案例:北京市人社局推出的“京晓保”智能助手整合8800余条政策问答 上线3个月解答问题近21万个 平均响应时间仅2秒 [14];北电数智携手中日友好医院发布“樱智”升级版 帮助医生挖掘疾病关联、检索文献与指南 [14];星动纪元自研的端到端VLA具身模型ERA-42在物流、制造、商业服务等多个领域落地 [14]
首个真正“能用”的LLM游戏Agent诞生!可实时高频决策,思维链还全程可见
量子位· 2026-01-20 12:17
文章核心观点 - AI+游戏已成为行业重要趋势,近期“快递员”账号在《英雄联盟》韩服以93%胜率登顶的事件引发广泛关注,凸显了市场对游戏AI的高度兴趣 [1][2][4] - 超参数科技推出的全新大模型原生驱动游戏智能体COTA,标志着大模型+游戏从实验室走向现实,具备通用游戏潜力并已实现大规模商业化部署 [7][8][9][55][56] - COTA通过创新的“双系统分层架构”和专门的大模型选型,成功解决了游戏AI领域长期存在的“实时性、对抗性、可解释性”不可能三角问题 [35][36][59] - 该产品不仅为玩家提供高拟人化、高透明度的游戏体验,也为开发者提供了通用性框架,有望革新多类游戏玩法,并作为通用智能体的试验场推动AGI发展 [67][70][72][77] 行业趋势与市场动态 - AI+游戏赛道吸引了全球众多游戏厂商的关注和布局 [6] - 当AI Agent基础能力趋于成熟,行业已进入进一步突破Game AI能力边界的新阶段 [57] - 游戏场景是通用智能体的理想练兵场,因其复杂度接近现实世界,成本低、风险可控且可复现 [72][73] 公司产品:超参数科技与COTA 1. **产品定位与特点** - COTA是一款由大模型原生驱动、具备通用游戏潜力的智能体产品,强调认知、执行、策略和辅助 [9][10] - 产品设计目标是成为玩家的“游戏搭子”,通过思维链(CoT)实现决策过程可视化,建立玩家信任 [9][20][67][68] - 与依赖预设脚本的传统AI Bot或强化学习黑盒模型不同,COTA追求高智商与高透明度 [35] 2. **技术架构与创新** - **模型选型**:采用Qwen3-VL-8B-Thinking作为基座模型,在逻辑推理能力与实时响应效率间取得平衡 [39] - **双系统分层架构**:模拟人类快慢思考,拆分为负责战略的指挥官(Commander)和负责毫秒级执行的操作员(Operator) [40][41][43][47] - **训练管线**:包含基于思维链的监督微调(SFT)、大规模自我博弈的群相对策略优化(GRPO)以及与人类偏好对齐的DPO阶段 [50][51][52] - **性能指标**:将系统整体响应时间压缩到百毫秒级,最快可缩减至100ms,满足高强度对抗游戏的实时性要求 [53] 3. **实机性能表现** - 当前在FPS游戏Demo中展示,该类型游戏容错率低,对实时感知和决策要求极高 [12][13][14] - 智能体在急停拉枪、掩体博弈、投掷物使用、团队集火包抄等复杂操作上表现流畅自然 [28][29] - 在单人模式中能有效带领玩家,指令清晰,反馈及时,拟人化程度高,无明显机械感 [30][31][32] - 智能体依靠策略运营和类似人类的意识获胜,而非超越人类的反应速度 [33][34] 产品应用前景与行业影响 1. **对游戏体验与设计的革新** - **MMORPG**:使NPC成为具备严密逻辑和长期记忆的数字生命,提升互动质量与沉浸感 [60][61][62] - **MOBA**:AI可成为战术大师,通过逻辑严谨的战略与玩家博弈,提供趋近真人玩家的对战体验 [63] - **SLG**:重构策略深度与沉浸感,让AI对手更聪明,队友更懂行,战斗更真实 [64][65][66] - **商业价值**:提升玩家长期留存率,拉动转化,为游戏厂商在存量竞争时代提供商业竞争优势 [68] 2. **对开发者的价值** - 为开发者提供一套面向未来、具备高通用性潜力的游戏智能体框架 [70] - 打破技术壁垒,使开发者无需为每款游戏单独打造AI,可高效将大模型Agent技术应用于多类产品中 [70] - 推动行业从代码预设向智慧涌现的范式转变 [71] 3. **对通用人工智能(AGI)的意义** - COTA验证的“双系统分层架构”可为现实世界问题(如具身智能)提供解题思路,解决高层语义理解与底层运动控制的协同难题 [74][75] - 展示了如何让“LLM大脑”处理复杂推理,同时让“LLM小脑”完成毫秒级精准执行,该能力可迁移至大量现实问题 [76] - 作为“从仿真到现实”技术路线的枢纽,可带动通用人工智能加速演进,其突破也将反哺并重新定义下一代游戏Agent [77]
Claude 版 Manus 只用 10 天搓出,代码全 AI 写的!网友:小扎 140 亿并购像冤大头
程序员的那些事· 2026-01-15 23:26
公司产品发布与定位 - 公司Anthropic发布了一款面向工作场景的通用智能体产品Claude Cowork [1] - 该产品基于公司自研的最强模型打造,定位是让非编程背景的用户也能利用AI智能体的强大能力 [2][8] - 其交互模式更像是“给一位靠谱的同事留言交办任务”,而非传统的对话 [9] 产品开发过程与效率 - Claude Cowork的开发用时极短,仅约1周半(约10天) [3] - 开发过程中,全部代码均由Claude Code编写 [3][6] - 人类开发者的角色转变为规划、设计、协调AI工作以及审核代码,而非亲自编写每一行代码 [5][29] - 开发团队组建了一个小型内部团队,设定紧迫截止日期,开发人员每人管理3-8个Claude实例来实现功能、修复错误或研究解决方案 [25] - 所有代码在合并前都会由一位人类及另一位Claude实例进行审核 [28] - 团队最终提前发布了产品,旨在尽早获得用户反馈以打造优秀产品 [30] 底层工具Claude Code的发展与影响 - Claude Code最初在2024年末作为内部测试版本(曾名Claude CLI)出现,底层模型为Sonnet 3.5,编程能力尚不成熟 [16][17] - 主要开发者最初仅将其视为原型,用作笔记工具 [18] - 该工具在内部迅速出圈,从工程师扩展到数据科学家、设计师、财务人员、销售人员、用户研究员等不同岗位 [20][21][22] - 用户将其用于编写运行SQL查询、绘制ASCII图表、制作原型、构建财务模型、分析数据、处理调查结果等广泛任务 [20][22] - 发布后,全球用户进一步将其用途拓展至控制烤箱、恢复损坏硬盘中的数据、分析DNA和医疗记录、与客服沟通等非编程领域 [22] - 正是观察到用户将Claude智能体用于大量非编程任务,团队才决定开发更易上手的Claude Cowork [23] 行业竞争与产品对比 - 有观点认为,Claude Cowork的出现可能使Meta公司花费20亿美元收购Manus的交易显得价值存疑 [11] - 另一种可能是,此次收购让Anthropic意识到了通用智能体的巨大商业价值,从而加速了类似产品的开发 [13] - 用户反馈显示,Manus目前更适用于多步骤的复杂工作流程,例如研究20家公司并整理文档,或制作幻灯片 [31] - 有观点认为当前Claude Cowork还处于较早期阶段,可被视为“拼多多版”Manus [32] 行业现状与用户提醒 - 尽管AI编码能力强大,但行业共识是代码仍然需要人工进行审查,不能百分百信任AI [33] - 赋予AI操作桌面或文件系统的权限需要高度谨慎,行业内已发生多起被AI“删库”的事件 [34] - 作为安全措施,Claude团队在授予文件系统权限时,使用了“危险地跳过许可”这样的命令参数以警示用户 [36]
谷歌、OpenAI在探索的新赛点,被阿里率先实现了
凤凰网· 2026-01-15 12:35
产品发布与核心定位 - 公司于1月15日发布了面向C端用户的千问App重大更新,该产品从问答工具升级为可执行复杂任务的智能体,全面接入了淘宝、支付宝、高德、飞猪等阿里生态业务,用户通过自然语言即可实现购物、外卖、打车、订酒店等操作 [2] - 此次发布标志着AI产品正式从“聊天对话”迈入“办事时代”,完成了从信息交互工具到可自主执行任务的智能体的范式跃迁 [4][9] - 公司宣布将超400项AI办事功能面向所有用户开放,成为首个能大规模落地真实世界复杂任务的AI Agent [2][6] 产品性能与市场反响 - 发布两个月后,千问App已成为全球增长最快的AI应用,其C端月活跃用户数突破1亿,在学生和白领人群中增长迅猛 [5] - 凭借从基础模型到基础设施的全栈AI能力,以及千问在C端的快速进展,公司被视为中国AI第一投资标的 [5] - 自千问发布的相关消息传出以来,公司股价已上涨超10% [15] 技术实现与生态整合 - 产品的核心突破在于将公司自研的Qwen3“最强大脑”模型与全网最丰富的消费服务生态相结合,使其具备了在物理世界落地的“手脚” [10] - 在外卖场景中,千问App可完整实现推荐、点单和支付,无需跳转其他应用;在电商、旅行等复杂场景,能识别用户意图并推荐相应产品与服务 [8] - 产品接入了支付宝政务服务,上线签证、户口、公积金等50项民生服务,用户可通过自然语言指令直接完成政策解读与办理 [8] - 公司是全球极少数同时拥有顶尖开源模型与国民级消费服务生态的玩家,率先跑通了从用户意图到真实履约的完整闭环 [2][11] 行业竞争与公司优势 - 全球AI应用普遍存在模型能力与物理世界履约脱节的困境,海外巨头如OpenAI和谷歌虽有意突破,但分别面临欠缺“手脚”和弱“履约”的挑战 [11] - 随着算法差距缩小,AI竞赛的下半场焦点已转向场景丰富度与生态打通能力 [12] - 公司20年的生态积累为其提供了独一无二的落地场景和数据反馈,而千问智能体则成为串联和激活整个生态流量与交易的新一代超级入口,形成增长飞轮 [14] - 多家国际投行看好公司AI前景:巴克莱认为公司是“中国唯一全栈AI领导者”,摩根士丹利认为公司是“中国最佳AI赋能者”,美银将其列为“2026年中国AI投资最佳标的” [15]
Claude版Manus只用10天搓出,代码全AI写的,网友:小扎140亿并购像冤大头
36氪· 2026-01-14 18:28
产品发布与定位 - Anthropic公司发布了一款面向工作场景的通用智能体产品Claude Cowork,该产品基于其最强的自研模型打造[1] - 该产品的定位是面向非技术用户,旨在让非编程背景的用户也能利用AI智能体的强大能力,其交互模式更像是“给一位靠谱的同事留言交办任务”,而非传统的对话[3] 开发过程与效率 - Claude Cowork的开发用时极短,仅约1周半(约10天)[1] - 开发过程中,全部代码均由Claude Code编写完成[1][2] - 开发团队组建了一个内部小团队,设定了紧迫的截止日期,并利用内部开发成果,在几天内发布了一个早期精简版本[7] - 团队最终提前发布了Claude Cowork,尽管产品尚不完善,其目的是尽早获得用户反馈以了解实际需求[10] 技术应用与工作模式 - 在开发过程中,所有开发人员都管理3-8个Claude实例,用于实现功能、修复错误或研究解决方案[7] - 对于较小的改动或仅涉及Web代码的改动,直接让Claude去实现;当有人在Slack中报告bug时,通常直接@Claude并让其修复[9][10] - 团队大部分时间花在协调众多Claude的工作和做决策上,而不是精心编写每一行代码[10] - 所有代码在合并前都会由一位人类以及另一位Claude实例进行审核[10] 产品演进与市场影响 - Claude Code(Claude Cowork的前身)最初在2024年末作为内部测试版本(当时叫Claude CLI)出现,底层模型是Sonnet 3.5,编程能力尚不成熟[5] - Claude Code的使用范围从最初的工程师,意外地扩展到了数据科学家、设计师、财务人员、销售人员和用户研究员等非技术岗位,被用于编写运行SQL查询、绘制图表、制作原型、构建财务模型、分析数据等多种非编程任务[5][6] - 其应用场景进一步泛化至控制烤箱、恢复数据、分析DNA和医疗记录、与客服讨价还价等[6] - 正是观察到用户将Claude智能体用于处理大量非编程任务,团队才决定开发更易上手的Claude Cowork[6] - 有观点认为,此次发布可能使Meta公司花费20亿美元收购Manus的交易显得价值存疑[3] - 也有推测认为,Anthropic可能是通过这次收购意识到了通用智能体的巨大商业价值,从而快速推出了类似产品[4] 产品对比与用户反馈 - 有用户将Claude Cowork与Manus对比,认为Manus适用于更多步骤的复杂工作流程,例如研究20家公司并整理成文档,或制作幻灯片[11] - 也有观点认为目前的Claude Cowork还处于比较早期的阶段,可被视为“拼多多版”Manus[12] 安全与权限考量 - 尽管AI参与开发,但代码仍然需要人工进行审查[14] - 赋予AI操作桌面文件的权限需要谨慎,存在潜在风险(例如被AI误删数据)[15] - Claude团队在权限控制上采取了提醒措施,例如访问文件系统需要使用标明“危险地跳过许可”的命令参数[17]
Anthropic深夜再出杀招,编码AI一键清空桌面,白领末日来临?
36氪· 2026-01-13 16:05
产品发布与定位 - Anthropic公司发布名为Cowork的AI办公神器研究预览版 专为处理日常工作而设计 旨在成为“非程序员版Claude Code” [1][5] - Cowork允许用户从任务列表中选择类型并上传文件 一键完成创建文档、制定计划、分析数据等任务 上手门槛极低 [2] - 该产品复用了Claude Code的同一套底层能力 但去除了编程门槛 使其能够处理Claude Code可执行的任务 让人人都能轻松使用 [13] 核心功能与特性 - Cowork可被授权访问电脑特定文件夹 从而读取、编辑或创建文件 例如整理杂乱文件、从截图中提取信息生成表格、整合笔记成报告初稿 [13] - 产品具备强主动性和自主性 在交代任务后会自行制定计划、主动推理并实时同步进度 提供“主动做事+实时同步”的体验 [13] - 支持使用连接器将Claude与外部信息源相连 并内置首批技能以强化文档、PPT、表格、邮件等常见办公产出能力 [14][15] - 可与Chrome浏览器中的Claude联动 完成查资料、下载网页内容等需要浏览器访问的任务 [15] - 任务可被拆分成多段并排队交给Claude处理 人类用户可随时插队修改需求、增加要求或叫停 [17] 开发背景与市场影响 - 该功能的开发源于用户对Claude Code的意外使用 人们不仅用它写代码 还用于制定度假计划、制作PPT、整理邮件等 表明市场真正需求是能“自主干活”的AI [9][11] - Anthropic团队仅用一周半时间就开发出Cowork这一新功能 工程师透露在圣诞节前已内部开发出多个不同原型 [21] - 该产品的发布可能对许多专注于自动化办公的初创公司构成重大冲击 甚至可能“埋葬”它们 [1][21] - 有观点认为本地自动化办公是今年最大方向 若微软、苹果等巨头不跟进 可能面临被革命的风险 [27] 性能演示与用户反馈 - AI专家Simon Willison实测让Claude处理其过去三个月的46篇草稿文件以识别已发布内容 Claude通过44次单独搜索精准找到了所有文件 [19] - 用户反馈显示 Claude能轻松将松鼠视频格式转化为mp4并添加复古VHS滤镜和时间戳 还能处理320份播客文字稿并输出重要主题、经验教训及反直觉观点 [26] - 网友体验后惊叹其能力 将其比喻为“AGI”或“贾维斯” [2][14] 产品控制与安全机制 - Anthropic将“控制权”置于核心位置 未经人类明确授权 Claude不能读取或编辑任何内容 [32] - 在执行任何关键操作前 Claude都会提前询问确认 人类用户可以随时叫停、修改计划或撤回权限 [32] - 公司提示用户需注意风险 例如若指示删除本地文件Claude会照做 因此需给出明确具体的指令 同时需警惕“提示词注入”攻击漏洞 [32] 未来发展计划 - Anthropic透露了未来迭代计划 包括实现跨设备同步、尽快推出Windows版本以及持续加强安全防护 [32] - 有评论预测 若2025年是“氛围编程”之年 那么2026年可能成为“氛围办公”之年 [29]