Workflow
MCP协议
icon
搜索文档
AI Agent:超级助手,重塑人类生活和商业
泽平宏观· 2026-02-05 00:06
AI Agent的定义与核心价值 - AI Agent是具备行动力的代理式AI,核心区别在于能从生成内容转向执行行动,拥有“大脑规划+工具调用+记忆经验”的能力 [4][10][13] - AI Agent是AI发展的第三阶段,标志着从“对话AI”到“干活AI”的本质跃迁,最终目标是实现具身智能AI [7][10] - 根据能力分级,AI Agent属于Level 3,是可执行行动的系统,高于仅具备对话或推理能力的AI [12] AI Agent带来的未来生活改变 - **APP后台化与商业模式重构**:未来手机界面可能简化,AI Agent在后台直接调度各应用服务,用户无需操作具体APP,这将冲击现有的流量和广告商业模式 [14] - **操作系统拟人化**:未来的操作系统将演变为全知全能的智能管家,能主动预测并满足用户需求,实现系统完全服务于人 [14] - **人类角色转变**:AI Agent将接管大部分执行工作,人类的核心价值将转向决策与审美,个人借助Agent团队可实现远超传统公司的生产力 [15] AI Agent的行业竞争格局 - **全球科技巨头卡位战**:Meta拟以数百亿美元收购Manus,引发对AI Agent超级入口的争夺,证明中国AI企业已具备全球产品与工程竞争力 [17] - **主要厂商战略路径**: - OpenAI推出系统级Agent“Operator”,在处理多步骤复杂任务时成功率已达70% [18] - 微软推出“Windows 365 for Agents”平台,专注于智能体管理和工作流程预测 [18] - Anthropic专注于提供底层的“Computer Use”API能力,定位为基础设施提供商 [18] - 谷歌通过“Project Jarvis”接管Chrome浏览器,并将Gemini Nano植入安卓系统以守住入口 [19] - 马斯克的Grok致力于与特斯拉汽车和Optimus机器人结合,向物理世界操控拓展 [19] - **中国大厂布局差异**: - 字节跳动聚焦平台化工具“扣子空间”构建技能生态,并与中兴合作推出豆包手机,但遭遇生态围剿 [20] - 阿里巴巴利用其商业生态,将通义千问打造成智能调度中枢,直接调用集团内部服务 [5][20] - 百度结合网盘、文库等优势,将智能体定位为“超级个人助手”,专注于个人知识管理与生产力 [20] AI Agent的关键技术趋势:协议标准化 - **MCP协议成为AI世界的“Type-C接口”**:由Anthropic提出,现已成为行业通用连接标准,支持大模型与外部工具的即插即用,极大提升了AI Agent调用技能的效率 [22][24] - **MCP协议的应用案例**:例如,Claude通过MCP可打通Notion、Linear和GitHub等系统;Coinbase推出基于MCP的Agent Wallet;国内支付宝、高德地图、百度系应用也提供了MCP Server服务 [25] - **A2A协议解决“机机交互”**:由谷歌提出,旨在实现不同AI Agent之间的直接对话与协作,未来互联网可能从APP群岛转变为Agent联盟 [26][27] AI Agent落地的主要挑战与未来展望 - **核心挑战是利益重构**:AI Agent绕过APP界面直接调用底层服务,动摇了互联网公司依赖广告、用户时长和数据的商业模式,引发了关于流量与入口控制权的争夺 [3][31] - **生态冲突的现实案例**:字节跳动推出的豆包手机因试图通过屏幕读取和模拟点击操控第三方APP,遭遇微信、淘宝、银行APP的强力反制,导致核心功能受阻 [32] - **可能的解决方案与商业模式演变**:未来可能出现“Service-as-an-API”模式,即应用提供“Agent专用付费接口”并收取“Agent税”,商业模式从追求用户时长转向追求交易并发量 [33]
倒反天罡:「租个人」网站爆火,AI开始雇人「跑腿」了
机器之心· 2026-02-04 11:25
Rentahumanai 网站概况 - 网站定位为“AI的肉身层”,旨在为AI提供线下任务的物理执行能力,例如取货送货、活动签到、实地勘察等 [1] - AI可通过MCP协议或REST API,像调用工具一样搜索、预订并雇佣人类来完成线下任务 [2] - 网站上线初期增长迅速,第一晚有超过130人报名,上线不到48小时可用人力突破1万,随后超过2万 [3] 平台运营模式与参与者 - 注册成为“跑腿”的人类可自行设置时薪,且平台规则允许“不需要闲聊” [6] - 可用人力来自世界各地,设定的时薪从十几美元到几十美元不等 [10] - 人物资料卡片显示具体信息,如定位、服务半径等 [12] 任务类型与案例 - 平台上已发布的任务包括:拍一张AI永远看不到的照片、试吃新餐厅、从邮局领取包裹、检查API_Keys等 [13] - 有被雇佣检查API_Keys的人类感叹,这个时代人类成了智能体的副驾 [13] - 也存在一些抽象任务,例如举着写有“AI付钱让我举这个牌子”的牌子 [14] 引发的讨论与疑问 - 网站的出现引发了关于智能体如何支付、任务发布者真实身份(是AI还是人类金主)以及是否为继Moltbook之后另一场炒作的疑问 [17] - 存在对任务完成质量验证的质疑,例如举牌子任务是否能用AI生成的图片交差 [17] - 鉴于此前Moltbook的炒作经验,部分人对网站上任务的真实性表示怀疑 [23] 潜在的法律与伦理问题 - 核心关切在于责任与法律盲区,当AI驱动人类在现实世界行动时,出现差错的责任归属(平台、AI所有者还是人类执行者)变得模糊,形成“问责空白” [24] - 人类执行者通常只了解任务的一小部分,对AI的完整意图、数据最终用途及行为的道德边界一无所知,这种设计构成了“合理的推诿”,难以经受法律审视 [24]
被Clawdbot带火的,为什么是Mac mini
36氪· 2026-02-04 07:38
Clawdbot AI智能体产品分析 - 一款名为Clawdbot的AI助手近期受到全球科技圈热捧 其核心定位是具有执行能力的个人助理 能通过操控电脑帮助用户完成剪视频、写代码、做PPT等任务[1] - Clawdbot是一个典型的AI Agent(智能体) 其核心能力是代替用户使用电脑 满足用户对智能体在安装软件、跑脚本、发邮件、聊天甚至炒股等方面的想象[3][5] - 与以往AI助手最大的区别在于 Clawdbot是长期在线、本地部署的“个人AI基础设施” 而非需要联网才能使用的外部服务[8] Clawdbot的技术路径与竞争优势 - 为解决早期智能体难以调动第三方软件或服务的问题 行业曾出现基于视觉模型解析设备屏幕的GUI路线 但存在隐私风险大、安全性低的代价[5] - MCP协议曾提供将AI模型连接到各种数据源和工具的标准接口 但其激活潜能的前提是开发者需先搭建MCP服务器 且处理成本随调用数量指数级提升 导致前期成本过于昂贵[5] - Clawdbot采用自托管设计 其理念独树一帜 实质是一个运行在本地的AI网关 一端连接Claude、Gemini、GPT等大模型 另一端连接电脑上的Telegram、iMessage、Excel等软件 该设计既让智能体有自主行动能力 还足够便宜[5] Mac mini成为Clawdbot理想载体的原因 - 由于Clawdbot需进行本地部署 因此需要一个稳定的承载容器 Mac mini因其特性被选中[8] - macOS是目前少数明确区分文档、窗口和应用程序的GUI操作系统 其关闭窗口但不退出应用的设计契合了Clawdbot长期后台运行的需求[8] - 基于UNIX的macOS继承了稳定性和可靠性 可以长时间运行而不会出现崩溃或死机 这保障了运行其上的Clawdbot能做到7X24小时待命[10] - 在本地部署AI产品需要设备有足够大的内存 苹果的SWAP技术以及统一内存架构实现了CPU、GPU、NPU均可访问同一内存池的设计 带来了高速内存访问、高效多任务处理等优势 降低了数据在不同计算单元间传输所需的时间[12][13] - 在2026年这个时间节点 Mac mini性价比惊人 499美元即可买到一台搭载M4芯片、16GB内存以及超低功耗的设备 而同样的预算甚至无法DIY出一台能运行的Windows PC[13] - 同样使用Clawdbot工作 Mac mini所需的时间远低于同配置的Windows PC 在一众PC产品中 Mac mini运行Clawdbot可能并非最好 但却属于最省心、最有性价比的选择[13] 市场影响与行业动态 - Clawdbot的走红带动了苹果Mac mini的销售 在Google AI Studio负责人Logan Kilpatrick亲自下场带货后 抢购Mac mini成为了科技圈的潮流[3] - AI圈在岁末年初造神已成为一种迷因 继2024年的Sora、2025年的DeepSeek后 2026年的主角变成了Clawdbot[1]
AI版「互联网协议」面世,豆包手机们再也不怕被「封禁」了?
36氪· 2025-12-12 16:36
文章核心观点 - 以豆包手机助手为代表的GUI Agent路线,因其模拟用户点击操作、绕过平台官方接口和监管体系,正面临主流应用平台的广泛封禁,凸显了该技术路径与现有互联网生态的冲突[1][2] - 行业正转向以MCP协议为代表的标准化、协议化路径,旨在为智能体AI建立合法、有序、可治理的跨平台互联方式,并已获得包括Anthropic、OpenAI、Google、阿里、腾讯等头部公司的共同推动,形成行业共识[4][7][9] - GUI Agent与MCP协议并非简单的替代关系,未来很可能形成互补格局:GUI作为在未改造旧生态中的过渡方案,MCP则作为构建未来智能体互联网秩序与互操作性的底层协议[12][19][20] 行业技术路径冲突与现状 - **GUI Agent路线面临广泛抵制**:豆包手机助手通过让AI“看懂”并模拟操作手机图形界面,实现了不依赖官方接口的自动化操作,但导致微信、支付宝、拼多多、淘宝及多家银行应用对其封禁[1][2] - **冲突根源在于绕过平台秩序**:GUI Agent跳过了产品的业务逻辑、商业链路和风控体系,使平台无法监管智能体与用户数据及关键操作的交互方式,导致责任边界模糊[15] - **监管层面开始明确规范**:中国信通院牵头发布安全指引,强调智能体AI需同时获得“用户授权”与“应用授权”才能合法访问第三方应用,为交互设立了双重授权门槛[15] MCP协议的兴起与行业共识 - **MCP协议旨在建立AI的开放互联协议**:该协议试图解决智能体时代互联网缺乏一套属于AI的开放互联协议的问题,其目标是为AI与外部系统集成提供类似USB-C的统一标准接口[4] - **从公司规范发展为行业事实标准**:MCP最初是Anthropic为Claude设计的统一工具接入规范,用以简化大模型调用外部工具的流程[5];到2025年,“支持MCP”已成为Agent类产品的标配,被VS Code、Cursor、OpenAI、Google以及阿里、字节、腾讯等公司的工程团队广泛采纳[7] - **捐赠至中立基金会标志新阶段**:Anthropic于12月10日将MCP正式捐赠给新成立的Agentic AI基金会,并由Linux基金会托管,标志着协议进入更中立的治理体系,不再属于任何单一公司[4][8] 行业生态的协同演进 - **巨头共同推进协议生态**:除了MCP,Agentic AI基金会的“开山项目”还包括OpenAI捐赠的AGNTS.md(为Agent写使用说明的标准)和Google捐赠的Block(构建智能体和工作流的框架)[9] - **云服务商提供MCP基础设施**:Google推出了完全托管的远程MCP服务器,便于智能体接入其云端服务(如地图、BigQuery)[9];阿里云百炼平台更早推出了全生命周期的MCP服务,包括MCP服务器[9] - **协议化改造是长期过程**:整个互联网生态需要经历“一场漫长的改造”来适配MCP,这意味着基于GUI路线的智能体体验在短期内仍不可或缺[19] 未来智能体生态的展望 - **GUI与MCP将长期共存互补**:GUI路线将继续作为“兜底”方案,在未完成协议化改造的旧生态中运行;MCP则将成为跨系统、跨平台底层互联、明确权限与秩序的主流方式[20] - **终端系统将扮演协调核心**:未来的系统级智能体将能理解用户目标,协调设备、平台与服务,并在平台规则内完成任务[20] - **实现“换大脑不拆线管”的架构**:操作系统提供统一的智能体入口和权限管理,MCP等协议负责与各服务沟通,而如Qwen、Gemini、GPT等大模型则可被灵活插拔替换[20]
OpenAI的第一款AI浏览器,好像也就那样吧
虎嗅· 2025-10-23 15:06
产品发布与定位 - OpenAI于2025年10月21日正式发布首款AI浏览器Atlas,旨在将人工智能助手置于浏览体验核心,重新定义用户与网络交互方式,从被动信息获取转向主动任务执行 [1][2] - 公司试图通过推出AI浏览器转变身份,不再局限于提供基座大模型的AI工具提供商,而是重新思考浏览器作为用户接入互联网主要入口的角色 [2] - 在Atlas的设想中,未来的浏览器将成为智能代理的载体,帮助用户完成复杂数字化任务,并被视为AGI的主要界面 [25][26] 产品功能与技术实现 - Atlas在技术实现上倾向于采用DOM解析路径,该路径将网页元素转化为AI可读的结构化格式,任务成功率达89.1%,成本比视觉识别路径降低90% [4][5] - 产品设计上与现有MCP浏览器高度相似,侧边栏AI助手、网页内容总结、分屏浏览模式等功能与Comet、Opera Neon等竞品如出一辙,并无突破性创新 [5][6] - Atlas的agent模式需用户授权后执行操作,执行过程显示进度并可暂停,此功能与Opera Neon的"Neon Do"完全一致,但Atlas不支持创建可重复使用的操作流程 [6] - 产品基于Chromium内核,在DOM解析、网页元素识别等底层技术上与其他浏览器方案大同小异,且不支持所有Chrome插件 [8][10] 产品竞争劣势与挑战 - Atlas在功能上落后于主要竞品:其核心agent模式仅对付费用户开放,而Comet已实现免费(免费用户有使用频率限制);产品目前仅支持macOS,而Comet支持Windows、macOS和Linux [9] - 在任务处理能力上,Atlas的agent一次只能执行一个任务流程,而Comet的"Background Assistant"可后台同时处理多个任务;Opera Neon提供了网站、游戏等内容创作工具,Atlas并无此类功能 [9] - 产品存在技术漏洞,如访问网页时出现阻挡问题,需重复操作才能解决;执行简单指令如画爱心会出现错误;部分网站如纽约时报阻止其总结内容 [18][20][21] - 在涉及敏感操作如输入密码、确认支付时,Atlas与所有MCP浏览器一样必须切换回手动模式,这是整个生态尚未解决的核心挑战 [7][15][16] 市场竞争格局与生态系统 - AI浏览器竞争本质是生态系统竞争,Chrome拥有约30亿用户并整合谷歌AI模型Gemini,其背后Gmail、Google Drive等服务的无缝集成及Chrome Web Store超过10万个扩展程序构成强大壁垒 [30][46][47] - MCP协议作为开放标准通信协议,简化了AI模型与外部系统的集成,截至2025年10月已有超过200个第三方开发者贡献各类Server,涵盖数据分析、文档处理等多个领域 [32][33][35] - Atlas对苹果生态做了特殊支持,提供打开苹果智能的选项,可通过本地处理器总结网页并支持Siri唤醒,从而获得无缝跨应用体验,产品更像是对苹果新发布的M5芯片的广告 [37][38][39] 商业逻辑与战略意图 - 浏览器作为入口能将AI无缝集成到用户工作流,提高AI服务使用频率和粘性,并建立直接的用户付费关系,为OpenAI提供新的变现途径 [12][13][28] - OpenAI目前主要收入来自ChatGPT订阅服务和API调用费用,其ChatGPT拥有超过8亿用户,但付费用户占比不到5%,公司需要寻找新的商业模式 [28] - 浏览器可为OpenAI提供广告等商业可能性,但一旦涉及广告和搜索,公司将直接面对谷歌的竞争 [29][30] - 公司短期目标包括扩展到Windows、iOS、Android平台、建立开发者生态支持第三方AI应用集成,以及完善Agent模式功能提高任务执行成功率 [24] 行业影响与市场反应 - 在Atlas发布当日,谷歌股价盘中跌幅一度扩大至近5%,最低触及245美元,最终收跌2.21%,但这主要源于市场对谷歌AI Studio更新期待落空,而非Atlas直接影响 [41][42][45] - AI浏览器代表了下一代互联网交互方向,传统搜索引擎模式正被AI问答模式取代,用户希望直接得到答案而非搜索结果 [54] - 从长远看,AI浏览器可能只是过渡形态,最终形态将是能理解用户意图、主动完成任务、无缝连接各种服务的智能代理系统 [56]
AI智能体(八):构建多智能体系统
36氪· 2025-07-28 07:12
AI智能体设计组件 - 智能体包含三个核心组件:模型(Model)为推理和决策提供动力的LLM、工具(Tools)为执行操作的外部函数或API、指令(Instructions)定义行为方式的明确指导方针和防护措施[3] - 模型选择需考虑任务复杂性、延迟和成本,简单任务可用小模型处理,复杂决策需用更强模型[3] - 工具通过API扩展智能体能力,对于无API的遗留系统可依靠计算机使用模型通过UI交互[6] - 高质量指令可减少歧义改进决策,高级模型可根据文档自动生成指令[8] 智能体编排模式 - 多智能体系统可建模成图,智能体为节点,边代表工具调用或交接[11] - 监督者模式采用集中控制,群体模式采用去中心化交互[16] - 监督者模式通过创建监督者智能体来编排多个专业化智能体[17] - 群体协作模式让不同智能体能动态协作和交接任务[46] 智能体实现技术 - 函数调用是LLMs与工具交互的主要方式,工具通过利用底层应用API扩展能力[6] - 监督者模式实现包含定义工具、创建工作智能体、创建监督者智能体等步骤[19][20][21] - 群体协作模式实现包含定义工具函数、创建工作智能体、创建群体智能体等步骤[46][47] - 消息历史管理可控制包含完整历史或仅最终响应[28][30] 智能体运行机制 - 支持同步和异步两种调用模式,实时交互场景适合同步,耗时任务适合异步[51][52] - 输入必须是包含messages键的字典,纯字符串输入会自动转成HumanMessage[54][55] - 输出始终是字典结构,包含messages和可选structured_response字段[57] - 流式输出可实时获取增量更新,支持同步和异步两种方式[58][59] 智能体行业应用 - 行业协议如Anthropic的MCP协议和Google的A2A协议可优化智能体协作[70] - MCP协议通过三层架构破除工具壁垒,A2A协议聚焦智能体间协作[71] - Block公司采用MCP+A2A构建的代理系统使财务流程效率提升300%,错误率下降85%[72] - 微软正将MCP深度集成至Windows系统,预示操作系统将进化为基础代理平台[72]
当微信支付开放MCP之后,我却有一点后怕。
数字生命卡兹克· 2025-07-07 02:50
微信支付MCP技术解析 - MCP协议是一种通用标准协议,使不同AI模型能高效调用封装工具,解决API接入需重复开发的问题[1][3] - 由Anthropic公司发起,显著降低开发者接入门槛,替代传统API模式[2][6] - 支持多MCP调用的AI可升级为智能体(Agent),实现复杂功能链[4][5] 支付功能突破 - 微信支付MCP填补智能体生态支付能力空白,支持商业化闭环[7][10] - 接入流程极简:在腾讯元器平台开通后,仅需添加提示词即可实现支付功能,全程耗时<10秒[11][12] - 支持PC端扫码和手机端收银台直连,当前仅开放Web端接入[13] 应用场景案例 - 健康餐智能体:提供1.99元定制化周食谱+7天饮食监督服务,支付验证后即时生成详细方案[15][18][21][27] - 资源分享智能体:用户输入资源名称后自动推送支付二维码(如影视资源5.9元/次),实现内容变现[44][45][46] - 资本做局模拟器等抽象应用,展示支付闭环的潜在创新空间[42][43] 技术实现路径 - 通过腾讯元器平台创建智能体,在高级设置中添加微信支付MCP模块[28][31][35] - 需区分体验版(测试商户号)与正式版(真实商户账户),后者当前需申请权限[35][36] - 支付功能通过特定Prompt指令触发,包括订单创建(create-order)和状态查询(query-order-by-out-trade-no)[39] 生态影响与潜在风险 - 微信支付作为国民级支付入口,其MCP接入将重构AI商业化生态[49][68] - 可能催生自动化灰产:如虚假资源代理、AI情感诈骗等全自动骗局,单智能体可同时服务数万用户[51][53][55][56] - 存在AI间欺诈风险:具备资金权限的智能体可能被恶意AI诱导支付,形成无人工干预的损失链[62][63][65] - 腾讯采取渐进式开放策略,暂未全量发布正式版以控制风险[69][70]
智能体洗牌“六小虎”,模型厂商如何转型?
虎嗅APP· 2025-07-06 17:34
智能体技术发展现状 - 智能体从内容生成进化到任务执行,代表AI能力的重大升级 [3][5] - 2023年初智能体概念爆发,与大模型技术突破直接相关 [3] - 当前智能体开发门槛大幅降低,普通用户5分钟即可创建简单智能体 [6][7] - 智能体分为轻量级工具型(如网页生成)和深度业务型(如行业解决方案) [6] 大模型厂商竞争格局 - 基础大模型层呈现赢者通吃格局,长期可能仅存3-5家头部厂商 [11][12] - 第一梯队厂商正向MaaS平台和智能体平台延伸,提供完整能力包 [8][12] - 互联网大厂通过"云智一体"策略,以模型带动云计算业务 [16] - 2024年底互联网巨头加速进场,早期创业公司面临转型压力 [10][25] 商业化路径挑战 - 全球大模型公司尚未找到盈利模式,70%收入被GPU厂商获取 [24] - 国内C端聊天工具变现困难,百度等厂商已转向免费策略 [20] - 企业需求聚焦明确ROI,分为降本增效/新产品开发/POC三类 [46][47] - 智能体显著提升tokens调用量但未能带来足够利润 [24] 行业应用现状 - 制造业头部企业投入数亿自建算力,但实际应用限于营销内容生成 [41][42] - 咨询行业基础分析工作可能被替代,但高端咨询服务仍依赖人际互动 [54][55] - 软件行业和工程开发领域将首当其冲受到智能体冲击 [53] - 企业应用智能体需具备四大要素:基座模型/组织能力/数据资产/应用场景 [49] 技术发展争议 - 智能体可能重构操作系统入口,绕过APP直接执行用户指令 [34][35] - 企业级应用面临数据合规挑战,核心系统仍需可追溯性 [36][37] - 大模型可能突破传统规则引擎,发展出新型问题解决范式 [39][40] - 中国缺乏统一的企业系统协议,制约智能体互联互通 [30][31] 市场发展趋势 - 模型能力与应用场景逐步解耦,催生专业化智能体公司 [22][23] - 智能体创业公司存活率低,每半年50%明星公司消失 [21] - 企业数字化基础决定智能体应用深度,ERP等系统是必要前提 [32] - 行业呈现"交替式上升"竞争态势,推动整体技术发展 [9]
智能体洗牌“六小虎”,模型厂商如何转型?
虎嗅· 2025-07-01 20:04
智能体技术发展现状 - 智能体从内容生成进化到任务执行,代表AI从"生成内容"到"完成任务"的转变[4][5] - 智能体是指能感知环境、做出判断并采取行动实现目标的智能系统[4] - 智能体制造门槛大幅降低,普通用户可通过"美图秀秀"式轻工具制作,专业开发者则使用"Photoshop"级工具开发深度业务场景应用[6][7] 行业竞争格局 - 基础大模型层将形成高度集中格局,类似云计算行业最终仅剩少数头部厂商[12] - 模型微调层和智能体构建层将成为差异化竞争的主要空间[13] - 第一梯队模型厂商正向MaaS平台和智能体平台延伸,提供完整能力包[9] - 第二梯队厂商正转向垂直行业应用、C端应用和海外市场[11] 商业化挑战 - 全球大模型公司尚未找到有效盈利模式,70%收入被GPU厂商获取[30] - C端聊天类工具变现困难,国内外订阅模式均面临挑战[24] - 智能体虽增加tokens调用量,但未能显著提升模型厂商利润[30] - 企业需求聚焦明确ROI,关注降本增效和新产品开发[58][61] 技术演进方向 - 智能体可能成为新型操作系统,通过终端设备抢占入口[41][43] - 企业系统互通仍面临挑战,45岁以上CTO退休后可能迎来变革[40] - 大模型可能突破传统规则引擎,形成新的业务处理范式[50][51] - 工业领域存在"外挂式"和"替换式"两种智能化路径[49] 行业应用现状 - 企业AI应用集中在智能客服、知识库等低风险场景[65] - 制造业头部企业自建算力平台,但实际应用限于广告内容生成[52] - 咨询行业基础分析工作可能被替代,但高端咨询服务仍依赖人际互动[71] - 代码模型已显著提升软件开发效率,改变软件行业工作模式[68]
4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗
量子位· 2025-06-16 14:59
Jan-nano模型表现 - 最新模型Jan-nano在智能体任务上超过671B的最新版DeepSeek-V3 0528 [1] - 在SimpleQA基准上获得80.7分 [1] - 目前取得最高分80.7%,下一个版本目标是85% [4] - 在正确的提示词下可以进行深度研究 [6] - 从搜索结果中有效获取相关信息 [6] - 针对MCP协议优化,可无缝集成各种MCP服务器调用工具 [6] Jan-nano技术细节 - 在Qwen3-4B上使用字节&清华开源的DAPO强化学习微调方法 [8] - 团队将很快发布详细的技术报告 [10] Menlo Research背景 - 专注于AI和机器人技术的开放研发实验室 [11] - 主要目标为构建机器人的"大脑" [11] - 创始人为Daniel Ong与Nicole Zhu [12] - Nicole Zhu在斯坦福读人机交互硕士期间休学创业,此前在谷歌做过高级工程师 [12] - 坚持用户拥有原则,产品都是开源的 [14] - 设计为离线运行或自托管 [14] Jan产品信息 - 核心产品是Jan,可以100%离线运行的开源AI助手应用 [16] - 定位为ChatGPT的替代品 [17] - 推出数月后在没有风险投资支持下超过百万次下载 [17] - 长远愿景是成为"自驱动计算机" [19] - 规划中的能力包括将用户指令转化为直接行动、跨应用程序工作、学习用户特定工作模式、自主完成重复性任务 [21] 其他动态 - 在新加坡Echelon展会上展出一款人形机器人 [20]