Workflow
Agent能力
icon
搜索文档
从华科大校园到Meta副总裁,肖弘的Manus为啥值钱?
文章核心观点 - 文章认为,Meta收购Manus是AI赛道从模型与算力竞赛转向应用层的关键转折点,Manus定义了AI时代或许最重要的Agent产品形态[3] - 此次收购是Meta自成立以来第三大的并购,仅次于WhatsApp和Scale AI[4] - Manus的路径证明,不参与最热闹的模型与算力竞赛,通过工程能力和产品理解,应用层同样可以创造巨大的价值[23] - AI时代的故事正在从“谁更会说”走向“谁更能做”,Manus恰好站在了这个转折点上[25] Manus公司概况与发展历程 - Manus的直接开发主体为蝴蝶效应科技,创始人肖弘为连续创业者,其2015年创立的公司曾服务超200万B端用户并成功退出[6] - 2022年,公司推出AI浏览器插件Monica,面向海外市场,用户规模在2024年突破1000万,成为少数实现盈利的中国AI应用产品之一[6] - Manus是在Monica基础上对“Agent能力”进行系统化升级后的产物,于2025年3月正式发布[7] - 2025年7月,Manus将业务运营基地从中国转移至新加坡、东京及美国加州,并据称已解雇其在北京的大部分员工[11] Manus的产品与技术定位 - Manus的核心定位是“通用型AIAgent”,旨在解决“从理解指令到完成任务交付”的完整闭环,可自动操作电脑完成搜索、编辑等任务[7] - 在技术实现上,Manus不以自研基础模型为核心,而是通过多模型协同与系统级工程能力构建Agent环境,其单个用户的平均token消耗量约为传统聊天机器人的1500倍[9] - Manus的AI助手基于Anthropic的Claude及阿里巴巴的Qwen等现有模型优化训练而成,2025年3月曾与阿里巴巴QwenAI团队建立战略合作,但后续合作未能持续[10] - 在权威的GAIA基准测试中,Manus在多个难度等级上取得了超越OpenAI同类产品的成绩[9] 业务数据与商业化表现 - 从2025年3月上线至12月初,Manus上线8个月累计处理超过147万亿个token,并创建了超过8000万台虚拟计算机,服务全球数百万用户[9] - 作为对比,字节跳动豆包大模型的日均token调用量突破50万亿[9] - Manus上线后很快进入商业化,其2025年内的年化收入已达到1.25亿美元,年度经常性收入突破1亿美元所用时间不到9个月,速度在全球SaaS产品历史中极为罕见[13] 收购方Meta的战略意图 - Meta高层认为未来AI应赋予用户“行动能力”,而Manus在挖掘现有模型潜力、构建强大智能体方面处于全球领先位置[15] - 收购后,Manus将逐步与Meta旗下核心产品深度整合,服务对象从原有用户扩展至Meta平台上的数百万企业和数十亿用户[16] - 收购完成后,蝴蝶效应将在公司、团队和产品层面继续保持独立运营,Manus仍以新加坡为主要运营基地[15] 创始团队与资本背景 - 创始人兼CEO肖弘出生于1992年,毕业于华中科技大学,收购后将出任Meta副总裁[18] - 核心团队还包括联合创始人兼首席科学家季逸超,以及负责产品与市场的合伙人张涛[19][22] - 公司背后汇集了真格基金、Benchmark等多家中美知名投资机构,真格基金对团队进行了长达十年的持续押注[23] - 2025年4月,Manus完成一轮约7500万美元融资,估值接近5亿美元;被收购前,新一轮融资估值已被市场传至20亿美元水平[23]
Omdia发布《2025全球企业级MaaS市场分析》,火山引擎名列全球第三
21世纪经济报道· 2025-12-24 15:24
全球MaaS市场竞争格局 - 截至2025年10月,OpenAI和Google Cloud分别以近70万亿和43万亿的日均Tokens调用量,排名全球MaaS服务市场前两位 [1] - 中国云厂商火山引擎日均Tokens调用量超30万亿,名列全球第三,市场份额达到15% [1] - 三家厂商合计占据全球MaaS市场65%的份额 [1] 市场增长与财务表现 - MaaS服务已成为增长最快、毛利最高的AI云计算产品 [4] - 截至今年12月,火山引擎豆包大模型日均调用量已突破50万亿Tokens,比10月数据增长66.7%,相比去年同期增长超十倍 [4] - 通过技术创新,大模型在提供高性价比服务的同时也有着较好的毛利,其毛利水平远远优于IaaS等传统云产品 [4] 技术演进与应用场景拓展 - 头部模型厂商重点发力多模态和Agent能力,最新旗舰模型GPT-5.2、Gemini 3.0和豆包1.8均为多模态大模型,原生支持图像等视觉理解 [4] - 模型通过强化工具调用和多轮指令遵循等能力,拓展了在具身智能、智能硬件、产品质检、软件服务等应用场景 [4] - 在客服场景中,AI客服已能从拟人对话升级为可推荐购物链接、自主完成工单客诉等一系列Agent任务,带动模型Tokens调用量成倍增长 [4] 细分市场亮点与未来展望 - 图像和视频创作模型(如Nano Banano和豆包Seedream4.0)达到生产级应用水平,大幅降低了短剧、漫剧、PPT制作、海报制作的门槛 [5] - 模型厂商和云厂商正在加速模型迭代并完善AI云基础设施,预计2026年全球MaaS市场增速还将进一步扩大 [5]
从开源最强到挑战全球最强:DeepSeek新模型给出了解法
观察者网· 2025-12-02 19:38
模型发布核心信息 - 12月1日,公司发布两个正式版模型:面向日常使用的DeepSeek-V3.2和面向极致探索的DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2是9月底实验版V3.2-Exp的正式版,平衡推理能力与输出长度,适合问答场景并强化了Agent能力,官方网页端、App和API均已更新 [1][4] - Speciale版本是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,目标是将开源模型推理能力推向极致,目前仅以临时API服务形式开放 [1] 模型性能表现 - 在公开推理测试中,V3.2已达到GPT-5水平,仅略低于Google Gemini 3 Pro,相比Kimi-K2-Thinking输出长度大幅降低,减少计算开销与用户等待时间 [6] - Speciale在多个推理基准测试中超越Gemini 3 Pro,包括美国数学邀请赛(96.0分)、哈佛MIT数学竞赛(99.2分)和IMO(84.5分) [7] - 在编程与理工科博士生测试中,Speciale仍略逊于Google顶级模型,如LiveCodeBench(88.7分)和GPQA Diamond(85.7分)低于Gemini 3 Pro的90.7分和91.9分 [7] 技术架构创新 - 公司设计了DSA(DeepSeek稀疏注意力)机制应对长文本计算量爆炸,该机制像图书管理员通过“闪电索引器”只检索关键信息,大幅降低计算复杂度 [8] - V3.2的核心亮点是“Thinking in Tool-Use”(思考型工具调用),这是AI Agent领域的“Interleaved Thinking”(交错思维链)技术的重要背书 [8][9] - 该技术将冗长、重度依赖工具的任务转化为稳定的“计划→行动→反思”循环,通过复用假设与部分结论减少多轮任务中的“状态漂移”与重复性错误 [9] 战略方向与行业定位 - 公司将“Agent能力”提升到与“推理能力”同等重要的战略位置,试图通过Agent能力将模型从“聊天机器人”进化为真正的“数字劳动力” [13] - 从经济维度看,企业真正愿意付费的是“降本增效的行动”而非“更优美的回答”,Agent使LLM从“对话式AI”进化为“动作式AI”以产生商业闭环 [13] - 公司思路已从工具转变为基础设施提供商,大模型正演变成调度工具的通用操作系统,模型是内核,Agent是用户态程序,插件则是工具 [14] 行业竞争格局 - 过去一年开源大模型生态集体爆发,阿里云Qwen系列、月之暗面Kimi、智谱GLM和MiniMax M系列均取得超越当时顶级闭源模型的成果 [1] - Google Gemini 3.0 Pro的发布重新定义了“全球最强”,其强劲性能让开源和闭源的差距瞬间又变成了一道新的天花板 [2] - 开源模型存在三个关键缺陷:对标准注意力机制的过度依赖、后训练阶段计算投入不足、Agent领域泛化能力和指令遵循能力存在明显差距 [15] 未来发展路径 - 公司计划通过增加预训练计算量填补知识空白,并优化模型推理链的“智能密度”提高效率,让模型学会“少说话、多办事” [16] - 研究员Zhibin Gou表示,训练后的瓶颈需通过优化方法和数据解决,而非仅等待更好的基础模型,持续扩大模型规模、数据量、上下文和强化学习 [17] - 公司用实打实的模型证明Scaling没死只是换了战场,当行业讨论Scaling Law是否撞墙时,公司想证明持续扩展的可能性 [19]
阿里为什么一定要做千问 APP?
36氪· 2025-11-18 18:41
阿里千问App产品发布 - 阿里巴巴的千问App公测版于11月17日正式上线,用户可免费调用与GPT-5性能相当的Qwen3-Max推理模型及Qwen3-千问模型,以解决工作、学习和生活中的问题 [2] 阿里AI战略定位 - 千问App被阿里内部定性为战略级产品,直指“中国的ChatGPT”,标志着公司在AI领域的战略迈出关键一步 [5] - 公司此前已拥有夸克App、通义App等C端AI产品,且通义千问开源模型在全球获得良好口碑,此次推出千问App是重大战略选择而非小范围尝试 [5] 外部环境与竞争态势 - 千问App上线前夕,美国政府放出风声指控阿里可能涉嫌“军方合作”等事项,或上“黑名单”,阿里迅速回应否认指控 [7] - 阿里在此时推出对标ChatGPT的产品并定义其占据生态高位,表现出“承压向前走”的姿态 [7] - 阿里的Qwen大模型和Deepseek在硅谷引发“Qwen Panic”,因模型规格丰富、局部性能超越GPT-5,成为硅谷闭源模型外的可替代选择 [7][8] - Qwen通过开源机制推广“平权”,与硅谷闭源AI的“霸权”模式形成对立,可能破坏美国巨头依靠巨额投入构建的技术壁垒 [8][9] - 千问App通过免费路径推广C端应用,与硅谷AI圈形成截然不同的路径选择 [12] 阿里推出千问App的内在驱动 - AI产品形态已从单纯的大语言模型chatbot发展为以Agent能力为核心的未来趋势,千问App作为用户入口旨在连接模型能力与物流、电商、金融等现实世界履约服务 [13] - 阿里拥有电商、物流、支付等丰富场景优势,千问App可有效打通这些能力,此时布局具有极高战略价值 [13] - 公司需前瞻用户行为变化,避免因竞争对手构建AI入口而导致自身在价值链中被挤压至后端,失去对场景价值链的掌控权 [17] - 推出千问App是阿里将开源模型能力投射到应用端、构建新产品体系和产业链话语权的必然选择 [17]
DeepSeek-V3.1 发布,官方划重点:Agent、Agent、Agent!
Founder Park· 2025-08-21 16:16
核心产品升级 - 推出混合推理架构 单一模型同时支持思考与非思考双模式 用户可通过深度思考按钮自由切换[5][7] - 上下文窗口扩展至128K 显著提升长文本处理能力[7] - 采用思维链压缩技术 思考模式输出token数量减少20%-50% 非思考模式输出长度也显著缩短[12] 智能体性能突破 - 工具使用与智能体任务表现通过后训练优化大幅提升[8] - 编程智能体在SWE-bench评测达66.0分 较V3-0324版本45.4分提升45%[9] - 多语言代码修复能力达54.5分 较前代29.3分提升86%[9] - 终端命令行评测31.3分 较前代13.3分增长135%[9] - 搜索智能体在browsecomp中文测试达49.2分 较前代35.7分提升38%[11] 技术架构创新 - 基础模型在V3版本基础上额外训练840B tokens[15] - 采用UE8M0 FP8 Scale参数精度 分词器与chat template较V3版本有重大变更[15] - 提供Strict Mode Function Calling Beta接口 确保输出严格符合Schema定义[14] - 新增Anthropic API格式兼容 可无缝接入Claude Code等框架[14] 开源生态建设 - 基础模型与后训练模型已在Huggingface和魔搭平台全面开源[15][19] - 开源组织路径分别为HUGGINGFACE.CO/DEEPSEEK-AI和MODELSCOPE.CN/ORGANIZATION/DEEPSEEK-AI[19] 商业化进程 - 新版价格表将于2025年9月6日凌晨生效 同时取消夜间时段优惠[16] - 当前至9月6日前为过渡期 仍按原价格政策计费[16] - API服务资源已完成扩容以支持新定价策略[16]
DeepSeek-V3.1发布:更高效思考、更强Agent能力、更长上下文
生物世界· 2025-08-21 16:00
混合推理架构 - 引入混合推理架构 支持深度思考模式和非思考模式自由切换[2][3] - 深度思考模式适用于数学计算和复杂逻辑分析等深度推理任务 推理效率更高[3] - 非思考模式适用于日常对话和信息查询等轻量级任务 响应更迅速[4] Agent能力提升 - 通过Post-Training优化大幅提升工具使用和智能体任务表现[6] - 编程智能体在代码修复和命令行终端任务中表现优于前代模型 所需轮数更少效率更高[6] - 搜索智能体在多步推理搜索和多学科专家级难题测试中性能大幅领先DeepSeek-R1-0528[7] - SWE-bench指标达到66.0 较DeepSeek-V3-0324的45.4提升45%[7] - Terminal-Bench指标达到31.3 较DeepSeek-V3-0324的13.3提升135%[7] - Browsecomp指标达到30.0 较DeepSeek-R1-0528的8.9提升237%[8] - Browsecomp中文指标达到49.2 较DeepSeek-R1-0528的35.7提升38%[8] 思考效率优化 - 采用思维链压缩训练 输出Token减少20%-50%的情况下任务表现仍与DeepSeek-R1-0528持平[9] - 实现更快的响应速度和更低的API调用成本[9] API升级 - 上下文扩展至128K 处理长文档能力增强[10][12] - 新增strict模式Function Calling 确保函数调用符合Schema定义[12] - 支持Anthropic API格式 可接入Claude Code框架[12] 模型开源与定价 - Base模型和后训练模型已在Hugging Face和魔搭平台开源[11] - 使用UE8M0 FP8 Scale参数精度 分词器和chat template有较大调整[11] - API价格自2025年9月6日起执行新版价格表并取消夜间时段优惠[11]
DeepSeek-V3.1正式发布
第一财经· 2025-08-21 15:53
产品升级 - DeepSeek-V3 1正式发布 采用混合推理架构 同时支持思考模式与非思考模式 [3] - 相比DeepSeek-R1-0528 新模型思考效率提升 可在更短时间内给出答案 [3] - 通过Post-Training优化 新模型在工具使用与智能体任务中表现有较大提升 [3] 平台服务更新 - 官方App与网页端模型已同步升级为DeepSeek-V3 1 用户可通过深度思考按钮自由切换思考模式与非思考模式 [3] - API同步升级 deepseek-chat对应非思考模式 deepseek-reasoner对应思考模式 上下文扩展至128K [3] - API Beta接口支持strict模式Function Calling 确保输出Function满足schema定义 [3] - 增加对Anthropic API格式支持 可轻松将DeepSeek-V3 1能力接入Claude Code框架 [4] 价格调整 - 北京时间2025年9月6日凌晨起 执行新版API接口调用价格表 取消夜间时段优惠 [4] - 9月6日前所有API服务仍按原价格政策计费 [6]
官宣!DeepSeek-V3.1 发布,API调用价格低至0.5元/百万Tokens
新浪科技· 2025-08-21 15:05
API价格调整 - 公司将于北京时间2025年9月6日00:00起调整DeepSeek开放平台API接口调用价格 [1] - 输入价格调整为缓存命中0.5元/百万tokens 缓存未命中4元/百万tokens [1] - 输出价格调整为12元/百万tokens [1] 技术升级 - 新版本DeepSeek-V3.1采用混合推理架构 支持思考模式与非思考模式自由切换 [3] - 相比DeepSeek-R1-0528版本 新模型思考效率显著提升 能在更短时间内给出答案 [3] - 通过Post-Training优化 模型在工具使用与智能体任务中的表现获得较大提升 [3] 产品部署 - 官方App与网页端模型已同步升级至DeepSeek-V3.1版本 [3] - 用户可通过"深度思考"按钮实现思考模式与非思考模式的自由切换 [3]
大模型专题:2025年大模型智能体开发平台技术能力测试研究报告
搜狐财经· 2025-08-14 23:48
测试概述 - 测试背景聚焦大模型驱动的智能体在产业智能化转型中的多场景渗透态势,评估其知识增强、流程编排和智能决策能力 [7] - 测试选取阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个平台,围绕RAG能力、工作流能力和Agent能力展开 [7] - 测试方法构建标准化框架,涵盖场景构建、数据集设计、智能体配置及问题集设计,确保与实际业务高度贴合 [11][12] RAG能力测试 - 文本问答表现优异,单文档及多文档问答准确率超80%,但拒答与澄清处理差异显著,腾讯云对知识库外问题实现100%拒答 [20][21] - 结构化数据问答中百度智能云千帆表现稳定,多表关联查询准确率较高,阿里云百炼和扣子存在信息遗漏与聚合误差 [23][27] - 图文问答中阿里云百炼、腾讯云及扣子图片识别能力较强(83.3%-91.7%),但配图输出率分化,百度智能云千帆因流程bug识别率低 [30][33] 工作流能力测试 - 订单修改场景端到端准确率61.5%-69.2%,腾讯云意图识别准确率达93.3%,参数提取是主要差异点 [36] - 各平台在意图识别环节准确率达100%,但阿里云百炼和腾讯云参数提取准确率(75%)高于扣子和百度智能云千帆(61.5%) [37] - 工作流配置呈现差异化设计,腾讯云采用全局Agent机制,阿里云百炼和扣子分离对话与任务执行引擎 [40] Agent能力测试 - 单工具调用完成率83%-92%,多工具协同及提示词调用有提升空间,腾讯云因工具生态完整表现均衡 [48][50] - 任务分解能力标准化,如行程规划场景均能识别路径规划+天气查询+联网搜索工具组合需求 [48] - 平台工具生态依赖自身资源,百度整合文库/百科,腾讯打通文档/地图,扣子支持轻量化插件开发 [49] 总结与展望 - 平台基础能力趋同但路径分化,需在场景深度适配、技术链厚度构建、生态广度拓展上持续发力 [1] - 当前技术需优化自然语言到结构化查询的精准映射,增强字段格式兼容性校验 [28] - 工作流系统仍依赖人工干预,需结合业务经验与技术特性进行动态校准 [43]
全球知名Agent应用Perplexity CEO点赞阿里千问
快讯· 2025-07-24 10:56
阿里开源Qwen3-Coder获业界高度评价 - Perplexity CEO公开称赞Qwen3-Coder为"令人惊叹的成绩"并强调"开源赢爆了" [1] - Qwen3-Coder在SWE-Bench Multilingual、Aider-Polyglot、Spider2、Mind2Web等多项Agent能力指标中超越美国Claude4模型 [1] - Qwen3-Coder API定价策略具有显著优势 平均价格仅为Claude的三分之一 [1] Qwen3-Coder技术性能表现 - 该模型在多项国际基准测试中取得最佳性能表现 展现全球顶级Agent能力 [1] - 性能指标覆盖多语言编程(SWE-Bench Multilingual)、多语言协作(Aider-Polyglot)、数据库查询(Spider2)及网页交互(Mind2Web)等场景 [1] 市场竞争优势分析 - 技术性能直接对标并超越行业领先的Claude4模型 [1] - 成本优势显著 API价格体系较竞品降低约66% [1]