Workflow
Agent
icon
搜索文档
Manus估值36亿了?
投中网· 2025-04-27 14:35
公司融资与估值 - Manus AI背后的公司"蝴蝶效应"获得由Benchmark领投的7500万美元融资,约合5.46亿人民币[2] - 此前已从腾讯、真格基金和红杉中国等投资人处筹集超过1000万美元[2] - 本轮融资使公司估值增长约5倍,达到近5亿美元,约合36.44亿人民币[2] - Benchmark此前还投资过HeyGen和Sema4.ai两个华人AI创业项目[3] 产品与技术 - 3月发布尚在内测中的通用AI Agent,能独立处理简历筛选、行程规划和股票分析等任务[3] - 订阅服务价格为每月39美元,高级版本199美元[3] - 基于开源模型和第三方API构建工程化能力,核心优势在于任务规划与执行框架[8] - 使用Anthropic的Claude 3.5 Sonnet v1和阿里巴巴Qwen模型[12] - 单任务平均成本约2美元,发布后两周内在Claude模型上花费超过100万美元[12] 市场与竞争 - 计划将服务扩展至美国、日本和中东市场[3] - 被《MIT技术评论》评价为中国AI公司积极普及Agent的代表[9] - 字节推出Agent产品"扣子空间",基于自研豆包大模型[13] - OpenAI推出强调Agent能力的o3和o4 mini模型[13] - 智谱发布Agent产品AutoGLM沉思,号称首个集深度研究能力和操作能力于一体的Agent[13] - Genspark发布Super Agent,宣称在GAIA Benchmark上超越Manus[13] 团队背景 - 三位合伙人分别为肖弘、季逸超和张涛[5] - 创始人肖弘曾创立夜莺科技,推出"壹伴助手"和"微伴助手",获腾讯和真格基金投资[5] - 联合创始人季逸超曾创立Peak Labs,开发"中文互联网最大通用知识图谱"Magi系统[5] - 产品合伙人张涛曾任光年之外产品负责人[5] 行业趋势 - 模型推理能力提升使Agent成为2025年最热的AI投资方向[2] - 2025年被称作Agent元年[2] - AI Agent对算力需求巨大,带动相关基础设施投资[10] - CoreWeave上市市值近200亿美元,主营业务为GPU租赁[9]
Windsurf团队科普Agent:不是什么都叫智能体!
Founder Park· 2025-04-25 21:29
Agent核心概念解析 - Agent系统本质是「LLM+工具」的循环结构 接收用户输入后交替调用推理模型和工具 推理模型决定行动步骤 工具执行具体操作并将结果反馈至信息流[5][6] - 推理模型的核心功能是选择工具和参数 而非单纯生成内容 其输出包含行动原因解释和结构化参数指令 工具则独立于LLM 涵盖计算器 系统时间等非文本功能[6][8] - 典型误用场景包括将思维链提示(CoT)等同于Agent推理 或混淆AI工作流与Agent系统 前者是LLM内部思考过程 后者是预设流程缺乏实时工具决策能力[8] Agent系统优势与分类 - 协作式Agent通过人类实时干预降低可靠性门槛 当前主流应用如Windsurf Cascade GitHub Copilot Workspaces均采用此模式 与完全自主Agent形成技术路径差异[16][17] - 工具集成弥补LLM短板 如数学计算 实时数据获取等 使系统能力突破文本生成限制 同时支持状态改变类操作(如发送短信) 超越RAG系统的信息检索范畴[12] - 发展历程显示 Copilot式单次调用系统率先落地 而AutoGPT(2023)和Devin等自主Agent受限于端到端可靠性 尚未大规模普及[13][15] Agent系统构建关键问题 - 工具生态决定能力边界 需评估工具独特性(如Windsurf网页解析技术)和扩展性 同时数据访问需平衡范围与控制 如代码库访问深度影响效果但增加权限复杂度[22][23] - 延迟优化涉及全技术栈 包括模型推理加速 提示工程缓存 工具并行化等 需权衡质量与响应速度 高延迟会放大失败成本[26] - 用户体验设计包含意图捕捉(隐式信号利用) 改动可视化审查(如IDE多文件修改) 以及非Agent功能融合 避免过度Agent化简单任务[24][27][29] 行业发展趋势 - 「苦涩的教训」警示过度依赖人工设计的风险 算力增长可能使定制化提示 工具选择等投入失效 需保持技术路径灵活性[31] - 协作式Agent现阶段更符合商业落地需求 因其降低了对LLM绝对可靠性的依赖 通过人机协同实现可控产出[17][19]
人工智能行业专题:大厂Agent来临,MCP拓宽应用边界
国信证券· 2025-04-24 15:52
报告行业投资评级 - 优于大市(维持评级) [1] 报告的核心观点 - Agent发展打开人机协同全新范式,为AI应用提供新发展思路,未来模型能力持续提升,各领域Agent将成模型触达终端用户的载体,持续看好AI应用后续发展 [2][33] 根据相关目录分别进行总结 字节跳动:发布通用Agent,掀开大厂竞赛帷幕 - 4月18日晚间,字节跳动扣子空间开启内测,定位通用Agent,采用邀请码制,用户可选择通用实习生或行业领域专家,通过与AI互动完成工作任务 [5] - 扣子空间特点:从回答到解决问题全线打通,拥有专家Agent生态,有探索/规划双模式,支持MCP扩展集成 [5] - MCP是开放标准协议,集成MCP扩展可扩展Agent能力边界,国内大厂纷纷布局MCP,有望成为AI时代的HTTP协议,提效AI应用开发、加速生态扩展 [8] - 扣子空间优点:内容全面、输出文档能力优秀、人机协同能力强,支持多任务同时进行,分专家和通用模型,MCP扩展集成解决调用数据问题并提供应用接入入口 [11] - 字节跳动发布扣子空间拉开大厂布局通用Agent序幕,阿里、腾讯等公司有望迅速推进,相关生态有望加速扩张 [2][11] 智谱:全栈自研,开源推动生态 - 3月31日,智谱发布AutoGLM沉思,具备深度研究和实际操作能力,能模拟人类思维过程,完成数据检索、分析到生成报告 [15] - AutoGLM沉思技术演进历经多阶段,核心链路技术与32B/9B GLM模型于4月15日全面开源 [15] - AutoGLM沉思核心在于深度思考、感知世界和工具使用三大能力,以智谱新推出的沉思模型为基础,可通过强化学习提升模型能力 [15] - AutoGLM沉思利用智谱自主研发的全栈大模型技术,新版基座模型GLM - 4 - Air - 0414参数量320亿,新版推理模型GLM - Z1 - Air性能与DeepSeek - R1媲美,推理速度提升8倍,成本降低至1/30 [19] - AutoGLM系列模型在多个测试环境中取得SOTA成绩,特别是在Phone Use和Browser Use基准测试中超越顶尖模型 [19] - AutoGLM沉思能回应开放式复杂问题,已在智谱清言PC客户端上线preview版本,未来两周将扩展更多智能体执行能力 [19] - AutoGLM沉思进步:叠加环境交互能力,输出内容更全面,降低AI技术使用门槛;核心模型逐步开源,推动生态扩展和应用场景催化;比Manus更灵活、高效、易于访问,无明确任务限制,自主研发具备更高灵活性、控制力和成本效益 [20] Genspark:整合多AI模型提供准确响应 - 美国时间4月2日,景鲲发布Genspark超级智能体,宣称是综合性AI助手,可协调多个AI工具高效执行任务,在GAIA Benchmark测试中表现超越多个产品 [28] - Genspark采用整合多AI模型的混合代理(MoA)系统,包含80多个工具集和10多个高级数据集,背后有9个模型,能汇总和优化多个高级模型的响应 [28] - Genspark 3月上线iOS应用程序,定位超级AI应用,集多种功能于一体,新注册用户有免费体验积分,PLUS会员需付费,价格为239.88美元/年或24.99美元/月,每月可获10000使用积分 [31] - Genspark特点:调用不同模型完成任务,内部构建可靠工具集和数据集,信息来自可靠来源,无广告和商业偏见,可提高效率 [31] 投资建议 - Agent时代到来,海外垂直Agent和国内通用Agent发展,相关生态有望快速发展,覆盖下游领域、实现全面自动化 [33] - C端Agent重塑流量入口,B端Agent对垂直私域数据进行智能体改造或将率先落地 [33] 相关标的梳理 - 通用企业Agent领域,用友网络、金蝶国际、泛微网络等公司有相关布局 [34] - 金融领域,中科金财、顶点软件、天阳科技等公司有相关产品和服务 [34] - 政务领域,博思软件、久其软件在相关领域开展应用和预研工作 [34] - 法律领域,华宇软件、金桥信息利用大模型和Agent技术助力业务 [34] - 医疗领域,嘉和美康、国脉科技推出相关智能体产品 [34] - 工业领域,赛意信息、鼎捷数智构建相关平台和智能体 [34] - 虚拟机领域,深信服提供安全和管理相关Agent [34] - 营销领域,新大陆发布AI营销助手 [34]
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 20:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]
Agents和Workflows孰好孰坏,LangChain创始人和OpenAI杠上了
Founder Park· 2025-04-21 20:23
行业观点分歧 - OpenAI发布构建AI Agents的实用指南,主张通过LLMs主导Agent设计[2] - LangChain创始人反对严格区分Agent类型,认为理想框架应允许结构化工作流向模型驱动灵活过渡[2] - Anthropic提出"Agentic系统"概念,将Workflows和Agents视为同一系统的不同表现形式[2][12] - 大模型派(Big Model)强调通用型智能体系统,工作流派(Big Workflow)主张模块化工作流构建[2] Agent定义差异 - OpenAI定义Agent为"能代表用户独立完成任务"的宏观系统[10] - Anthropic将Agent明确区分为预设规则的Workflows和动态决策的Agents[12][13] - 实际生产环境中大多数系统采用Workflows和Agents混合模式[16][20] - 建议采用"Agentic程度"的连续光谱概念替代二元分类[21] 技术实现挑战 - 构建可靠Agent的核心难点在于确保LLM每步获取精准上下文[26][27] - 上下文传递问题常源于系统提示不完整、工具描述不当或响应格式错误[28] - 声明式框架可视化清晰但动态性不足,代码优先方案更灵活但控制复杂[6][41] - 多Agent系统需解决通信机制问题,可采用交接或工作流混合模式[45][46] 框架设计维度 - 成熟框架需同时支持Workflows和Agents两种模式[32] - 需平衡可预测性与自主性,不同应用场景需求各异[33] - 理想框架应兼具低门槛(易用性)与高上限(扩展性)[37][40] - LangGraph采用声明式与命令式混合API,支持持久化与流式传输[30][31] 生产环境考量 - Agentic系统通常需牺牲延迟和成本换取任务表现[20][63] - 企业级应用需特殊功能如人工监督、容错机制和长期记忆存储[53][57] - 垂直领域需定制化方案,通用模型难以满足独特业务需求[67] - 框架价值体现在标准化构建方式、调试工具和生产级功能集成[49]
扣子空间一手实测:字节的第一个Agent,比Manus如何?
Founder Park· 2025-04-21 20:23
产品发布与内测 - 4 月 17 日,豆包·深度思考模型发布,同步升级文生图模型 3.0、视觉理解模型,推出 OS Agent 解决方案及 AI 云原生推理套件[29] - 4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent,采用邀请码制[3] 产品功能与体验 - 扣子空间用户可选择「通用实习生」或「领域专家」完成工作任务,有探索和规划两种模式,支持添加 MCP 扩展[4][7][13] - 实测中,制定旅游攻略和一周穿搭任务部分完成,专家助手任务出现 Python 脚本调用失败、API 权限异常等 Bug[6] - 接入语音合成工具可将文字攻略转成语音,查天气推荐穿搭可输出图片[15] 专家 Agent 情况 - 扣子空间内置「用户研究专家」和「华泰 A 股观察助手」两个专家 Agent,限时免费,前者单任务平均耗时 4 分钟,后者 23 分钟[24][25] - 「华泰 A 股观察助手」执行任务不稳定,出现数据未获取、Python 脚本调用失败等问题[26][27] 行业趋势与战略 - 2025 年之前被称为 Agent 之年,manus 加速大厂在该领域推进[29] - 做好 Agent 技术上需更强多模态模型、更好架构和工具、降低模型推理成本和延迟,字节或已做好准备[30][31] - 火山引擎通过多种方式全面推进 Agent 生态建设,未来 Agent 定义和应用场景将更清晰[32] - 字节的 Agent 战略以技术突破、生态协同和成本优势为核心[33]
复盘字节扣子空间开发历程:瞄准工作场景,做一个 Agent 系统
晚点LatePost· 2025-04-21 17:36
字节AI产品扣子空间内测表现 - 字节Agent产品"扣子空间"4月18日内测开启后因用户涌入导致服务器崩溃,验证市场对实用型AI产品的强烈需求[3] - 产品定位为"与Agent一起开始你的工作",聚焦解决工作场景复杂问题,由豆包大模型驱动并支持MCP协议调用飞书等工具[4] - 通用Agent提供探索模式(自动执行)和规划模式(需用户确认),后者在测试中表现更优,能完成收集行业动态等任务[5][7] 产品功能与测试案例 - 通用Agent可开发提醒喝水App:分析竞品→收集需求→输出交互式网页方案[8] - 处理关税查询等复杂任务时存在信息过时问题,但会主动生成可视化网页文件[10] - 专家Agent体系包含用户研究专家(提炼访谈记录为产品建议)和华泰A股观察助手(分析上市公司数据)[12][14][16] - 中美关税对宁德时代影响分析案例:拆解6步骤耗时40分钟,输出包含市场拓展建议的报告[22][24] 技术架构与竞争优势 - 采用豆包1.5 Pro为主模型,因其工具调用和多模态处理能力突出且推理成本低[28] - 背靠字节生态优势:整合扣子平台200万+AI应用数据、飞书文档工具链及火山引擎部署能力[28] - 通过MCP协议实现飞书文档双向读写,解决私有数据访问关键问题[28] - 行业竞争壁垒在于数据/工具调用能力而非基础模型差异[31] 产品战略与行业动态 - 当前版本定位为"打样",目标构建通用+专家Agent协同的开放系统[4][33] - 快速上线策略旨在获取用户反馈优化产品层,弥补基础模型局限[32] - 国内大厂均在加速布局Agent赛道,扣子空间属于先行者之一[33]
火山总裁谭待:很多Agent的能力还停留在类似自动驾驶的L1阶段
快讯· 2025-04-17 19:17
行业发展方向 - 目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent是行业发展的方向 [1] - 深度思考模型是构建Agent的基础,模型需要具备思考、计划和反思能力,并且支持多模态,才能更好地处理复杂任务 [1] 公司动态 - 字节跳动旗下火山总裁谭待在火山引擎2025FORCE LINK AI创新巡展上表示,豆包1.5深度思考模型正式发布 [1] - 豆包1.5深度思考模型在数学、编程、科学推理、创意写作等通用任务表现突出,并上线了具备视觉推理能力的视觉版 [1] - 视觉版模型能像人类一样对看到的事物进行联想和思考 [1]
北京最火独角兽,要IPO了
投中网· 2025-04-15 14:57
智谱AI IPO进展 - 智谱于2025年4月14日在北京证监局办理IPO辅导备案,辅导机构为中金,计划2025年10月完成上市准备 [3] - 2025年3月完成股份改制,由有限责任公司变更为股份有限公司 [3] - 成为国内大模型"六小虎"中首家启动IPO的公司 [3] 公司背景与技术架构 - 源自清华大学知识工程实验室,核心团队为清华系技术专家,包括首席科学家唐杰(主导研发中国首个万亿参数开源大模型"悟道2.0")[5] - 技术对标OpenAI,拥有全栈自研GLM系列模型架构,包括基座大模型GLM-4、代码模型、多模态模型等,2023年3月至今已完成4次重大迭代 [5] - 2025年发布Agent产品AutoGLM沉思,推理模型GLM-Z1-Air性能比肩DeepSeek-R1但速度提升8倍、成本仅1/30 [5] 商业化进展 - 2024年商业化收入同比增长超100%,MaaS平台吸引70万企业及开发者用户,API年收入同比增30倍 [5] - C端产品"智谱清言"2024年三季度上线付费功能后预计年收入超千万元 [5] - 2025年宣布为"开源年",计划发布包括基座模型、多模态模型等在内的全新开源大模型 [5] 融资与资本结构 - 累计融资超100亿元,2023年单年融资37亿元,估值增长6倍至200亿元 [7] - 投资方包括美团、腾讯、小米等产业资本及红杉、高瓴等财务投资人,2025年3月获杭州、珠海、成都国资合计18亿元战略投资 [7][8] - 无控股股东,实际控制人唐杰和刘德兵通过一致行动人安排控制36.9647%表决权,美团为最大外部股东(持股5.5423%)[10] 行业竞争格局 - 国内大模型"六小虎"分化明显:零一万物转向参数适中模型,MiniMax聚焦多模态,百川深耕医疗,月之暗面开发内容社区 [3] - 二级市场反应积极,战略合作方思美传媒在IPO消息公布后股价涨停 [3]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]