Workflow
Agent
icon
搜索文档
复盘字节扣子空间开发历程:瞄准工作场景,做一个 Agent 系统
晚点LatePost· 2025-04-21 17:36
字节AI产品扣子空间内测表现 - 字节Agent产品"扣子空间"4月18日内测开启后因用户涌入导致服务器崩溃,验证市场对实用型AI产品的强烈需求[3] - 产品定位为"与Agent一起开始你的工作",聚焦解决工作场景复杂问题,由豆包大模型驱动并支持MCP协议调用飞书等工具[4] - 通用Agent提供探索模式(自动执行)和规划模式(需用户确认),后者在测试中表现更优,能完成收集行业动态等任务[5][7] 产品功能与测试案例 - 通用Agent可开发提醒喝水App:分析竞品→收集需求→输出交互式网页方案[8] - 处理关税查询等复杂任务时存在信息过时问题,但会主动生成可视化网页文件[10] - 专家Agent体系包含用户研究专家(提炼访谈记录为产品建议)和华泰A股观察助手(分析上市公司数据)[12][14][16] - 中美关税对宁德时代影响分析案例:拆解6步骤耗时40分钟,输出包含市场拓展建议的报告[22][24] 技术架构与竞争优势 - 采用豆包1.5 Pro为主模型,因其工具调用和多模态处理能力突出且推理成本低[28] - 背靠字节生态优势:整合扣子平台200万+AI应用数据、飞书文档工具链及火山引擎部署能力[28] - 通过MCP协议实现飞书文档双向读写,解决私有数据访问关键问题[28] - 行业竞争壁垒在于数据/工具调用能力而非基础模型差异[31] 产品战略与行业动态 - 当前版本定位为"打样",目标构建通用+专家Agent协同的开放系统[4][33] - 快速上线策略旨在获取用户反馈优化产品层,弥补基础模型局限[32] - 国内大厂均在加速布局Agent赛道,扣子空间属于先行者之一[33]
火山总裁谭待:很多Agent的能力还停留在类似自动驾驶的L1阶段
快讯· 2025-04-17 19:17
行业发展方向 - 目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent是行业发展的方向 [1] - 深度思考模型是构建Agent的基础,模型需要具备思考、计划和反思能力,并且支持多模态,才能更好地处理复杂任务 [1] 公司动态 - 字节跳动旗下火山总裁谭待在火山引擎2025FORCE LINK AI创新巡展上表示,豆包1.5深度思考模型正式发布 [1] - 豆包1.5深度思考模型在数学、编程、科学推理、创意写作等通用任务表现突出,并上线了具备视觉推理能力的视觉版 [1] - 视觉版模型能像人类一样对看到的事物进行联想和思考 [1]
北京最火独角兽,要IPO了
投中网· 2025-04-15 14:57
智谱AI IPO进展 - 智谱于2025年4月14日在北京证监局办理IPO辅导备案,辅导机构为中金,计划2025年10月完成上市准备 [3] - 2025年3月完成股份改制,由有限责任公司变更为股份有限公司 [3] - 成为国内大模型"六小虎"中首家启动IPO的公司 [3] 公司背景与技术架构 - 源自清华大学知识工程实验室,核心团队为清华系技术专家,包括首席科学家唐杰(主导研发中国首个万亿参数开源大模型"悟道2.0")[5] - 技术对标OpenAI,拥有全栈自研GLM系列模型架构,包括基座大模型GLM-4、代码模型、多模态模型等,2023年3月至今已完成4次重大迭代 [5] - 2025年发布Agent产品AutoGLM沉思,推理模型GLM-Z1-Air性能比肩DeepSeek-R1但速度提升8倍、成本仅1/30 [5] 商业化进展 - 2024年商业化收入同比增长超100%,MaaS平台吸引70万企业及开发者用户,API年收入同比增30倍 [5] - C端产品"智谱清言"2024年三季度上线付费功能后预计年收入超千万元 [5] - 2025年宣布为"开源年",计划发布包括基座模型、多模态模型等在内的全新开源大模型 [5] 融资与资本结构 - 累计融资超100亿元,2023年单年融资37亿元,估值增长6倍至200亿元 [7] - 投资方包括美团、腾讯、小米等产业资本及红杉、高瓴等财务投资人,2025年3月获杭州、珠海、成都国资合计18亿元战略投资 [7][8] - 无控股股东,实际控制人唐杰和刘德兵通过一致行动人安排控制36.9647%表决权,美团为最大外部股东(持股5.5423%)[10] 行业竞争格局 - 国内大模型"六小虎"分化明显:零一万物转向参数适中模型,MiniMax聚焦多模态,百川深耕医疗,月之暗面开发内容社区 [3] - 二级市场反应积极,战略合作方思美传媒在IPO消息公布后股价涨停 [3]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]
吴明辉:DeepSeek之后,每一家公司都是Agent
混沌学园· 2025-04-02 16:32
核心观点 - 未来营销不仅面向人,还需面向大模型,智能体如Manus可能成为每个人的桌面 [1] - 企业本质是超级Agent,一线员工是感知系统,管理层是认知系统 [1][5] - 国产AI领域将在4月迎来Agent发布潮,Manus已与通义千问达成合作 [1] - 大模型能力十倍速提升带来重大机遇,但幻觉问题仍是挑战 [2] - Agent分为供给侧代理和需求侧代理,Manus是成功案例 [3][4] 推理大模型带来的机会 - 大语言模型本质是函数,根据上文生成下文 [1] - DeepSeek-R1等模型推理能力提升10倍,创造新创业机会 [2] - 幻觉问题未解决反而带来机遇,可用企业独有数据解决 [2] - 大模型擅长处理非结构化数据,如社交媒体信息 [11] Agent的定义与分类 - Agent可译为"智能体"或"代理商",需明确代理谁的利益 [3] - 供给侧代理:帮助客户更好使用现有软件 [3] - 需求侧代理:围绕客户需求连接资源,如Manus [4] - Manus成功连接各种工具,类似人类具备感知和行动能力 [5] 企业Agent的构建框架 感知系统 - 贝壳找房案例:工牌录音记录施工过程,数据脱敏分析后赋能一线 [8] - AI可强化感知,如Grok3利用X平台实时舆情数据 [10] - 大模型帮助交易员获取场外非结构化数据,提升感知能力指数级 [11] 认知系统 - 需聚焦高频高杠杆率决策,如用AI变革核心工种 [14] - 建议采用倒三角架构:客户在上,一线员工居中,管理层在下 [15] - 企业应建立自有模型保护数据,开源是更好选择 [15] - 倒三角结构解决两大问题:客户与员工互动、员工与管理层互动 [17] 行动系统 - 物理世界行动系统如宇树机器人,虚拟世界行动系统如API/RPA/Agent [18] - Manus展示Agent强大功能,企业需全员升级工具和分工 [19] - 企业应重构组织,思考员工在新工具中的角色定位 [19] 目标系统 - Agent需明确代理目标,形成感知-响应-行动闭环 [20] - AI可实现自我迭代,如思灵机器人自造自身 [20][21] - 企业需在目标前提下利用AI进行复盘,遵循人机持续迭代原则 [23] 战略建议 - 研发团队需升级,明确AI可替代的工作范围 [25] - 保护核心数据,面向大模型做营销而不仅面向人 [26] - 产品设计需考虑机器人操作场景 [26] - 建议有资源的企业训练自有模型 [26] - 未来战略需基于"智能无限提供"的假设 [27] - 工作分为对人/不对人两类,后者将减少 [27] - 人机交互不可替代,需重视客户情绪价值 [27]
AI转向”推理模型和Agent时代“,对AI交易意味着什么?
硬AI· 2025-03-10 18:32
行业趋势转变 - AI行业正经历从传统大模型向推理模型和Agent的转变 强调"巧"而非"大" [2][4] - 模型进化方向从死记硬背转向链式思考(CoT) 实现多步验证和精准输出 [5] - 应用范式从聊天机器人升级为能执行任务的Agent 覆盖客户服务 金融分析等场景 [7] 技术路径分化 - 两种发展情景:Chinchilla缩放持续有效则2028年模型达65万亿参数 或预训练停滞转向推理优化 [10][11] - 推理模型代表如OpenAI的o1/o3和DeepSeek R1 已展现更高基准测试成绩及成本优势 [5] - 算力需求结构变化:推理计算占比将超50% 2028年推理算力缺口达2500亿exaFLOPS [13] 产业链影响 - 芯片需求从通用训练芯片转向定制推理芯片 网络设备商持续受益 [9][18] - 开源模型(Llama/DeepSeek)发展迅速 但微调成本仅为大模型训练的小部分 [15][16] - 科技巨头自由现金流可能改善 因推理成本下降减少资本支出压力 [19] 投资逻辑重构 - 缩放定律有效时优先布局芯片/设备供应商 警惕高资本支出科技企业 [1][18] - 预训练停滞则关注科技巨头现金流回升及用户基数大的应用类公司 [1][19] - ChatGPT两月新增1亿用户显示Agent应用爆发潜力 [7]
昨夜3件事,加强中国AI科技叙事?
华尔街见闻· 2025-03-06 19:11
阿里通义开源RL新模型 - 阿里通义开源了QwQ-32B RL新模型 性能比肩满血DeepSeek R1 在AIME24数学测试和LiveCodeBench代码评估中表现优异 [1] - 该模型采用创新训练方法 通过校验生成答案正确性提供反馈 相比传统奖励模型训练时间大幅缩短 [2] - 公司预告将在Qwen Chat平台发布QwQ-Max-Preview模型 并承诺持续开源更多RL模型 [3][4][5] 大模型本地化部署进展 - 高性能大模型本地部署门槛显著降低 仅需NVIDIA 4090显卡或24G内存以上Mac mini即可实现 成本控制在4位数人民币 [6] - 苹果Mac Studio搭载M3 Ultra芯片(32核CPU/80核GPU)可实现满血DeepSeek-R1本地化运行 速度达20token/s 价格从70万降至7万人民币 [8][9] - 512GB内存配置的Mac Studio可支持更强大本地AI运算能力 [11][12] AI行业发展趋势 - RL技术突破将显著提升智能硬件性能 推动应用需求爆发 利好Agent技术发展 [7] - Manus AI等Agent产品引发市场关注 提升应用端对AI能力的期待 将带动算力需求增长 [13][14] - 中国科技公司在RL大规模强化学习领域取得突破 行业估值逻辑面临重塑 [14]
智谱完成超10亿元战略融资:今年为其「开源年」,杭州押注下一个DeepSeek
IPO早知道· 2025-03-03 09:16
融资与战略布局 - 公司完成超10亿元人民币战略融资,投资方包括杭州城投产业基金、上城资本等 [2] - 在杭州成立浙江智谱新篇科技有限公司,服务浙江省和长三角地区经济实体,推动数字产业转型升级 [2] - 2024年1月被美国商务部列入实体清单,但公司强调将继续提供世界一流的大模型技术并参与全球竞争 [2] 技术实力与产品 - 研发国产独立知识产权的GLM大模型预训练架构,最新基座模型GLM-4-Plus技术实力世界领先 [3] - 在Agentic LLM方向优势明显,先于OpenAI提出Phone Use概念并推出Agent产品AutoGLM及GLM-PC [3] - 构建开放平台bigmodel.cn,以Model as a Service(MaaS)理念推动AI生态繁荣 [3] - 2024年推出基座模型GLM-4-Plus、Agent模型AutoGLM、推理模型GLM-Zero等,技术对标GPT [5] - GLM预训练架构实现全栈自主创新,包括底层算子、训练框架等核心模块自主研发 [5] 开源与生态 - 2024年是公司的"开源年",将发布全新大模型并开源 [3] - 适配国内40多种GPU芯片,推动进口替代 [5] - MaaS平台支撑70余万企业开发者,私有化部署服务金融、医疗等20多个行业,在万余家企事业单位应用 [5] Agent技术领先 - 2025年或将是Agent爆发年,公司在Agentic LLM领域具有领先优势 [7] - 与三星合作,将Agent体验带到Galaxy S25系列手机,支持实时语音、视频通话等功能 [9] - Agentic LLM将整合物理与数字世界资源,从被动应答转向主动执行,提升生产力 [10] AGI发展路径 - 公司将AGI分为五个层级:L1预训练大模型、L2对齐&推理、L3自我学习、L4自我认知、L5意识智能 [12] - 坚定朝着AGI方向努力,推动AI从学习知识到具备自我认知和探索能力 [17]
Deep Research 团队:Agent 的终极形态是所有任务 All-in-one
海外独角兽· 2025-02-27 20:09
文章核心观点 - OpenAI推出第二个Agent Deep Research,可搜索多网站生成全面报告,团队分享构建技术细节、产品思路及使用场景,未来希望打造终极Agent整合多种功能,且Agent有望在2025年崭露头角 [1][11] 分组1:OpenAI的第二个Agent - Deep Research能搜索多在线网站生成全面报告,在ChatGPT中运行,回答时间5 - 30分钟,能深入研究并详细回答问题,是OpenAI第二个Agent,未来还会发布更多 [5] - 约一年前OpenAI采用reasoning范式训练模型,解锁长时任务处理能力,意识到完成任务需在线研究等能力,开发出对应模型训练方法,项目最初由Isa Fulford和Yash Patil合作原创demo,Josh Tobin 6个月前加入 [6] - Deep Research有澄清流程,在研究前向用户提问,确保用户提供模型所需细节,很多用户先与o1或o1 Pro互动完善prompt后再发给它 [9][10] - 过去几个月OpenAI推出三种不同的Deep Research,因模型构建方式等因素质量有差异,未来希望用户通过终极Agent自然融合多种功能 [11] 分组2:Agent能力来自模型端到端的训练 - Deep Research底层模型是O3微调版本,经复杂浏览和推理任务端到端训练,学会应对策略,能整合信息生成带引用报告 [13] - 端到端训练使Deep Research有创新的Agent能力,能对实时网页信息灵活反应,创造性搜索,与非端到端训练的AI搜索产品有差异 [14][15] - Josh Tobin曾尝试构建Agent,发现按常规方式构建在现实中会有问题,说明Deep Research强大源于端到端训练,还建议按需用人工编写逻辑,在模型整体基础上进行RL调优可能是构建强大Agent的关键 [16][18] - 高质量数据集是Deep Research模型成功的关键因素之一,Edward Sun会对所有数据集进行优化 [19] 分组3:Deep Research的优势 - 当用户需求详细时,Deep Research能通过阅读互联网内容提供最佳答案,问题模糊时也能理清信息,擅长收集冷门事实和综合信息,但提炼新见解和做出新科学发现效果不佳 [20] 分组4:Deep Research的使用场景 - 目标用户是从事知识性工作的人员,适合需大量收集信息、分析数据并决策的人,可应用于工作和个人生活场景 [21] - 商业和个人生活场景中,Deep Research能节省时间,赋予知识型工作者超能力,实现更多事情,访谈提及的场景包括医疗、投资、购物、旅行、编程和个性化教育等 [22][23] 分组5:Agent会在2025年崭露新头角 - OpenAI希望未来Deep Research在产品形态上嵌入图像和生成图表,扩展可访问数据源,提升浏览和分析能力,改进信息准确度,融入Agent路线图扩展应用场景 [30] - Deep Research能完成部分经济上可行的任务,为用户节省时间,OpenAI希望其和后续构建的Agent能根据用户工作类型节省1% - 25%的时间 [31] - Isa Fulford和Josh Tobin认为今年Agent会崭露头角,现在有强大预训练语言模型和监督微调方法,适合根据用户奖励函数调整模型用于各种用例 [32][34]
晚点对话 MiniMax 闫俊杰:千万别套用移动互联网的逻辑来做 AI
晚点LatePost· 2025-01-17 15:46
核心观点 - 公司认为AI行业的核心驱动力是技术迭代而非用户增长,智能水平的提升不依赖大量用户反馈[8][17][19] - 公司明确自身定位为技术驱动型企业,在技术路线与产品需求冲突时优先选择技术突破[22][23] - 行业存在方法论误区,多数企业仍用移动互联网推荐系统思维开发AI产品[12][20][97] - 开源是加速技术进化的有效路径,公司首个开源模型MiniMax-01采用创新线性注意力机制架构[9][14][15] 技术路线 - MiniMax-01系列模型突破性采用线性注意力机制新架构,可高效处理400万token长上下文[9][45] - 模型参数规模超4000亿,是全球首个在此量级实现线性注意力机制的大模型[76] - 技术目标聚焦Agent能力提升,重点突破长上下文记忆、多Agent协同等方向[40][44] - 明确不跟风o系列模型开发,认为蒸馏技术虽可行但非核心创新路径[53][54][58] 产品策略 - 旗下海螺视频生成模型月访问量已达全球第一梯队水平[77] - AI社区产品"星野"用户留存率优于字节等大厂竞品[7][92] - 放弃移动互联网式增长目标,2025年核心KPI转为技术研发指标[106][129] - 测试中的信息获取产品尝试重构推荐逻辑,实现精准学术内容推送[62][63] 行业认知 - 中美AI差距在于中国缺乏原创性技术benchmark,过度依赖对齐国外模型输出[72] - 大模型与推荐系统存在本质差异:前者依赖预设能力分级,后者依赖AB测试[21][66] - 行业已从"Scaling Law信仰"转向寻求算法、组织等层面的持续创新[33][34] - 竞争格局不应区分创业公司与大公司,关键在于技术进化速度[98][114] 组织管理 - 团队结构保持三级扁平化管理,强调客观技术评估文化[79][81] - 人才策略承认字节跳动的人才密度优势,但认为创业公司更利技术人才成长[82][130] - 决策机制建立在共同技术认知基座上,弱化明确分工边界[125][126] - 主动优化团队结构,淘汰非技术驱动型人员[115][116] 创始人反思 - 复盘早期失误包括过度关注用户指标、未及时开源、产品定位摇摆[13][15][24] - 认知升级关键点在于明确技术迭代优先于商业化目标[132][133] - 创业方法论强调简单专注,拒绝"天选之子"叙事[30][140] - 自我定位非技术天才型创始人,重视团队协作价值[96][136]