Workflow
Agent
icon
搜索文档
院士张宏江:Agent将替代企业流程,也会改变未来的人类组织构成
新浪科技· 2025-09-11 10:34
大模型成本与性能趋势 - DeepSeek R1模型成本仅为当时世界最佳推理模型的几十分之一,性能却非常接近[1] - 大模型使用成本快速降低,模型性能快速提高,该趋势将伴随大模型发展持续发生[1] - 以ChatGPT发布为标志,其日活跃用户在2025年3月已接近搜索引擎的30%,表明大模型已成为日常工具[1] Agent技术发展 - Agent规划能力呈指数性成长,出现摩尔定律3.0,其能力以任务长度衡量每7个月翻一倍[1] - 随着基础模型能力提高,Agent Scaling Law还将加速[1] - AI将从助理角色转变为伙伴角色,具备自身规划和行动能力,改变人机关系[2] 产业与经济影响 - 大模型生态推动多个产业发生Scaling Law,并带动整体经济发展[1] - Agent技术将替代企业流程,改变未来的人类组织构成和就业模式[2] - 无论是OpenAI的ChatGPT还是其他公司,大模型的使用都在加速[1]
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅APP· 2025-09-07 10:51
Agent AI核心框架 - 提出由环境与感知、认知、行动、学习、记忆五大模块构成的智能体认知闭环架构 这代表对未来通用人工智能发展路径的前瞻性思考[10][12][17] - 感知模块具备多模态信息接收能力和任务规划与技能观察功能 使智能体能主动从物理或虚拟世界获取信息[12] - 认知模块作为处理中枢 由大语言模型和视觉语言模型提供世界知识、逻辑推理和上下文理解能力[14] - 行动模块通过控制器生成物理世界交互指令或虚拟世界API调用[15] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等机制 实现持续自我进化[16] - 记忆模块采用持久化结构化系统存储知识、逻辑和推理结果 支持长期经验积累[17] 大模型驱动机制 - 大型基础模型特别是LLM和VLM的成熟是Agent AI框架的根本驱动力 为智能体提供零样本规划能力[20] - 大模型存在的"幻觉"问题可通过环境交互机制解决 环境反馈能迫使模型内部知识与外部现实对齐[21] - 基础模型存在社会偏见风险 需通过多元化数据训练和偏见检测机制确保包容性[22] - 个人数据隐私保护需建立明确法规框架 通过提示工程和人类监督层确保安全可控[22] 游戏领域应用 - 彻底改变传统NPC由固定脚本驱动的模式 实现基于记忆、目标和情感的动态行为调整[25] - 支持玩家用自然语言与游戏世界互动 为开放世界游戏带来前所未有的沉浸感和自由度[25] - 可作为创作者副驾驶 根据指令自动生成游戏关卡、道具和完整3D场景 大幅提升开发效率[25] 机器人领域应用 - 用户可用日常语言下达指令 机器人自主规划执行复杂物理操作 如GPT-4V可将人类演示视频转化为可执行任务序列[27] - 通过领域随机化技术在模拟训练中引入变化 增强对真实世界差异的鲁棒性[27] - 融合视觉、语言、触觉等多模态信息理解环境 实现更精准的物理交互[27] 医疗健康应用 - 作为医疗聊天机器人进行初步问诊和病史收集 基于医学知识库提供诊断建议 提升初级诊疗覆盖率[29] - 连接实时更新的医学数据库 在生成诊断时同步进行事实核查和来源引用 抑制模型幻觉[29] - 处理分流患者信息并监控慢性病患者生命体征 实现高效个性化健康管理[31] 发展挑战与方向 - 需解决视觉、语言、听觉、动作等多模态深度融合问题 而非浅层拼接[32] - 需训练能跨游戏、机器人和医疗等不同领域工作的通用智能体 而非定制化模型[32] - 建立科学评测体系至关重要 研究团队已提出CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准[32]
跨学科注意力机制访谈系列开篇
36氪· 2025-09-05 11:48
绿洲资本AI投资布局 - 2023年上半年完成AI和具身智能方向核心投资组合构建 近二十个项目包括MiniMax、Vast、Boson、逐际动力、千寻智能、极壳科技等[1] - 投资逻辑基于对AI创新能级的判断 认为这是超越工业革命级别的创新 时间更短 能级更大[1] 技术认知演进路径 - 首次深度访谈形成核心认知:大模型本质是未来基础设施 智能将被标准化管理和分发 类似电力系统[2] - 第二次访谈聚焦Agent领域 提出Agent不是割裂工具 而是由大模型驱动的需求与智能一体化服务[4] - 2023年年中Agent尚未成为主流 缺乏统一理论认知 绿洲率先布局该领域[3] 注意力机制技术突破 - MiniMax发布Flash Attention技术 在Transformer架构内部优化注意力模块 显著提升训练与推理算力效率[7] - Attention机制已突破模型结构优化 渗透至脑科学、认知科学、心理学等多学科领域[7] - AI学习注意力的过程正在帮助人类重新理解自身感知与认知机制[7] AI技术发展双重路径 - 全球学者在Transformer结构上进行更大规模训练[8] - 认知结构和算法框架层面持续创新 推动AI掌握注意力机制[8] - 技术探索从教会机器理解注意力 转向构建可扩展的新范式[6] 人类注意力系统挑战 - 人类平均每日拿起手机超过500次 注意力持续时间压缩至不足100秒[11] - 从长篇电影到短视频 从深度阅读到信息切片 人类注意力窗口持续衰减[11] - AI将信息获取与响应速度提升至前所未有的水平 可能进一步削弱人类注意力[11] 未来研究方向 - 探索人类与AI共同构成系统中注意力的本质含义[10] - 研究当Agent成为社会主要生产者时 人类注意力机制面临的挑战[10] - 关注注意力管理作为人类自我管理的核心要素[11]
李飞飞的答案:大模型之后,Agent向何处去?
虎嗅· 2025-09-05 08:34
论文核心观点 - 李飞飞领衔的14位专家团队发布80页Agent AI综述 提出统一的多模态智能体认知框架 为行业提供前瞻性发展蓝图 [1][2][3][5][6][61] 技术架构 - 建立感知-决策-行动加记忆与学习的五模块认知闭环架构 形成动态迭代的智能交互系统 [9][10][26] - 感知模块支持多模态信息输入 包含视觉听觉文本传感器数据 并具备任务规划与技能观察能力 [12][13][14] - 认知模块由大语言模型和视觉语言模型驱动 负责多步推理与策略制定 [16][17] - 行动模块生成物理世界或虚拟世界的操作指令 通过控制器改变环境状态 [18][19] - 学习模块支持预训练/零样本/强化学习/模仿学习等多种机制 通过环境反馈持续优化 [20][21][22] - 记忆模块实现持久化结构化存储 保留知识逻辑推理路径 支持经验复用 [23][24][25] 基础模型作用 - 大语言模型和视觉语言模型为智能体提供世界知识库与零样本规划能力 显著降低任务规则编写成本 [28][29][31] - 模型存在幻觉问题 Agent通过环境交互获得物理规律反馈 倒逼模型与现实世界对齐 [32][33][34][35] - 基础模型可能继承社会偏见 需通过多元化训练数据和偏见检测机制确保包容性 [36][37] - 在医疗等敏感领域需建立数据隐私保护框架 通过提示工程和人类监督层确保安全可控 [38][39] 应用场景 - 游戏领域可创建具备记忆情感的NPC 支持自然语言交互与动态行为调整 显著提升开放世界沉浸感 [41][42][43][44] - 作为AI副驾驶自动生成游戏关卡道具及3D场景 大幅提高开发效率 [45] - 机器人领域实现自然语言指令解析 自主规划复杂物理操作序列 [47][48] - 通过GPT-4V理解人类演示视频并转化为可执行任务 简化编程流程 [49] - 采用领域随机化技术增强模拟到现实的迁移能力 提升环境适应性 [50] - 融合视觉语言触觉等多模态信息实现精细环境交互 如根据"易碎"指令调整抓取力度 [51] - 医疗领域作为聊天机器人进行初步问诊病史收集 提升初级诊疗覆盖率 [54] - 连接实时医学数据库实现事实核查与来源引用 抑制模型幻觉保障诊断准确性 [55] - 处理分流患者信息并监控慢性病体征数据 实现高效个性化健康管理 [57] 发展挑战 - 需突破视觉语言听觉动作等多模态深度融合技术 而非简单拼接 [59] - 需开发跨游戏机器人医疗等不同领域的通用智能体 而非定制化模型 [60] - 建立科学评测体系如CuisineWorld多智能体协作基准和VideoAnalytica视频理解基准 [61]
中美 Agent 创业者闭门:一线创业者的教训、抉择与机会
Founder Park· 2025-09-04 20:22
文章核心观点 - Agent行业在2025年成为AI领域最热话题 但实际落地产品稀少 面临技术、商业化和交互设计等多重挑战 行业正从通用化转向垂直深耕 核心竞争壁垒将围绕环境理解、学习记忆和场景优化能力构建 [5][8][36] 技术实施挑战 - 新一代Agent Model的规划与工具调用能力提升 取代了大量基于规则的工作流编排等外围工程 导致早期工程化工作被大模型能力迭代淹没 [6][10] - 隐性知识获取是核心挑战 包括默会知识(如广告创意规则)、组织共识性知识(如字节各小组Golang使用差异)和企业自定义规则(如ACV计算标准) [11][12] - 环境构建成为实施重点 包含三要素:执行能力(Computer Use)、业务连接(企业系统工具化)和上下文载体(领域术语与企业知识) 其中Context质量决定实际落地效果 [13][14][15] 技术路线选择 - Workflow-based与Agentic技术路线将长期并行 Workflow适用于规则驱动型任务(如订单处理可节省10多人人力) Agentic更适合多步骤灵活任务(如数据分析) [16][17][19] - 企业过往积累的流程机器人和系统集成(如RPA资产)可转化为Agent工具 实现技术路线平滑过渡 [18] 商业化路径 - 大客户(KA)市场预算充足但实施成本高、决策链长 中小客户(SMB)市场呈现民主化机遇 AI将大组织专属运营能力标准化赋能中小企业 [21] - 分层并进策略:通过SMB市场验证产品价值和商业模式 用标准化案例撬动KA市场建立标杆 [21] - 巨头对AI推进持谨慎态度 因生产力提升难以量化 且更关注实际收入而非创新 [22] 产品战略方向 - 通用Agent留存率仅约10% 因场景深度不足(仅60分水平) 垂直Agent留存率可达20%以上 需从通用转向垂直深耕 [23][27] - PPT Agent案例显示 通过专用模型训练(内容检索与排版视觉)、工作流补齐(美化/按大纲制图)和企业知识库对接 可显著提升输出质量 [26][27] 人机交互设计 - GUI操作价值存在争议 但短期内难以绕过现有GUI应用体系 且GUI承载丰富上下文信息 若视觉理解能力提升可能重新凸显价值 [28][29] - 交互颗粒度设计需平衡用户偏好询问与自主推进 关键是通过学习机制记忆用户修正反馈(如LemonAI旅游规划案例) [30] - 借鉴管理学情境领导理论 需建立共享上下文机制使Agent理解权限边界和协作规则 最先进AI产品正尝试让Agent主动提出建议和请求协助 [31][32] 多Agent协作 - 多Agent落地核心矛盾在于上下文共享精度:共享过多退化为单体Agent 抽取不准导致交接失败 [33] - 有效路径采用任务分解加专家模型组合(类似MapReduce模式) 并引入异步协作机制平衡一致性、延迟和成本 [34] 模型能力演进 - Claude Code代表"模型即Agent"路径 Cursor代表"Agent下沉环境"路径 长期护城河在于环境操作、学习闭环、场景优化和多Agent协作标准 [36][37] - 需关注四大技术拐点:长期规划与连续行动能力(如Claude Code)、多模态深度融合、界面自动生成、Context Engineering与记忆机制 [38][39] - 多模型分工比单一超级模型更务实 各模型能力侧重不同:ChatGPT强于战略思考 Gemini覆盖面广 Claude规划与代码能力最强 [40][41][43] 学习记忆机制 - 学习能力是核心挑战 需从认知科学角度构建三类记忆:Semantic Memory(概念记忆)、Episodic Memory(情景记忆)和Procedural Memory(程序记忆) [42][44][45] - 当前AI缺乏Episodic Memory 因企业过程数据稀缺 需通过过程数据收集、人机协作轨迹学习和场景化学习机制建立情景记忆 [44][46] - 前沿探索包括LemonAI通过记录用户修改反馈改进推荐算法 实现从结果导向到过程导向的转变 [47]
李飞飞的答案:大模型之后,Agent 向何处去?
36氪· 2025-09-04 16:28
Agent AI核心架构 - 提出由环境与感知、认知、行动、学习与记忆五大模块构成的完整认知闭环架构 实现从感知到行动的动态迭代智能体系[5][10] - 感知模块主动从物理或虚拟世界获取多模态信息 并内嵌任务规划与技能观察能力实现有目的的信息理解[7][8] - 认知模块作为处理中枢 由大语言模型(LLM)和视觉语言模型(VLM)驱动 负责解释信息、多步推理和策略制定[8] - 行动模块生成具体操作指令 通过控制器执行物理世界交互或虚拟世界API调用[8] - 学习模块支持预训练、零样本/少样本学习、强化学习和模仿学习等多种机制 通过环境反馈实现持续优化[9] - 记忆模块突破传统上下文窗口限制 形成持久化结构系统存储知识、逻辑和推理结果[10] 大模型驱动机制 - LLM和VLM通过海量数据预训练内化世界常识 为Agent提供强大的零样本规划能力 显著降低任务规则编写成本[11][12] - 环境交互成为解决大模型幻觉问题的关键锚点 通过真实或模拟环境的物理反馈倒逼模型实现知识与现实对齐[13] - 需通过多元化数据训练和偏见检测机制解决基础模型继承的社会偏见问题 将包容性作为核心设计原则[13] - 在医疗等敏感领域需建立明确法规框架 通过提示工程和人类监督层确保数据隐私与行为安全[13] 应用场景实践 - 游戏领域彻底改变NPC行为模式 基于LLM的Agent可拥有独立记忆情感 实现动态行为调整和自然语言交互 提升沉浸感与开发效率[14][15] - 机器人领域实现自然语言指令驱动 通过GPT-4V理解人类演示视频并转化为可执行任务 结合多模态感知实现精细物理操作[17] - 医疗健康领域应用包括智能问诊聊天机器人 连接实时医学数据库进行事实核查 以及慢性病监控与预警系统提升诊疗效率[19][21] 行业影响与验证 - 论文框架已获谷歌 OpenAI和微软等主流厂商实际验证 其核心打法均遵循论文提出的能力栈推进[1][4] - 尽管发表仅半年 该综述已成为AI领域纲领性著作 为碎片化的Agent研究提供系统化框架与发展地图[4][22] - 行业面临多模态深度融合、跨领域通用化及标准化评测体系建立等核心挑战 需突破现有技术局限[22]
程序员的行情跌到谷底了。。
猿大侠· 2025-09-04 12:11
AI技术对程序员就业市场的影响 - 传统技术岗位要求发生显著变化 招聘方开始关注RAG Agent和微调等AI技能 [1] - AI技术冲击下 原有技术优势价值下降 但结合AI能力可提升竞争力 [1] - 电商后端开发人员通过接入大模型推荐系统实现30%薪资增长 [1] 大模型应用开发核心技能 - RAG技术适用于需要持续更新知识的场景 无需针对特定任务重新训练大模型 [6] - Function Call通过运行特定功能代码块增强处理能力 集成外部工具提升交互性 [6] - Agent技术是关键量变到质变指标 智能客服成为企业级项目首选应用场景 [4] 实战培训课程内容 - 课程涵盖技术原理 实战项目和就业指导三大模块 [2] - 2节直播课展示RAG和Fine-tuning技术改善大语言模型使用的实践方法 [3] - 解析从GPT到最火开源模型的技术架构 剖析AI技术应用场景 [3][4] 职业发展路径 - 掌握5个核心开发步骤:大模型原理→AI工具掌握→产品开发实操→前沿信息链接→实战演练 [8] - 通过金融行业支小助和知乎直答等热门产品拆解积累实战经验 [8] - 项目经验可直接写入简历 获得大厂内推机会直达面试官 [17][19] 市场机会与需求 - AI应用落地需求增加 掌握现有技术与AI结合能力者更具优势 [1] - 企业级Agent项目在互联网厂商内部率先尝试 智能客服成为重点领域 [4] - 课程限50人免费参加 提供大厂内推 面试资料和知识图谱等福利 [2][24]
公司用了Agent,4000个员工丢了工作!CEO 大刀砍研发:让人和AI协作,各干一半的活儿
搜狐财经· 2025-09-03 18:43
公司战略转型 - 公司全面转向AI Agent业务 重构所有产品 实现与智能Agent深度协作[1][3] - 公司CEO在Dreamforce大会前两周决定将大会内容100%聚焦于AI Agent 奠定AI Agent业务发展方向[3] - 公司通过收购Akit极大推进Agent进展 并在10月底交付Agentforce正式版本[3] 组织架构调整 - 由于采用AI Agent 公司裁减4000名员工 技术员工数量减少 客户支持团队从9000人缩减到5000人[1][5] - 2025年不增加软件工程师 因AI技术使工程团队生产力提升超过30% 支持工程师人数减少 销售人员增加1000至2000名[5] - 公司同时管理智能Agent员工和人类员工 设有全渠道主管协调两者协作[6] 业务运营成效 - AI和数据产品线收入超过10亿美元 正快速向20亿美元迈进 是公司历史上增长最快的产品线[10] - 智能销售Agent每周处理超过1万条线索转化为潜在客户 回拨所有联系过公司的客户[9] - 支持团队300万次对话中智能Agent处理150万次 人工处理150万次 客户满意度评分基本相同[8] 技术实施进展 - 九个月前未部署任何智能Agent 现在已部署大量智能Agent[1] - 公司作为智能服务与支持产品的零号客户 实现人工与智能Agent各处理50%工作的平衡[8] - 应用层与智能体技术深度融合 支持中心有全渠道监督 Slack中有几十个Agent执行任务[11] 产品定价策略 - 推出三种灵活定价策略 Flex Credits方式每项操作消耗20个积分(010美元) 可按100000个积分(500美元)购买[12] - Flex Agreement允许在用户许可和数字劳动力间灵活转移投资[12] - 新版Agentforce用户许可提供按月每用户计费的无限制员工代理使用[12] 行业影响分析 - AI对劳动力影响因行业和地区而异 支持性岗位需求下降 销售与客户拓展岗位上升[7] - 大城市知识型和服务型工作受AI冲击加速 但小镇餐馆服务等岗位在可预见未来不受影响[7] - AI并非单纯替代劳动力 可能催生新岗位 但目前没有足够人才填补这些空缺[6] 合作伙伴关系 - 投资AI初创公司包括yocom(AI优先搜索公司)和Artera(AI医疗诊断公司)[4] - Agentforce首批试用客户包括OpenTable ADP迪士尼等五家企业[3] - 与Gucci合作开发销售点系统Harry和客户接触层升级方案[2] 企业发展历程 - 公司市值超过3000亿美元 是全球最大私营雇主之一 拥有约76000名员工[1] - 2023年裁员8000人 占员工总数10% 2022年起陆续裁员[5] - Dreamforce 2024大会吸引5万人参加 团队提前两个月筹备[1]
从大模型叙事到“小模型时代”:2025年中国产业AI求解“真落地”
36氪· 2025-09-03 18:19
小模型市场增长与规模 - 全球小语言模型市场规模预计从2025年9.3亿美元增至2032年54.5亿美元,年复合增长率28.7% [4] - 68%的企业已部署小模型,超过45%的企业实现成本优化与准确率双提升 [4] - 国内厂商小模型发布占比从2023年23%提升至2025年56%以上,成为增长最快细分赛道 [5] 小模型技术优势与特性 - DeepSeek-R1采用专家混合技术,仅激活部分网络,显著降低推理资源占用 [1] - 小模型实现本地化部署,如1.7B模型可运行于家用路由器8GB内存,无需高端GPU [3] - 相比大模型,小模型推理成本下降90%以上,响应时间从2-3秒缩短至500毫秒内 [12] 企业应用场景与案例 - 深圳福田区部署70名AI数智员工,处理240个政务场景,公文格式修正准确率超95%,审核时间缩短90% [1] - 金融与法律领域因专用训练和高解释性更倾向采用小模型,如保险理赔使用3B模型实现零人工干预 [15][19] - 边缘计算场景中,小模型部署于工厂端与手机端,实现低延迟与低带宽消耗,如SlimLM系列在Galaxy S24运行 [15] 厂商动态与产品发布 - 2025年多家厂商发布小于10B参数模型,包括阿里Qwen3系列(0.6B/1.7B/4B/8B)、腾讯Hunyuan-Tiny系列(0.5B/1.8B/4B/7B)和华为PanGu7B [6] - 厂商提供全栈解决方案,如阿里Qwen-Agent提供模块化插件,腾讯混元Lite降低部署门槛 [24] - 开源社区推动行业化适配,如DeepSeek医疗问答模型和MiniCPM教育场景集成 [24] 小模型与大模型的协同架构 - 企业采用混合架构,小模型处理流程化任务(如OCR字段提取),大模型处理复杂场景(如欺诈识别) [19][20] - 1B-3B模型用于移动端与边缘设备,7B-9B模型成为中大型企业私有化部署主力,30B+模型仅用于特定复杂场景 [21][22] - 研究显示40%-70%的Agent调用可通过小模型完成,MetaGPT等开源项目已验证此趋势 [13] 实施挑战与工程门槛 - 小模型泛化能力较弱,依赖高质量数据,金融行业原始语料清洗后可用率不足10% [16] - 系统集成要求高,需对接知识库与API,检索模块不准会导致回答偏差 [16] - 企业存在沉没成本顾虑,2024年LLM托管云基础设施投资达570亿美元,是API市场规模的10倍 [17]
4000个模型和500家独角兽,AI竞争新面孔背后
搜狐财经· 2025-09-01 21:49
具身智能与机器人发展 - 北京人形机器人创新中心的"天工"机器人从需遥控完成半程马拉松进展至全自主奔跑[4] - 具身智能需突破非线性瓶颈(如场景泛化)和线性瓶颈(如稳定性、负载能力)[5] - 该中心已开始出货"天工"机器人,今年可能销售几百台,并与李宁等企业探索运动学测试、导购等落地场景[6] 大模型与AI基础设施演进 - ChatGPT诞生33个月以来全球出现4000多个大模型和近500家AI独角兽,无模型能在榜单停留超五周[5] - AI基础设施转向追求效能而非单一规模,需更快模型迭代和更强计算平台[5] - 行业采用MoE稀疏模型架构(如百度百舸5.0),算力需求为稠密模型的5到10倍[12][13] - 强化学习采用"训推一体"范式,百舸框架提升训练效率并支持实时更新[15] 多模态与3D AI技术应用 - 创业公司VAST的AI 3D技术可将游戏模型制作时间从手工雕琢缩短至几十秒、成本降至0.0001元[7] - VAST服务全球超300万专业建模师、4万多家企业和700多家大客户[6] - 百度千帆4.0升级多模态RAG,九号电动车借此打造多语种智能客服[20] 智能体(Agent)落地与行业变革 - 工商银行上线1000多个智能体,改变交易形式与风险经营;保险集团采用数字员工后意向率提升近一倍[9] - 百度数字员工在100多个行业场景落地,包括吴彦祖教英语、罗永浩直播带货[9] - AI Coding工具代码生成占比从20%升至30%~40%,未来可能达80%~90%[11] - 智能体编排采用自主规划、工作流(占千帆平台80%以上)及多智能体协作三种方式[20] 算力与芯片发展 - 百度昆仑芯P800在3.2万卡集群训练效率超98%,百万tokens推理成本降至几元[15] - 百度智能云完成1.2万P算力建设并管理运营1500P算力,IDC智算服务市场国内排名第二[17] 行业模型与数据优化 - 行业模型实践从后训练转向场景标注+SFT/强化学习,再至基模蒸馏与多模型融合[18] - 智联招聘基于百亿参数模型以少量数据媲美千亿模型DeepSeek R1效果[19] - 百度千帆DataBuilder平台提升数据处理效率600%、降低计算成本30%及检索成本80%[21][23] 技术突破与开源进展 - 格灵深瞳计划9月底全量开源多模态模型Glint-VLM,公开训练数据与代码[11] - 百舸平台优化VLM训练框架后效率提升三倍,两天内完成一次训练[12]