Workflow
上下文
icon
搜索文档
亚马逊云科技大中华区总裁储瑞松:企业实现 Agentic AI 价值的关键在于三大技术准备
AI前线· 2025-06-22 12:39
Agentic AI爆发的前夜 - 机器智能已实现跨越式发展,HLE考试正确率从个位数迅速提升至超过20% [1] - Agentic AI将推动从"AI问答"到"AI执行"的范式转变,AI驱动的数字员工将渗透各行业 [1] - 技术拐点类比工业革命,AI将解放人类大脑智力并引发新一轮产业革命 [1] Agentic AI爆发的五大驱动因素 - 大模型已具备类人思考能力,MCP协议实现智能体与环境的标准化交互 [3] - 推理成本两年下降280倍,Strands Agents等SDK使开发效率成倍提升 [3] - 企业数字化基建为AI智能体提供现成API接口,A2A协议将支持多智能体协作 [3] 商业模式创新机遇 - 效仿Uber/Netflix案例,AI将催生订阅制、共享经济等新型商业模式 [5] - Cursor革新编程方式,Perplexity重塑信息获取模式,初创企业加速颠覆传统 [5] - 企业经营重点从成本优化转向AI创新,价值创造重要性超越效率提升 [5] 企业三大技术准备 - 需构建统一AI基础设施,选择具备技术领先性/稳定性/灵活性的云服务商 [7][8] - 数据治理决定AI天花板,需打破孤岛实现企业级数据聚合与质量管控 [7][9] - 策略执行需平衡短期预期与长期影响,技术栈应支持workflow/graph等开发模式 [10] 行业落地关键指标 - 云服务商选择需考量主业专注度、营利性和持续投入能力 [7] - AI就绪数据决定数字员工的决策高度与执行效果 [7][9] - 1-2年内将出现行业级变革,快速迭代的企业将建立持续领先优势 [10]
MiniMax的好日子来了?
虎嗅· 2025-06-18 17:41
核心观点 - MiniMax开源其首个推理模型M1,并邀请用户测试通用Agent,试图在AI Agent爆火的2025年抢占先机 [2][4] - M1模型的核心优势在于100万token输入和8万token输出的长上下文能力,以及工具调用能力,但在常规基准测试中表现中等 [6][22][29] - MiniMax的技术创新包括闪电注意力机制和CISPO强化学习算法,显著降低了训练成本至53.47万美金 [51][55][63] - 公司押注长上下文能力以适配Agent需求,但面临多维度竞争挑战 [67][71][78] 模型能力 M1推理模型 - 支持100万token输入和8万token输出,与Google Gemini 2.5 Pro并列业界第一 [52] - 在TAU-bench(Airline)测试中得分最高,长上下文处理能力处于第一梯队 [48][49] - 实际测试显示其代码生成能力完整但推理链过长,例如成功实现钢琴键盘可视化小游戏但耗时较长 [6][16][21] - 可完整翻译33页PDF并还原格式,但翻译任务非其核心优势 [22][23][28] 通用Agent - 测试案例中能完整交付OpenAI发展历程网页项目,包含信息搜集、代码生成和自检流程 [33][34][37] - 创新点在于利用浏览器测试自开发网站,提升交付质量 [37] - 整体表现中规中矩,未显著超越同类产品 [31][32][39] 技术创新 - 采用线性注意力架构的闪电注意力机制,处理100万token输入时延迟仅为传统softmax attention的1/2700 [54][55] - CISPO强化学习算法收敛速度达竞品两倍,训练成本仅53.47万美金(512块H800芯片,三周) [57][59][63] - 生成10万token的算力需求为DeepSeek R1的25%,具备成本优势 [65][66] 行业竞争与战略 - 2025年被业界视为AI Agent爆发年,MiniMax通过长上下文能力切入赛道 [4][70][71] - 公司多模态原生模型基础可支持Agent商业化,但需平衡技术优势与用户体验 [76][78] - 行业竞争焦点包括端到端学习、工具调用、多模态能力和主模型性能 [75][77]
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 10:32
大模型技术突破 - MiniMax开源其首个推理模型M1,原生支持百万级上下文长度,在推理效率、计算成本和复杂任务能力上展现出与DeepSeek R1、Qwen3-235B等模型不同的技术路径与性能表现[1][2] - M1是全球首个开放权重的大规模混合注意力推理模型,凭借混合门控专家架构(Mixture-of-Experts,MoE)与Lightning Attention的结合,在性能表现和推理效率方面实现显著突破[4] - M1具备4560亿参数规模,其中每个token激活约459亿参数,原生支持最长100万tokens的上下文输入,是DeepSeek R1所支持长度的8倍[7] 性能与效率优势 - 在生成长度为10万tokens的场景下,MiniMax-M1的计算量(FLOPs)仅为DeepSeek R1的25%,在长文本处理任务中具备显著优势[7] - 完整强化学习训练在512块H800 GPU上仅耗时三周,成本控制在53.47万美元,展现极高效率与性价比[11] - 在标准基准测试中,MiniMax-M1在复杂软件工程、工具使用与长上下文任务等方面表现突出,整体表现已达到甚至超越DeepSeek-R1与Qwen3-235B等代表性开源模型[12] 技术创新 - 采用大规模强化学习(RL)方式,在数学推理、沙盒环境下的软件工程等多样任务中进行了全面优化[9] - 提出名为CISPO的创新型强化学习算法,针对重要性采样权重而非token更新进行裁剪,有效提升学习稳定性与性能表现,在对比实验中优于现有主流RL变体[10] - 训练两个版本分别设定40K与80K的思维预算(thinking budget),其中40K版本为中间训练阶段的成果[12] 应用与部署 - MiniMax-M1是开源即上线,可直接进入官网体验[13][15] - 模型在不到30秒的时间可完成技术报告里的公式、表格翻译[17] - 模型现已支持GitHub和Hugging Face平台,并兼容vILN和Transformers框架[19]
近期必读!Devin VS Anthropic 的多智能体构建方法论
歸藏的AI工具箱· 2025-06-15 16:02
多智能体系统概述 - 多智能体系统由多个大型语言模型(LLM)智能体协同工作组成 主智能体(协调器)负责规划任务并委托给并行操作的子智能体 具体步骤包括任务分解、子智能体执行和结果合并[4][6] - 该系统特别适合开放式研究任务 因其具备动态调整和并行探索能力 在广度优先查询中性能比单智能体提升90.2%[14][27] - 核心架构采用协调者-工作者模式 主智能体(LeadResearcher)负责策略制定和结果综合 子智能体(Subagents)并行执行具体任务[29][30] 多智能体系统优势 - 并行操作优势显著:子智能体通过独立上下文窗口并行运行 主智能体可同时启动3-5个子智能体 使复杂查询研究时间缩短90%[16][17] - 信息处理效率提升:通过关注点分离和并行推理 系统能更彻底地调查问题 在识别S&P 500公司董事会成员等任务中表现优于单智能体[27] - 动态适应能力强:研究过程中可根据新发现调整方法 支持先广后深的搜索策略 模仿人类专家研究模式[33][34] 多智能体系统挑战 - 架构脆弱性问题:子智能体可能误解任务导致结果不一致 早期系统出现过为简单查询生成50个子代理等协调问题[10] - 上下文共享难题:子智能体间缺乏充分上下文共享 可能基于冲突假设行动 如分别构建不同风格的《飞扬的小鸟》游戏元素[19][20] - 资源消耗巨大:多智能体系统token消耗达聊天交互的15倍 仅适用于高价值任务 编码等依赖性强任务目前不适用[17][28] 解决方案与优化措施 - 严格领域限定:仅应用于适合并行化的研究任务 排除编码等依赖性强领域 通过专用提示工程明确子智能体职责[8][12] - 高级上下文管理:采用文件系统直接存储输出 建立记忆机制保存关键信息 在上下文接近限制时生成新智能体交接[16][30] - 精细化提示工程:包含7项核心原则 如教导协调器明确委派任务 根据查询复杂度动态调整工作量 优先使用专用工具等[33] 行业应用现状 - 主要应用场景包括:专业软件开发(10%)、技术内容优化(8%)、商业策略制定(8%)、学术研究辅助(7%)和信息验证(5%)[38] - 实际效果显著:用户反馈显示能发现新商业机会 解决技术难题 在医疗保健等领域节省数天研究时间[38] - 评估方法创新:采用LLM作为裁判评估事实准确性等维度 结合人工测试发现边缘案例 需同时关注结果正确性和过程合理性[36]
AI会颠覆谷歌搜索吗?
新财富· 2025-06-09 16:04
核心观点 - 谷歌在2025年I/O大会上展示了完整的"AI生活指南",重点强调AI应用生态而非单纯技术展示 [2][4] - 公司通过AI Mode重构搜索业务,将其升级为"AI搜索+Agents"的操作系统级入口 [19][20][25] - Gemini 2.5系列模型凭借超大上下文窗口(1M tokens)和多模态能力成为战略核心 [27][30][33] - 推出Android XR计划及AI眼镜产品,实现全终端AI覆盖 [35][41][42] 行业竞争格局 - 传统网站流量普遍下滑:谷歌搜索月访问量81.31B(↓3.18%),YouTube 28.68B(↓2.13%),而ChatGPT月访问5.141B(↑13.04%)[7][8] - OpenAI等AI公司缺乏硬件控制能力和用户触点,生态建设存在先天不足 [9] - 微软宣布Windows 11向AI智能体平台转型,但技术仍依赖GPT-4 [10] - 苹果在AI领域进展滞后,Apple Intelligence多次延期 [11] 谷歌AI战略突破 搜索业务革新 - AI Overviews上线后驱动美印地区搜索量增长超10%,月活用户达15亿,广告点击率提升15% [16][17] - AI Mode实现闭环服务:演示案例中用户可直接完成票务购买(棒球赛门票筛选+支付)、商品比价(服装虚拟试穿+降价提醒)等操作 [22][23][24] - 新功能独立入口优先级超过传统搜索标签,但暂限美国地区测试 [25] 技术优势 - Gemini 2.5 Pro/Flash包揽LMArena等榜单前两名,Deep Think版本强化数学/编程能力 [28] - 1M tokens上下文窗口远超竞品(GPT-4o 128k/Claude 4 200k),支持复杂任务规划和用户习惯记忆 [30][31] - 计划2025年扩展至200万tokens,为Gemini 3.0铺路 [30] 硬件生态布局 - 与三星合作推出Moohan头显和AI眼镜,集成光学显示/麦克风/摄像头模块,支持实时翻译和多任务操作 [35][39] - Android 16全线预装Gemini Live,取代Google Assistant覆盖手机/汽车/XR等终端 [41][42] - 开放Android XR平台,联合Gentle Monster等眼镜厂商构建开发者生态 [37]
深度|2.5亿美元估值AI笔记Granola创始人:AI使用习惯正在重构我们的直觉;AI的作用应是增强而非替代人类
Z Potentials· 2025-06-02 12:18
AI思维工具的发展 - AI被视为新时代的思维工具 类似于历史上文字 数学符号 数据可视化等认知工具 通过外部化记忆扩展人类认知能力 [3][4] - LLM的突破性在于动态提供上下文 实时重写内容并提取信息 实现人类能力的巨大释放 [4][7] - 未来交互界面将从当前"一问一答"模式进化到更流畅的协同式体验 类似从命令行到图形界面的变革 [14][15] Granola产品特性 - 核心功能为智能会议记录 结合实时转录与用户手写笔记 会后自动优化扩展内容 [5][8] - 差异化功能包括跨会议主题分析 个人化上下文定制 以及即将推出的线下会议支持 [5][10][26] - 产品哲学强调AI增强而非替代人类 保留用户判断权 自动化低价值写作工作 [9][24] AI应用开发趋势 - 小团队优势显著 Granola团队不足25人 通过LLM技术红利实现传统需大规模团队才能完成的产品 [11][32] - 开发模式分为探索模式(寻找正确路径)与执行模式(快速迭代) 需保持转向能力避免过早固化 [19][20] - 竞争壁垒在于持续快速迭代而非数据独占 模型个性化仍是当前技术短板 [17][18][26] 行业未来展望 - 预测将出现全新类别的工作软件 成为知识工作者的主工作空间 整合文档 会议 项目管理等功能 [21][22] - 教育领域存在人机交互创新机会 如儿童与AI的拟真互动 但1对1辅导模式可能被通用AI取代 [29][30][31] - 未来可能出现20人规模百亿美元市值公司 客户服务等职能将通过AI工具重构 [32] 创业方法论 - 产品需在当下提供明确价值 同时布局长期愿景 平衡渐进改进与突破创新 [22] - 最关注潜在竞争对手是能快速迭代的新创团队 而非现有大公司 [23] - 投资人价值体现在产品思维深度 能针对具体功能提出真知灼见 [27][28]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]
“新版DeepSeek-R1”的深度测评
2025-05-29 23:25
纪要涉及的公司和行业 涉及大模型行业,具体公司模型包括 Deepseeker R1、Claude 3.7、Claude 4、CosmoFlow、Readcloud 3.7、Readcloud 4、Grok 3、Gemini 2.5 Pro、Cloud 3.7、Cloud 4、GPT、Devsec、谷歌 Jennifer 2.5 Pro、OpenAI [1][3][4][7][8][12][15][18] 纪要提到的核心观点和论据 - **Deepseeker R1 新版本表现**:最新版本 0.528 在 CLion 中正确率从 4/8 提升至 6/8 有进步,但低于 Claude 3.7(7/8)和 CosmoFlow 加 Claude 4(8/8);agent 能力提升,包括调用工具正确率、上下文长度和规划思考长度增加;代码生成对指令遵从更明显,但质量有瑕疵,与 Claude 系列有差距 [1][3][4][17][19] - **Deepseeker R1 问题解决情况**:0.528 版通过更精准查找资料和增加上下文长度(客户端最长 128K)解决老版本爬取过多网页内容致上下文超出限制问题 [1][5] - **特定任务处理挑战**:最新版 R1 使用 fetch 工具查找过去十年中国 GDP 数据受阻,fetch 成功率低且世界银行无 API 支持,编写 Python 代码效果不佳,表明 MCP 工具与大模型存在适配性问题;Readcloud 3.7、Readcloud 4、Grok 3 和 Gemini 2.5 Pro 能完成该任务,调用 MCP 工具和参数设置更成熟,适配性更强 [1][6][7] - **FetchAPI 使用问题及解决方案**:使用 FetchAPI 失败率高,可能与 RPC 机制有关,多次修改代码问题仍存在;Fair Crawl 工具无此问题,FirePro 和 BRAVE search 稳定性更好可替代 [8] - **上下文长度影响**:上下文长度增加显著提升任务完成质量,新版 R1 长时间运行和修改尝试后解决复杂问题且质量提升 [1][9] - **Cloud 4 与 Cloud 3.7 对比**:Cloud 4 在处理非规范化网站数据爬取和整理、生成旅游规划网页等方面优于 Cloud 3.7,速度更快、准确率更高,能成功部署网页且排版精美 [4][10] - **第二道题目挑战及解决**:需调用多个 MCP 工具协同工作,通过选择合适工具和细致规划完成任务,显示更新后模型推理和执行效率增强 [11] - **R1 与 Claude 模型性能差异**:R1 有调用 function card 能力但生成质量不完美,工具调用可能失败仍能给出完整答案;Claude 尤其是 Claude 4 在速度和准确性上优于 R1,能避免调用易出错 MCP 工具,表现更稳定高效 [12] - **MCP 工具问题及解决**:MCP 工具出错时替代方案选择不理想,Readcloud 熟悉小函数能快速找到替代方案,如用百度地图获取天气功能替代 [13][14] - **Devsec 处理错误特点及改进**:Devsec 初始选择正确后续一般没问题,初始错误找备选 MCP 易出错,需提高备选方案识别和调用能力 [15] - **Claude 4 优势**:Claude 4 追平谷歌 Jennifer 2.5 Pro 以及 OpenAI,编程量较大时速度快且能直接运行代码,Claude 系列代码生成表现优异 [18] 其他重要但是可能被忽略的内容 - **测试框架**:包括测试调用 MCP 类 agent 工具准确率和评估代码生成质量与效率,此次更新提升推理、深度思考文本生成质量和代码生成优化,agent 方面代码能力重要 [2] - **老版本 R1 问题**:老版本使用工具易出错,选备用 CSP 也易出错,整体表现不稳定 [16]
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B
机器之心· 2025-05-27 17:54
长上下文推理强化学习范式 - 核心观点:长上下文推理强化学习需要模型先定位外部关键信息再整合内部推理,区别于短上下文的直接内部知识推理[5] - 关键挑战:训练效率低(奖励收敛慢、输出熵降低限制探索)和优化不稳定(KL散度突刺多、输出长度不均导致方差大)[6] QwenLong-L1框架技术突破 - **渐进式上下文扩展技术**:分两阶段强化学习(20K→60K输入长度),结合课程引导分阶段训练、难度感知回顾采样和监督微调预热[11][12][13] - **混合奖励机制**:融合规则验证(严格匹配答案格式)与模型评判(Qwen2.5-1.5B评估语义等价性),取最大值平衡精确性与多样性[14][15][16][17] 模型性能表现 - **QwenLong-L1-14B**:平均Pass@1达68.3,超越Gemini-2.0-Flash-Thinking和Qwen3-32B[21] - **QwenLong-L1-32B**:平均Pass@1达70.7,超越OpenAI-o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking持平[9][21] - **训练效率**:仅需1.6K样本即实现显著提升,32B模型RL后平均性能提升5.1[20] 关键实验发现 - **SFT与RL协同效应**:SFT低成本达到基础性能,RL对最优结果至关重要;过度SFT会导致局部最优限制RL潜力[28] - **推理模式动态**:RL自然提升长上下文相关Grounding等推理模式频率,且频率增长与性能正相关[25][28]
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
量子位· 2025-05-27 13:58
阿里开源长文本深度思考模型QwenLong-L1 - 阿里开源长文本深度思考模型QwenLong-L1登上HuggingFace今日热门论文第二 [1] - QwenLong-L1的32B参数版本性能与Claude-3.7-Sonnet-Thinking相当,超过OpenAI-o3-mini和Qwen3-235B-A22B [3] - 该模型在金融文档推理案例中通过回溯和验证机制有效过滤干扰信息,正确整合关键数据 [4] 模型性能对比 - QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B在七个长文本基准测试中平均提升4.1分,超越Gemini-2.0-Flash-Thinking和Qwen3-32B [25] - QwenLong-L1-32B版本平均分达70.7,超过OpenAI-o3-mini(70.4分)和Qwen3-235B-A22B(70.6分),与Claude-3.7-Sonnet-Thinking(70.7分)持平 [25] 训练方法与技术突破 - 传统强化学习方法在长文本训练中存在效率低和优化过程不稳定的问题 [16] - QwenLong-L1采用渐进式上下文扩展训练框架,分为预热监督微调和课程引导的分阶段强化学习两阶段 [18][20] - 团队从DeepSeek-R1蒸馏5.3K个高质量问题-文档-答案三元组进行监督微调,为强化学习提供稳定起点 [18] - 强化学习阶段从短文本逐步过渡到长文本(2万token→6万token→128K),并引入难度感知的回溯采样机制 [20] 奖励函数设计 - 采用混合奖励函数结合规则验证和LLM-as-a-Judge,避免单一规则过于严格或宽松 [21][22] - 规则验证检查答案与标准答案一致性,LLM判断语义正确性,两者结合提升准确性 [23][24] 训练效果分析 - 长文本SFT带来2.6分提升,但在其基础上做RL仅提升0.3分;短文本SFT基础上做RL可提升3.2分 [28] - SFT提供经济的性能提升方式,而RL是达到最优性能的必要手段 [29] - 强化学习能有效调整输出空间,优先保留有助于准确解答的推理模式 [32]