Workflow
多智能体系统
icon
搜索文档
硅谷顶尖风投 a16z 2026 大构想:从 AI 到现实世界的全面重塑 | RockFlow 解读
RockFlow Universe· 2025-12-18 18:39
AI基础设施与Agent:从交互工具进化为自主生命体 - AI正在从“数字助理”进化为“自主执行集群”,2026年将见证AI从“对话工具”向“多智能体系统”的跨越,开启企业运营杠杆的历史性飞跃 [3] - 多智能体系统将驱动未来企业,通过协作管理复杂工作流,在不同部门间共享上下文并自动协调任务分配,使未来头部企业的人均创收达到传统企业的数倍 [7] - AI的终极目标是让用户离开屏幕,在后台完成90%的重复性工作,投资逻辑将从关注“用户粘性/日活”转向关注“自动化任务的完成质量” [8] - 企业中80%的知识锁在非结构化、多模态数据中,能够高效清理、验证并管理这些数据的平台将掌握企业级知识管理的“生杀大权”,这是数据基建领域下一个千亿级赛道 [9] - 当Agent触发的递归任务流呈指数级增长时,现有基建将不堪重负,未来的基础设施必须支持大规模并发、极低延迟和智能路由,这将决定AI应用落地的天花板 [10][11] - 2026年,AI将接管网络安全中大量重复性工作,解放安全团队去进行更深层次的漏洞修复和犯罪追踪 [11] - 2026年,创意工具将实现跨模态整合,用户可以用一段声音生成一段契合风格的视频,或用一张草图生成完整的3D建模,使内容创作的边际成本趋向于零 [12] - 2026年将诞生第一所完全围绕AI构建的原生大学,其课程设置、科研协作本身由AI实时优化,这不仅是教育的变革,更是未来劳动力市场的先导指标 [13] SaaS的范式转移:从记录系统到行动系统 - SaaS正经历从“被动记录”到“主动推理”的范式转移,未来的企业软件将是“主动的智能工作流引擎” [3][14] - 传统的CRM和ERP被动记录数据,而未来的企业软件能够通过AI预测需求并直接协调端到端执行,将取代那些仅提供“存储功能”的过时软件 [16] - 在医疗、法律、建筑等垂直行业,AI将成为协调买卖双方、顾问与供应商的“超级节点”,解决跨部门协作的复杂瓶颈,大幅提升行业整体周转效率 [17] - 个性化服务将实现从“为所有人优化”到“为每个人定制”的飞跃,AI将实时根据个人偏好量身定制教育路径、健康方案等独特体验 [3][18] 物理世界的复兴:比特接管原子 - 科技正在溢出屏幕,“比特”开始全面接管“原子”,电气化、材料科学与AI融合而成的“电子工业堆栈”将成为物理世界运行的底层逻辑 [3][19] - 软件和AI正在让美国制造业机器重新运转,通过模块化部署和AI自动审批流程,复杂流程将变得像流水线一样高效,美国有望迎来工厂复兴的黄金时代 [3][21][22] - 未来将能像生产手机一样大规模生产核反应堆,像组装家具一样快速建造住房,这是工业实力与软件能力的深度合体 [22] - 电气化、材料科学与AI的进步正在融合,使软件真正能够控制物理世界,从矿物精炼、电池储能到电力电子设备控制都由软件协调 [23] - 掌握“电气化产业链”的国家和企业,将决定未来工业和军事技术的制高点 [23] 生物健康与虚拟交互:重塑生命质量与数字体验 - 预防性医疗将开启长效变现的新蓝海,2026年AI将把“健康的青年用户”推向医疗科技的核心,通过长期、低成本的实时监测和预防性护理,帮助用户延缓进入重症阶段的时间,形成一个极具潜力的长效订阅商业模式 [3][24] - 在虚拟世界中,用户只需一段文字描述,AI就能实时生成完整的3D交互环境,这些生成式世界不仅用于娱乐,更是训练自动驾驶和机器人的重要虚拟靶场 [25] 加密货币:互联网的基础结算层与金融重构 - 加密货币将化身为互联网的基础结算层,稳定币与RWA将重构金融底层 [3] - 隐私将是未来区块链竞争的关键要素,具备隐私功能的区块链能够形成强大的网络效应,隐私链将成为加密货币领域的赢家 [26] - 越来越多的传统资产将被代币化上链,未来的代币化产品应充分利用加密技术的原生特性,例如永续期货等创新金融工具 [27] - 稳定币正在成为全球支付的基础设施,2026年新的支付方式将更加普及,稳定币将从一种金融工具转变为互联网的基础结算层 [28] - 未来的即时通讯将采用去中心化协议,取代对私有服务器的依赖,从而实现更高的隐私和安全性,赋予用户对信息和身份的完全掌控权 [29]
Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来
量子位· 2025-12-07 12:35
核心观点 - 提出一种新的AI任务解决范式:使用一个经过强化学习微调的8B参数小模型作为“指挥家”,智能编排和调用包括代码解释器、网络搜索、数学模型及更强的大模型在内的多种工具,在保证任务正确性的同时,显著优化成本和效率,并能够对齐用户偏好 [1][13] - 在多项基准测试中,该Orchestrator-8B模型在性能上超越了GPT-5等顶级大模型,同时计算成本大幅降低,展示了“小模型指挥大工具/模型”系统的优越性 [1][9] 技术架构与训练方法 - 系统核心名为ToolOrchestra,其将各类工具(网页/本地检索、代码执行、数学与通用LLM等)统一封装为JSON接口,使指挥家模型能够在多轮交互中执行“思考-调用-反馈”的循环直至问题解决 [4] - 采用GRPO强化学习方法进行训练,通过最大化三重奖励来优化指挥家:1) 任务解决的正确性;2) 效率(货币/时延惩罚);3) 用户偏好(如更爱本地检索还是云搜索,更看重速度还是成本) [4][5] - 为支持强化学习训练,研究团队构建了一个名为ToolScale的合成数据集,该数据集覆盖金融、医疗、出行、教育等10个领域,通过LLM生成领域数据库、API及“任务-黄金动作序列”,并经过可验证标准筛选,为训练提供了真实丰富的环境 [7] 性能与成本优势 - 在Humanity's Last Exam (HLE)基准测试中,Orchestrator-8B取得了37.1%的成绩,超过GPT-5的35.1% [1][9] - 在FRAMES(事实推理)基准上,Orchestrator-8B得分为76.3,高于GPT-5的74.0 [9] - 在τ²-Bench(复杂工具调用)基准上,Orchestrator-8B得分为80.2,高于GPT-5的77.7 [9] - 在取得上述性能领先的同时,Orchestrator-8B平均成本仅为9.2美分,时延8.2分钟,显著低于GPT-5的30.2美分成本和19.8分钟时延,计算成本约为对手的三成 [9][10] - 成本-效果曲线显示,在同等预算下,Orchestrator-8B的准确率曲线始终在GPT-5、Claude等之上;在达到相当准确率时花费更少 [11] 解决的问题与系统特性 - 解决了仅靠提示词构建多智能体系统时存在的两大偏见:1) 自增强偏见,即模型倾向于调用同家族模型(如GPT-5调用GPT-5-mini)导致性能下降;2) 他增强偏见,即无脑调用最强模型导致成本爆表(如Qwen3-8B大量调用GPT-5) [3][4] - 系统具备良好的泛化能力,即使面对训练时未见过的新工具或模型组合,指挥家也能从模型描述中推断其能力与擅长领域,维持最优性价比 [15] - 系统能够有效对齐用户偏好,对于“更私密的本地检索”、“更快速度”或“更低成本”等要求,指挥家比强大的基座模型更能遵从指令执行 [15] 应用场景与行业意义 - 为企业客户提供了稳定、可控、可落地的解决方案,将昂贵的大模型资源仅用于真正的难点,其余工作交由便宜高效的工具链完成 [13] - 具体应用场景包括:1) 企业内部问答/报表分析,默认用本地索引和代码沙盒完成80%工作,仅在遇到歧义或复杂推理时短暂调用强模型;2) 研发检索/调研,可设定时间/成本上限及来源偏好,由指挥家动态权衡;3) Agent工作流,将各种函数/工具纳入统一接口,由指挥家进行端到端智能编排,替代写死的if-else逻辑 [16] - 该范式标志着从依赖“单一强大模型”到构建“小模型+工具+专家模型的复合系统”的转变,在智能体从单体走向复合系统的趋势下,此类“协调者”角色至关重要 [13] 资源开放情况 - 论文、全部代码、模型与数据均已公开,方便学术界与产业界跟进研究与应用 [14][17]
谷歌抢跑L3级AI,Gemini连续工作40分钟,Agent自动生成评审百条创意
量子位· 2025-11-19 09:37
文章核心观点 - 谷歌Gemini企业版通过多智能体竞赛系统和长时思考能力,在单一任务上实现连续40分钟自主运行,标志着公司在L3级代理型AI的实践上取得领先突破 [1][2][3][4][6][7][10][11][12][19][20][21][26][27][29][30][31][32][33][35][36][37] 多智能体竞赛系统技术架构 - 系统整合多智能体工作流、长时思考与对抗式生成三大要素,通过"时间换质量"策略提升输出内容的结构化程度与洞察力 [10][11][12] - 具体流程包括:接收主题与评估标准后大规模生成100+初始创意,再由多个智能体以竞赛方式评分排序,最终产出附带概述、细节、评论及完整评审记录的结构化报告 [13][14][15] - 系统在正式运行前会先提供"计划评估项目和创意维度"概要,需用户确认后才执行任务,以优化需求确认与算力使用效率 [21] 应用场景与产品化进展 - 当前预览版推出创意生成与合作科研两大场景:前者针对主题生成排序创意,后者侧重科研任务的数据驱动评估 [17][18] - 同步测试的文档对话智能体支持上传最大30MB的PDF文件,将长文档内容整合至模型上下文,提升信息提取质量 [23][25][26] - 功能均集成于Gemini企业版,虽处开发阶段,但已展现通过企业级算力支撑复杂任务执行与迭代优化的能力 [26][32] L3级AI行业意义与发展趋势 - L3级AI核心定义为"代理能力",要求AI在用户授权下自主执行任务并持续运行多天,Gemini的40分钟连续运行为行业向L3迈进提供实践范本 [27][29][30][31][32] - 行业预测显示技术迭代加速:网友推测明年可能出现连续工作3小时的智能体,Anthropic则给出2026年实现8小时连续运行的时间线 [33][35] - 长期展望认为人类角色将逐步聚焦于问题设计与标准制定,Agent有望通过持续进化触及L4级创新者门槛 [36][37]
用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出Cache-to-Cache模型通信新范式
机器之心· 2025-10-29 15:23
文章核心观点 - 清华大学等研究团队提出了一种名为Cache to Cache(C2C)的全新多智能体通信范式,该范式通过直接交换和融合大语言模型的KV-Cache来实现智能体间的“脑对脑”交流,旨在解决传统文本通信(T2T)方式存在的信息丢失、语义模糊和巨大延迟问题 [2] - C2C方法在多个基准测试中展现出显著优势,相比T2T通信实现了3%-5%的正确率提升以及平均两倍的速度提升,为构建高效的多智能体系统提供了新的技术基础 [2][12][29] - 该方法具备良好的泛化能力,未来有望在多智能体协作、多模态融合、推理加速及隐私保护等多个场景中发挥关键作用,推动智能体交流从低效文本中转迈向高效“思想同步” [36][37][38][39] 多智能体系统现有通信方式的局限性 - 当前多智能体系统主要依赖Text to Text(T2T)方式进行信息传递,即通过生成交流文本来实现智能体间的通信 [2][6] - T2T通信方式存在三大核心问题:信息丢失(高维多維语义被压缩到一维文字序列时造成损失)、语义模糊(自然语言本身的模糊性难以通过标准化模版完全解决)以及巨大延迟(需要逐个token生成文本) [2][7][8] - 这些局限性极大地限制了模型间传递丰富语义上下文的效率,尤其是在处理复杂任务和开放协作场景时 [7] C2C通信范式的核心机制与技术细节 - C2C的核心思想是将模型的KV-Cache作为传播媒介,KV-Cache天然包含模型对话过程中的多维语义信息,无需额外二次处理,且在不同模型间具备良好的可转换性与通用性 [2][11] - 该机制的核心组件是C2C-Fuser,其设计采用残差式信息注入结构,包含投影层、动态权重层和可学习门控三部分,旨在自适应地将Sharer模型的信息以残差方式注入Receiver模型,防止破坏Receiver原有语义 [16][17][18] - 为确保不同模型(不同系列、尺寸)间KV表示的兼容性,C2C引入了模型对齐机制,包括Token对齐(通过字符串重新编码实现)和Layer对齐(采用“末端对齐”策略优先保障深层语义融合) [19][26] - 训练过程中,团队冻结Sharer和Receiver的参数,仅训练C2C融合器模块,采用类似SFT的next token prediction损失,确保信息传递的稳定高效 [20] C2C方法的性能与效率优势 - 在准确性方面,C2C相比单智能体表现有显著提升,针对三种不同的Sharer模型,平均准确率分别提升11.00%、9.64%和11.88% [31] - 与T2T通信方式相比,C2C在平均准确率上分别额外提升了5.36%、4.15%和3.06% [31] - 在效率方面,C2C由于省去了中间文本的生成步骤,相比T2T在推理时间上实现了显著加速,加速比分别达到约3.46倍、1.51倍和14.41倍 [29] - 具体实验数据显示,在MMLU-Redux任务中,当Sharer为Qwen2.5-0.5B时,C2C将Receiver的准确率从T2T的41.03%提升至42.92%,同时将响应时间从1.52秒大幅降低至0.40秒 [28] 实验设置与验证 - 训练数据选自通用微调语料库OpenHermes2.5的前50万个样本,以确保C2C Fusers的泛化能力 [22] - 实验涵盖了多种模型组合,包括不同系列(Qwen2.5、Qwen3、Llama3.2、Gemma3)、不同规模(0.6B~14B)以及不同专业领域(通用、代码、数学)的模型 [23] - 基线方法包括T2T通信、query-level routing(根据问题难度动态选择模型回答)以及单模型独立回答,用于全面对比C2C的性能 [24][27][28] - 评测基准包括OpenBookQA(科学常识推理)、MMLU-Redux(多领域专业知识)、ARC-C(复杂科学推理)和C-Eval(中文多学科知识)等多个任务 [28][30] 未来应用前景 - C2C有望在多智能体系统中实现协作效率与效果的大幅提高,进一步提升智能体系统的响应与处理速度 [36] - 该方法可应用于多模态的便捷融合,通过对齐并融合语言模型、视觉-语言模型(VLM)及视觉-语言-动作(VLA)策略的缓存,驱动更精确的理解与决策执行 [36] - 与推理加速方法(如推测解码、token级路由)整合,可进一步降低延迟与推理成本,增强小模型的表现 [37] - 在隐私保护方面,C2C可支持隐私感知的云—边协作,云端模型传输经挑选的KV-Cache段以提升边端能力,减少带宽并降低数据泄露风险 [38] - 与隐空间推理结合后,有望实现完全在高维语义空间的模型推理与沟通协作,减少计算开销 [39]
当AI成为你的新同事:Gartner 2026技术趋势揭示的人机共生未来
搜狐财经· 2025-10-22 07:54
AI角色的根本性进化 - AI正从被动响应指令的工具转变为能够自主决策和行动的智能同事[6] - 多智能体系统将成为企业的数字员工 这些AI智能体能够相互协作共同完成复杂任务[7] - Gartner预测到2028年 将80%客户面向流程自动化的组织将遥遥领先[7] - 物理AI的兴起把智能带入现实世界 例如医疗机器人和自主巡检无人机[7] 领域特定语言模型的崛起 - 企业开始寻求更懂行业更了解业务的专业AI 即领域特定语言模型[8] - Gartner预计到2028年 超过50%的企业生成式AI模型将是领域特定的[9] - 从业者的专业经验成为训练AI的珍贵素材 隐性知识可转化为AI学习素材[9] - 未来最受欢迎的是最懂得如何让AI更专业的人而非最会使用AI的人[9] AI安全与信任技术 - Gartner报告显示到2028年 超过50%的企业将采用专门的AI安全平台[10] - 机密计算技术能在数据处理过程中提供保护 确保敏感信息不泄露[10] - Gartner预测到2029年 75%在不可信基础设施上运行业务的企业将采用机密计算技术[10] - 数字溯源技术让软件组件的来源和经历完全透明可追溯[10] 地缘政治对技术的影响 - 地缘回迁作为全新趋势入选 标志着纯技术决策时代的终结[12] - 越来越多的国家和地区出于安全考虑要求数据和服务留在境内[12] - Gartner预计到2030年 欧洲和中东超过75%的企业将把工作负载回迁到本地区域[12] - 技术的国界正在形成 数字世界划分出新的疆域[12] 企业与个人的应对策略 - Gartner研究显示到2030年 80%的企业将由AI增强的小型团队取代传统大型团队结构[13] - 组织需要投资AI超级计算能力 建立多智能体协作系统并投入AI治理资源[13] - 到2026年 50%的组织将引入AI-free评估来解决批判性思维下降的问题[13] - 最成功的从业者是既精通本专业又能与AI顺畅协作的双语人才[13]
Office Agent:新一代多智能体系统
搜狐财经· 2025-10-15 12:29
产品发布与核心功能 - 微软正式推出基于开源技术栈和Anthropic Claude模型的多智能体系统Office Agent,采用全新的"品味驱动开发"范式构建[1] - 该系统旨在帮助用户快速生成高质量内容,包括精致的PowerPoint演示文稿、可直接使用的Word文档以及即将推出的动态Excel表格[1] - Office Agent通过多个专用智能体的协同合作,实现了从规划、撰写到完善的全流程自动化,全方位提升Office内容生产效率[1] 技术架构与性能表现 - 系统基于通用型智能体架构,已通过行业领先基准测试GAIA认证,在处理复杂工作流时兼具可靠性与精细度[1] - 在GAIA基准测试中,Office Agent在L1难度获得88.7分,L2难度获得76.7分,L3难度获得60.0分,表现优于Genspark、Manus和OpenAI Deep Research等竞争对手[2] - 架构由多智能体编排引擎驱动,包含中央规划智能体、专用智能体(涵盖代码、金融、搜索等领域)和安全工具层[3][5] 品味驱动开发创新 - Office Agent引入品味驱动开发方法,通过分析海量高质量演示文稿样本提取核心品味设计蓝图,直接影响生成的版式、风格与内容[6] - 工作流采用迭代循环,每则生成内容均通过"内容自验证模块"进行审校,评估质量与美感,驱动自我迭代与优化[6] - 系统提供转换工具,可将HTML5自动转换为PowerPoint格式,方便用户在Microsoft PowerPoint中进一步编辑[6] 自动主题与风格规则 - 微软设计自动主题功能,直接读取内容本身并生成与之自然契合的设计,而非让用户从预设模板中挑选[12] - 微软设计师通过审视和打磨示例案例,提炼出风格规则,由智能体在运行时应用,保证生成结果既呼应核心指令,又能规模化输出精致内容[14] 质量评估体系 - 微软团队开发TDDEval基准测试,专门评估TDD在PowerPoint、Excel和Word中的表现,涵盖多种测试任务和边界场景[16] - 质量评估采用双重视角框架:内容质量(事实与结构完整性)和品味评分(美学与体验维度)[17][20] - 评估指标包括主题相关性、覆盖完整性、逻辑结构、视觉吸引力、布局组织、字体排版质量等具体维度[20] 技术实现经验 - Office Agent采用"code-first"方法,允许模型编写并执行代码,而非依赖任务专用工具,提升智能体的灵活性和泛化能力[19] - 系统通过自我验证提升准确率,鼓励模型重述原始问题并与当前输出比对,插入中间检查点提升可靠性[20][21] - 智能体具备类人浏览能力,支持点击链接、翻页、滚动等操作,将所有中间观察纳入上下文以提升推理能力[24] 市场部署与生态整合 - Office Agent已通过Frontier计划向Microsoft全球版个人和家庭订阅用户开放,面向商业用户的支持也即将到来[22] - 领驭科技作为微软中国南区核心合作伙伴,正积极整合Azure OpenAI的强大功能到其产品和行业解决方案中[23] - 微软团队正在推进智能体的编排能力,丰富审美风格库,并进一步扩展其在微软生态系统中的集成[22]
北大汇丰王小愚:中国AI投资具备三大优势,首要挑战在核心技术依赖与硬件短板
新浪财经· 2025-09-22 10:02
5G、AI与区块链技术融合重塑金融基础设施 - 5G提供低延迟、高速率、海量连接的网络环境,使金融交易和数据传输更高效[3] - AI通过机器学习和大数据分析优化金融决策,提升风控能力[3] - 区块链通过去中心化、不可篡改的特性增强金融系统透明度和安全性[3] - 三者的协同对金融系统基础设施的重塑体现在支付清算系统实时化与可信化、智能投顾与资产管理个性化与透明化、以及破解供应链金融信息不对称三大方面[1][3] 支付清算系统的技术融合应用 - 5G支持跨境支付实时结算,将传统SWIFT系统所需的1-3天压缩至秒级[3] - 区块链确保交易不可篡改和全程可追溯,降低欺诈风险,如香港"贸易联动"平台试点案例[3] - AI通过实时反欺诈模型分析交易行为,支付宝风控系统利用AI降低盗刷率90%以上[3] - 5G、AI与区块链协同实现"速度-安全-智能"三角闭环,推动支付清算向分布式高效模式转型[3] 智能投顾与资产管理的技术赋能 - AI技术分析用户风险偏好和市场数据生成个性化投资组合[4] - 区块链记录所有交易流水,确保策略执行透明可审计[4] - 5G保障海量市场数据的实时传输,提升决策时效性[4] - 生成式AI将晦涩条款、市场风险转化为可视化报告与交互式问答,使普通投资者理解复杂产品的效率提升3倍[15] 供应链金融的技术突破 - 区块链存储并实时分享供应链全流程数据,智能合约保证条件满足后自动完成结算[6] - AI基于历史数据评估中小企业信用风险,替代传统抵押担保模式[6] - 5G保证实时采集的物流、仓储数据能快速上传区块链,实现信息动态分享[6] - 京东"京保贝"平台使中小微企业融资通过率提升47%[8] 技术融合的挑战与风险 - 技术融合存在架构复杂性,区块链分布式账本需与AI集中式训练框架兼容,5G边缘计算节点需与两者协同[2][6] - 性能上存在瓶颈,区块链低TPS与5G高吞吐需求矛盾[2][6] - AI算法共振可能引发"羊群效应"放大市场波动,如2024年美股闪崩事件中AI抛售链式反应[7] - 技术融合后潜在攻击面扩大,智能合约漏洞与AI决策黑箱结合可能导致自动化金融攻击[7] 主导技术生态的企业类型 - 具备技术整合能力的科技巨头,如蚂蚁集团、腾讯、IBM,能高效打通5G、AI、区块链的技术链路[2][7] - 深耕垂直场景的产业金融科技服务商,如微众银行、京东科技,对产业"Know-How"理解更深,能快速实现技术商业化落地[2][7] - 供应链金融将成为技术融合爆发的核心细分领域[7] 金融科技未来颠覆性创新方向 - 决策流程由多智能体系统深度接管,美国银行虚拟助手Erica年交互量突破20亿次,通过自然语言指令执行复杂操作[9] - 资产代币化与合规DeFi融合推动投资民主化,新加坡Project Guardian试点将1.2亿美元商业地产拆分为链上代币,投资者最低以1000美元即可认购份额[10] - 多边央行数字货币桥使企业跨境贸易结算从T+3缩短至10秒,成本压降60%,2025年6月试点交易额突破2200万美元[11] 中国AI投资的优势与挑战 - 优势在于场景驱动、政策支持与工程效率,制造业占全球增加值30%,为AI在智能制造等领域落地提供基础[12] - 本土创新显著降低成本,如DeepSeek-V3训练成本仅为GPT-4的1/10,并在小模型技术上取得领先[13] - 首要挑战是核心技术依赖与硬件短板,高端芯片严重依赖进口制约算力自主[12][13] - 前沿模型数量15个显著低于美国的40个,仍以应用层创新为主[13] AI在金融领域的成熟应用场景 - 信贷风控领域,AI通过机器学习分析替代性数据构建动态信用模型,蚂蚁集团"芝麻信用"覆盖超1亿征信白户人群,将信贷审批从天级缩短至分钟级[14] - 反欺诈场景中,AI使欺诈识别准确率较传统规则引擎提升40%以上,如SWIFT系统利用AI优化跨境欺诈监测效率[14] - AI建立认知偏差干预机制,当用户追逐高收益产品时自动推送历史回测对比,如展示"近十年持有比特币超1年者亏损概率达82%"的模拟图表[15] 区块链投资市场现状 - 区块链投资领域存在技术创新价值与投机炒作行为的混杂,国家网信办整治行动累计关闭1.2万个违规账号,清理超5万条误导性信息[17] - 过热导致"劣币驱逐良币",合规企业因竞争压力退出市场,而空气币、传销币项目通过市场操纵短期获利[17] - 真正技术革新应公开技术路径并接受行业检验,如金融区块链合作联盟开源的FISCO BCOS平台为监管机构提供可审计的链上数据[18]
马斯克“巨硬计划”新动作曝光!从0建起算力集群,6个月完成OpenAI&甲骨文15个月的工作
搜狐财经· 2025-09-18 14:34
项目进展 - 6个月建成算力集群 已完成200MW供电规模 支持11万台英伟达GB200 GPU NVL72 [1] - 项目进度远超行业标准 6个月完成OpenAI和甲骨文等合作方15个月的工作量 [1] - 2025年3月7日启动Colossus II项目 收购100万平方英尺仓库及100英亩地块 [4] - 截至8月22日安装119台风冷式冷水机组 提供200MW冷却能力 [4] - 第一阶段部署11万个GPU 最终目标超过55万个GPU 峰值功率需求超1.1吉瓦 [4] - 部署168个特斯拉Megapack电池储能系统 避免对当地电网造成冲击 [5] 技术架构 - 基于xAI大型语言模型Grok构建多智能体系统 部署数百个专用智能体 [2] - 智能体分工涵盖编码 图像视频生成 软件测试等全流程 [2] - 系统通过虚拟机模拟人类用户交互 实现软件开发生命周期全自动化 [2] - 采用跨区域能源策略 在密西西比州收购前杜克能源发电厂 [4] - 发电厂已运行7台35MW燃气涡轮机 总输出245MW [4] - 通过合资公司获得400MW燃气涡轮机服务 占供应商总容量600MW的67% [5] 战略布局 - 项目命名为"巨硬计划"(MACROHARD) 2021年已有初步构想 [2] - Colossus II专为AI推理设计 规模较Colossus I扩大数十倍 [4] - 与特斯拉形成协同效应 AI软件优化自动驾驶算法及工厂自动化 [6] - 特斯拉提供海量真实世界训练数据 公司定位转向"AI机器人公司" [6] - 长远路线图计划将GPU总量扩展至100万个 [4] 资源投入 - 合资公司第二季度资本支出1.12亿美元 [5] - 密西西比州监管机构特批12个月燃气轮机运行许可 无需正式审批 [4] - 马斯克亲自督导项目 包括电力生产审查和技术评审 [5]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
DeepDiver-V2来了,华为最新开源原生多智能体系统,“团战”深度研究效果惊人
量子位· 2025-09-11 18:19
产品发布与核心特性 - 华为发布DeepDiver-V2原生多智能体系统 采用团队作战模式 包括一个Planner负责任务分解和进度管理 多个专业Executor并行处理子任务 通过共享文件系统交换信息 [1] - 系统基于多智能体形态训练 具备更强的角色扮演和协同推理能力 能够生成数万字的高质量深度研究报告 [2] - 该系统专攻AI深度搜索和长文调研报告生成 目前已开源 [3] 性能表现与基准测试 - 在WebPuzzle-Writing基准测试中 DeepDiver-V2生成报告平均长度达24.6K tokens 是OpenAI o3 DeepResearch(10.6K tokens)的两倍多 [4] - DeepDiver-V2-38B在BrowseComp-zh测试中达到34.6分 超越WebSailor-72B(30.1分)和WebSailor-32B(25.5分) [5] - DeepDiver-V2-38B在BrowseComp-en测试中达到13.4分 为同规模开源模型中最高 超过WebSailor-72B(12.0分) [5] - 在自动评测中 DeepDiver-V2效果与主流agent产品相当 Content Diversity指标表现优异 [4] 系统架构创新 - 采用以Planner为中心的多智能体系统架构 协调多个Executor 取代V1版本的单模型超长上下文处理模式 [7] - Planner进行自适应复杂度评估 构建任务树分解复杂问题 并采用竞争赛马机制提高结果可靠性 [8][9] - 智能体通过共享文件系统交换精炼任务摘要和文件元数据 而非完整上下文 实现可扩展通信和并行执行 [11] - 系统包含专业化Executor:Information Seeker负责信息收集与验证 Writer负责长文本生成与章节构建 [12] 训练方法与技术支撑 - 采用Planner-centric分配机制解决多智能体训练中的责任归属问题 [13] - 训练流程包括冷启动监督微调 拒绝采样微调(RFT)和在线RFT 使用动态轨迹缓存批处理策略 [15][16] - 训练完全使用Atlas 800I A2集群 依托1000+ NPU组成的大规模计算集群 通过华为高速缓存一致性系统(HCCS)互联 [17] - 开发专门强化学习框架 包括Agent Factory代码库和Trajectory-wise过滤机制 [17][18] 实验发现与性能分析 - 系统性能对Executor能力极其敏感 但对Planner要求相对宽松 7B Planner已能胜任大部分协调工作 [19][21] - 38B Information Seeker单独使用时在BrowseComp-zh得分26.3 超越WebSailor-32B(25.5分) [23] - 将7B Executor升级为38B后 BrowseComp-zh分数增加9分(18.3→27.3) 而升级Planner仅提升6.3分(18.3→24.6) [25] - 在长文本写作任务中 升级Writer带来的提升(5.51→5.80)远超升级Planner(5.51→5.56) [25] - 多智能体训练使子智能体在处理扩展任务集时更加鲁棒 具备独当一面的能力 [26] 应用前景与行业影响 - 从单一模型到多智能体系统的转变为解决复杂现实问题开辟道路 [27] - 未来将在企业调研 科学文献综述 专业数据分析等专业领域发挥巨大作用 [27]