大型语言模型(LLM)

搜索文档
低空经济与卫星互联网安全专题论坛举行
搜狐财经· 2025-05-31 18:55
低空经济发展与数字化转型 - 中国低空经济将进入万亿级市场,具有辐射面广、产业链条长、成长性强、带动性强等特点 [2] - 低空经济发展需全面认识无人机的安全性并加强风险防控 [2] - 无人机事故频发已成为制约产业发展的瓶颈,需构建"政府监管+产业防护+公众意识"三位一体的协同体系 [2] 无人机集群协同与安全技术 - 多智能体系统(MAS)与大型语言模型(LLM)在无人机集群协同中有创新应用,可解决广域监控、动态物流等场景的覆盖不足和实时性差问题 [3] - 身份认证、通信加密等安全机制对无人机集群系统稳定性至关重要 [3] - 未来研究将深化MAS+LLM融合,推动无人机集群向智能化、自主化与高安全性发展 [3] 卫星通信与无人机应用 - "空天一体"通信架构推动传统无人机在远距离、复杂环境下的应用 [3] - 卫星互联网网络攻击手段日趋多样,卫星通信链路复杂性增加,用户端流量管控需求强烈 [3] - 构建高效、可靠的安全防护体系是卫星互联网发展的重要课题 [3] 行业合作与未来展望 - 2025年将深耕低空经济与卫星互联网安全领域,深化"空天地一体化"安全生态布局 [5] - 产业链上下游伙伴、高校及科研院所将携手共建技术标准与创新应用,开拓低空经济新场景 [5] - 《2024卫星互联网安全年度报告》发布,推动低空经济与卫星互联网安全领域系统化、智能化发展 [5]
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 11:28
多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]
全球首个宠物翻译器,上线爆火
36氪· 2025-05-23 08:47
AI跨物种交流技术发展 - 谷歌推出DolphinGemma大模型 可实现人类与海豚水下实时交流 并预测海豚发声[1][24] - 华人团队研发Traini应用 成为全球首个AI人狗翻译器 翻译准确率超过80%[1][2][9] - 百度公开动物语言转换专利 运用大模型技术分析动物行为并转换为人类语言[22] 宠物经济发展现状 - 中国宠物数量首次超过4岁以下婴幼儿总量[4] - 2023年中国宠物经济产业规模达5928亿元[4] - 年轻养宠群体呈现情感消费与拟人化养宠趋势 将宠物视为"孩子"与"朋友"[4] Traini产品技术细节 - 采用自主研发的PEBI模型 可识别12种狗狗情绪及行为表现[9][17] - 模型通过多模态数据训练 能预测宠物犬下一秒情绪变化[18] - 数据覆盖120个犬种 但地域和品种覆盖仍不够全面[20] - 翻译功能分为心智语言(基因决定)和社会语言(后天学习)[9] - 人类语言转犬吠功能包含18个短句[9] 行业技术演进 - 20年前日本已有单向解读犬吠情感的翻译器[12] - OpenAI的LLM技术扩展了多模态处理能力 为人宠交流提供新可能[13] - 国际"鲸语翻译计划"正分析40亿个抹香鲸交流代码[26] - AI技术已应用于家猪、绵羊等养殖动物情绪研究[22] 产品开发历程 - 灵感源于76%的狗粮用户对理解宠物行为感兴趣[7] - 研发耗时2年 最大难点在于情感模拟和共情表达[10][18] - 声音克隆经历多次尝试 最终采用儿童录音确定初版音调[18] - 团队包括前OpenAI工程师 获华源科技协会最受用户喜爱奖[15][16]
戴尔与英伟达合作,发布全新企业AI解决方案,推出新一代PowerEdge服务器
华尔街见闻· 2025-05-20 04:31
企业AI解决方案发布 - 戴尔与英伟达合作发布新一代企业AI解决方案,升级了AI工厂的基础设施、解决方案和服务,以简化企业AI全面实施的路径[1] - 新产品线包括高级计算、数据存储、数据管理和网络解决方案[1] - 戴尔推出了新一代的AI基础设施,包括风冷和液冷的PowerEdge服务器,支持多达192个英伟达Blackwell Ultra GPU[1][4] - 新产品能够实现高达四倍的大型语言模型(LLM)训练速度[1][4] 技术性能与创新 - 新型PowerEdge服务器采用直接芯片液体冷却技术,每个戴尔IR7000机架可定制高达256个英伟达Blackwell Ultra GPU[4] - 戴尔计划支持英伟达Vera CPU和Vera Rubin平台,进一步提升AI性能和效率[1][5] - 戴尔PowerEdge XE7745服务器将于2025年7月支持英伟达RTX Pro™ 6000 Blackwell Server Edition GPU,为机器人技术、数字孪生和多模式AI应用等提供统一平台[5] 市场数据与表现 - 目前已有75%的组织将AI视为核心战略,65%的企业成功将AI项目推进到生产阶段[1] - 戴尔AI工厂方案在本地部署大型语言模型(LLM)推理方面的成本效益比公共云高出62%[1] - 截至发稿,戴尔股价已从4月低点上涨60%,回升至114美元,市值接近800万亿美元[1] - 全球已有超过3,000家客户正在使用戴尔AI工厂加速其AI计划[5] 产品扩展与生态系统 - 戴尔正在扩展其AI产品线范围,以满足从边缘到数据中心的所有部署需求[3] - 戴尔的企业级AI解决方案覆盖了从企业级AI PC到数据中心的各个环节,构成了一个完整的生态系统[5] - 空气冷却型戴尔PowerEdge XE9780和XE9785服务器简化了与现有企业数据中心的集成[4] - 液体冷却型戴尔PowerEdge XE9780L和XE9785L服务器加速机架级部署[4]
仅需1个数据,就能让大模型的数学推理性能大大增强?
机器之心· 2025-05-09 17:02
大型语言模型(LLM)推理能力研究 核心观点 - 采用单个数学训练数据的1-shot RLVR方法可显著提升大型语言模型在数学推理任务上的表现,且效果与使用1.2k数据集相当 [2][3] - 1-shot RLVR的泛化能力不仅限于数学任务,还能拓展至非数学推理任务如ARC-Easy/Challenge [5] - 该方法在多种模型(Qwen2.5-Math-1.5B/7B、Llama-3.2-3B-Instruct等)和算法(GRPO、PPO)上均有效 [16][17] 方法细节 - 训练使用三项损失函数:policy gradient loss(基于0-1结果奖励)、KL divergence loss(保持语言质量)、entropy loss(鼓励多样性)[7] - 数据选择基于historical variance score,优先选取训练过程中准确度方差较大的数据,但1-shot RLVR对低方差数据同样有效 [8] - 性能提升主要源于policy gradient loss,与KL loss和weight decay关联性较低 [19] 实验发现 - **性能提升幅度**:1-shot RLVR使Qwen2.5-Math-1.5B在MATH500上的准确率从36%提升至73.6%,Qwen2.5-Math-7B从51%提升至79.2% [3] - **饱和后泛化**:单个训练样本的准确率快速饱和至近100%,但下游任务表现持续提升,过拟合在百万次rollout后才出现 [10][11] - **跨主题泛化**:单个几何训练数据可同时提升代数、数论等其他数学主题的表现 [13] - **自我反思增强**:下游任务中自我反思相关词汇频率显著增加 [14] 消融实验 - 移除KL loss和weight decay对1-shot RLVR效果影响较小,但entropy loss能进一步优化表现,尤其在饱和后泛化阶段 [19][20] - 仅使用entropy loss进行少量训练也能提升模型表现,即使训练数据标签错误仍可能部分有效 [20] 应用与启示 - 1-shot RLVR表明基础模型本身具备潜在推理能力,少量数据即可激发 [22] - 该方法对RLVR数据选择算法设计、探索机制优化及少样本应用场景具有启发意义 [22] (注:表格数据及具体实验参数详见原文引用部分 [7][17][20])
AI智能体协议全面综述:从碎片化到互联互通的智能体网络
欧米伽未来研究所2025· 2025-05-06 21:33
人工智能智能体协议调研报告核心观点 - 报告首次系统性地对AI智能体协议进行二维分类:面向上下文的协议与智能体间协议,以及通用型与特定领域的协议 [1] - 大型语言模型(LLM)智能体已在客户服务、内容生成、数据分析和医疗等行业广泛部署,但缺乏标准化通信协议限制了其协作能力 [1] - 研究重点比较了安全性、可扩展性和延迟性等关键性能维度,并探讨分层架构、隐私保护、联邦学习等未来发展趋势 [1] 智能体协议运作模式分析 模型上下文协议(MCP) - 采用高度中心化架构,由中央智能体直接调用所有外部服务接口(如get_flights(), get_hotels()) [2] - 信息流呈星形模式,所有数据汇总至中央客户端整合,优点在于简单易控但缺乏灵活性 [3] - 中央智能体成为性能瓶颈,扩展性面临挑战,处理高并发请求时效率下降 [3] 智能体到智能体协议(A2A) - 采用分布式架构,专业智能体(如交通部门、住宿部门)可直接通信无需中央协调 [4] - 旅行规划器仅负责结果整合,通信开销更低,支持动态变化的复杂协作模式 [5] - 跨组织边界协作时存在挑战,需依赖明确的接口定义 [5] 智能体网络协议(ANP) - 通过标准化跨领域交互解决A2A的局限性,支持不同安全边界的智能体协作 [6] - 采用结构化请求/响应规则,适用于定义明确接口的异构系统间交互 [6] Agora协议 - 将自然语言请求转换为标准化协议,包含自然语言理解、协议生成、协议分发三层架构 [7] - 用户输入"预算3000美元的5天北京-纽约行程"会被解析为结构化协议分发给专业智能体 [7] 智能体协议未来发展趋势 短期方向(1-3年) - 建立统一评估体系,综合考量通信效率、鲁棒性、适应能力等维度 [9] - 研发隐私保护协议,采用联邦学习技术共享聚合数据而非原始敏感信息 [10] - 开发智能体网状协议(Agent Mesh Protocol),实现群组内通信历史透明共享 [10] 中期方向(3-5年) - 探索将协议知识内建到LLM参数中,使智能体无需提示即可执行协议行为 [11] - 发展分层协议架构,分离传输层与语义层,提高异构智能体互操作性 [12] - 协议设计将整合伦理、法律和社会约束以符合社会价值观 [13] 长期方向(5年以上) - 构建支撑集体智能的基础设施,研究群体规模与通信拓扑的尺度定律 [14] - 开发智能体数据网络(ADN),支持机器中心化数据表示和异步协作 [15] - 协议演进可能引发社会组织与经济模式的变革,释放分布式集体智能 [17] 行业数据与资源 - 欧米伽未来研究所"未来知识库"收录超过8000篇前沿科技资料,每周更新不少于100篇 [18] - 知识库精选报告包括牛津AI安全研究、麦肯锡超级智能机构分析、斯坦福新兴技术评论等19份重量级文献 [19]
微软正式开源UFO²,Windows桌面迈入「AgentOS 时代」
机器之心· 2025-05-06 16:04
微软UFO² AgentOS技术突破 - 业内首个深度集成Windows操作系统的桌面智能体平台,以"AgentOS"理念设计,解决传统智能体界面交互脆弱和执行中断问题 [3][6] - 多智能体架构包含HostAgent负责任务解析与分解,AppAgent提供定制化API接入和界面感知能力,支持跨应用任务 [6] - 统一GUI-API混合执行模式通过Puppeteer接口动态选择最优方案,平衡效率与通用性 [7] - 混合控件感知结合Windows UIA接口与OmniParser-v2视觉模型,提升复杂界面下的识别准确率至90%以上 [10] - 推测式多步执行技术减少51.5%的LLM调用次数,显著降低延迟和计算成本 [14][21] 系统级创新设计 - 采用RAG技术构建动态知识库,整合应用文档和执行日志实现"越用越强"的学习能力 [12] - PiP虚拟桌面技术利用Windows远程服务创建独立执行环境,避免干扰用户主桌面操作 [16] - 已在Excel/Outlook/Edge等20+主流Windows应用完成验证,任务成功率比OpenAI Operator高10% [18][21] 行业影响与开源生态 - 项目在GitHub获7,000 Stars,标志着桌面智能体进入系统级"AgentOS时代" [1][20] - 微软全面开源代码和文档,推动建立智能办公和人机交互的新生态标准 [19][21] - 技术框架突破传统RPA脚本依赖,为LLM-based智能体的规模化应用提供工程范本 [3][6]
过去四周,AI推理爆了,GPU在燃烧,英伟达依旧供不应求
华尔街见闻· 2025-04-27 18:38
投资者情绪与需求变化 - 过去四周投资者情绪因宏观经济和供应链风险恶化 但英伟达GPU核心需求因大型语言模型对推理芯片需求飙升且遍及所有地区 [1] - token生成量自年初以来增长5倍以上 给生态系统带来巨大压力并推动处理工作负载的投资激增 [1] - 多家AI公司报告用户数量爆炸式增长 例如Open Router等API公司因推理软件需求被迫争抢GPU资源 [1] 英伟达芯片供需状况 - 英伟达Blackwell芯片供应受限 尤其是GB200/300型号无法满足爆炸式需求 [2] - Hopper GPU需求有所改善 但云客户5-6年折旧周期导致投资回报率不理想 [2] - 美元上行、供应紧张和出口限制叠加 引发市场对英伟达短期盈利担忧 [2] 摩根士丹利对英伟达的评估 - 摩根士丹利将英伟达目标价从162美元下调至160美元 主要反映同行组整体估值下降而非公司基本面变化 [2] - 截止发稿英伟达股价为111美元 较大摩目标价高45%左右 [2] - 摩根士丹利认为供应限制和毛利率压力影响市场情绪 但对长期增长潜力保持信心 [4] 财务预测调整 - 摩根士丹利将2026财年收入预测上调10.7% 每股收益上调11.9% 并认为这些数字可能仍非常保守 [5]
人工智能芯片大赢家
半导体芯闻· 2025-04-07 19:07
AI技术发展及市场前景 - AI技术和应用正以惊人速度加速发展,GenAI/LLM领导者Nvidia预计2030年成为首家市值达10万亿美元的公司[1] - 大型语言模型(LLM)功能和成本效率快速提升,ChatGPT周活跃用户超5亿且持续增长[1] - 数据中心资本支出预计2028年达1万亿美元,2030年可能达1.4万亿美元[1] 数据中心半导体市场格局 - 数据中心相关半导体年出货量已超2200亿美元(不包括电源芯片)[3] - 预计2030年数据中心半导体支出超5000亿美元,占整个半导体行业50%以上[4] - 市场高度集中,九家公司占据几乎所有数据中心半导体收入:Nvidia、台积电、博通、三星、AMD、英特尔、美光、SK海力士和Marvell[6] GPU/AI加速器市场 - GPU/AI加速器占数据中心半导体支出60%,市场规模预计2030年达3000-4000亿美元[6][7] - Nvidia占据主导地位,近期季度收入约330亿美元,博通约40亿美元,Marvell约10亿美元,AMD不足10亿美元[8] - Nvidia利润率约75%,博通约65%,定制ASIC可降低成本约40%[7][10] 网络设备市场 - 网络设备占数据中心支出5-10%,预计增长至15-20%[11] - Nvidia的NVLink技术提供强大竞争优势,博通是主要交换机芯片供应商[11] - 光子学和激光技术重要性提升,主要参与者包括Coherent和Lumentum[11] CPU市场 - AMD近期季度x86 CPU出货量39亿美元,英特尔33亿美元[13] - Nvidia基于ARM的CPU(Grace)可能2030年前超越x86出货量[13] 内存市场 - HBM收入约250亿美元,完全来自数据中心,利润率远高于DDR和闪存[14] - 美光和SK海力士在HBM开发领先,三星落后[14] 其他芯片市场 - ASPEED主导BMC市场,80-90% AI主板采用其芯片[15] - 电力传输芯片市场规模巨大,48V系统和复杂PMIC需求增长[15] 半导体代工市场 - 台积电几乎生产所有高价值非内存芯片,50%以上收入来自AI/HPC[16] - 三星和英特尔面临技术挑战,但AI需求可能超过台积电产能[18] 行业整合趋势 - 市值万亿美元巨头可能收购AMD、英特尔等公司以确保AI领导地位[6] - 无法快速扩张的半导体公司可能被收购或淘汰[19]