大型语言模型
搜索文档
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?
36氪· 2025-09-02 17:45
研究背景 - 苹果与牛津大学和香港城市大学合作提出BED-LLM新方法 使AI解决问题能力提升6.5倍 成功率从14%暴增至91% 无需微调或重新训练[1] - 大型语言模型存在多轮遗忘症 难以智能自适应地从用户或外部环境获取信息 在多步猜谜游戏和任务澄清等交互式任务中表现不佳[3] 技术方法 - BED-LLM采用序贯贝叶斯实验设计框架 通过迭代过程选择能最大化预期信息增益的问题 根据用户回答更新信念再选择下一问题[5][7][8] - 方法包含三重智慧设计:追求真正信息增益而非表面不确定性 强制逻辑自洽纠正遗忘症 生成问题有的放矢而非天马行空[12][16][17] - 通过先采样后过滤策略确保逻辑自洽 用逻辑过滤器剔除与历史回答矛盾的选项 保持推理基于已知事实[16] - 采用针对性条件生成策略 参考逻辑自洽假设池生成能高效切分假设的问题[17] 性能表现 - 在20个问题猜谜游戏中 BED-LLM使用Mistral-Large预测名人时成功率从14%提升至91%[18] - 在电影推荐任务中取得显著改进 即使LLM预测模型与回答者模型不同优势依然有效[19] - 在模型跨服聊天测试中 提问方使用Qwen回答方使用GPT-4o-mini的情况下 BED-LLM性能优势保持稳健[20][22] 行业意义 - 研究展示通过数学框架将LLM从被动知识库转变为主动高效的信息收集者 预示未来AI交互将进入智慧对话阶段[24] - 该方法使AI能根据用户实时反馈动态调整策略 精准提出最有价值问题 提升自适应信息收集能力[4]
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?
机器之心· 2025-09-02 17:33
苹果与高校合作AI研究突破 - 苹果与牛津大学和香港城市大学合作提出BED-LLM新方法 使AI解决问题能力提升6.5倍 成功率从14%暴增至91% 无需微调或重新训练[1] - 核心突破在于让AI学会提出完美问题 通过自适应信息收集实现智能交互[2][5] BED-LLM技术原理 - 基于序贯贝叶斯实验设计框架 通过迭代过程最大化预期信息增益(EIG)[7][9] - 采用三重智慧设计:追求真实信息增益而非表面不确定性 强制逻辑自洽纠正遗忘症 条件生成策略实现针对性提问[14][16][18] - 通过先采样后过滤策略确保答案逻辑一致性 使用逻辑过滤器剔除矛盾选项[17] 性能验证结果 - 在20个问题猜谜游戏中 Mistral-Large模型预测名人成功率从14%提升至91%[20] - 在动物数据集上 Qwen2.5-72B模型成功率从45%提升至94% Mistral-Large从33%提升至95%[20] - 电影推荐任务中表现显著改进 模型跨服测试显示即使在模型失配情况下性能优势依然稳固[21][24] 技术应用前景 - 将LLM从被动知识库转变为主动信息收集者 实现真正意义上的智慧对话[26] - 适用于多轮猜谜游戏 任务澄清 IT任务自动化和迭代式外部工具使用等场景[4]
Copilot强塞马斯克Grok新模型,遭开发者集体“抵抗”!GitHub内部工程师曝:我们是被“胁迫”的
搜狐财经· 2025-08-30 14:49
合作与产品整合 - GitHub将xAI的Grok Code Fast 1大型语言模型整合到Copilot平台中 作为可选的公开预览版面向Visual Studio Code用户开放 覆盖Pro、Pro+、商业版和企业版套餐 [1][2] - 该模型专为代理编码任务设计 提供可见的推理轨迹功能 帮助程序员在复杂项目中实现更快迭代 免费访问权限有效期至2025年9月2日太平洋夏令时间下午2点 [2] - 个人付费用户可通过模型选择器直接启用 商业版和企业版需由管理员在Copilot设置中启用策略 个人版用户还支持通过自带密钥方式使用xAI API密钥访问模型 [2][3] 安全与合规争议 - GitHub内部工程师Eric Bailey举报称该模型推出时安全审查仓促 工程团队在胁迫环境下推进工作 完全违背公司价值观 [4] - GitHub官方回应否认审查流程存在捷径 强调所有合作模型均通过基于微软负责任AI标准的内部审查 包括自动化评估和由GitHub与微软专家组成红队的人工测试 [4] - 该模型目前仍处于可选参与的预览阶段 团队持续进行研究和优化 [4] 开发者社区反应 - 大量开发者在GitHub平台发起讨论 要求撤销与xAI的合作 认为此举违背GitHub及微软重视多元化的价值观 [5] - 部分开发者表示考虑迁移至Codeberg或sourcehut等替代平台 前员工David Celis公开批评支持Grok的行为无礼且不必要 [6] - 少数开发者认为合作能带来独特价值 xAI专注于可解释和透明的人工智能技术 与GitHub赋能开发者的使命高度契合 期待整合可视化模型决策过程等功能 [6]
美股异动 | 部分机器人概念股盘中冲高 Serve Robotics(SERV.US)大涨超15%
智通财经· 2025-08-27 22:50
机器人概念股表现 - Serve Robotics股价大涨超15% [1] - Richtech Robotics股价涨近14% [1] - iRobot股价涨超3% [1] 英伟达技术突破 - Jetson Thor采用Blackwell GPU和128GB内存 提供2070 FP4 TFLOPS AI算力 [1] - 算力性能达到前代Jetson Orin的7.5倍 [1] - 新技术使机器人能即时处理庞大感测数据与大型语言模型 [1] - 实现高阶人形机器人真正的视觉认知 思考与行动能力 [1]
TrendForce:预计人形机器人芯片市场规模有望于2028年突破4800万美元
智通财经· 2025-08-26 15:49
英伟达Jetson Thor芯片性能提升 - 英伟达新推出的Jetson Thor芯片提供2070 FP4 TFLOPS AI算力 是前代Jetson Orin的7.5倍 [1] - 该芯片配备Blackwell GPU和128 GB记忆体 能够即时处理庞大感测数据与大型语言模型 [1] - 芯片性能提升使高阶人形机器人具备真正的视觉识别 思考与行动能力 [1] 人形机器人芯片市场规模预测 - 人形机器人芯片市场规模有望于2028年突破4800万美元 [1] - 全球人形机器人需待2032年前后稳定走入家庭 才能真正放量突破10万台 [4] - Agility Robotics Boston Dynamics Amazon等厂商陆续采用与建置生态圈推动市场发展 [1] 芯片价格与成本考量 - Jetson Thor开发套件价格达3499美元 较前代Jetson Orin的1499美元大幅提高 [4] - 短中期执行单纯作业的厂商较倾向采用平价芯片 [4] - 英伟达可能通过软硬件绑定优势推出配套软件平台 以提升高算力成本的价值 [4] 人形机器人发展阶段 - 短期发展以试点补位为主 中期进入制造与服务规模化 长期普及至家庭日常场景 [4] - 各国人形机器人发展依技术与目的有所不同 [4] - 高阶SoC在长期普及阶段的效用更加关键 [4]
大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
机器之心· 2025-08-13 08:52
核心观点 - 几何平均策略优化(GMPO)通过优化几何平均奖励解决了组相对策略优化(GRPO)在训练过程中的不稳定性问题,策略更新更稳定且探索能力更强 [2][11][22] - GMPO在语言任务和多模态推理任务中表现优于GRPO,Pass@1准确率提升1.4% [26][27] - GMPO通过token级裁切和更宽的裁切范围设计,平衡了训练稳定性与探索性 [17][18][20] GRPO面临的挑战 - GRPO优化算术平均奖励,对异常值敏感,易产生极端重要性采样比率导致策略更新不稳定 [9] - GRPO的剪切操作未完全解决稳定性问题,且过度限制模型更新幅度影响泛化能力 [9] GMPO原理与优势 - GMPO优化几何平均奖励,抑制极端值影响,训练目标公式见原文 [11] - GMPO梯度受几何平均加权,相比GRPO更鲁棒 [14] - GMPO优势包括:更稳定策略更新、更高奖励、减少过拟合风险、更高熵值支持持续探索 [22][23] 关键设计 - token级裁切比序列级裁切更稳定,避免丢失有价值梯度信号 [17] - 裁切范围设为(e−0.4,e0.4),显著大于GRPO和DAPO以鼓励探索 [20] 实验验证 - 语言任务:在AIME24、AMC等5个数学推理基准测试中表现优异 [25] - 多模态任务:Geometry3K基准上Pass@1准确率54.7%,较GRPO提升1.4% [26][27]
马斯克宣布Grok 4 在限定时间内对所有用户免费开放
搜狐财经· 2025-08-11 17:15
公司动态 - xAI公司宣布大型语言模型Grok 4将在限定时间内向所有用户免费开放 [1] - 免费使用期限被描述为"有限"但未明确说明结束时间 [3]
GPT-5来了,微软抢先接入:一键生成网页、博士级智能,所有用户免费使用;马斯克不服
搜狐财经· 2025-08-08 12:45
产品发布与性能 - OpenAI推出大型语言模型GPT-5,距离GPT-4发布已过去两年半,公司称其为"世界上最好的模型"并免费提供给用户[1] - GPT-5采用集成模型架构,能自动选择推理深度,无需用户切换模式,对话体验如同与博士级专家交流[3] - 新模型在编码、数学、写作、健康、视觉感知等领域表现卓越,是统一的智能系统,能自动判断响应速度[5] - GPT-5在SWE-bench Verified测试中首次尝试准确率达74.9%,高于GPT-4o的30.8%和o3模型的69.1%[10] - 在HealthBench Hard Hallucinations测试中,GPT-5的错误信息率仅1.6%,远低于GPT-4o的15.8%和o3的12.9%[17] - 启用网络搜索后,GPT-5响应中包含事实错误的可能性比GPT-4o低45%,比o3模型低80%[18] 商业模式与定价 - GPT-5面向所有用户开放,免费用户每天可使用数小时,Plus用户额度更高,Pro会员可访问扩展推理能力的Pro版本[5] - 开发者API定价为每百万token输入1.25美元,输出10美元,价格低于GPT-4o和Claude Opus 4.1,仅为后者的1/15[5] - 微软在发布当日宣布将GPT-5整合至Microsoft 365 Copilot、GitHub Copilot等全线产品中[22] 技术突破与创新 - GPT-5在编程能力上实现突破,能凭单提示创建响应式网站、App和游戏,设计选择更优[10] - 新模型具备"氛围编码"能力,演示中几分钟内生成两个不同法语学习App[15] - 引入"安全补全"训练方法,使模型能更细致地处理敏感问题,减少过度拒绝[20] - 推出四种可选聊天预设性格(愤世嫉俗者、机器人、倾听者、书呆子),可调整交互风格[21] 行业竞争与评价 - 在SWE-bench测试中表现略优于Claude Opus 4.1(74.5%)和Gemini 2.5 Pro(59.6%)[13] - 但在Humanity's Last Exam测试中,GPT-5 Pro得分42%,略低于Grok 4 Heavy的44.4%[13] - 马斯克公开质疑GPT-5性能,称其在ARC-AGI-2测试中未击败Grok 4[3][26] - 有研究员认为GPT-5仅为"渐进式优化",因缩放定律放缓和高质量数据枯竭导致性能提升有限[29] 资本动态与战略 - OpenAI近期获得83亿美元新资本,估值达3000亿美元,投资者包括黑石集团等机构[30] - GPT-5发布将巩固公司技术领先地位,提振投资者信心,助力估值增长和股票二次出售[31]
闪迪联手SK海力士,发力新型HBM
半导体行业观察· 2025-08-08 09:47
HBF技术合作与标准化 - Sandisk与SK海力士合作标准化高带宽闪存(HBF),旨在通过NAND堆叠与TSV连接技术实现GPU快速访问,速度比SSD快几个数量级[1] - HBF技术目标为提供与HBM相当的带宽(1.2TBps),同时以相似成本实现8-16倍容量(最高768GB),并保持非易失性存储特性[4][6] - 双方签署谅解备忘录(MoU)推动技术规范标准化,SK海力士将自主研发生产HBF,Sandisk强调多供应商市场对保障供应链的重要性[3][4] 技术优势与行业影响 - HBF采用类似HBM的封装结构,首次实现闪存与DRAM级带宽融合,可显著降低AI工作负载的能耗与发热问题[6][8] - 相比HBM3E的48GB容量,HBF潜在容量提升8-16倍,而SK海力士PCIe Gen5 SSD带宽仅为HBM3E的1/86(14GBps vs 1.2TBps)[3][6] - 该技术契合边缘计算趋势,能解决AI数据中心冷却预算极限问题,适用于手持设备至服务器全场景部署[5][6] 商业化进程与生态建设 - Sandisk计划2026年下半年推出HBF样品,2027年初上市首批AI推理设备,技术已获2025闪存峰会"最具创新技术"奖[5][9] - 成立技术顾问委员会推动跨行业标准制定,采用BiCS NAND与CBA晶圆键合技术,可能涉及与Kioxia的CMOS工艺合作[9][10] - 行业推测SK海力士与Nvidia的现有合作关系可能加速HBF采用,三星等厂商也在开发类似技术如PBSSD和HBM4[8][9] 技术架构创新 - HBF通过NAND替代部分DRAM堆栈,牺牲延迟换取容量优势,相比传统HBM节省恒定功耗需求[6][8] - 架构灵感来源于"闪存中的LLM"研究论文,通过SSD作为额外内存层缓解DRAM压力的思路[8] - 可能推动DRAM、闪存与新型持久内存的异构堆栈共存,为超大规模计算提供HBM成本替代方案[10]
GPT-5来了,免费向所有用户开放
第一财经· 2025-08-08 08:19
GPT-5发布 - OpenAI推出迄今最先进的大型语言模型GPT-5,历经两年多研发并多次推迟后终于面世 [2] - GPT-5采用集成模型架构,可根据任务自动选择推理深度,无需用户切换模式,未来一周内向所有用户分批开放 [2] - 首席执行官山姆·奥尔特曼形容与GPT-5对话"像与博士级专家交流",并强调其"氛围编程"能力可生成可运行软件应用程序 [2][4] 技术升级 - GPT-5在速度、直觉与推理能力上全面提升,首次采用"测试时间计算"技术,面对复杂问题时主动延长计算时间以提高准确性 [4] - 现场演示显示GPT-5能根据简单文本提示独立完成从界面设计到逻辑功能的软件开发 [4] - 下一阶段将显著提升语音模式的自然度与智能化水平,使语音交互更贴近真实对话 [4] 商业策略 - OpenAI将GPT-5免费提供给大部分用户,包括免费版、Plus版、Pro版和团队版,企业与教育用户下周获得接入权限 [4] - 公司估值从3000亿美元跃升至5000亿美元,正在进行股权出售和内部股权转让谈判 [5] - 强调GPT-5在企业级场景的实力,包括软件开发、写作、健康咨询和金融分析等专业任务 [4] 行业背景 - 全球科技巨头在AI基础设施上竞相加码,Alphabet、Meta、亚马逊及微软今年AI数据中心资本支出预计接近4000亿美元 [7] - 经济学作家指出当前消费者对AI的支出热情高于企业端,如何转化消费者热度为企业级营收是OpenAI未来盈利能力的关键 [8] 技术瓶颈 - 训练GPT-5面临数据与算力瓶颈,高质量人类文本数据接近极限,模型规模扩大导致训练周期延长和硬件故障风险增加 [8] - 前首席科学家提到算力增长但数据供给速度跟不上,团队需数月才能评估一次训练的最终效果 [8] - 奥尔特曼认为全球AI基础设施投资"远远不足",并称GPT-5是迈向更强大、更通用AI的重要一步 [8]