机器之心

搜索文档
除了Ilya、Karpathy,离职OpenAI的大牛们,竟然创立了这么多公司
机器之心· 2025-04-28 12:32
机器之心报道 机器之心编辑部 聚是一团火,散是满天星。 硅谷新势力已经崛起,这些创业者来自 OpenAI。 作为 ChatGPT 的缔造者,OpenAI 堪称当今人工智能领域最耀眼的明星。这家公司正以惊人的速度飙升至 3000 亿美元估值的同时,也催生了一批离职创业的成 员。 OpenAI 的光环效应如此强大,以至于 Ilya Sutskever 的 AI 初创公司 Safe Superintelligence (SSI) 和 Mira Murati 的 Thinking Machines Lab 等企业尚未推出产品就获得 数十亿美元融资。 这个新兴生态圈还包括诸多明星项目,以下是离职 OpenAI 的研究者打造的最受瞩目企业盘点。 Dario Amodei, Daniela Amodei, John Schulman — Anthropic Dario Amodei 和 Daniela Amodei 兄妹二人于 2021 年离开 OpenAI,联合其他 OpenAI 高管共同创立了 Anthropic,专注于开发安全、可解释、对齐人类价值观的 AI 系统。 随后,OpenAI 联合创始人 John Schu ...
模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
机器之心· 2025-04-28 12:32
大型语言模型压缩技术 - 核心观点:提出DFloat11无损压缩框架,可将LLM模型体积缩减30%同时保持100%准确性,显著提升GPU推理效率[2][5][7] 技术背景 - LLM规模增长导致部署障碍:Llama-3.1-405B模型需810GB内存,超出单台DGX A100/H100服务器(8×80GB GPU)容量[1] - 现有量化技术缺陷:有损压缩会改变模型输出分布,影响准确性[4] 方法创新 - DFloat11核心技术:基于BFloat16权重低熵特性,采用动态长度霍夫曼编码压缩指数部分,保留符号位和尾数位[11] - GPU解压缩设计: - 分解大型LUT为适应GPU SRAM的紧凑查找表[9] - 双阶段内核设计协调线程读写[9] - Transformer块级解压缩降低延迟[9][13] 实验结果 - 压缩效率: - Llama-3.1-405B从811.71GB压缩至551.22GB(67.91%)[20] - 平均压缩比70%,等效位宽11位[19][20] - 性能提升: - token生成吞吐量提高1.9-38.8倍[6] - 同显存下支持上下文长度达未压缩模型的5.3-13.17倍[6][25] - 准确性验证:在MMLU/TruthfulQA等基准测试中与原始模型保持比特级一致[21][22] 硬件适配 - 单节点实现Llama-3.1-405B推理:8×80GB GPU即可运行原需多节点的810GB模型[7] - 解压缩性能:DF11吞吐量达CPU-GPU传输的24.87倍,ANS解码的15.12倍[30][31] 行业应用价值 - 突破性意义:首次实现LLM无损压缩与高效GPU推理的协同优化[5][6] - 商业化潜力:显著降低大模型部署成本,提升资源受限环境下的可用性[1][7]
AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
机器之心· 2025-04-28 09:26
研究团队与背景 - 团队由IEEE会士Claudio Silva和纽约大学研究助理教授钱靖共同指导 [2] - 论文由Chenyi Li和Guande Wu担任共同第一作者 [2] - 研究由纽约大学数据与可视化实验室(NYU VIDA)联合Adobe共同完成 [5] AR技术现状与挑战 - 当前AR辅助仍依赖人工远程接入,与理想的智能理解型辅助存在差距 [4] - AR在重要产业和生活应用中的普及受限于技术成熟度 [4] - 主要挑战在于如何让AR真正理解用户行为、环境状态并适时提供辅助 [4] Satori系统创新 核心技术架构 - 融合多模态大语言模型(MLLM)与认知理论BDI(Belief-desire-intention theory) [5] - 采用模块化组织MLLM,将图像识别、语义理解、交互历史解耦处理 [11] - 视觉感知模块(OWL-ViT与DETR)与语言推理模块分层协作 [11] 四大核心创新 1. 结合BDI模型理解用户行为 - 通过AR眼镜实现"具身感知" [8] - BDI模型分解行为为Belief(环境理解)、Desire(目标判断)、Intention(动作行为)三部分 [8] - AI可实时判断用户行为背后的目的而非单纯行为本身 [10] 2. 大语言模型结构认知 - 模块化架构增强推理透明度与可解释性 [12] - 显著提升系统泛化性与跨任务适配能力 [12] - 展示多模态大模型在具身智能中的潜力 [12] 3. AI自动生成多模态指示 - 使用DALLE-3生成与任务阶段匹配的视觉提示 [13] - 自动生成场景化文字指引(如"把花插入蓝色花瓶") [13] - 提升AR辅助的清晰度与实用性 [13] 4. 双系统动作检测 - 将复杂步骤分解为易判断的小目标(checkpoints) [15] - 采用双系统理论(Dual Process Theory)实现快速反应+理性结构 [17] - 轻量LLM负责快速判断,高容量LLM补充语义分析 [17] 应用前景 - 框架可部署于HoloLens、Vision Pro及Rokid、INMO等智能眼镜平台 [18] - 为跨平台、多领域智能辅助系统奠定方法论基础 [18] - 代表AR技术迈向实用性的重要机遇 [19]
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 09:26
大规模语言模型技术发展 - 大语言模型(LLM)正以前所未有的速度推动科技进步和产业变革,重塑人机交互方式并成为学术研究与产业创新的关键技术[3] - 2023年9月复旦大学团队发布《大规模语言模型:从理论到实践》,两年内该领域在理论研究、预训练方法、后训练技术等方面取得重要进展[6] - 大语言模型展现出惊人泛化性(仅需60条数据即可学习)但存在脆弱性(130亿参数模型中修改1个参数可能导致功能崩溃)[6] 书籍核心升级内容 - 新增40%前沿内容,深度剖析MoE、强化学习、多模态、智能体、RAG、效率优化等技术趋势[8][10] - 知识体系重构后覆盖预训练、微调、强化学习、应用开发、效率优化全流程[9] - 新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,指令微调和强化学习部分大幅修改[11] 技术体系架构 - 理论基础部分涵盖Transformer结构、LLaMA模型实例及混合专家模型(MoE)[15] - 预训练部分详解数据分布/预处理方法及DeepSpeed框架下的分布式训练技术[15] - 指令理解部分包含LoRA等高效微调方法,强化学习章节涉及PPO/RLHF算法及DeepSeek-R1等案例[15] - 能力增强部分探讨多模态架构设计、LangChain智能体实现及RAG系统协作机制[15] - 应用部署部分包含vLLM等推理框架优化技术和本地化部署实践方法[16][21] 作者团队背景 - 复旦大学NLP团队由张奇(发表200+论文)、桂韬(NeurIPS 2023最佳论文)、郑锐(NeurIPS 2024最佳论文)、黄萱菁(8项论文奖)等学者组成[24][25] - 团队在ACL/ICML/NeurIPS等顶会持续产出,研究方向覆盖预训练模型、智能体交互、多模态学习等前沿领域[25] 行业专家评价 - 中国工程院院士蒋昌俊认为该书"恰逢其时",是学术界和产业界探索LLM的必备读物[28] - 上海人工智能实验室主任周伯文指出该书系统覆盖预训练、多模态、智能体等前沿领域,具有重要参考价值[28] - 专家共识认为第二版新增内容(如RAG、智能体章节)显著提升了理论深度与实践指导性[27][28]
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
机器之心· 2025-04-27 18:40
核心观点 - 扩散桥隐式模型(DBIM)是一种新型算法,能够显著加速扩散桥模型的推理过程,无需额外训练 [4] - DBIM通过引入非马尔科夫扩散桥和方差控制参数ρ,实现从随机到确定性采样的灵活切换 [7] - 该方法在图像翻译和图像修复任务中表现出色,仅需20步推理即可超越传统模型118步的效果 [12][13] 方法介绍 - DBIM核心思想是推广扩散桥模型,提出非马尔科夫扩散桥,保持相同边缘分布与训练目标 [7] - 引入方差控制参数ρ,使生成过程可在随机与确定性采样间自由切换 [7] - 导出扩散桥的新常微分方程表达形式,比DDBM更简洁有效 [7] - 提出高阶数值求解方法,提升推理精度与效率 [8] - 采用"启动噪声"机制解决初始奇异性问题,保证生成多样性 [9] 实验结果 - 在Edges→Handbags(64×64)任务中,DBIM 20步推理FID为1.74,优于DDBM 118步的1.83 [12][13] - 在DIODE-Outdoor(256×256)任务中,DBIM 100步推理FID为2.57,优于DDBM 200步的3.34 [12][13] - 在ImageNet 256×256图像修复任务中,DBIM 20步推理FID为4.07,显著优于DDBM 500步的4.27,实现25倍加速 [13][14] - 确定性采样模式在低步数时优势明显,适当增加随机性可提升高步数下的多样性 [16][17] - 高阶采样器能一致提升生成质量,增强图像细节 [18]
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
机器之心· 2025-04-27 18:40
研究背景 - 增加推理时间被认为是提升大语言模型推理能力的重要途径,包括引入强化学习与奖励模型优化单一模型的推理路径,以及构建多智能体系统协同解决复杂任务 [5] - 多智能体方法理论上更具灵活性与可扩展性,但面临自动扩展能力不足、智能体能力评估困难、奖励信号设计粗糙、缺乏动态演化机制等挑战 [7][8] ReSo框架核心创新 - 提出奖励驱动的自组织多智能体系统ReSo,能够自主适应复杂任务和灵活数量的智能体候选,无需手动设计合作解决方案 [12] - 引入协作奖励模型(CRM),提供细粒度奖励信号实现数据驱动的多智能体系统性能优化 [12] - 采用任务图生成与智能体图构建的两阶段方法,将复杂问题分解为有向无环任务图(DAG),再为每个子任务匹配最佳agent [11][15] 技术实现细节 - 任务图生成:使用大语言模型将复杂问题转化为分步骤的有向无环任务图,测试了闭源模型(gpt4o)和开源LLM(Qwen-7b) [16] - 两阶段智能体选择:粗粒度搜索采用UCB算法筛选候选智能体,细粒度筛选通过CRM评估候选智能体实际表现 [20][23] - 动态智能体数据库(DADB)存储智能体基本信息、历史性能及计算成本,用于生成初步质量评分 [19] 实验结果 - ReSo在Math-MAS-Hard和SciBench-MAS-Hard上的准确率分别达到33.7%和32.3%,显著优于其他方法 [36] - 在复杂推理任务中表现全面优于现有MAS方法,如MetaGPT、DyLAN、GPTSwarm等 [37] - 与单模型相比,ReSo在保持较高准确率的同时,展现出更强的适应性和可扩展性 [37] 数据集贡献 - 提出自动化方法生成多智能体任务数据,包括随机生成任务图、填充子任务及构建自然语言依赖关系 [32] - 开源MATH-MAS和Scibench-MAS数据集,单个样本包含多学科任务,复杂度分为3、5、7三个级别 [32]
纳米AI放大招!MCP万能工具箱,人人都能用上超级智能体
机器之心· 2025-04-27 18:40
核心观点 - 360旗下纳米AI推出面向个人用户的「MCP万能工具箱」,旨在降低普通用户使用AI智能体的技术门槛,无需代码基础即可通过聊天框完成复杂任务自动化 [2][3] - 该产品全面支持MCP协议,整合超100个MCP工具(含自研及第三方),覆盖办公、学术、金融等场景,是国内最大MCP生态 [8][33] - 通过概念简化(如将MCP Server译为"工具")、交互降维(拖拽式操作)和本地化部署,实现技术民主化,使智能体能力向C端下沉 [34][37][41] 产品功能 - **低门槛交互**:用户仅需下载APP注册登录,无需配置即可使用预设智能体,支持自定义任务流程 [6][9] - **多场景覆盖**:内置132个MCP工具(测试期间增长12个),包括arXiv搜索、骑行规划、女装趋势分析等,支持用户自建工具 [8][9][17] - **复杂任务处理**:智能体可自动拆解多步骤任务(如生成英伟达股价报告需调用5-7个工具),平均执行时间从30秒(简单任务)到15分钟(深度研究) [11][13][17] - **本地化能力**:支持访问文件系统、调用浏览器及数据库,未来将引入运行时沙箱保障数据安全 [37][43] 技术实现 - **协议封装**:将MCP协议重构为可视化工具标签,隐藏API Key等技术细节,通过调度层实现模型与工具的协同 [34][35] - **动态组合**:智能体可自主选择工具链(如女装趋势分析调用3类工具共15次),并实时优化执行路径 [17][36] - **跨平台适配**:专用AI浏览器突破登录墙/人机验证,支持中国主流平台自动化操作(如订票、发微博) [28][43] 行业影响 - **生态构建**:月度访问量达4亿,开放第三方工具入驻,推动智能体从封闭系统转向生态网络 [39] - **范式变革**:将智能体从问答工具升级为具备任务规划、资源调度能力的数字合作者 [41] - **市场教育**:首次以"工具箱"形态向C端普及MCP协议,可能成为AI智能体民用化里程碑 [42]