量子位
搜索文档
李飞飞一年前究竟说了啥?怎么又火了
量子位· 2025-09-11 09:58
大语言模型的局限性 - 语言信号基于人类输入生成,无法独立于人类存在 [2][4] - 语言模型底层表示为一维离散token序列,与三维物理世界存在本质差异 [12][14] - 物理世界具有客观存在的三维结构和物理定律,需要不同的信息处理方式 [5][19] 空间智能与语言模型的差异 - 三维世界信息提取需匹配任务类型,直接处理3D数据可改善表示效果 [15] - 空间智能需从真实世界提取、表示和生成信息,涉及物理约束和材料特性 [17][19] - 多模态模型将其他模态强行嵌入一维序列导致物理信息损失 [14] 模型在物理任务中的表现缺陷 - 多模态大模型在Animal-AI测试中仅能完成最简单任务,复杂任务失败率极高 [24][26] - 增加教学案例后模型表现仍无显著提升 [27] - 模型表现远逊于人类儿童及专用测试机器人 [28] 物理推理能力测试结果 - ABench-Physics测试中最佳模型Phy A正确率仅43% [32][34] - 修改题目数值后(Phy B)模型准确率下降22.5% [33][34] - 视觉感知任务中模型最高正确率51%,远低于人类95.7%的水平 [37][38] 行业技术发展方向 - 模型开发正向物理基础与多模态理解扩展 [44] - 人工智能可能创造独立于人类语言的新表征体系 [47] - 需探究语言训练取得成就的核心因素以突破现有局限 [48]
她们估值840亿,刚发了第一个AI成果
量子位· 2025-09-11 09:58
公司估值与团队背景 - 公司尚未有具体产品但估值已达120亿美元[1][51] - 公司完成20亿美元种子轮融资由a16z领投英伟达等知名机构跟投[51] - 团队核心成员包括OpenAI前CTO Mira Murati、PPO算法开发者John Schulman等三分之二成员来自OpenAI[38][40][47] 研究核心发现 - 大语言模型推理结果难以复现的根源在于批次不变性缺失[4][12] - 浮点数非结合性导致计算顺序差异在Transformer多层迭代中被放大[13][16] - 解决方案需使RMSNorm、矩阵乘法和注意力机制具备批次不变性[16] 技术实现方法 - RMSNorm通过固定归约顺序分配核心处理批次元素确保一致性[18] - 矩阵乘法采用拆分2D块策略并编译统一内核配置牺牲20%性能换取确定性[19][21][22] - 注意力机制固定KV缓存分块大小(如256)自适应拆分数量保持归约顺序[23][24] 实验验证结果 - 使用批次不变性内核后1000次推理结果完全一致未使用时出现80次分化[26][27][28] - 确定性推理存在性能损失但处于可接受范围(如注意力内核优化后时间从55秒降至42秒)[30][31] - 在线强化学习中确定性推理使KL散度始终为0无需离线校正[34][35] 产品与战略方向 - 首代旗舰产品命名为Connection Machine致敬连接主义理念[7][52] - 公司承诺持续分享研究成果并与研究社区保持开放联系[6]
清华唐杰新作:大模型能打掼蛋吗?
量子位· 2025-09-10 18:01
研究核心发现 - 大语言模型能够通过专门训练掌握8种不同类型的棋牌游戏 包括斗地主 掼蛋 立直麻将 Uno 金拉米 Leduc扑克 限注德州扑克和无限注德州扑克 [2][8] - 经过混合训练的微调模型在复杂棋牌游戏中表现显著优于基础模型和API模型 其中GLM4-9B-Chat-mix在6款游戏中获得最高分 [40][42] - 游戏规则相似性会影响模型表现 规则相近的游戏之间存在正向促进作用 而规则差异大的游戏可能出现性能冲突 [45][46][52] 模型性能对比 - 在5种API模型中 GPT-4o综合表现最佳 在大多数游戏中取得最高分 其中在Leduc扑克获得0.84分 在限注德州扑克获得0.60分 [37][39] - GLM-4-plus在斗地主中获得0.345分 表现优于GPT-4o的0.180分 但GPT-4o在无限注德州扑克获得2.73分 显著优于GLM-4-plus的3.21分 [39] - 微调模型中 GLM4-9B-Chat-mix在斗地主获得0.882分 掼蛋0.698分 Uno 0.252分 均位列第一 [42] - Llama3.1-8B-Instruct-mix在无限注德州扑克获得6.02分 立直麻将1.38分 表现突出 [43] 训练方法设计 - 研究采用教师模型生成高质量轨迹数据进行训练 针对不同游戏复杂度设计差异化数据采集方案 [14][20] - 斗地主 掼蛋和立直麻将各收集100万个训练实例 其余5款游戏各采样40万个实例 [20] - 训练数据量对性能提升至关重要 随着数据量增加 模型在斗地主和掼蛋中的表现逐渐接近教师模型 [24] - 混合训练数据集包含310万条数据 各游戏数据量分别为70万 95万 65万 20万 5万 25万 20万和10万 [35] 模型能力分析 - 模型在斗地主中表现出角色差异 GLM在地主角色表现优于Qwen和Llama 但在农民角色表现较差 [29][30] - 数据过滤时只保留获胜方数据 导致农民角色数据质量较低 影响模型表现 [31][32] - 即使没有教师模型 大模型在立直麻将中仍达到与顶尖麻将AI相当的表现 [25] - 模型规模影响性能 研究对参数规模从0.5B到14B的Qwen2.5进行微调以评估规模效应 [22] 通用能力影响 - 在所有游戏上微调的混合模型出现通用能力显著下降 包括知识问答 数学和编程能力 [54] - 通过加入通用数据对游戏模型进行微调 模型的通用能力得到一定程度恢复 [56] - 研究表明只要加入一定量的通用数据 模型打牌能力与通用能力可实现平衡 [6]
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒!
量子位· 2025-09-10 18:01
模型发布与核心性能 - 阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)与初创公司G42 AI合作推出开源大模型K2 Think [3] - 模型声称是全球最快的开源大模型,速度达到每秒2000个tokens,吞吐量超过典型GPU部署的10倍以上 [1] - 模型参数规模为320亿(32B),官方称其性能可与OpenAI和DeepSeek的旗舰推理模型相当 [24] 技术架构与创新 - K2 Think基于Qwen 2.5-32B模型打造,具有中国技术背景 [5][6] - 研究团队从六个方面实现技术创新:长链路思维的监督微调、可验证奖励的强化学习、推理前的智能规划、推理时扩展、推测解码以及硬件加速(Cerebras WSE晶圆级引擎) [28][31] - 模型采用答案对错作为奖励信号,显著提升数学和逻辑领域表现,并在多项安全测试中达到较高水平 [30][31] 实测性能表现 - 实测速度均超过2000 tokens/秒,在IMO试题测试中达到2730.4 tokens/秒,在AIME数学题测试中保持2224.7 tokens/秒 [10][14][18] - 在多项数学基准测试中取得理想分数:AIME'24得分90.83、AIME'25得分81.24、HMMT25得分73.75、Omni-MATH-HARD得分60.73 [25] - 目前模型不支持文档传输和多模态功能,但所有测试问题均能保持高速并生成正确答案 [19][20] 行业影响与资源 - 模型被誉为"有史以来最先进的开源AI推理系统",技术报告已发布 [8][22][27] - 提供公开体验地址和技术报告链接,可供行业从业者直接测试评估 [33]
快手AI超级员工上线!一句话剪出完整短视频,从文案到发布一条龙
量子位· 2025-09-10 16:01
文章核心观点 - 快手推出AIGC视频生成工具Kwali 通过多Agent框架实现从文本描述到完整短视频的自动化生产 大幅降低视频制作门槛和成本 [1][2][37][39] 技术架构与功能 - 基于云端多Agent框架 整合意图解析、脚本生成、镜头匹配、剪辑合成等多个功能Agent协同工作 [4][8][42] - 支持一句话生成带脚本、字幕和BGM的完整视频 生成时间仅需几分钟 [1][3][18] - 采用可独立操控的节点化设计 脚本、镜头、配音与特效拆分为独立节点支持实时预览和单独修改 [15][16][43] 素材资源系统 - 接入快手千寻素材库与数字人模特库 提供按播放量和完播率排序的热门垂类高分镜头及脚本模板 [7][11] - 支持私有素材上传并自动添加多维标签 实现平台素材与用户素材的无缝混剪 [14] - 素材库包含餐饮等行业热门内容 例如玫瑰青提视频完播率达92.11% 曝光转化率8.51% [25][26] 应用案例演示 - 以烧烤店宣传视频为例 生成过程包含五个环节:创意解析、脚本撰写、素材匹配、后期包装和最终合成 [22][24][33][35] - 脚本自动生成台词与画面描述 例如"炭火慢烤"对应食客保温烤串画面 [29][30] - 支持一键推送至快手主页 实现从创意到发布的全流程闭环 [36] 行业影响与趋势 - 重构视频生产供应链 将传统需要脚本策划、外拍团队、后期剪辑的多节点流程压缩为"生成-发布"一体化 [37][38][44] - 使小店、个人品牌等低预算主体能保持稳定内容输出 更新频率从"排期几天"变为"随时动手" [39][40] - 通过降低制作成本(设备与人力支出)让商家将预算转向优惠礼赠等前端投入 加速资金回笼 [45][46]
真·博士水平!GPT-5首次给出第四矩定理显式收敛率,数学教授只点拨了一下
量子位· 2025-09-10 16:01
文章核心观点 - GPT-5在数学研究领域展现出博士水平的能力,能够协助研究人员完成复杂的数学定理证明和推广工作 [1][2] - 在数学教授引导下,GPT-5首次将定性的第四矩定理扩展为带有显式收敛率的定量形式 [1] - GPT-5 Pro上个月在数分钟内解决了凸优化领域的一个开放性问题,将已知边界值从1/L改进为1.5/L [8] - OpenAI联合创始人Greg Brockman对GPT-5的研究成果表示欣慰 [4] 研究实验过程 - 三位数学教授在Malliavin–Stein框架下开展对照实验,目标是将第四矩定理推广为定量形式并涵盖高斯与泊松情形 [9][10] - 研究人员从初始提示开始,要求GPT-5基于论文2502.03596v1推导定量版本 [11][12] - 第一次互动GPT-5给出总体正确结论但推理过程出现错误,经研究者指出后修正并给出正确推理 [13][14][15] - GPT-5最终将结果整理成可投稿的研究论文格式,包括引言、定理陈述、完整证明和参考文献 [17][18] 技术能力表现 - GPT-5能够识别泊松情形与高斯情形的结构性差异,提出混合期望不一定为零的重要观点 [24] - 在研究者具体指出论文1707.01889v2的公式(2.4)后,GPT-5能立即将非负性考虑进去并重新表述定理 [26][27][28] - GPT-5提出该方法可推广到非高斯框架中,展现出对研究方向的拓展能力 [20] - 研究人员因arXiv政策禁止AI列为作者,最终提交的作者列表中不含GPT-5 [29][30] 行业影响 - 该研究成果展示了AI在高端数学研究领域的实际应用潜力 [1][8] - GPT-5在专业数学问题解决和论文撰写方面表现出接近人类专家的水平 [17][18][19] - 研究过程显示AI需要人类专家的适当引导才能发挥最佳性能 [14][15][25]
腾讯版“Claude Code”来了!AI编程L4时代is coming
量子位· 2025-09-10 16:01
腾讯CodeBuddy产品发布 - 腾讯于9月9日发布AI CLI工具CodeBuddy Code并开启CodeBuddy IDE公测 国内版无限制免费使用 国际版测试期间赠送Pro模型体验额度 [1][2] - CodeBuddy产品矩阵包含IDE、CLI及插件三种形态 成为业内首个同时支持三种形态的AI编程工具 [3][8] - CLI工具基于npm安装 定位专业工程师使用 支持自然语言驱动开发运维全生命周期 [3][23] 产品定位与市场竞争 - 产品被视为"腾讯版Claude Code" 在Claude近期事件导致开发者弃用背景下适时推出 [4][6] - 国内版集成DeepSeek免费使用 可满足多数运维场景需求 [6] - 演示案例显示工具能自主完成需求理解、分支创建、编程及提交全流程无需人工编码 [7] AI编程行业发展趋势 - 行业正经历范式级变革 从单文件补全发展到项目级开发与多智能体协作 [9][10] - AI编程能力划分为五个层次:L1文档补全至L5多智能体团队协作 当前向L4级AI软件工程师演进 [11][13][16] - CLI形态成为下一代AI编程底层基础设施 深度嵌入企业开发流程 [11][14][19] 企业级应用价值 - CLI模式特别适合企业级团队 支持多模块自动化及CI/CD集成 覆盖软件全生命周期 [19][26] - 腾讯内部超90%工程师使用CodeBuddy 编码时间缩短40%以上 AI生成代码占比超50% [20] - AI代码生成占比从35%提升至50% 代码评审贡献从12%增至35% 预计未来将超90% [20][21] 技术特性与创新 - 采用文档驱动开发模式 通过CodeBuddy.md文件实现可追踪的智能工作空间 [24][27] - 具备语义化上下文压缩与长期记忆能力 支持项目记忆、用户记忆和全局记忆三级体系 [28][29] - 通过MCP协议扩展外部知识源 例如Context7可获取最新软件文档 [31][32] 工作流与实战应用 - 典型工作流包含项目初始化、智能架构设计、MCP配置、性能优化及安全部署 [35][36] - 支持自然语言指令触发多智能体协作 例如电商订单系统开发 [26][27] - 未来将集成沙盒运行、权限控制及审计机制确保企业级安全 [36] 行业意义与发展方向 - 代表企业级AI编程新方向:CLI驱动、多智能体协作及文档化上下文管理 [37][39] - 推动开发者角色从代码执行者向AI协作架构师升级 [37] - 不仅是工具迭代 更是软件工程思维的范式级变革 [38]
快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%
量子位· 2025-09-10 16:01
模型核心创新 - 华为发布openPangu-Embedded-7B-v1.1开源模型 参数规模7B 突破性实现快思考与慢思考模式的双重思维引擎自由切换 填补开源领域空白 [1][3] - 模型通过渐进式微调策略和快慢思考自适应模式 支持手动切换或根据问题难度自动转换思维模式 简单问题秒答复杂任务深思熟虑 [3][4][15] - 在CMMLU等基准测试中保持精度的同时 平均思维链长度缩短近50% 响应效率实现翻倍提升 [4][18] 训练策略突破 - 采用渐进式微调策略 模拟人类进阶学习过程 通过三阶段迭代训练:合理选题保持适度挑战→归纳总结稳固知识→持续提升扩展能力边界 [5][8][9][10] - 快慢自适应机制采用两阶段课程学习:第一阶段通过数据构造教会模型区分快慢思维 第二阶段通过数据质量驱动策略让模型自主学会切换 [11][13][14] - 训练方案从数学任务扩展到一般任务 实现从外部信号驱动到内部能力驱动的隐式切换蜕变 [11][14] 性能表现数据 - 相较前代v1版本 新模型在通用 数学 代码等数据集全面超越历史成绩 数学难题数据集AIME24从71.57提升至79.38 AIME25从58.24提升至70.00 [16][17] - 自适应模式下复杂任务准确率与纯慢思考模式基本持平 CMMLU准确率72.94vs72.18 C-Eval准确率84.92vs83.33 精度未牺牲 [17][19] - 效率提升显著:CMMLU任务思维链长度从2574缩短至1338 降幅48% C-Eval任务从2484缩短至1723 降幅31% [19] 边缘AI部署优化 - 同步推出专为边缘部署优化的openPangu-Embedded-1B轻量模型 仅十亿参数 针对华为昇腾端侧AI硬件架构优化 [20][21] - 1B模型整体平均成绩领先同规模模型 追平Qwen3-1.7B水平 MMLU达65.08 GSM8K达82.76 MATH-500达81.83 [22][23] - 通过多阶段训练策略全面挖掘模型潜力 实现小体量大能量 体现出色参数级性能比 [21][22] 行业意义 - 为当前大模型领域带来新思路 在效率与精度间找到平衡点 展现国产大模型创新活力 [23][24] - 具备快慢思考特性的模型有望在更多实际应用场景发挥价值 尤其适合资源受限的边缘部署场景 [24][25]
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
量子位· 2025-09-10 16:01
文章核心观点 - 南洋理工大学、新加坡国立大学与华为合作推出首个针对数据智能体异构混合数据分析的综合性基准测试FDABench [1] - 该基准旨在解决数据智能体领域缺乏全面评估标准、测试用例构建成本高以及现有基准适应性有限三大关键挑战 [11][12] - FDABench可帮助用户根据具体需求量化评估不同数据智能体系统在响应质量、准确性、延迟和成本等方面的表现,从而选择最合适的系统 [3][24][25] FDABench基准测试框架特点 - 基准规模覆盖2007个不同测试任务,横跨金融、电商等50多个数据领域,设置简单、中等、难三种难度等级 [13] - 测试数据源包括结构化数据库、PDF文档、视频、音频等异构数据源,任务类型分为单选题、多选题和写报告三种 [13][14] - 独创Agent-Expert协作框架,支持Data Agent、RAG、语义算子以及规划、工具使用、反思、多智能体四种典型工作流模式 [1][17] - 基准规模达2007个任务,远超同类基准如AgentBoard(466)、GAIA(812)、MINT(586)等 [14] 数据智能体系统评估结果 - 测试涵盖通用数据分析系统(如DAgent、Taiji)、语义理解系统(如LOTUS)和检索增强系统(如GraphRAG)等多种类型 [19][20] - 评估指标包括精确匹配率(EX_SC/EX_MC)、成功率(SR)、成本(Cost)、外部调用次数(Ext.Call)和延迟(Latency) [19][21] - 不同系统表现各异,例如在简单难度下,AOP系统精确匹配率达0.51,而NaiveRAG为0.33 [19][21] 数据智能体架构性能分析 - 复杂架构如多智能体和反思型在准确性上显著优于简单架构,但计算成本成倍增加,资源消耗可达6-20倍 [23] - 不同架构计算资源分配差异明显:反思架构将26-29%计算用于重试机制,规划架构将32-35%用于生成阶段 [22][23] - 模型与架构存在适配性,某些大规模预训练的非思考模型在复杂架构下表现突出,而部分思考模型反而出现"双重推理惩罚"现象 [23] 行业应用价值 - 基准测试显示数据智能体系统存在明显权衡:快速系统处理复杂任务能力有限,准确系统则成本较高且延迟较大 [24] - FDABench为行业提供了量化工具,可根据任务场景选择合适架构,实现计算资源的优化配置 [23][25] - 该基准支持异构数据源整合分析,满足数据驱动决策日益增长的需求,具有广泛行业应用前景 [5]
英伟达新GPU,超长上下文/视频生成专用
量子位· 2025-09-10 09:28
henry 发自 凹非寺 量子位 | 公众号 QbitAI 老黄对token密集型任务下手了。 刚刚,在AI Infra Summit上,英伟达宣布推出专为处理 百万token 级别的代码生成和 生成式视频 应用的全新GPU—— NVIDIA Rubin CPX GPU 。 老黄表示:Rubin CPX是 首款 为超大上下文AI量身定制的CUDA GPU,可以让模型"一口气"推理数百万token。 而且,RubinCPX还能让你越用越省钱:每投资 1亿 美元,就能获得 50亿 美元的token收益。 (50倍,你就赚吧,老黄说的) 对于"老黄画的饼", Cursor 、 Runway 、 Magic 等行业大佬也表示RubinCPX将分别在 代码生产力 、 生成式影像创作 、以及 大模型 自主代理 上带来突破。 那么好了好了,这GPU到底什么来头? 首款专为超大上下文AI打造的CUDA GPU Rubin CPX基于NVIDIA Rubin架构,采用单片设计,内置NVFP4计算资源,主打AI推理的高性能和高能效。 它的性能提升,主要体现在以下几个方面: 在这里,我们可以简单地拿A100来对比一下。 在算力方面 ...