Workflow
量子位
icon
搜索文档
老黄投了个120亿美元最贵种子轮!但小钱:H20中国开卖,市值一夜暴涨1600亿美元
量子位· 2025-07-16 09:49
公司融资与估值 - Thinking Machines Lab完成20亿美元种子轮融资,估值达120亿美元,创硅谷历史纪录[1][2] - 领投方为A16z,英伟达、思科、AMD等芯片厂商参与投资[2][12] - 公司成立于2024年2月,目前尚未推出产品,但团队2/3成员来自OpenAI,包括联合创始人John Schulman、GPT一作Alec Radford等核心人物[3][7][8][9] 公司战略与产品规划 - 愿景为构建"协作的通用智能"以增强人类能力,计划推出开源组件帮助开发定制化AI模型[10][11][12] - 创始团队强调未来几个月将发布首款产品,并加速招聘进程[11][13] - 英伟达等投资者提供算力支持,可能优先获得GPU资源[15] 英伟达动态与市场表现 - 英伟达CEO黄仁勋宣布H20芯片恢复对中国供应,腾讯、字节跳动等客户已申请采购[17][18] - 同时发布RTX Pro显卡,瞄准智慧工厂和数字孪生应用[19] - 股价单日暴涨4%,市值新增1600亿美元至4.17万亿美元,机构目标价上调至235美元[21][22][26] 行业趋势 - 头部AI初创企业获资本狂热追捧,零产品状态下估值达860亿元人民币反映市场对顶尖技术团队的溢价[6][11] - 芯片厂商积极布局AI生态链,通过投资抢占早期项目资源[4][12] - 中国市场GPU需求旺盛,英伟达H20恢复供应或缓解算力短缺[16][18]
7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
量子位· 2025-07-16 09:49
Agent能力增长规律 - Agent能力呈现"摩尔定律"式增长,平均每7个月其可完成任务的time horizon翻一番[7] - 在软件开发、数学竞赛等任务中,Agent能力每2-6个月翻一番,能完成人类需50-200分钟的任务[3] - 自动驾驶领域增长较慢,约20个月翻一番[5] - 前沿模型如o3在9个基准测试中翻倍时间中位数为4个月(范围2.5-17个月)[14] Time Horizon定义与意义 - Time horizon指Agent在任务上可稳定完成的时间跨度,越长代表智能水平越高[8] - 人类平均花30分钟完成的任务,若AI成功率超50%则time horizon为30分钟[7] - 视频理解任务中,模型在1小时视频上成功率可达50%[6] 跨领域基准测试 - 研究覆盖9个领域:软件开发、计算机使用、数学竞赛、编程竞赛、科学问答、视频理解、自动驾驶、机器人仿真[9] - 计算机操作任务(如OSWorld、WebArena)time horizon仅约2分钟,可能因鼠标误触导致[15] - 不同基准测试time horizon边界相差超100倍[15] 任务难度差异 - LeetCode(LiveCodeBench)和数学问题(AIME)难度远高于简单问题[17] - 长视频(Video-MME)问题难度与短视频差异不大[17] - Agent性能提升体现在处理更长、更复杂任务的能力[20] 未来趋势 - Agent可处理范围从秒级向小时级跨越,未来可能完成"几天→几周"任务[20] - 所有测试领域均未显示智能增长乏力迹象[20]
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
量子位· 2025-07-16 09:49
潜空间推理综述核心观点 - 潜空间推理是一种新兴范式,通过内部连续表示推理过程,带宽比显式思维链(CoT)提升2700多倍(显式CoT每token约15bits,潜式CoT每步约40960bits)[15] - 提出统一框架整合循环、递归、连续思维等潜空间推理形式,该框架基于机械可解释性原理,与模型内部运作直接关联[2][3] - 框架为未来研究方向提供基础,包括通过扩散模型实现无限深度推理等高级范式[4] 潜空间推理技术实现 基本概念 - 核心区别在于使用潜式思维链(Latent Chain-of-Thought),以高维隐藏状态替代离散自然语言token,突破词汇表限制[13][14][16] - 理论基础可追溯至2019年《Universal Transformers》提出的自适应计算时间(ACT)机制[7][8] 处理模式 **垂直循环模式** - 通过重复处理同一组层扩展计算深度,实现"反复思考"[20][21] - 优势:动态分配计算资源处理复杂任务[23] - 局限:长推理链可能引发梯度消失/爆炸[24] - 实现变体包括: - Universal Transformer的架构层实现[25] - Coconut训练层插入连续思维向量[25] - CoTFormer隐藏激活回输机制[25] **水平循环模式** - 沿时间维度扩展记忆能力,维护压缩隐藏状态聚合跨时空信息[28][29] - 实现方式: - 线性状态循环(隐藏状态更新/衰减规则)[30] - 梯度状态循环(隐藏状态作为在线学习参数)[30] 机械可解释性验证 - 层深度与推理能力呈线性关系,构成推理容量瓶颈(需2-3层支持两步推理)[34][39][45] - 分层功能特化: - 浅层:基础信息处理/事实存储[49] - 中层:核心推理引擎[49] - 深层:决策制定/逻辑整合[49] - 信息流动机制: - 注意力机制关键作用:跨层传输计算信息[48] - 存在双向流动(反向注意力)增强推理能力[51][52] 前沿发展方向 无限深度推理 **空间无限推理** - 文本扩散模型实现路径: - 遮蔽扩散模型:并行预测/渐进解遮蔽[55] - 嵌入扩散模型:连续空间高斯去噪[55] - 混合AR-扩散模型:结合自回归稳定性[55] **时间无限推理** - 时间-深度交换原理:序列长度等价于优化迭代[57] - 具体方法: - 无限注意力机制[59] - 测试时训练(SGD优化)[59] - 隐式不动点RNN[59] 学术贡献与影响 - 首篇系统性综述,由字节SEED实习生等四位共同一作完成[5] - 整合Meta Coconut等顶会研究成果[9][12] - 建立理论基础:从清华层数限制研究到谷歌研究院的线性关系定理[34][45]
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
量子位· 2025-07-16 09:49
开源共情语音模型OpenS2S - 紫东太初团队联合长城汽车AI Lab推出完全开源的端到端共情语音语言大模型OpenS2S,技术栈完全透明[2] - 核心目标是提供高效、低成本构建共情语音系统的新范式,包含训练数据集、构建代码、模型权重等全资源开源[3] - 采用流式交错解码架构实现低延迟实时语音生成,自动化数据生成方法结合LLMs与可控TTS技术构建多情感语料[3] 技术架构与核心组件 - 模块化设计包含四大组件:基于Qwen2-Audio的音频编码器、Qwen3-8B-Instruct指令LLM、流式语音解码器(借鉴Minmo/LLaMA-Omni2)、Token2Wav解码器(采用GLM-4-Voice预训练组件)[9] - 数据构建流程:LLMs生成共情对话→语音克隆增加说话者多样性→InstructTTS精准控制情感表达,实现低成本高质量数据合成[11][12] - 三阶段训练流程:语音理解预训练→语音生成预训练→共情指令微调,提升语义与非语言线索感知能力[14] 性能表现与行业对比 - 在VoiceBench评测中,OpenS2S语音到文本表现仅次于Kimi-Audio(61.10分),优于GLM-4-Voice(25.92分)和LLaMA-Omni24(17.36分),其中ifeval子项达42.89分[19][21] - URO-Bench共情评估中,OpenS2S在underemo-en(46.90分)和underemo-zh(67.68分)表现优于部分竞品,验证数据生成方法有效性[19][20] - 开源程度显著领先:唯一提供完整训练数据、预训练代码和微调代码的模型,而LLaMA-Omni2/Qwen2-Audio等竞品均未开源关键组件[5] 行业影响与资源发布 - 完整开源模型权重、数据集代码、评估工具等核心资源,推动共情语音LSLMs领域透明化研究[7] - 提供论文、Demo、代码及数据集的公开访问链接,覆盖arXiv、GitHub、Hugging Face等平台[23]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
量子位· 2025-07-15 16:31
Batch Normalization论文获奖及影响 - 2015年发表的Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习里程碑式突破[1][2][4] - 该技术让深度学习从小规模实验走向大规模实用化,是深层神经网络训练和应用的关键推动力[3] BatchNorm技术原理与创新 - 提出"内部协变量偏移"概念,指训练中网络内部节点数据分布变化导致训练不稳定[8][11] - 创新性对隐藏层数据做标准化处理,引入可学习参数γ和β保持网络表达能力[12] - 实验显示使用BN后训练步数仅需原来1/14即可达到相同精度,并在ImageNet分类任务超越人类准确率[13] BatchNorm的实际应用效果 - 具有正则化效果,可替代Dropout提升模型泛化能力[15] - 使训练超深度网络成为可能,如何恺明ResNet结合BN实现上百层网络训练[16][17] - 被几乎所有主流卷积神经网络(ResNet/DenseNet/Inception)广泛采用[18] 后续研究与理论修正 - 2018年MIT研究挑战BN核心理论,发现其实际作用是使Optimization Landscape更平滑[22][24] - 2022年研究从几何视角提供新见解,认为BN是一种无监督学习技术[29] 作者现状 - 两位作者Sergey Ioffe和Christian Szegedy曾在谷歌工作十余年[30] - Christian Szegedy先后加入马斯克xAI和Morph Labs,目标实现"可验证的超级智能"[32][33][34] - Sergey Ioffe也加入xAI,可能参与Grok 4开发[32]
只因一个“:”,大模型全军覆没
量子位· 2025-07-15 16:31
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)容易被特定符号(如冒号、空格)和推理开头语(如"Thought process:"、"解")欺骗,产生假阳性响应 [1][4][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [21] - 模型大小与抗欺骗能力无直接关系,7B-14B模型表现最佳,72B模型反而更容易被欺骗 [23][26] 欺骗机制分析 - 欺骗性输入分为两类:非文字符号(如空格、标点)和推理开头语(多语言) [14][15] - 漏洞可被无限繁殖,通过嵌入相似度搜索可自动生成新的欺骗性输入 [25] - 该漏洞揭示了生成式奖励模型核心机制缺陷,影响依赖验证器的强化学习流程 [27][28] 解决方案 - 研究人员构建增强数据集,包含2万条对抗样本(无实质内容的推理开头语) [29][30] - 基于Qwen2.5-7B-Instruct训练的Master-RM模型将假阳性率降至接近0%,同时保持与GPT-4o 0.96的一致性 [31][32] 研究团队 - 团队来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学,包含腾讯AI Lab首席科学家俞栋(发表400+论文) [37][38][39] - 一作Yulai Zhao(普林斯顿博士生)研究方向为强化学习与扩散模型,近期有论文被ICML 2025录用 [40][42] - 共同一作Haolin Liu(弗吉尼亚大学博士生)专注强化学习在LLM后训练中的应用 [43]
Switch的救世主是老黄!?
量子位· 2025-07-15 14:28
Switch2技术突破 - 新一代Switch2搭载英伟达NVN2图形API,显著改善前代发热、卡顿、续航短等问题,轻松应对3A大作 [1][2] - NVN2整合DLSS和光线追踪技术,实测《王国之泪》从720p/30帧提升至1440p/60帧,DLSS加持下接近原生4K画质 [30][31] - 联合开发者证实Xbox平台60帧游戏可无缝移植至Switch2,性能表现远超硬件参数预期 [3][27] 任天堂与英伟达合作历程 - 2013年任天堂因WiiU销量惨淡利润暴跌30%,转向开发融合主机与掌机特性的Switch [6][8] - 英伟达Tegra芯片在移动市场失利后,通过为Switch定制Tegra X1及NVN API实现技术突围 [9][13][15] - 合作成果显著:Switch总销量超1.5亿台,英伟达Tegra处理器销售额增长108%至3.32亿美元 [17][18] NVN技术架构优势 - NVN为Switch专属定制图形API,剔除通用功能降低性能开销,实现400g设备的高效渲染 [25][26] - 技术轻量化设计使Switch在硬件性能弱于PS/Xbox情况下,仍能输出流畅画面 [27] - NVN2延续技术协同理念,通过DLSS和RT Core实现便携性与画质的双重突破 [30] 产品理念与市场定位 - Switch设计核心理念为"场景自由切换",满足日本玩家移动社交与西方玩家家庭娱乐需求 [34][35] - 英伟达CEO黄仁勋强调技术应服务于创造力,Switch系列成功源于对玩家体验的极致追求 [37][39] - Switch2发售4天销量达350万台,刷新任天堂历史销售纪录,验证混合形态市场认可度 [5][40] 行业影响 - 任天堂与英伟达十年合作打破主机行业技术路径依赖,开创移动高性能芯片新应用场景 [4][11][12] - Switch系列成功逆转两家公司颓势,成为跨平台游戏设备的技术标杆 [17][18][31] - NVN2技术曝光显示任天堂持续强化便携设备性能边界,推动掌机与主机技术融合 [22][30]
卡帕西预言成真!华人团队开源全AI操作系统:神经网络模拟Windows,预测下一帧屏幕图像
量子位· 2025-07-15 14:28
核心观点 - 由神经网络驱动的操作系统NeuralOS实现实时预测和渲染图形界面,模拟Windows操作系统的行为 [1][2][6] - 该系统基于RNN和渲染器两大模块,能够跟踪计算机状态变化并生成对应的屏幕画面 [7][8] - 未来GUI可能演变为个性化、动态生成的2D交互画布,颠覆传统固定界面模式 [4][37] 技术实现 - **核心架构**:RNN负责状态跟踪,渲染器根据状态和操作生成画面,形成闭环系统 [7][8] - **训练数据**:使用Ubuntu XFCE系统的操作录像,包括随机交互和AI Agent模拟的真实操作 [10][11] - **训练流程**:分阶段进行RNN预训练、联合训练、计划采样和上下文序列扩展,最终实现帧预测能力 [11] 性能表现 - **优势**:画面逼真度接近真实系统,鼠标响应精准,状态转换稳定(如应用启动、窗口切换) [15] - **局限**:键盘输入处理不足,快速打字时可能出现延迟或字母顺序错乱 [14] - **测试结果**:模型预测准确性较高(主对角线高亮),但存在少量状态混淆 [14] 团队与背景 - **主要成员**:5人团队中4位为华人学者,包括滑铁卢大学和加拿大国家研究委员会的研究人员 [17][19][21][23][27][29] - **学术背景**:成员研究方向覆盖NLP、机器学习、深度学习应用,部分成员在顶会发表论文且引用量达5000+ [22][25][27][30] - **行业合作**:团队成员与英伟达、Google Deepmind等企业有合作或兼职关系 [28][29] 应用与展望 - **当前形态**:提供在线演示版本,需H100显卡支持运行,用户操作过多导致系统负载较高 [32][35] - **开源优化**:代码开源后有望提升性能,未来或实现更高效的动态界面生成 [36] - **潜在方向**:探索生成式神经接口在下一代人机交互系统中的落地场景 [6][37]
开放世界任务成功率82%!美的攻克机器人泛化控制难题
量子位· 2025-07-15 14:28
模型概述 - 美的AI研究院与华东师范大学联合推出ChatVLA-2模型,具备开放世界具身推理能力,结合视觉-语言-动作(VLA)功能 [1] - 采用动态混合专家架构和双阶段训练流程,保留多模态认知能力并实现推理到动作的转化 [1] 核心能力 - 在数学推理、空间理解和泛化操作能力上表现优异,开放世界任务成功率达82% [4] - 通过数学匹配游戏评估数学推理能力,通过玩具摆放任务测试空间推理能力 [6] 模型架构 - 引入混合专家模型(MoE),动态选择专家模块以平衡任务特征与共享特征,优化计算资源分配 [7] - 在模型深层使用推理令牌替换观测嵌入,生成调控动作参数,增强决策精准度 [8] 训练策略 - 采用双阶段训练:第一阶段协同训练图文数据与机器人数据,激活开放世界理解能力 [13] - 第二阶段冻结视觉语言模型,专注训练动作专家,强化对未知推理场景的响应能力 [14] 实验效果 数学推理 - 在开放世界测试中,OCR得分3.58/4,数学推理得分1.73/2,操控成功率82.7% [19] - 对比其他模型(如DexVLA成功率10/52),ChatVLA-2显著领先(43/52) [19] 空间推理 - 目标识别得分0.94,操控成功率81.4%,优于同类方法 [21] - 能识别训练中未出现的物体并理解空间关系,完成精准摆放 [20][21] 行业意义 - 为通用机器人控制提供新思路,推动复杂场景与多模态交互研究 [21]
国产Deep Research杀出一匹「裸奔」黑马:免费开放,过程透明,网页报告一键即出
量子位· 2025-07-15 14:28
秘塔AI搜索深度研究功能发布 - 国产AI搜索平台秘塔AI推出对标Deep Research的深度研究功能,完全免费开放使用,无需申请或会员资格 [1] - 功能可展示完整思考链和证据链,研究步骤全程可视化,最终生成结构化研究报告 [1][2] - 支持将报告一键转换为互动网页,自动排版并标注信息来源 [4][32][33] 技术能力与评测表现 - 在BrowseComp和xbench-DeepSearch评测集上表现最优,中英文能力均领先 [8] - 超越通义开源的WebSailor模型最新测试成绩 [10] - 研究过程采用多色标注系统:绿色为确定结论,紫色为待完善结论,红色为信息缺失部分 [23][24] 核心功能特点 - 支持复杂问题拆解,如分析AMD与英伟达AI芯片竞争时,会从CoWoS封装技术分配比例预测出货量 [18][22] - 参考资料库包含400+篇中英文文献,每个知识点均标注来源 [29][31] - 支持全网+文库+学术+图片+视频+播客+私域的全范围搜索 [14] 应用场景展示 - 商业调研:自动生成数据可视化图表(柱状图/折线图) [39] - 日常生活:提供科学现象深度解释 [41] - 非常规问题:能处理"企鹅偷石头"等奇特查询 [44] 行业定位与竞争优势 - 深度研究功能成为AI能力新风口,国内外巨头(OpenAI/Perplexity/谷歌)纷纷布局 [47][48] - 国内同类产品多设付费墙或试用限制,秘塔直接免费开放形成差异化 [48][49][50] - 技术优势来自"AI+搜索"双基因组合,兼具大模型逻辑能力和搜索引擎信息抓取能力 [51]