量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-07-23 18:36

直播时间有限，我们将会结合实际时间、路线来安排。同时，量子位也会在 H3-A128 设立展位，欢迎来找我们线下见面！林樾发自凹非寺量子位｜公众号 QbitAI 7月26日，WAIC第一天的下午，我们将在WAIC来一场快闪探展直播！ ⬇️ 点击下方按钮，一键预约 ⬇️ 如果你在 WAIC带来了什么亮眼的新产品&新技术希望在直播露面，欢迎填写下方表单告诉我们。一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法！ — 完 — 探展时间：7月26日 15:00-17:00，每个展位3-5min 探展区域：展馆H1-H4 形式：交流对话，产品展示征集截止： 7月24日 18:00 点亮星标科技前沿进展每日见 ...

官方揭秘ChatGPT Agent背后原理！通过强化学习让模型自主探索最佳工具组合

量子位· 2025-07-23 18:36

ChatGPT Agent的技术原理 - 由Deep Research和Operator两个核心工具整合而成，并加入终端、图像生成等多项功能 [8][9] - 通过虚拟机环境整合所有工具，强化学习让模型自主探索最佳工具组合 [12] - 工具共享状态设计使模型能高效处理互联网、文件系统和代码交互任务 [12] 训练方法 - 模型被赋予所有可用工具并运行在同一虚拟机环境中，通过奖励机制学习高效完成任务 [12] - 训练后模型能自主切换工具，例如从文本浏览器转向GUI浏览器处理JavaScript元素 [13] - 训练规模较2017年World of Bits项目提升数十万倍，强化学习计算量大幅增加 [15] 团队与组织架构 - 团队由Deep Research（3-4人）和Operator（6-8人）合并而成，总规模20-35人 [17][19] - 应用工程师参与模型训练，研究人员参与部署，打破研究与应用的严格界限 [20] - 以用户场景为导向，跨职能合作加速迭代，数月内完成项目 [21][23] 性能与交互设计 - 专注端到端性能，从用户提示到任务完成全程优化 [15] - 训练中纳入多样化任务轨迹，支持用户实时干预和反馈调整 [15] - 补足Deep Research多轮对话短板，兼具视觉交互与研究能力 [11] 挑战与安全机制 - 最大挑战是训练稳定性，需同时运行成千上万虚拟机应对网络宕机或API限制 [24] - 实施多层次安全措施，包括实时监控、敏感操作确认、生物风险专项防护 [24][27] 未来发展方向 - 目标为通用超级智能体，无缝处理从简单查询到复杂工作流的任务 [25] - 探索通过强化学习提升泛化能力，减少对额外训练数据的依赖 [25] - 计划增强多轮对话记忆、主动服务能力及复杂任务（如数据分析）完成度 [28]

强化学习

通用超级智能体

Artificial Intelligence

ChatGPT Agent

强化学习

通用超级智能体

Artificial Intelligence

ChatGPT Agent

突然发疯！人形格斗冠军机器人凌空回旋踢，架子都干翻，现场研究员：0.0？

量子位· 2025-07-23 14:36

机器人失控事件分析 - 视频中失控的机器人是今年美国机器人格斗冠军DeREK（原型为宇树机器人G1），由团队REKrobot研发，CEO兼格斗手Cix操作[3][4] - 失控直接原因是机器人被吊起时启用全身策略但双脚未接触地面，系统自动恢复为行走模式导致动作异常[7][8][12] - 远程紧急制动装置存在但失效，无线电急停需5秒生效，最终依靠以太网电缆松脱才停止系统[10][13][14] 技术缺陷深度解析 - 电池设计缺陷：侧面安装且需长按2秒关闭，BMS按钮可能仅由通用微控制器驱动，缺乏安全设计导致紧急断电失败[18][19] - 电机性能风险：单个电机扭矩达120-160牛米，失控时可能造成骨折级伤害，且断电可能导致电机反送电压损坏系统[21][22] - 控制系统局限：核心由Rockchip处理器和宇树闭源软件控制，用户无法修改底层代码，无线通信依赖Wi-Fi/蓝牙易受干扰[22][23][24][25] 安全机制系统性缺失 - 通信中断应对不足：开发者需自行制定安全协议，但现有系统不会因通信中断触发停机[27][28] - 硬件安全标准不符：执行器和电池管理系统未达到PL(d)或ASIL-D等级，商用网络组件被用于安全关键系统[36] - 历史问题重复出现：5月已有机器人突然摔倒事件，当时同样暴露紧急制动设计缺陷但未改进[39][42][43] 行业安全建议 - 需建立多步骤安全方案：包括硬件安全输入、专用安全关键系统组件、严格开发流程及故障测试[31][32][36] - 避免AI制动依赖：当前技术下应优先监控和紧急切断系统而非AI控制[36] - 用户操作风险警示：机器人自重和电机惯性可能导致二次伤害，需优化断电策略防止随机倾倒[26][30]

李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩

量子位· 2025-07-23 14:36

核心观点 - 李沐团队研发的Higgs Audio V2模型实现了文本与语音的多模态融合，通过1000万小时语音数据训练，具备生成多语言对话、自动韵律调整、声纹克隆等能力，并在多个基准测试中领先[3][4][19][20] - 模型采用"system-user-assistant"框架统一处理语音和文本任务，通过离散化音频分词器实现高效语义映射，训练中采用双模型互学习策略提升性能[7][8][10][16] - 技术方案突破传统TTS限制，支持实时情绪交互和复杂场景推理，在EmergentTTS-Eval基准上对GPT-4o-mini-tts的胜率高出75.7%（情绪类）和55.7%（问题类）[19] - 模型已开源并提供在线试玩，适用于鬼畜视频制作、虚拟主播等场景，需配合场景语音数据优化声纹克隆效果[23][25] 技术架构 - 数据层：清洗后使用1000万小时授权语音数据，剔除90%低质量样本，避免使用YouTube/B站等版权受限平台[4][14][15] - 编码层：开发统一离散化音频分词器，以每秒25帧速度运行，压缩比达60MB→0.16MB/小时，同时保留语义和声学特征[10][11] - 训练层：构建AudioVerse辅助模型实现自动标注，通过双模型对抗训练提升多模态能力，规避OpenAI/谷歌模型输出限制[16] - 应用层：支持文本转语音、歌曲创作配乐、场景人物分析（性别/年龄/情绪）、环境音识别等18项复杂任务[17][18] 性能表现 - 基准测试：在Seed-TTS Eval和情感语音数据集(ESD)保持SOTA，EmergentTTS-Eval六维评估框架中情绪识别准确率提升75.7%[19][20] - 延迟控制：实现200ms内实时语音交互，支持对话过程中的动态情绪表达，突破机械问答限制[19] - 多语言支持：可生成中英等语言的自然对话，自动适配不同说话人的韵律特征[3] 商业化进展 - 开源策略：GitHub发布完整模型代码，提供Docker镜像简化部署，包含Pytorch GPU版本和Hugging Face接口[23][24] - 产品矩阵：4月推出Higgs Audio Understanding/Generation工具，5月发布EmergentTTS-Eval评估基准，形成完整技术闭环[30] - 公司背景：Boson AI由李沐创立，基于Llama 3开发的Higgs-Llama-3-70B模型在角色扮演和推理任务表现优异，获98.1万B站粉丝关注[26][27][28]

语音大模型

文本与语音结合模型

Artificial Intelligence

Higgs Audio V2模型

Higgs - Llama - 3 - 70B

Higgs Audio Understanding

语音大模型

文本与语音结合模型

Artificial Intelligence

Higgs Audio V2模型

Higgs - Llama - 3 - 70B

Higgs Audio Understanding

3D生成补上物理短板！首个系统性标注物理3D数据集上线，还有一个端到端框架

量子位· 2025-07-23 12:10

PhysX团队投稿量子位 | 公众号 QbitAI 3D生成又补齐了一块重要拼图—— 物理属性！南洋理工大学-商汤联合研究中心S-Lab，及上海人工智能实验室合作提出了 PhysXNet ，号称首个系统性标注的物理基础3D数据集。团队表示，3D生成正从纯虚拟走向物理真实，但现有的3D生成方法主要侧重于几何结构与纹理信息，忽略了基于物理属性的建模。为了填补当前包含物理属性3D数据集的关键空白，PhysXNet应运而生。该数据集包含超过 26K 带有丰富注释的3D物体，涵盖五个核心维度：物理尺度、材料、可供性、运动学信息、以及文本描述信息。此外，团队还提出了PhysXGen，一个面向真实物理世界的3D生成框架，以实现从图像到真实3D资产的生成。下面具体来看。当前研究大多忽视了物理属性近年来，随着3D资产在游戏、机器人技术和具身模拟等领域的广泛应用，其多样性与高质量生成受到了越来越多的关注。大量研究工作集中在外观与几何结构上：包括高质量的3D数据集（Objaverse、ShapeNet）、高效的3D表示方法以及生成模型等方面。然而，这些研究大多仅关注结构特征，忽视 ...

AI音效90秒长时可控生成！“狼嚎2秒，蟋蟀鸣8秒”精准搞定！清华&生数科技新研究入选ACM MM 2025

量子位· 2025-07-23 12:10

技术突破 - 文生音频系统FreeAudio实现精确时间控制与90秒长时音频生成，支持复杂指令如0-10秒森林风吹声、0-4秒鸟儿鸣叫等[1][2][4] - 系统采用免训练方法突破行业瓶颈，基于自然语言文本与时间提示实现精确控制，在10秒任务中显著优于以往免训练方法[6] - 首次在长时音频生成中实现时间控制，大幅降低计算开销同时保持与训练式方法相当性能[7][29] 技术架构 - 利用LLM规划时间结构，将文本与时间提示解析为不重叠时间窗口并生成适配描述，通过上下文融合与参考引导机制完成合成[14][18] - Decoupling&Aggregating Attention Control模块包含局部对齐与全局融合子机制，保障时序连贯与语义一致[19][21] - 波形重建阶段对相邻片段重叠区域去重裁剪，确保时域连续性与声学自然性[22] 性能表现 - 在AudioCondition测试集上事件级对齐(Eb)达44.34、片段级准确率(At)68.50，全面超越AudioLDM、Tango等主流方法[24][26] - 10秒/26秒/90秒生成任务中均表现优异，主观评估音质、连贯性等维度最佳[29][30] - 在AudioCaps和MusicCaps数据集上展现长时生成的扩展性与稳定性[32] 行业应用 - 技术已通过生数科技Vidu平台商用，支持多音轨时间窗精准可控功能[31][33] - 为影视音效制作提供灵活精准的解决方案，显著降低制作成本并规避版权风险[36] - 未来计划拓展至自然语言事件描述训练、无限长生成及空间音频方向[34][35][36] 学术认可 - 研究成果被ACM Multimedia 2025录用为Oral报告，该会议是CCF推荐的多媒体领域唯一A类国际会议[8]

AI搜索一夜变天，专为Agent做搜索的赛道能否诞生百亿美金新巨头？

量子位· 2025-07-23 12:10

行业趋势 - AI搜索市场规模预计2029年达3472亿元未来五年保持20%以上增速 [7] - 搜索能力成为AI Agent必备技能推动搜索从工具向全能助手跃迁 [7][16] - 传统搜索引擎深度整合AI功能 AI应用普遍接入联网搜索提升时效性 [8] 市场格局变动 - Bing Search API将于8月11日全面关停不再接受新用户注册 [2] - 微软战略调整将搜索与Azure服务绑定定价提升至15美元+/千次调用 [4][22] - 市场缺乏成熟替代方案仅34%头部企业具备自研AI搜索能力 [19][22] 新兴竞争者分析 - 小宿科技推出智能搜索API 年收入已达2500万美元 [25] - 中文搜索基准超越国内主流厂商英文表现达头部水平 [25][26] - 提供AI智能搜索和全文展示搜索两大核心功能支持30+语言 [29][30] - 价格仅为Bing API的1/3 响应延迟P99<1秒支持100+QPS并发 [32][34] 技术差异化 - 自研语义搜索引擎支持多模态查询实现90%结构化输出 [38] - 全球部署2800个边缘节点保障实时数据获取能力 [36] - 全文抓取+关键信息高亮突破传统摘要式搜索限制 [30][38] 典型客户案例 - 昆仑天工智能体平台实现毫秒级知识检索 [39] - Mindverse虚拟人通过实时数据感知真实世界 [39] - 语鲸产品实现多语言跨平台信息结构化聚合 [42] 市场机会 - Agent Infra领域或诞生百亿美金级企业 [44] - 垂直领域专业化搜索需求激增如法律/学术场景 [23][24] - ToB搜索API市场存在巨大空白替代Bing生态空间达数十亿元 [20][25]

马斯克xAI挖走何宜晖：英伟达顶级工程师，西安交大校友

量子位· 2025-07-23 12:10

时令发自凹非寺量子位 | 公众号 QbitAI 趁着老黄中国行，马斯克给他偷了家。这不，英伟达顶级工程师何宜晖（Ethan He），刚刚官宣加入了xAI。这位西安交大校友表示，随着Grok4解锁AI领域，迫不及待进一步突破边界了。有了"挖人大战"的热度在前，何宜晖的这波跳槽也引发不少猜测。有人在评论区直言：这年薪肯定不低！不过对于和马斯克一起工作，显然有些网友还是一无所知，帐篷和行军床才是标配好嘛？！英伟达顶级工程师何宜晖本科就读于西安交通大学计算机科学专业，随后在卡内基梅隆大学获得计算机视觉硕士学位。一毕业，何宜晖就有幸入职Meta（原Facebook），后于2023年加入英伟达。在英伟达任职期间，他深度参与了先进世界模型平台Cosmos的研发。他提到，这段经历让他"有幸与一群才华横溢的团队并肩作战，共同探索前沿AI技术"，并坦言"受益匪浅"。如今，作为英伟达推出的最先进世界模型，Cosmos已正式发布，并宣布可免费用于商业用途。何宜晖点赞Grok-4 值得注意的是，何宜晖在尚未离开英伟达时，便对Grok-4表现出高度关注——正式发布后他第一时间点赞并公开称赞其突破性价值。 ...

Artificial Intelligence

Grok-4

Cosmos

Artificial Intelligence

Grok-4

Cosmos

四款扩散大语言模型全部破防？上交&上海AI Lab发现致命安全缺陷

量子位· 2025-07-23 12:10

扩散语言模型(dLLMs)技术特性 - 扩散语言模型具备并行解码、双向上下文建模能力，支持灵活插入masked token进行解码，显著提升文本生成效率[1] - 相比传统自回归模型，dLLMs可一次性生成多个位置词汇，更擅长文本插入、改写和补全任务，应用场景覆盖交互式问答、代码生成及多模态领域[1] - 核心优势在于生成过程无顺序限制，支持任意位置掩码插入，模型设计目标为无条件预测上下文掩码[5] dLLMs安全漏洞研究 - 最新研究揭示dLLMs存在根本性架构缺陷，DIJA攻击框架无需训练或修改参数即可诱导模型生成有害内容，攻击成功率(ASR-k)最高达99%[2][4][18] - 安全短板源于三大设计特性：双向建模导致掩码可被诱导填充、并行解码缺乏逐位审查机制、当前对齐训练仅针对整体输入输出[19][20][22][23] - 实验显示DIJA对4款主流dLLMs攻击效果显著，在JailbreakBench基准上ASR-e比最优基线提升78.5%，StrongREJECT分数提升37.7[21] DIJA攻击技术细节 - 采用全自动攻击管线，利用Qwen2.5/GPT-4o实现零人工提示词生成，突破传统越狱需精心设计prompt的限制[8][10] - 核心策略包括：多样化提示词生成（覆盖多类危险行为）、多粒度掩码策略（整段/关键动词掩码）、上下文对齐插入（增强隐蔽性）[11] - 攻击提示构造为掩码文本交错形式，即使模型识别危险指示仍会输出违规内容，ASR-e指标普遍超过55%[6][9][17] 行业影响与未来方向 - 研究标志"掩码安全性"(Mask-Aware Safety)成为dLLMs安全新课题，需开发局部风险评分和掩码内容审查器等专有防护机制[25] - 建议重构对齐训练流程，将控制粒度从句子级细化至token级，建立基于掩码位置的拒绝机制[25] - 当前dLLMs防御力呈现分化，Dream-Instruct安全性最佳（ASR-e 0%），MMaDA-MixCoT最脆弱（ASR-e 81%）[14][18]

掩码安全性（Mask - Aware Safety）

Artificial Intelligence

扩散语言模型（dLLMs）

掩码安全性（Mask - Aware Safety）

Artificial Intelligence

扩散语言模型（dLLMs）

开源Qwen凌晨暴击闭源Claude！刷新AI编程SOTA，支持1M上下文

量子位· 2025-07-23 08:24

核心观点 - 阿里通义大模型团队开源Qwen3-Coder，刷新AI编程SOTA，超越开源模型DeepSeek V3、Kimi K2及闭源标杆Claude Sonnet 4 [1] - Qwen3-Coder为开源免费模型，用户无需每月支付200美元使用Claude Code [2] - 模型效果被评价为“改变游戏规则” [3] 模型规格 - Qwen3-Coder-480B-A35B-Instruct为450B参数的MoE模型，激活参数35B [5] - 原生支持256K上下文，通过YaRN技术可扩展至1M长度 [6][23] 功能演示 - 简单prompt即可生成复杂功能：如p5js交互动画、动态天气卡片、3D地球可视化、可交互小游戏 [11][13][14][16] - 实测案例：生成可编辑简历模板、扫雷游戏（提示词直接输出可运行代码） [17][19] 技术细节 - 预训练阶段：数据扩展（7.5T tokens，70%为代码数据）、上下文扩展、合成数据扩展 [20][21][22] - 后训练阶段：采用Scaling Code RL（自动生成测试用例提升执行成功率）和Scaling Long-Horizon RL（阿里云支持20000个独立环境运行） [24][27] 开源生态 - 提供多端体验：Qwen官网、命令行工具Qwen Code（适配OpenAI SDK）、阿里云百炼平台API [28] - 采用Apache License 2.0协议，商用友好 [29] - 中国开源模型技术领先，Qwen3-Coder被视为开源编程Agent的重大飞跃 [30][32][34]

阿里巴巴(US:BABA)

Artificial Intelligence

Open Source

Artificial Intelligence

Qwen3-Coder

Qwen Code

Claude Code

Artificial Intelligence

Open Source

Artificial Intelligence