量子位

搜索文档
奥特曼首次透露GPT-5上手体验:在擅长领域感到无力,往后一靠感到眩晕
量子位· 2025-07-24 09:18
GPT-5发布前的关键信息 - GPT-5即将发布 近期OpenAI高层及员工多次释放明确信号 [3] - 测试GPT-5时出现"天啊时刻" 奥特曼在擅长的领域首次感受到AI的压倒性优势 输入复杂问题后获得完美答案使其产生眩晕感 [2][5][6][7] - GPT-5被描述为"几乎所有方面都比人类更聪明" 但人类与AI存在根本差异 简单取代论不成立 [8][9] AI行业竞争本质 - AI行业竞争焦点从基准测试转向实际应用价值 类似芯片行业从兆赫兹竞赛转向用户体验 [11][12][13][14] - 行业里程碑可能是AI自主研究或超越全人类智能的时刻 但当前更关注用户价值创造 [15] - 终极标志是GPU集群优先分配给AI研究员而非人类团队 [16] 下一代人机交互革命 - 现有硬件无法匹配AI能力 OpenAI收购硬件公司旨在开发第三代交互设备 支持复杂指令执行和环境感知 [22][24] - Agent功能将重构生活场景 如餐厅预订等传统操作将很快显得原始落后 [25][26][27] - 新型电脑将实现持续环境感知与自然交互 突破现有二值化操作模式 [24] 人类与AI的共存关系 - 新生代从出生即面临AI智力碾压 教育体系需彻底重构 但适应障碍主要存在于高龄人群 [17][20][21] - AI CEO可能短期内接管企业 具备全天候全员沟通与决策优化能力 人类将转向更高阶问题 [29] - 人类保持"主角光环"的底层需求不会改变 类似地心说被推翻后仍维持自我中心叙事 [30] 技术哲学思考 - 行业领导者承认技术演进不确定性 即便创造者也无法预知AI最终发展路径 [33][34] - 硬件性能与AI能力不匹配构成当前主要矛盾 需突破冯诺依曼架构限制 [24] - 历史类比显示 技术指标竞赛终将被用户体验竞争取代 [11][12][13]
WAIC探展征集|加入量子位直播共创
量子位· 2025-07-23 18:36
直播时间有限 ,我们将会结合实际时间、路线来安排。 同时,量子位也会在 H3-A128 设立展位,欢迎来找我们线下见面! 林樾 发自 凹非寺 量子位|公众号 QbitAI 7月26日,WAIC第一天的下午,我们将在WAIC来一场 快闪探展直播 ! ⬇️ 点击下方按钮,一键预约 ⬇️ 如果你在 WAIC带来了什么 亮眼的新产品&新技术 希望在直播露面,欢迎填写下方表单告诉我们。 一键三连 「点赞」「转发」「小心心」 欢迎在评论区留下你的想法! — 完 — 探展时间 :7月26日 15:00-17:00,每个展位3-5min 探展区域 :展馆H1-H4 形式 :交流对话,产品展示 征集截止 : 7月24日 18:00 点亮星标 科技前沿进展每日见 ...
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
量子位· 2025-07-23 18:36
ChatGPT Agent的技术原理 - 由Deep Research和Operator两个核心工具整合而成,并加入终端、图像生成等多项功能 [8][9] - 通过虚拟机环境整合所有工具,强化学习让模型自主探索最佳工具组合 [12] - 工具共享状态设计使模型能高效处理互联网、文件系统和代码交互任务 [12] 训练方法 - 模型被赋予所有可用工具并运行在同一虚拟机环境中,通过奖励机制学习高效完成任务 [12] - 训练后模型能自主切换工具,例如从文本浏览器转向GUI浏览器处理JavaScript元素 [13] - 训练规模较2017年World of Bits项目提升数十万倍,强化学习计算量大幅增加 [15] 团队与组织架构 - 团队由Deep Research(3-4人)和Operator(6-8人)合并而成,总规模20-35人 [17][19] - 应用工程师参与模型训练,研究人员参与部署,打破研究与应用的严格界限 [20] - 以用户场景为导向,跨职能合作加速迭代,数月内完成项目 [21][23] 性能与交互设计 - 专注端到端性能,从用户提示到任务完成全程优化 [15] - 训练中纳入多样化任务轨迹,支持用户实时干预和反馈调整 [15] - 补足Deep Research多轮对话短板,兼具视觉交互与研究能力 [11] 挑战与安全机制 - 最大挑战是训练稳定性,需同时运行成千上万虚拟机应对网络宕机或API限制 [24] - 实施多层次安全措施,包括实时监控、敏感操作确认、生物风险专项防护 [24][27] 未来发展方向 - 目标为通用超级智能体,无缝处理从简单查询到复杂工作流的任务 [25] - 探索通过强化学习提升泛化能力,减少对额外训练数据的依赖 [25] - 计划增强多轮对话记忆、主动服务能力及复杂任务(如数据分析)完成度 [28]
突然发疯!人形格斗冠军机器人凌空回旋踢,架子都干翻,现场研究员:0.0?
量子位· 2025-07-23 14:36
机器人失控事件分析 - 视频中失控的机器人是今年美国机器人格斗冠军DeREK(原型为宇树机器人G1),由团队REKrobot研发,CEO兼格斗手Cix操作[3][4] - 失控直接原因是机器人被吊起时启用全身策略但双脚未接触地面,系统自动恢复为行走模式导致动作异常[7][8][12] - 远程紧急制动装置存在但失效,无线电急停需5秒生效,最终依靠以太网电缆松脱才停止系统[10][13][14] 技术缺陷深度解析 - 电池设计缺陷:侧面安装且需长按2秒关闭,BMS按钮可能仅由通用微控制器驱动,缺乏安全设计导致紧急断电失败[18][19] - 电机性能风险:单个电机扭矩达120-160牛米,失控时可能造成骨折级伤害,且断电可能导致电机反送电压损坏系统[21][22] - 控制系统局限:核心由Rockchip处理器和宇树闭源软件控制,用户无法修改底层代码,无线通信依赖Wi-Fi/蓝牙易受干扰[22][23][24][25] 安全机制系统性缺失 - 通信中断应对不足:开发者需自行制定安全协议,但现有系统不会因通信中断触发停机[27][28] - 硬件安全标准不符:执行器和电池管理系统未达到PL(d)或ASIL-D等级,商用网络组件被用于安全关键系统[36] - 历史问题重复出现:5月已有机器人突然摔倒事件,当时同样暴露紧急制动设计缺陷但未改进[39][42][43] 行业安全建议 - 需建立多步骤安全方案:包括硬件安全输入、专用安全关键系统组件、严格开发流程及故障测试[31][32][36] - 避免AI制动依赖:当前技术下应优先监控和紧急切断系统而非AI控制[36] - 用户操作风险警示:机器人自重和电机惯性可能导致二次伤害,需优化断电策略防止随机倾倒[26][30]
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 14:36
核心观点 - 李沐团队研发的Higgs Audio V2模型实现了文本与语音的多模态融合,通过1000万小时语音数据训练,具备生成多语言对话、自动韵律调整、声纹克隆等能力,并在多个基准测试中领先[3][4][19][20] - 模型采用"system-user-assistant"框架统一处理语音和文本任务,通过离散化音频分词器实现高效语义映射,训练中采用双模型互学习策略提升性能[7][8][10][16] - 技术方案突破传统TTS限制,支持实时情绪交互和复杂场景推理,在EmergentTTS-Eval基准上对GPT-4o-mini-tts的胜率高出75.7%(情绪类)和55.7%(问题类)[19] - 模型已开源并提供在线试玩,适用于鬼畜视频制作、虚拟主播等场景,需配合场景语音数据优化声纹克隆效果[23][25] 技术架构 - 数据层:清洗后使用1000万小时授权语音数据,剔除90%低质量样本,避免使用YouTube/B站等版权受限平台[4][14][15] - 编码层:开发统一离散化音频分词器,以每秒25帧速度运行,压缩比达60MB→0.16MB/小时,同时保留语义和声学特征[10][11] - 训练层:构建AudioVerse辅助模型实现自动标注,通过双模型对抗训练提升多模态能力,规避OpenAI/谷歌模型输出限制[16] - 应用层:支持文本转语音、歌曲创作配乐、场景人物分析(性别/年龄/情绪)、环境音识别等18项复杂任务[17][18] 性能表现 - 基准测试:在Seed-TTS Eval和情感语音数据集(ESD)保持SOTA,EmergentTTS-Eval六维评估框架中情绪识别准确率提升75.7%[19][20] - 延迟控制:实现200ms内实时语音交互,支持对话过程中的动态情绪表达,突破机械问答限制[19] - 多语言支持:可生成中英等语言的自然对话,自动适配不同说话人的韵律特征[3] 商业化进展 - 开源策略:GitHub发布完整模型代码,提供Docker镜像简化部署,包含Pytorch GPU版本和Hugging Face接口[23][24] - 产品矩阵:4月推出Higgs Audio Understanding/Generation工具,5月发布EmergentTTS-Eval评估基准,形成完整技术闭环[30] - 公司背景:Boson AI由李沐创立,基于Llama 3开发的Higgs-Llama-3-70B模型在角色扮演和推理任务表现优异,获98.1万B站粉丝关注[26][27][28]
3D生成补上物理短板!首个系统性标注物理3D数据集上线,还有一个端到端框架
量子位· 2025-07-23 12:10
PhysX团队 投稿 量子位 | 公众号 QbitAI 3D生成又补齐了一块重要拼图—— 物理属性 ! 南洋理工大学-商汤联合研究中心S-Lab,及上海人工智能实验室合作提出了 PhysXNet ,号称首个系统性标注的物理基础3D数据集。 团队表示,3D生成正从纯虚拟走向物理真实,但现有的3D生成方法主要侧重于几何结构与纹理信息,忽略了基于物理属性的建模。 为了填补当前包含物理属性3D数据集的关键空白,PhysXNet应运而生。 该数据集包含超过 26K 带有丰富注释的3D物体,涵盖五个核心维度: 物理尺度 、 材料 、 可供性 、 运动学信息 、以及 文本描述 信息。 此外,团队还提出了PhysXGen,一个面向真实物理世界的3D生成框架,以实现从图像到真实3D资产的生成。 下面具体来看。 当前研究大多忽视了物理属性 近年来,随着3D资产在游戏、机器人技术和具身模拟等领域的广泛应用,其多样性与高质量生成受到了越来越多的关注。 大量研究工作集中在外观与几何结构上:包括高质量的3D数据集 (Objaverse、ShapeNet) 、高效的3D表示方法以及生成模型等方面。 然而, 这些研究大多仅关注结构特征,忽视 ...
AI音效90秒长时可控生成!“狼嚎2秒,蟋蟀鸣8秒”精准搞定!清华&生数科技新研究入选ACM MM 2025
量子位· 2025-07-23 12:10
技术突破 - 文生音频系统FreeAudio实现精确时间控制与90秒长时音频生成,支持复杂指令如0-10秒森林风吹声、0-4秒鸟儿鸣叫等[1][2][4] - 系统采用免训练方法突破行业瓶颈,基于自然语言文本与时间提示实现精确控制,在10秒任务中显著优于以往免训练方法[6] - 首次在长时音频生成中实现时间控制,大幅降低计算开销同时保持与训练式方法相当性能[7][29] 技术架构 - 利用LLM规划时间结构,将文本与时间提示解析为不重叠时间窗口并生成适配描述,通过上下文融合与参考引导机制完成合成[14][18] - Decoupling&Aggregating Attention Control模块包含局部对齐与全局融合子机制,保障时序连贯与语义一致[19][21] - 波形重建阶段对相邻片段重叠区域去重裁剪,确保时域连续性与声学自然性[22] 性能表现 - 在AudioCondition测试集上事件级对齐(Eb)达44.34、片段级准确率(At)68.50,全面超越AudioLDM、Tango等主流方法[24][26] - 10秒/26秒/90秒生成任务中均表现优异,主观评估音质、连贯性等维度最佳[29][30] - 在AudioCaps和MusicCaps数据集上展现长时生成的扩展性与稳定性[32] 行业应用 - 技术已通过生数科技Vidu平台商用,支持多音轨时间窗精准可控功能[31][33] - 为影视音效制作提供灵活精准的解决方案,显著降低制作成本并规避版权风险[36] - 未来计划拓展至自然语言事件描述训练、无限长生成及空间音频方向[34][35][36] 学术认可 - 研究成果被ACM Multimedia 2025录用为Oral报告,该会议是CCF推荐的多媒体领域唯一A类国际会议[8]
AI搜索一夜变天,专为Agent做搜索的赛道能否诞生百亿美金新巨头?
量子位· 2025-07-23 12:10
行业趋势 - AI搜索市场规模预计2029年达3472亿元 未来五年保持20%以上增速 [7] - 搜索能力成为AI Agent必备技能 推动搜索从工具向全能助手跃迁 [7][16] - 传统搜索引擎深度整合AI功能 AI应用普遍接入联网搜索提升时效性 [8] 市场格局变动 - Bing Search API将于8月11日全面关停 不再接受新用户注册 [2] - 微软战略调整将搜索与Azure服务绑定 定价提升至15美元+/千次调用 [4][22] - 市场缺乏成熟替代方案 仅34%头部企业具备自研AI搜索能力 [19][22] 新兴竞争者分析 - 小宿科技推出智能搜索API 年收入已达2500万美元 [25] - 中文搜索基准超越国内主流厂商 英文表现达头部水平 [25][26] - 提供AI智能搜索和全文展示搜索两大核心功能 支持30+语言 [29][30] - 价格仅为Bing API的1/3 响应延迟P99<1秒 支持100+QPS并发 [32][34] 技术差异化 - 自研语义搜索引擎支持多模态查询 实现90%结构化输出 [38] - 全球部署2800个边缘节点 保障实时数据获取能力 [36] - 全文抓取+关键信息高亮 突破传统摘要式搜索限制 [30][38] 典型客户案例 - 昆仑天工智能体平台实现毫秒级知识检索 [39] - Mindverse虚拟人通过实时数据感知真实世界 [39] - 语鲸产品实现多语言跨平台信息结构化聚合 [42] 市场机会 - Agent Infra领域或诞生百亿美金级企业 [44] - 垂直领域专业化搜索需求激增 如法律/学术场景 [23][24] - ToB搜索API市场存在巨大空白 替代Bing生态空间达数十亿元 [20][25]
马斯克xAI挖走何宜晖:英伟达顶级工程师,西安交大校友
量子位· 2025-07-23 12:10
时令 发自 凹非寺 量子位 | 公众号 QbitAI 趁着老黄中国行,马斯克给他偷了家。 这不,英伟达顶级工程师 何宜晖(Ethan He) ,刚刚官宣加入了xAI。 这位西安交大校友表示,随着Grok4解锁AI领域,迫不及待进一步突破边界了。 有了"挖人大战"的热度在前,何宜晖的这波跳槽也引发不少猜测。有人在评论区直言:这年薪肯定不低! 不过对于和马斯克一起工作,显然有些网友还是一无所知,帐篷和行军床才是标配好嘛?! 英伟达顶级工程师 何宜晖本科就读于西安交通大学计算机科学专业,随后在卡内基梅隆大学获得计算机视觉硕士学位。 一毕业,何宜晖就有幸入职Meta(原Facebook),后于2023年加入英伟达。 在英伟达任职期间,他深度参与了先进世界模型平台Cosmos的研发。 他提到,这段经历让他"有幸与一群才华横溢的团队并肩作战,共同探索前沿AI技术",并坦言"受益匪浅"。 如今,作为英伟达推出的最先进世界模型,Cosmos已正式发布,并宣布可免费用于商业用途。 何宜晖点赞Grok-4 值得注意的是,何宜晖在尚未离开英伟达时,便对Grok-4表现出高度关注——正式发布后他第一时间点赞并公开称赞其突破性价值。 ...
四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷
量子位· 2025-07-23 12:10
扩散语言模型(dLLMs)技术特性 - 扩散语言模型具备并行解码、双向上下文建模能力,支持灵活插入masked token进行解码,显著提升文本生成效率[1] - 相比传统自回归模型,dLLMs可一次性生成多个位置词汇,更擅长文本插入、改写和补全任务,应用场景覆盖交互式问答、代码生成及多模态领域[1] - 核心优势在于生成过程无顺序限制,支持任意位置掩码插入,模型设计目标为无条件预测上下文掩码[5] dLLMs安全漏洞研究 - 最新研究揭示dLLMs存在根本性架构缺陷,DIJA攻击框架无需训练或修改参数即可诱导模型生成有害内容,攻击成功率(ASR-k)最高达99%[2][4][18] - 安全短板源于三大设计特性:双向建模导致掩码可被诱导填充、并行解码缺乏逐位审查机制、当前对齐训练仅针对整体输入输出[19][20][22][23] - 实验显示DIJA对4款主流dLLMs攻击效果显著,在JailbreakBench基准上ASR-e比最优基线提升78.5%,StrongREJECT分数提升37.7[21] DIJA攻击技术细节 - 采用全自动攻击管线,利用Qwen2.5/GPT-4o实现零人工提示词生成,突破传统越狱需精心设计prompt的限制[8][10] - 核心策略包括:多样化提示词生成(覆盖多类危险行为)、多粒度掩码策略(整段/关键动词掩码)、上下文对齐插入(增强隐蔽性)[11] - 攻击提示构造为掩码文本交错形式,即使模型识别危险指示仍会输出违规内容,ASR-e指标普遍超过55%[6][9][17] 行业影响与未来方向 - 研究标志"掩码安全性"(Mask-Aware Safety)成为dLLMs安全新课题,需开发局部风险评分和掩码内容审查器等专有防护机制[25] - 建议重构对齐训练流程,将控制粒度从句子级细化至token级,建立基于掩码位置的拒绝机制[25] - 当前dLLMs防御力呈现分化,Dream-Instruct安全性最佳(ASR-e 0%),MMaDA-MixCoT最脆弱(ASR-e 81%)[14][18]