Workflow
量子位
icon
搜索文档
智能交互终于步入真·人机交互时代了,这很讯飞
量子位· 2025-06-13 13:07
核心观点 - 智能硬件交互正从基础指令式升级为深度智能协作,实现"万物皆可交互"的愿景 [5][9][12] - 科大讯飞通过AIUI平台和机器人超脑平台技术突破,推动人机交互向拟人化、多模态、场景化方向发展 [10][34][36] - 儿童场景成为大模型时代交互需求增长最快的领域,交互频次飙升733% [26][66] 技术突破 AIUI交互平台升级 - 全双工交互模式实现"有所闻有所不闻",能识别用户迟疑、附和等非结构化语音输入 [17][19] - 情绪识别技术通过语调分析判断用户情绪状态,基于千万级高情商对话数据训练共情模型 [20][21] - 类人记忆系统采用长短时记忆融合架构,构建用户专属知识库和聊天方式 [23] - 音频端到端响应时间缩短至1.6秒,量产语音交互系统中处于领先水平 [25] 机器人超脑平台 - 整合视听融合感知(语音+唇形+人脸追踪)、多模态降噪技术,嘈杂环境下语音识别率从83%提升至96% [39][40][41] - 模块化设计解决行业碎片化需求,已应用于500+机器人客户,覆盖人形/四足/轮式机器人 [46][47][57] - 智能语音背包实现即插即用,为存量机器人赋予对话能力,现场演示中实现拟人化幽默互动 [49][51][55] 场景应用 儿童交互方案 - 专设童言识别模型和童语理解模型,应对儿童天马行空的非结构化表达 [26] - 结合AI早教实现场景化学习,如引导儿童用英语描述恐龙特征等趣味互动 [28] - 儿童场景交互速度增长7倍,成为大模型时代最高频交互场景 [66] 多硬件赋能 - 智能眼镜采用三麦阵列降噪技术,嘈杂环境中实现一对一私密对话 [30] - 数字人平台构建超10万分身,2024年制作量提升16%,日交互次数增长6.5倍 [61][62] - 轻量化方案支持一句话+照片快速生成数字人分身,覆盖教育/金融/媒体等领域 [63] 生态布局 - AIUI联合30万+开发者共建解决方案,推动软硬件交互效果优化 [31] - 开发者大赛设36道应用赛+72道算法赛,涵盖智能座舱/多模态虚拟人等前沿赛道 [69] - 技术-场景-生态闭环已赋能广电/家庭/医疗/办公等场景,实现产业级落地 [75][76]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测体系设计 - 基于三大知识范畴构建评测框架:事实性知识(颜色/数量/空间/时间)、概念性知识(物理/化学/生物常识)、程序性知识(多步操作与规则推理) [8] - 细分为7大推理维度和22种典型编辑任务覆盖全谱系难度包括物体计数变化、化学反应预测、多元素合成等 [6] - 样本总量1,267对图像-指令由专家团队手工打磨数据来源包含真实照片、开源基准、模型生成、3D渲染等多样分布 [12] 评估方法创新 - 首创四维度自动化评估指标:视觉一致性(非目标区域保持)、视觉质量(自然度)、指令跟随(完整性)、知识合理性(常识符合度) [10][11][13] - 深度知识任务附带手工知识提示辅助判断模型理解程度 [11] 模型评测结果 - 评估10款模型包含3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen/Emu2/BAGEL/Step1X-Edit等) [14] - 闭源旗舰GPT-Image-1表现领先开源模型BAGEL-Think通过引入推理过程提升知识合理性但仍落后闭源模型 [18] - 所有模型在程序性推理、自然科学及多步骤合成任务上表现不佳显示深层推理能力不足 [18] 行业影响 - 推动图像编辑模型从像素搬运向具备人类认知能力的视觉智者演进 [16] - 未来目标是在AI编辑中植入物理/化学/社会常识与因果推理实现真正的理解与预测 [16]
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 13:07
大型推理模型安全研究 - 大型推理模型(LRMs)在复杂任务中表现强大,但存在显著安全风险,监督微调(SFT)对训练数据外的"越狱"攻击泛化能力有限 [1] - 现有研究缺乏对大型推理模型安全性的深入分析,难以针对性提升 [2] - 加州大学等机构团队提出SafeKey框架,在不影响模型核心能力前提下增强安全稳健性 [3] 模型"越狱"机制核心发现 - 发现"关键句"现象:模型回答中第一个句子决定整体安全调性,是安全与危险回答的分水岭 [5][6] - 模型在生成"关键句"前,对恶意查询的理解复述已暴露安全特征信号,但该信号未被充分利用导致安全防线崩溃 [8][9] SafeKey框架创新设计 - 双通路安全头:通过并行监督隐藏状态,在生成"关键句"前放大安全信号 [11] - 查询遮蔽建模:遮蔽原始输入,强制模型基于自身安全理解生成"关键句",增强安全决策自主性 [12][13][14] 实验验证结果 - 安全性能提升:在7B/8B/14B模型上降低9.6%危险率,尤其对训练领域外攻击效果显著 [17] - 能力保持:数学推理(MMLU 64.3%)、代码(HumanEval 87.8%)等核心能力平均提升0.8% [17] - 模块有效性:双通路安全头使安全分类准确率提升,查询遮蔽建模增强模型对自身理解的注意力 [17] 技术应用特性 - 框架兼容不同规模模型(7B-14B),计算资源需求较低 [17] - 提供完整技术资源:论文、项目主页、复现代码及预训练模型 [18]
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 10:25
OpenAI o3-pro模型性能评测 - o3-pro在复杂推理测试中成功解答歌手Sabrina Carpenter歌曲名的字母谜题耗时4分25秒[2] - 与o3相比o3-pro在相同测试中仅能答对部分字母[3] - 前OpenAI AGI团队负责人Miles Brundage公开支持o3-pro的推理能力并暗讽苹果对AI推理的质疑[4][5] 模型基准测试表现 - 官方测评显示o3-pro成为OpenAI当前最强编码模型[8] - LiveBench榜单显示o3-pro与o3编码平均分仅差0.07分(76.78 vs 76.71)[11] - 智能体编码得分o3-pro显著落后o3(31.67 vs 36.67)[11] - 亚马逊云科技前高管指出o3-pro在智能体和工具使用方面存在不足[12] 上下文处理能力 - 短上下文场景下o3-pro表现优于o3[15] - 192k超长上下文处理Gemini 2.5 Pro得分90.6显著高于o3-pro的65.6[16] - 上下文长度测试显示o3-pro在60k以下场景保持94.4分以上表现[17] 实际应用案例 - 前苹果工程师Ben Hylak通过输入公司历史会议记录等完整背景信息o3-pro输出精准业务规划[24][25] - o3-pro在工具调用和环境认知方面表现提升能明确说明功能边界[30][31] - 相比o3的虚假承诺o3-pro更诚实地说明功能限制[33][35] - 在SQL等特定任务上o3表现仍优于o3-pro[38] 模型特性分析 - o3-pro需要更丰富的背景信息输入否则易出现过度思考[37] - 与Claude Opus和Gemini 2.5 Pro相比o3-pro输出质量更高维度不同[39] - OpenAI通过强化学习路径提升模型"何时使用工具"的决策能力[39] - 系统提示和语境设置对o3-pro表现影响显著[40][41] 商业动态 - o3模型价格下调成为昨日重要新闻[13] - 前苹果工程师Ben Hylak透露已提前一周接触o3-pro进行测试[23]
让机器人学会系统2慢思考,叠衣服倒咖啡等不在话下 | 上海交大&智元机器人
量子位· 2025-06-13 10:25
机器人双系统VLA模型Hume - 上海交通大学与智元机器人团队联合推出Hume模型,首次实现系统2慢思考与VLA模型的融合,通过动作价值引导和双系统级联去噪解决机器人深度推理与实时控制的矛盾 [1][7][10] - 模型在折叠短裤、倒咖啡等复杂操作中达到91%平均成功率,显著超越当前最先进模型 [3][20][30] - 核心技术包含动作去噪生成模块、动作价值估计模块和轻量级系统1级联去噪架构,实现异步双系统协同 [8][10][17] 技术突破点 - **动作价值引导慢思考**:系统2生成多候选动作并通过Q值评估选择最优方案,在Push-T任务中实现精确轨迹规划 [10][11][22] - **级联去噪高频控制**:系统1以500Hz频率细化动作,移除级联去噪机制会导致真实任务性能下降19% [17][18][31] - **双系统协同架构**:系统2低频深度思考(1Hz)与系统1高频执行(500Hz)结合,在LIBERO基准达到98.6%成功率 [10][20][28] 性能验证 - **仿真测试**:在SimplerEnv基准的WidowX任务中成功率72.6%,比OpenVLA高64.8个百分点;Google机器人任务78.7%成功率,超越RT-2-X等模型 [26][28][29] - **真实场景**:WidowX平台复杂任务成功率91%,AgiBot G-1折叠短裤任务成功率88%比π₀高15% [20][30] - **失败恢复能力**:在抓取失败等异常状态下,通过重复采样候选动作实现63%恢复率,显著优于GR00T等模型 [24][30] 行业影响 - 解决VLA模型两大核心挑战:高维连续动作空间的慢思考实现(通过流匹配去噪方法),以及推理速度与实时控制的平衡(异步双系统架构) [4][5][7] - 首次在机器人领域实现类人类的"深思熟虑"决策模式,为柔性物体操作、长时序任务等工业场景提供新范式 [2][22][30] - 开源代码与论文全公开,技术路线可复现性高,加速行业技术迭代 [34]
超越英伟达B200!AMD最强AI芯:1.6倍大内存、大模型推理快30%,奥特曼都来站台
量子位· 2025-06-13 10:25
产品发布 - AMD发布MI350X和MI355X两款GPU,采用3nm工艺,包含1850亿晶体管,配备HBM3E内存 [2] - MI350系列相比前代MI300X算力提升4倍,推理速度快35倍 [3] - MI350系列内存是英伟达B200的1.6倍,训练推理速度相当或更快 [4] - MI355X每花费1美元可比B200多跑40%的tokens [5] - MI350X和MI355X基于第四代Instinct架构(CDNA 4),配备288GB HBM3E内存和8TB/s内存带宽 [9] - MI350X最高TBP为1000W(风冷),MI355X为1400W(液冷) [10] 性能参数 - MI350X和MI355X在FP64上算力分别为72和78.6TFLOPs,是英伟达的2倍 [12] - 低精度格式(FP16/FP8/FP4)性能与英伟达相当或略胜一筹 [13] - MI350系列FP6性能可以FP4速率运行 [14] - 8个MI355X组成节点,FP8算力81PF,FP6/FP4算力161PF [17] - 128GPU集群FP8算力可达1.3EFLOPs [18] 大模型表现 - MI355X(FP4)运行Llama 3.1 405B比MI300X(FP8)快35倍 [21] - 运行DeepSeek R1/Llama 4 Maverick/Llama 3.3 70B推理性能达3倍 [23] - MI355X在DeepSeek R1和Llama 3.1 405B上分别比B200高20%和30% [24] 软件生态 - 发布ROCm 7软件栈,带来3.5倍推理和3倍训练性能提升 [32] - ROCm 7支持分布式推理,与VLM/SGLang集成,支持180万Hugging Face模型 [33] 未来路线图 - 明年将发布MI400系列,与OpenAI联合研发 [7][36][38] - MI400系列预计比MI300快10倍,FP4达40PFLOPs [41] - 配备432GB HBM4内存和19.6TB/s带宽 [42] - 搭配2nm Venice CPU(256个Zen6核心)和Vulcano网卡(800GB/s) [44][45][47] - Helios机架可连接72个GPU,260TB/s扩展带宽 [49] - 计划2027年推出MI500系列GPU和Verono CPU [52]
黄仁勋发布量子计算专用CUDA!预言量子计算机几年内应用,但现在还离不开GB200
量子位· 2025-06-12 17:23
克雷西 假装发自 巴黎 量子位 | 公众号 QbitAI "量子计算正在到达一个拐点。" 在GTC巴黎的演讲中,英伟达CEO黄仁勋对量子计算给出了新的论断。 这次,老黄一改此前"实用量子计算机还要20年"的观点,预言量子计算机的实际应用在几年内就能实现。 并且,未来的逻辑量子比特将具备更好的错误纠正能力、更强的鲁棒性、更高的性能、更强的弹性和可扩展性。 所以老黄表示,在未来几年内,量子计算和量子经典计算将能解决一些"有趣"的问题。 老黄预计,在未来几年,或者至少在下一代超级计算机中,每一个都将配备一个QPU(量子处理单元),并与GPU连接。 在这种协同架构中,GPU将承担预处理、控制、计算密集型错误纠正以及后处理等关键任务。 但他真正想说的,是 当前量子计算机开发阶段,还离不开英伟达芯片做模拟计算,特别是GB200 。 演讲中,老黄带来了英伟达最新推出的量子-经典加速超算平台—— CUDA-Q 。 CUDA-Q是英伟达CUDA的扩展,可以在经典计算机上进行模拟量子计算,或者为真·量子计算机提供辅助。 CUDA-Q已在Grace Blackwell上可用,通过英伟达的GB200 NVL72超算,CUDA-Q可以 ...
AI自动写学术综述:10分钟生成6万字,成本不到四块钱
量子位· 2025-06-12 17:23
SurveyForge团队 投稿 量子位 | 公众号 QbitAI 学术综述论文在科学研究中发挥着至关重要的作用,特别是在研究文献快速增长的时代。传统的人工驱动综述写作需要研究者审阅大量文章, 既耗时又难以跟上最新进展。而现有的自动化综述生成方法面临诸多挑战: AI生成的 综述结构 往往缺乏连贯逻辑,组织结构较差,存在宽度和深度的结构失衡问题;在 参考文献 方面,经常无法引用真正相关和有影 响力的文献,容易引用无关文献而忽略核心贡献; 评估方式 主要依赖LLM整体质量评估,缺乏对大纲质量、参考文献相关性等关键方面的细 粒度分析。 在此背景下,上海人工智能实验室联合复旦大学、上海交通大学等多家单位,提出了SurveyForge——一个自动化生成高质量学术综述论文的 创新框架,该研究已被ACL 2025主会议接收。 实验结果显示,SurveyForge在所有关键指标上都实现了显著提升:核心参考文献覆盖率提升了近一倍,大纲质量接近人工撰写水平,内容质 量在多个维度均超越现有方法。 更重要的是,系统生成约64k token的综述仅需不到$0.50(折合3.6元)的成本,整个过程在10分钟内完成。 | Methods ...
AI代码补全哪家强?两个新指标+一套新框架,让模型更懂开发者
量子位· 2025-06-12 16:16
中兴通讯AIM团 队 投稿 量子位 | 公众号 QbitAI 如何让AI代码补全更懂开发者? 中兴通讯团队提出了 两个新的评测指标 ,以及 一套仓库级代码语料处理框架 。 按照团队的说法,这套方法论不仅为评测代码大模型提供了新视角,也为提升模型在真实工业场景中的代码补全性能开辟了新路径。 目前在编写代码时,智能补全工具如GitHub Copilot和Cursor等,极大地提升了程序员的开发效率。 然而这些AI工具给出的建议经常"差了点火候",不完全符合用户预期。 对此团队认为,这实际上暴露了当前代码大模型使用中的两个关键痛点: 这些问题,无疑限制了代码大模型在复杂工业环境,尤其是在ZTE-Code-Copilot (中兴通讯自研的通信领域代码开发助手) 这类专业场景 中的应用潜力。 两个新指标+一套新框架 事实上,开发者们苦恼于AI的"自说自话"久矣。团队认为要解决这个问题,必须回答两个灵魂拷问: ① 何谓高质量的代码补全,能够让开发者愉快地按"Tab"键采纳? ② 如何教会AI"高瞻远瞩",理解整个代码仓库的复杂结构和内在逻辑,而不是只盯着眼前的一亩三分地? 针对上述挑战,团队祭出了两大"法宝": 更贴近用 ...
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
量子位· 2025-06-12 16:16
核心观点 - Meta开源发布V-JEPA 2世界模型,该模型能够像人类一样理解物理世界,具备理解、预测和规划能力,被视为机器人领域的革命性突破[1][5][9] - V-JEPA 2采用自监督学习框架,利用超过100万小时互联网视频和100万图片进行预训练,不依赖语言监督,62小时训练即可生成规划控制模型[10][12] - 模型在运动理解和人类动作预测方面表现优异,在Something-Something v2上达到77.3的top-1准确率,在Epic-Kitchens-100上达到39.7的recall-at-5[23] - 与大型语言模型对齐后,在8B参数规模下多个视频问答任务中展示当前最佳性能,在PerceptionTest上达到84.0,在TempCompass上达到76.9[24][25] - 在新环境中拾取并放置新物体时成功率达到65%-80%[30] 技术架构 - V-JEPA 2采用联合嵌入预测架构(JEPA),包含编码器和预测器两个组件[14] - 编码器接收原始视频并输出捕捉观察世界状态的语义信息的嵌入[15] - 预测器接收视频嵌入及额外上下文,输出预测的嵌入[16] - 训练分为无动作预训练和额外的动作条件训练两个阶段[21] 应用场景 - 下游应用分为三类:理解与预测(行为分类、物体识别、行为预测)、语言对齐(视频问答)、规划(机器人操作)[18] - 短期任务如拾取或放置物体,以图像形式指定目标,通过模型预测控制重新规划并执行最高评分动作[25][26][27][28] - 长期任务如拾取并放置物体,通过视觉子目标实现,类似人类视觉模仿学习[29] 性能表现 - 在运动理解方面,V-JEPA 2 ViT-g384达到77.3 top-1准确率(Something-Something v2)[23] - 在人类动作预测方面,V-JEPA 2 ViT-g384达到39.7 recall-at-5(Epic-Kitchens-100)[23] - 在视频问答任务中,V-JEPA 2 ViT-g384 + Llama 3.1 8B组合达到84.0(PerceptionTest)和76.9(TempCompass)[24][25] 未来发展 - 计划发展分层次JEPA模型,实现跨多个时间尺度的学习、推理和规划[45][46][47] - 探索多模态JEPA模型,整合视觉、音频和触觉等多种感官进行预测[48] 行业影响 - 该技术有望为机器人技术带来新时代,使AI智能体能在现实世界中完成家务和体力任务,且不需要大量机器人训练数据[2] - Meta发布三个新基准测试(IntPhys 2、MVPBench、CausalVQA)评估模型从视频中理解和推理物理世界的能力,当前模型与人类表现(85%-95%)仍有明显差距[32][36][42][43]