量子位

搜索文档
智能交互终于步入真·人机交互时代了,这很讯飞
量子位· 2025-06-13 13:07
白交 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 苹果放鸽子的更新,国产AI率先实现了。 背上一个看起来平平无奇、体积也没什么存在感的包,宇树机器人就声情并茂地开口说话。 社交i人戴上AI眼镜,就可以轻松跟外国人social,看似不经意就加上微信好友;戴着它看展的话,看到不懂的展品还可以不懂装懂一下 (bushi。 你对智能硬件的想象,是不是还停留在"能听懂你说话"的阶段?这种"你说一句、它答一句"的交互,本质上还是命令式的、静态的。场景一变 化,语气一模糊,体验就崩了。 但现在,这些都开始变了。 万物皆可交互,万物皆可互联开始具象化。 你甚至可以让巴斯光年、变形金刚在你面前唱歌跳舞。 手里的一支签字笔、一块贴牌,也可以化身会议神器。 在 科大讯飞最新发布会上,我看到了智能硬件的新范式: 设备不再是限制,产品与服务正在被AI革新 ,交互重构整个硬件产业生态。 AIUI,一站式搞定人机交互开发 正如此次发布会所展现, 一个最大的感知就是 现在智能硬件从基础交互迈向深度智能协作,从而在应用场景里深度赋能。 从技术角度来说,人机交互正在变成一个复杂的系统性工程,而不再是语音识别、模型系统和语音合成的简单组 ...
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 13:07
同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。 来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的 SafeKey 框架,成功在不影响模型核心 能力的前提下,显著增强了其安全稳健性。 SafeKey团队 投稿 量子位 | 公众号 QbitAI 大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的"越 狱"攻击时,往往显得捉襟见肘,泛化能力有限。 发现:大模型信息"越狱"的两大核心 SafeKey团队在探究模型为何会"越狱"成功时,获得了两大核心发现: 1."关键句"现象(The "Key Sentence") 如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。 而紧随其后的 第一个句子 ,往往直接决定了整个回答的"安全调性"。 研究团队将其命名为" 关键句 "(Key Sentence):一个安全的"顿悟时刻"(Aha-moment)能否在此时被触发, ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
KRIS-Bench团队 投稿 量子位 | 公众号 QbitAI 人类在学习新知识时,总是遵循从"记忆事实"到"理解概念"再到"掌握技能"的认知路径。 AI是否也建立了"先记住单词,再理解原理,最后练习应用"的这种知识结构呢? 测评一下就知道了! 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了 KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark)。 首创地 从知识类型的视角 ,对图像编辑模型的推理能力进行系统化、精细化的评测。 借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。 基于认知分层的三大知识范畴 KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从 "物体计数变化"到"化学反应预测 ...
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 10:25
西风 发自 凹非寺 量子位 | 公众号 QbitAI 该测试引来 OpenAI前A GI Readine ss团队负责人Miles Brundage 的转发关注。 OpenAI"最新最强版"推理模型 o3-pro ,实际推理能力到底有多强? 全球 首位全职提 示工程师Riley Go odside 来给它上难度: 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时, 每个单词最后一个字母连起来看,也能对应这首歌名 。 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测, o3只能做对个大概 ,通常只能把最后几个字母凑对。 虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。 PS: 苹果前几天发了个新研究 ,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的"模式匹配",所谓思 考只是一种假象。 除了网友实测外,各大评测榜单已陆续同步更新排名。 总结来看,和官方给的测试结果略有不同。 官方测评中,o3-pro超越o3、o1-pro,成为当前 ...
让机器人学会系统2慢思考,叠衣服倒咖啡等不在话下 | 上海交大&智元机器人
量子位· 2025-06-13 10:25
Hume团队 投稿 量子位 | 公众号 QbitAI 机器人也能慢思考了! 上海交通大学携手智元机器人等团队推出了Hume—— 融合系统2(System-2)慢思考的双系统VLA模型 。通过动作价值 引导的动作采样与双系统级联动作去噪,实现深度推理与实时控制的完美结合。 在涵盖长时序规划、复杂柔性物体操作等多种任务场景的广泛实验中,Hume在多种机器人平台上均展露出了惊艳表现,显 著超越当前的最先进模型。 比如像 折叠短裤 、倒咖啡等操作,Hume加持下机器人也能得心应手。在各种复杂场景中达到了91%的平均成功率。 VLA模型缺失的慢思考能力 视觉-语言-动作(VLA)模型在构建通用机器人策略方面取得了显著进展,OpenVLA、π0、GR00T等最新研究已在不同任 务中展示了较强的适应能力。 然而当前的VLA模型大多依赖于直觉反应模式,即根据当前环境"本能地"预测动作,这使得它们在解决复杂、长时序的决策 任务时表现不佳。 与之相对的是,系统2慢思考已经通过测试时计算大幅提升了大语言模型(LLM)解决复杂逻辑推理问题的能力。但将这种 思考范式应用在需要与物理世界交互的机器人上仍是一个巨大挑战。 首先, 如何让V ...
超越英伟达B200!AMD最强AI芯:1.6倍大内存、大模型推理快30%,奥特曼都来站台
量子位· 2025-06-13 10:25
相比前代的MI300X,MI350系列的 算力提升了4倍,推理速度快了35倍 。 MI350系列也是叫板英伟达B200, 内存是B200的1.6倍,训练推理速度相当或更快 。 并且由于芯片功耗低于英伟达,在MI355X上 每花费1美元,可以比B200多跑40%的tokens 。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI AMD大招逆袭,最强AI芯片号称大模型推理比英伟达B200快30%! CEO苏姿丰与OpenAI奥特曼共同登台发布。 这次AMD发布了 MI350X和MI355X 两款GPU,采用3nm工艺,包含1850亿晶体管,配备HBM3E内存。 同时,AMD还预告明年将会发 MI400 系列,并且奥特曼也来给苏妈站台,透露OpenAI参与了MI400系列的联合研发。 大模型运行更快,MI350系列叫板英伟达 MI350X和MI355X在核心设计上是相同的,二者的区别是针对不同的散热方式设计,前者采用风冷,后者则和B200一样采用了更先进的液 冷。 它们都基于 第四代Instinct架构 (CDNA 4),并配备 288GB的HBM3E内存和8TB每秒的内存带宽 ,这一容量是英伟达GB200 ...
黄仁勋发布量子计算专用CUDA!预言量子计算机几年内应用,但现在还离不开GB200
量子位· 2025-06-12 17:23
克雷西 假装发自 巴黎 量子位 | 公众号 QbitAI "量子计算正在到达一个拐点。" 在GTC巴黎的演讲中,英伟达CEO黄仁勋对量子计算给出了新的论断。 这次,老黄一改此前"实用量子计算机还要20年"的观点,预言量子计算机的实际应用在几年内就能实现。 并且,未来的逻辑量子比特将具备更好的错误纠正能力、更强的鲁棒性、更高的性能、更强的弹性和可扩展性。 所以老黄表示,在未来几年内,量子计算和量子经典计算将能解决一些"有趣"的问题。 老黄预计,在未来几年,或者至少在下一代超级计算机中,每一个都将配备一个QPU(量子处理单元),并与GPU连接。 在这种协同架构中,GPU将承担预处理、控制、计算密集型错误纠正以及后处理等关键任务。 但他真正想说的,是 当前量子计算机开发阶段,还离不开英伟达芯片做模拟计算,特别是GB200 。 演讲中,老黄带来了英伟达最新推出的量子-经典加速超算平台—— CUDA-Q 。 CUDA-Q是英伟达CUDA的扩展,可以在经典计算机上进行模拟量子计算,或者为真·量子计算机提供辅助。 CUDA-Q已在Grace Blackwell上可用,通过英伟达的GB200 NVL72超算,CUDA-Q可以 ...
AI自动写学术综述:10分钟生成6万字,成本不到四块钱
量子位· 2025-06-12 17:23
SurveyForge团队 投稿 量子位 | 公众号 QbitAI 学术综述论文在科学研究中发挥着至关重要的作用,特别是在研究文献快速增长的时代。传统的人工驱动综述写作需要研究者审阅大量文章, 既耗时又难以跟上最新进展。而现有的自动化综述生成方法面临诸多挑战: AI生成的 综述结构 往往缺乏连贯逻辑,组织结构较差,存在宽度和深度的结构失衡问题;在 参考文献 方面,经常无法引用真正相关和有影 响力的文献,容易引用无关文献而忽略核心贡献; 评估方式 主要依赖LLM整体质量评估,缺乏对大纲质量、参考文献相关性等关键方面的细 粒度分析。 在此背景下,上海人工智能实验室联合复旦大学、上海交通大学等多家单位,提出了SurveyForge——一个自动化生成高质量学术综述论文的 创新框架,该研究已被ACL 2025主会议接收。 实验结果显示,SurveyForge在所有关键指标上都实现了显著提升:核心参考文献覆盖率提升了近一倍,大纲质量接近人工撰写水平,内容质 量在多个维度均超越现有方法。 更重要的是,系统生成约64k token的综述仅需不到$0.50(折合3.6元)的成本,整个过程在10分钟内完成。 | Methods ...
AI代码补全哪家强?两个新指标+一套新框架,让模型更懂开发者
量子位· 2025-06-12 16:16
中兴通讯AIM团 队 投稿 量子位 | 公众号 QbitAI 如何让AI代码补全更懂开发者? 中兴通讯团队提出了 两个新的评测指标 ,以及 一套仓库级代码语料处理框架 。 按照团队的说法,这套方法论不仅为评测代码大模型提供了新视角,也为提升模型在真实工业场景中的代码补全性能开辟了新路径。 目前在编写代码时,智能补全工具如GitHub Copilot和Cursor等,极大地提升了程序员的开发效率。 然而这些AI工具给出的建议经常"差了点火候",不完全符合用户预期。 对此团队认为,这实际上暴露了当前代码大模型使用中的两个关键痛点: 这些问题,无疑限制了代码大模型在复杂工业环境,尤其是在ZTE-Code-Copilot (中兴通讯自研的通信领域代码开发助手) 这类专业场景 中的应用潜力。 两个新指标+一套新框架 事实上,开发者们苦恼于AI的"自说自话"久矣。团队认为要解决这个问题,必须回答两个灵魂拷问: ① 何谓高质量的代码补全,能够让开发者愉快地按"Tab"键采纳? ② 如何教会AI"高瞻远瞩",理解整个代码仓库的复杂结构和内在逻辑,而不是只盯着眼前的一亩三分地? 针对上述挑战,团队祭出了两大"法宝": 更贴近用 ...
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
量子位· 2025-06-12 16:16
Meta开源发布 V-JEPA 2 世界模型:一个能像人类一样理解物理世界的AI模型。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 物理学正在走向人工智能—— 图灵奖得主、Meta首席AI科学家 Yann LeCun 亲自出镜宣传,并称: 我们相信世界模型将为机器人技术带来一个新时代,使现实世界中的AI智能体能够在不需要大量机器人训练数据的情况下帮助完成家务 和体力任务。 那什么是世界模型呢? 简单说,就是能够对真实物理世界做出反应的AI模型。 它应该具备以下几种能力: V-JEPA 2 (Meta Video Joint Embedding Predictive Architecture 2 ) 是首个 基于视频训练 的世界模型 (视频是关于世界信息丰富且 易于获取的来源) 。 它提升了动作预测和物理世界建模能力,能够用于 在新环境中进行零样本规划 和 机器人控制 。 理解:世界模型应该能够理解世界的观察,包括识别视频中物体、动作和运动等事物。 预测:一个世界模型应该能够预测世界将如何演变,以及如果智能体采取行动,世界将如何变化。 规划:基于预测能力,世界模型应能用于规划实现给定目标的行动序列。 ...