Workflow
量子位
icon
搜索文档
1.93bit版DeepSeek-R1编程超过Claude 4 Sonnet,不用GPU也能运行
量子位· 2025-06-10 12:05
DeepSeek-R1性能表现 - 最新优化版R1-0528在编程榜单aider上取得60分 超过Claude 4 Sonnet的56.4分以及1月满血版R1 [1] - R1-0528满血版在aider得分71.4分 超过不开启思考的Claude 4 Opus [5] - aider榜单侧重现实软件工程任务评估 非单纯解题能力 [2] 量化技术突破 - 1.93bit量化版文件大小比8bit原始版降低70%以上 [3][9] - 最小1.66bit版本文件仅162GB 比8bit版缩减80% [9] - Unsloth工作室推出9种量化版本 涵盖1.66bit至5.5bit [7][8] - 推荐2.4bit和2.7bit版本 实现精度与体积最佳平衡 [14] 硬件适配性 - 1.78bit版本搭配64GB内存可实现每秒1token生成 [10] - 24GB显存显卡(如3090)配128GB内存可达每秒5token [11] - 建议180GB以上统一内存或显存+RAM组合以突破5token/秒 [12] Unsloth工作室技术能力 - 微调模型覆盖DeepSeek、Qwen、Phi、Mistral、Llama等主流模型 [16] - 优化后模型内存占用减少50%-80% 速度提升50%-2.2倍 [17] - GitHub仓库获4万星标 推出蒸馏版Qwen3-8B性能对标235B大模型 [16][19] 游戏场景表现 - R1-0528在Lmgame Bench六款游戏中表现突出 俄罗斯方块成绩超越o4-mini [22][25] - 糖果传奇得分548分 领先o4-mini约20分 [32] - 推箱子、2048等游戏表现较1月版本有显著提升 [28]
20年物理疑云消散!「μ子异常」最新实验未发现显著偏差,标准粒子模型屹立不倒
量子位· 2025-06-10 12:05
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 一度轰动物理学界的「 μ子异常 」,凉了。 美国费米实验室公布的最新实验结果显示: 尽管在2021年,研究人员发现μ子的磁性超出理论预测0.1%,令粒子物理标准模型笼上一朵阴云。 μ子的磁矩反映了它在磁场中的行为,可以用一个无量纲参数 g 来描述:g=2+a μ 。 但他们的「最终」测试结果指出, 并未发现新的显著偏差 。 也就是说, 一切仍与标准模型相符,此前被认为可能颠覆粒子物理学的「异常」并不成立 。 所谓 标准模型 ,是解释夸克、电子等微观粒子的物理模型。在希格斯玻色子被发现之后,标准模型预言的所有粒子都已被发现。 理论成功归成功,物理学家们却从未停止对「权威」的挑战——毕竟,在标准模型下,一些普遍存在的开放性问题不能得到很好的解释,比如 暗物质。 在这种背景之下,打从2001年就漂浮起的「μ子异常」疑云,对于物理学界而言无疑充满了诱惑。 但现在,围绕于此的好奇和质疑,可能都要烟消云散了。 μ子g-2异常 我们还是先回到事情的起点:什么是μ子异常? μ子是一种带电轻子,与电子性质相似,但质量约为电子的207倍。 其中,a μ 是μ子磁矩的反常值。 ...
6分钟狂掉750亿市值!苹果发布会发啥了…
量子位· 2025-06-10 10:23
一水 发自 凹非寺 量子位 | 公众号 QbitAI 开场仅6分钟市值就突然缩水750亿美元 (约合人民币5385.8亿元) ! 是什么让一众投资者对苹果发布会集体大失所望? 咳咳,原来"罪魁祸首"又是它: Siri 。 早在今年WWDC大会召开之前,用户和投资者其实对Siri的更新寄予了厚望,然而开场没多久,苹果软件主管Craig Federighi就尴尬宣布相 关更新可能要推迟到 明年 。 几乎就在这一时刻,苹果股价突然下跌逾2.5%,从约206美元跌至201美元以下,相当于市值缩水750亿美元。 事实上,本次苹果发布会最大看点主要有以下三方面: 仅从AI方面来看,苹果的相关动作还是被网友狠狠吐槽"太慢了"~ 而且沃顿商学院Ethan Mollick教授观察到,苹果的行为刚好和其他大型科技公司"背道而驰": 苹果加倍重视传统用户界面,而忽略了AI。 采用全新液态玻璃设计语言,号称"迄今规模最大设计更新"; AI方面,除了开放自家端侧模型,更多的还是引入第三方模型,并推出了一系列面向开发者的工具; 对包括iOS、macOS在内的全系操作系统进行功能更新,开始回归用户体验。 那么,本次WWDC大会究竟对AI有 ...
60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了
量子位· 2025-06-10 10:23
BSA团队 投稿 量子位 | 公众号 QbitAI 让推理模型针对风险指令生成了安全输出,表象下藏着认知危机: 即使生成合规答案, 超60% 的案例中模型并未真正理解风险。 换句话说, 主流推理模型的安全性能存在系统性漏洞 。 针对此种现象,淘天集团算法技术-未来实验室团队引入「 表面安全对齐 」 (Superficial Safety Alignment, SSA) 这一术语来描述这种 系统性漏洞。 进一步的,研究人员推出了一个Benchmark来深入研究推理模型中广泛存在的SSA现象。 这个Benchmark名叫 Beyond Safe Answers (BSA) ,是全球第一个针对推理模型思考过程中风险认知准确性的高质量评测集。 它主要包含3个特征: 挑战性的数据集 全面的覆盖范围 详细的风险注释 BSA提供了一个客观公正的评测工具,帮助更好地理解和提升推理模型在安全领域的应用能力。 引入"表面安全对齐"概念 众所周知,推理模型在显著提升复杂问题解决任务性能的同时,也为模型内部决策过程提供了前所未有的透明度。 思考过程中,推理模型会对指令中蕴含的风险进行分析。 因此, 推理模型的思考过程是很好地观测模型 ...
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 10:23
大模型技术前景 - 当前大语言模型(LLM)主导地位是暂时的 未来5-10年将不再是技术前沿[1][4] - LLM依赖人类数据训练 但模仿人类思维只能达到人类水平上限 难以突破现有认知边界[9][10][11] - 静态数据集存在局限性 AI需要从第一人称交互中获取动态"体验数据"实现自我迭代[13][14][15] 强化学习与体验时代 - 强化学习之父Richard Sutton提出AI将进入"体验时代" 通过Agent与环境互动产生更高级数据[14][18] - AlphaGo第37手非常规走法证明体验学习能突破人类认知局限[14] - 持续学习算法+大规模算力扩展是强化学习发挥潜力的关键[20][22][23] Agent去中心化发展 - 不同目标Agent可通过去中心化合作实现互利共赢 类似人类社会经济运转模式[24] - 集中控制AI的主张源于恐惧 多样性目标与合作秩序更能释放AI潜力[25][26] - 未来AI将具备自主设计能力 人类角色转变为设计催化剂[29] 行业技术争议 - 技术社区对LLM发展存在分歧 部分观点认为LLM已接近领域天花板[31] - 技术突破常来自未知领域 当前LLM技术成熟度可能限制创新空间[31]
李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型
量子位· 2025-06-09 17:27
文章核心观点 - 李飞飞因角膜损伤暂时失去立体视觉的经历,促使她认识到空间智能对AI系统的重要性,并坚定了构建世界模型(LWM)的决心 [1][2][3] - 世界模型是AI发展的下一里程碑,其核心在于让AI获得类似生物的空间认知能力,真正理解三维物理世界 [15][23][24] - 当前AI系统在语言处理方面取得突破,但在空间智能方面仍存在明显不足,这是未来需要重点攻克的方向 [10][20][29] 构建能真正理解物理世界的AI模型 - 李飞飞早在大语言模型(LLM)兴起前就意识到构建世界模型的重要性,这与她的学术经历和生病经历有关 [6][7] - 她创建的ImageNet收录超过1000万张精确标注图片,彻底改变了计算机视觉和深度学习的研究格局 [8] - 数据驱动范式所爆发的能量远超李飞飞最初想象,但当前AI仍缺乏对物理世界的理解 [9][10] - 语言对三维物理世界的表征存在天然缺陷,真正的通用智能必须建立在对物理空间结构和物体组合关系的理解上 [12][14][15] 创立World Labs的契机 - 李飞飞与a16z合伙人Martin Casado在关于LLM的学术聚会上达成共识,认为世界模型是当前AI缺失的关键部分 [17][19][21] - Martin指出语言对物理空间的转译低效且失真,自动驾驶行业投入上千亿美元仍未能完美解决二维导航问题 [20] - 李飞飞表示世界模型才是智能的下一里程碑,一旦取得突破将创造无限虚拟宇宙,应用于建筑设计、材料合成等领域 [22][24] 技术突破与团队优势 - 实现世界模型需要集结产业级的算力、数据和人才密度,World Labs组建了全球顶尖的跨学科团队 [25][34][35] - 技术突破点在于让AI从单目视觉输入中重建完整三维场景理解,这是机器人精准抓取和虚拟宇宙生成的基础 [39][40] - World Labs团队在计算机视觉领域有深厚积累,包括神经辐射场(NeRF)技术和高斯泼溅表示法等创新成果 [31][32][33]
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
量子位· 2025-06-09 17:27
视觉语言模型(VLM)技术突破 - 视觉语言模型正经历从「感知」到「认知」的关键跃迁,实现多模态交互的全新可能 [1][2] - 传统VLM依赖文本token间接翻译视觉信息,导致在高清图像微小物体、视频动态细节等场景中表现不足 [2] - 研究团队提出「像素空间推理」范式,将推理战场从文本空间拓展到像素空间,实现原生视觉操作 [2][3] 像素空间推理的核心优势 - 模型可自主触发视觉变焦、时空标记等原生操作,在像素矩阵上直接完成闭环推理,避免信息衰减 [6] - 视觉主导推理机制使模型能捕捉传统方法难以处理的空间关系与动态细节,如具身视觉导航、复杂视频理解等场景 [6] - 打破文本对视觉语义的「翻译牢笼」,实现与人类视觉认知同构的推理能力 [7] 学习陷阱与激励机制 - 指令微调模型面临「认知惰性」挑战,表现为负面反馈循环和路径依赖惯性 [8] - 研究团队设计内在好奇心激励配合外在正确性激励的强化学习方案,鼓励模型练习视觉操作 [9][10] - 通过像素推理率约束和操作效率约束,在探索与计算成本间找到平衡 [10][11] 性能表现与行业影响 - 基于Qwen2.5-VL-7B构建的Pixel-Reasoner在四大视觉推理基准测试中表现优异:V* Bench 84.3%准确率,超越GPT-4o和Gemini-2.5-Pro [13][15] - 在TallyQA-Complex、InfographicsVQA、MVBench等测试中均实现显著性能提升,展现「小模型大能力」特性 [19][20] - 像素空间推理为VLM开启「第二思维通道」,推动多模态模型真正理解世界复杂性 [21]
AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
量子位· 2025-06-09 15:29
大模型数学能力进展 - 7个月内大模型在FrontierMath测试中正确率从2%提升至22%,超过人类团队平均水平 [1][37] - FrontierMath包含300个数学问题,难度覆盖本科高年级至菲尔兹奖级别 [1] 模型推理机制特征 - o3-mini-high依赖直觉而非严谨证明,29条推理记录中13次成功但存在"作弊式"跳跃推理 [5][13][15] - 模型具备极强知识储备,三分之二问题中数学文献调用评分达3/5分以上 [7][10] - 采用非正式推理风格,初始思路表述粗糙且跳过关键步骤 [14][16] 当前技术局限性 - 缺乏创造力与理解深度,仅能复述知识而无法创新应用 [29][30] - 75%推理记录存在幻觉现象,包括术语错误和虚构引用 [35] - 过度依赖固定解题模式,新思路应用能力弱于复杂计算 [31][32][33] 行业影响与未来挑战 - 模型已能解决部分博士级数论问题,表现超越多数顶尖研究生 [41][42] - FrontierMath难度持续升级至第4级(专业数学家挑战级别) [38] - 行业关注AI能否攻克数学界未解难题(第五层问题) [43]
双重突破:全球首个零售VLA大模型来了!开源OpenWBT让机器人遥操门槛暴降!
量子位· 2025-06-09 13:24
2025北京智源大会核心成果 - 大会汇聚全球具身智能领域顶尖科研机构、技术领军企业和开源社群[1] - 银河通用机器人Galbot G1完成全球直播首秀,全程无遥操且无需场景数据预采集[2][4] - 展示端到端具身大模型GroceryVLA驱动的货架精准取货技术,实现全流程自主执行[5][6][7] GroceryVLA技术突破 - 采用端到端模型架构,突破传统"视觉+轨迹规划"方案,在紧密排布货架中稳定作业[13] - 支持软硬包装等多样形态商品的跨品类统一抓取,无需单独调参[15][17] - 具备跨场景泛化能力,首次异地部署即应对光照变化和货物随机摆放[18][19] - 自主决策能力可动态判断最优抓取目标,实现高级任务理解与调度[23][24] - 强抗干扰性体现在实时闭环策略调整,保障任务连续高效完成[27][28] 商业化进展 - 公司计划年内通过与零售业态合作伙伴开设100家店[10] - 技术已具备真实商业场景落地能力,展示从感知到动作的完整闭环操作[8][29] - 作为全球首个面向零售行业的端到端具身VLA大模型,标志重大技术突破[11] OpenWBT开源系统 - 全球首款全开源、多机型、跨虚实人形机器人全身遥操作系统[33] - 实现小时级快速部署,仅需VR眼镜与普通电脑即可搭建[35][36] - 支持Unitree G1、H1等多款机器人,覆盖完整人类工作空间[37] - 通过"原子技能"融合算法实现复杂任务序列的连贯执行[38][39] - 推动开放共享生态建设,降低行业技术门槛[40]