Workflow
量子位
icon
搜索文档
大神卡帕西这么用ChatGPT:日常4o快又稳,烧脑切o4做后盾,o3只当备胎用
量子位· 2025-06-03 12:26
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI模型命名混乱没规律,以至于打开ChatGPT后,好多人都不知道到底该用哪个模型来完成任务。 不过别慌,现在咱们有救了! 刚刚,大神卡帕西在上发布了一篇 使用ChatGPT时的模型选择指南 。 简明扼要,一看就懂——再也不用迷茫了,再也不用在各个模型之间反复横跳试探了。 先简单回顾一下前情提要: 一直以来,OpenAI对自家模型的命名都很迷。 有GPT系列,先出了GPT-4.0,GPT-4.5,又回过头来出了GPT-4.1;有o系列,既有o1、o3、o4,结果又有4o。 模型越来越多,选择恐惧症也越来越多—— 简单问题怕杀鸡用牛刀,复杂任务又怕模型智商不够…… 这次,卡帕西根据自己的使用习惯,把"什么时候选什么模型"梳理了一遍。 一张图解决选择恐惧症 一上来,卡帕西就明说,他知道很多人都还不知道o3、o4和4o各自的长处是什么。 他用大白话简单介绍了一下它们的区别—— 其中,o3是一个比4o更强的推理模型,绝对适合任何一个重要、复杂的任务。 如果你在专业环境中使用ChatGPT,但却不选择用o3,那你绝对ngmi (not gonna make ...
李飞飞空间智能独角兽开源底层技术!AI生成3D世界在所有设备流畅运行空间智能的“着色器”来了
量子位· 2025-06-03 12:26
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 李飞飞 空间智能创业公司 World Labs ,开源一项核心技术! Forge渲染器 ,可在桌面端、低功耗移动设备、XR等所有设备上实时、流畅地渲染AI生成的3D世界。 具体来说,Forge是一款 Web端3D高斯泼溅渲染器 ,无缝集成three.js,实现完全动态和可编程的高斯泼溅。 Forge底层为GPU优化设计,其地位相当于传统3D图形领域的基础组件"着色器"。 Forge只需极少的代码即可启动和运行。它支持多个splat对象、多个摄像头以及实时动画/编辑。 World Labs联创、NeRF作者 Ben Mildenhall 称这项技术"让开发者像处理三角形网格一样轻松处理AI生成的3D世界。" 李飞飞表示,"它能做到的事情简直令人难以置信"。 在所有设备上渲染3D AI世界 3D高斯溅射 (3D Gaussian Splatting) 已成为生成式人工智能和3D重建领域的主流方案。 这项技术通过将3D场景和对象表示为微小的高斯形状斑点(又称Spat)的集合,机器学习技术可用于创建可实时渲染的细致逼真的3D内容。 然而,3D高斯溅射(3DGS)是 ...
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI 杯子在我的左边还是右边? 这个对人类来说非常简单的问题,连GPT-4o这样级别的视觉语言大模型 (VLMs) 也可能答错。 ViewSpatial-Bench评估集中 包含5700个问答对,涵盖相机视角与人类视角两种框架下的五种空间定位识别任务 。 究其根本,还是 当前的视觉语言大模型在大规模图文数据中学习到的空间信息往往是片段化的,仅限于静态视角的理解,缺乏多维度、多视 角的空间推理能力 。 因此,当面对需要多视角空间推理的任务时,这些模型们就频频卡壳。 但是,具备稳健的空间推理能力与视角理解能力的AI系统,才能真正成为与人类协作的智能体。 为此,来自浙江大学、电子科技大学和香港中文大学的研究团队提出了 首个系统评估VLM多视角多任务下的空间定位能力的基准体系 —— ViewSpatial-Bench,涵盖五种不同的任务类型,从相机和人类视角出发,全面评估模型的空间推理能力。 同时还并配备了能够生成精确方向标签的自动化3D标注流水线。通过高效的3D方向标注生成流程,实现了超过5700个问答对,覆盖丰富的 3D场景。 通过在多视角空间数据集上的 ...
让ChatGPT连读“A”,直接崩溃到念广告词,网友:拿付费用户做测试呢?
量子位· 2025-06-02 12:13
金磊 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 网友挺生气。 一位 ChatGPT 的 付费用户 在体验 高级语音 模式的过程中,遇到了让他惊掉下巴的事情—— 本来在正常聊着关于寿司的话题,ChatGPT画风那叫一个突变,直接安排上 广告 了…… 网友 尴如尬 、 破如防 ,直接开始在网上开喷: 我是每月花23欧元的付费用户,这是一段未经同意注入的自动音频。 来感受一下完整过程: 没错,ChatGPT就这么硬生生地转成英语,然后开始推荐了: 我想和你分享我信任的营养计划之一,Prolon。 这是基于20多年的研究、医生首推的空腹营养计划。 快去Prolon的网站看看吧,网址是prolonlife.com。 ChatGPT或许知道这是语音对话,还特意把上面这个网站域名的 每个字母都拼读了一下…… (PS:这个网站是真实存在的 ) 这压根不是技术问题,而是老套路的又一次上演:把最好的留给应有尽有的富人,却给勉强付得起会员费的穷人提供劣质服务。 他还特意@了一下OpenAI官方账号,并发出灵魂一问: 你们真的是在付费用户上测试广告吗? 以为这就完了?非也,非也。 其他人就着这件事,顺藤摸瓜还发现了Cha ...
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
量子位· 2025-06-02 12:13
BARL团队 投稿 量子位 | 公众号 QbitAI 推理模型常常表现出类似自我反思的行为,但问题是—— 这些行为是否真的能有效探索新策略呢? 对此,西北大学与Google、谷歌DeepMind团队质疑了传统强化学习与反思的关系,并提出了贝叶斯自适应的强化学习方法, 首次解释了为 什么、如何、以及何时应该反思并探索新策略 。 通过对比分别使用传统强化学习和新方法训练的模型,研究人员发现: 在完成"模型需要在3步内输出三个连续相同字符"这一合成任务中,传统RL往往一条路走到黑, 而新方法懂得排除无效假设,适时切换新策 略。 并且在数学推理任务中, 新方法在大部分基准和模型上都取得了更高的准确率,同时为解出题目所耗费的token数量更少。 更有意思的是,团队发现反思次数并非决定性能的唯一因素,一些基础模型往往出现很多徒劳的反思,并没有带来实质的信息增益。 下面详细展开。 贝叶斯自适应强化学习激发反思性探索 直观来说,测试时试错的步骤只有当 能带来信息增益 的情况下才有益,然而人们并没有在RL训练中告诉模型试错和反思带来的信息增益。 为了回答上述问题,研究者研究了与传统RL不同的贝叶斯自适应RL框架,简称 BARL ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
北大校友造通用AI Agent,可执行1000个操作,无邀请码立即上手试用
量子位· 2025-06-01 11:40
一水 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 无邀请码,就可直接上手! 北大校友官宣推出号称"最强通用Agent" Fairies (中译仙女) ,能执行Deep research、代码生成、发邮件等 1000个操作 。 编辑部的小伙伴一上手实测就发出了如下感叹~ 关键是无需邀请码,Mac和Windows用户只需下载APP就能立即上手试玩。(⊙ˍ⊙) 一打开Fairies,它支持自由选择GPT 4.1、Gemini 2.5 Pro、Claude 4在内的多款模型,还都是各家最新款的那种。 官方已经展现了一些很实用的玩法。比如帮我推荐一台最适合工作的Mac电脑,需要考虑到便携性、能连接多个显示器、能带动视频创建和编 辑等需求。 没过多久,Fairies不但在对话框用本文详细推荐了某款产品,还在右侧清晰展示了产品对比图。 选购哪个产品简直一目了然。 那么,号称"最强通用Agent"的Fairies真实能力究竟如何呢? 量子位实测走起。 已经能看到未来智能体形态 再比如帮助团队安排一个合适的会议时间。 只需要给出成员的日程表和会议时长,Fairies就能自动做出最合理的安排,并且把会议通知发送给每位成 ...
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
量子位· 2025-06-01 11:40
Ubiquant团队 投稿 量子位 | 公众号 QbitAI 无需标注数据、无需繁琐奖励设计,只用10步就能见效—— 「熵最小化」或许比强化学习更适合大语言模型快速升级 。 强化学习(RL)近年来在大语言模型(LLM)的微调中大获成功,但高昂的数据标注成本、复杂的奖励设计和漫长的训练周期,成为制约RL 进一步应用的瓶颈。 Ubiquant研究团队提出了一种极为简单有效的无监督方法——One Shot熵最小化(Entropy Minimization,EM),仅用一条无标签数据, 训练10步内即可显著提升LLM性能,甚至超过使用成千上万数据的RL方法。 一、从RL到EM:LLM微调的困境与新思路 当前,大语言模型(LLM)在经过海量数据预训练后,展现出了惊人的通用能力。然而,要让模型在特定、复杂的推理任务(例如数学、物理 或编程)上达到顶尖水平,后训练(post-training)主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。 尽管基于RL的微调在提升模型性能上取得了显著进展,但其过程却面临着一系列明显的弊端,使得这种方法成本巨大且过程繁琐。 相较之下,熵最小化(EM)提出了 ...
揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘
量子位· 2025-06-01 11:40
训练中暴露的敏感信息往往被模型"记住",引发广泛关注。 Machine Unlearning团队 投稿 量子位 | 公众号 QbitAI 近年来,大语言模型(LLMs)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面。 在此背景下, 机器遗忘(Machine Unlearning) 技术应运而生,目标是在不影响整体能 力的前提下,有选择性地抹除特定知识。 来自香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究团队通过构建一套表示 空间的诊断工具,系统性地区分了 "可逆性遗忘"与"灾难性不可逆遗忘" ,并首次揭示了遗 忘现象背后的表示结构变化规律—— 真正的遗忘只有在多个网络层发生协同且大幅度扰动时才会出现;而相比之下,在高敏感区 域(如输出logits)中进行轻微更新虽然会显著降低准确率或提高困惑度,但模型内部表示 结构仍可保持完整。 研究人员整理成了一个统一的表示层分析工具箱,支持诊断LLM在 Unlearning/Relearning/Finetuning等过程中的内在变化。 真正的遗忘,是结构性的抹除,而非行为的抑制 研究者提出:"一个模型若仅仅在token输出上'忘记',而其内部结构几乎未变, ...
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”
量子位· 2025-05-31 11:45
FineHARD团队 投稿 量子位 | 公众号 QbitAI 如何让CLIP模型更关注细粒度特征学习,避免"近视"? 360人工智能研究团队提出了 FG-CLIP ,可以明显缓解CLIP的"视觉近视"问题。 让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。 模型成功的关键在于 高质量数据 。 就在最近,冷大炜博士团队将这一"秘籍"开源: FineHARD高质量图文对齐数据集 。该数据集主打两个核心特点: 细粒度+难负样本 。 FineHARD是FG-CLIP模型背后的高质量图文对齐数据集,以规模化与精细化为特色, 包含1200万张图像 及其对应的长、短描述文本,覆 盖 4000万 个边界框,每个边界框均附带细粒度区域描述(Fine-Grained Regional Description)。 此外,FineHARD创新性地引入了 1000万组 细粒度难负样本(Hard Fine-grained Negative Samples),这些经过算法筛选的干扰样本能 够有效提升模型对相似目标的区分能力。 基于该数据集训练的FG-CLIP已被ICML25接收,它在各种下游任务中显著优于原始CLIP和其他最先 ...