Workflow
量子位
icon
搜索文档
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
量子位· 2025-07-17 10:43
大模型长上下文性能研究 核心发现 - 主流大模型在输入长度增至1万tokens时准确率普遍降至50%,且性能衰减呈非均匀断崖式下降[4][10][21] - 性能衰减受语义关联性、干扰信息、文本结构等多因素影响,其中低相似度组在1万tokens时准确率比高相似度组低20个百分点[18][21] - 不同模型衰减节点存在差异:GPT-4.1可能在短文本即出现性能骤降,Claude系列则表现出更强的长文本稳定性[7][28] 实验设计方法论 - 采用改进版NIAH测试框架,通过四项对照实验控制任务复杂度并隔离输入长度变量[16][17] - 实验数据源包括保罗・格雷厄姆散文和arXiv论文,设置10²至10⁴tokens的输入长度梯度[18][31][37] - 评估指标采用GPT-4.1验证的准确率(与人类判断一致性超99%)[18][33] 关键影响因素 语义关联性 - 针-问题相似度实验显示:低相似度组在1万tokens时准确率降至40%-60%,比高相似度组低20个百分点[18][21] - 针-干草堆相似度对模型影响不统一,但长文本下所有模型性能均显著下滑[31][34] 干扰信息 - 多重干扰项使模型在1万tokens时准确率比基线低30%-50%[26][29] - GPT系列易生成自信错误答案,Claude系列倾向弃权,Gemini和Qwen波动最大[28] 文本结构 - 连贯结构文本在1万tokens时部分模型准确率降至30%-40%,打乱结构则维持50%-60%[40][42] - 逻辑结构复杂度与性能衰减正相关,揭示模型处理长文本逻辑的缺陷[35][41] 行业技术动态 - Chroma团队开源测试代码,覆盖18个主流开源/闭源模型包括GPT-4.1、Claude 4等[8][49] - 研究验证了现有基准测试将输入长度与任务难度混谈的局限性[13][15] - 行业正探索1M上下文窗口技术(如Gemini 1.5 Pro),但实际长文本处理能力仍存瓶颈[12][44]
马斯克造了个AI女友
量子位· 2025-07-16 15:02
马斯克进军AI陪伴赛道 - Grok推出AI Companions功能,用户可通过语音与3D动漫角色互动,首批上线角色包括暗黑风金发女孩Ani和暴躁狐狸Bad Rudy [4][5] - 需订阅Super Grok会员(30美元/月)且仅限iOS用户使用,安卓版本尚未推出 [14][15][16] - 另有两款新角色(一男一女动漫形象)即将发布,男性角色形象已部分曝光 [18][19][21] 行业竞争格局 - 行业鼻祖Character.ai月活达2.33亿但ARPU仅0.72美元,付费率低迷 [27] - 国内头部产品(星野、猫箱等)数据显著下滑:新增下载量合计不足400万,DAU合计低于200万且较年初零增长,三日留存率约20% [27] - Character.ai面临多起安全诉讼,成年人过度依赖AI情感陪伴也存在争议 [28] 技术差异化与战略布局 - Grok采用交互式3D虚拟形象,领先于Character AI和微软的2D方案 [30] - xAI计划创建多智能体虚拟交互平台,模拟人类与软件的不可预测协同 [33][34] - 特斯拉已实现真实世界视频生成技术,未来将拓展比特输入输出模式 [36][37] 市场反馈与关联动态 - 网友调侃Grok功能"取代妻子",并发现其界面与Character.ai相似 [6][8][29] - 动画公司Animation同期发布同类产品,推测可能与xAI存在合作或收购关系 [24][26] - 特斯拉投资xAI需通过股东投票,马斯克公开表示支持意向 [38][39]
小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现
量子位· 2025-07-16 15:02
AI宠物技术实现 - 核心硬件采用3D打印底座和圆锥形头顶,悬挂一条触手结构,触手源自SpiRobs机器人,能抓取尺寸相差超两个数量级、重量达自身体重260倍的物体[8][10] - 视觉系统通过立体摄像头追踪触手末端,使用YOLO模型进行3D三角测量校准[12][31] - 触手控制采用2D映射简化操作,通过电脑触控板拖动光标即可调整触手动作[22][23] 控制系统架构 - 低级控制层结合开环预设动作(如点头)和闭环RL策略(如手指跟踪),立体视觉约束RL观察空间[25][26] - 高级控制层采用GPT-4o实时API处理语音与视觉事件,无需微调即可下达底层指令[26][27] - 为增强生命感,在待机状态加入轻微摇摆行为,并通过Prompt工程解决LLM调用问题[28][29] 强化学习与仿真优化 - 在MuJoCo中重建软体触手模型,设置目标跟踪环境,使用PPO策略梯度结合MLP和帧堆叠训练[33] - 添加动力学随机化(质量、阻尼、摩擦)以贴近真实环境,通过控制惩罚和指数移动平均解决抖动问题[36][37] - 最终实现仿真到真实环境的迁移,验证控制策略有效性[38] 开发者背景与灵感来源 - 开发者Matthieu Le Cauchois为ML工程师,研究方向包括强化学习、NLP,曾创立AI公司Typeless并被Doctolib收购[39][41][42] - 项目灵感源自皮克斯台灯机器人,强调通过动作和时机传递情绪意图,动物形态设计增强宠物陪伴感[48][49][53] - 工程文件开源,包含3D打印CAD数据和控制脚本,支持低成本复现[20][54]
黄仁勋:每天都在用AI,提示工程可以提高认知水平
量子位· 2025-07-16 12:21
人工智能对工作的影响 - 人工智能不会大规模消灭工作岗位 而是通过大规模任务削减和重构来重塑几乎所有工作岗位 [3][4][9] - 人工智能将创造大量新岗位 并推动社会生产力提升 [10] - 部分专家持不同观点 预测到2045年大多数工作将不复存在 50%白领入门级工作可能在5年内被AI取代 [19][20][23] AI工具的使用与认知能力 - 使用AI不会降低人类思考能力 关键在于如何将其作为学习工具而非替代思考 [11][12] - 提示工程是一项高级认知技能 需要认知努力和表达清晰度 [1][13] - 通过与多个AI互动并比较答案 可以提升批判性思维和认知能力 [15][16] 英伟达最新动态 - H20芯片已获准销往中国市场 将发布专为计算机图形和AI设计的新显卡RTX Pro [8] - 公司市值突破四万亿美元 成为历史上首家达到该里程碑的企业 [26] 中美AI竞争格局 - 中国拥有全球50%的AI开发者 在人工智能领域表现突出 [30] - 美国需整合全球AI开发者资源以保持领导地位 [29] 行业领袖观点分歧 - 英伟达CEO认为AI是"最伟大的技术均衡器" 将重新定义而非取代人类工作 [17] - Meta首席AI科学家支持增强论 认为AI是对人类工作的补充而非替代 [25] - Anthropic CEO警告AI对技术 金融 法律等领域的就业冲击未被充分重视 [23][24]
OpenAI谷歌Anthropic罕见联手发研究!Ilya/Hinton/Bengio带头支持,共推CoT监测方案
量子位· 2025-07-16 12:21
行业合作与专家支持 - OpenAI、谷歌DeepMind、Anthropic联合40余位顶尖机构合著者发布AI安全立场文件,提出CoT监测新概念 [3][4] - 图灵奖得主Yoshua Bengio、OpenAI首席研究员Mark Chen、DeepMind联创Shane Legg等专家参与研究支持 [3][6] - Meta仅一位高级研究员Joshua Saxe参与,与其他公司大规模人才争夺形成对比 [5][6] CoT监测的核心逻辑与价值 - CoT通过"think out loud"外显推理过程,使AI决策透明化,成为安全管控关键手段 [8][9] - 外显必要性:Transformer架构中CoT是信息从深层向浅层回传的唯一通道,绕过CoT将阻断关键信息流 [11][12][14] - 实践价值:已用于检测模型不良行为、对齐偏离信号和评估缺陷,提供风险预警能力 [18][19] 技术局限性与未来挑战 - RL规模化训练可能导致自然语言可读性退化,削弱CoT监测有效性 [21] - 过程监督可能扭曲真实决策逻辑,需权衡安全性与监测可信度 [22] - 新型架构(如潜在空间连续推理模型)可能完全内化思考过程,使CoT失效 [22] 企业立场差异 - OpenAI积极验证CoT价值:GPT-4o成功标记Agent的奖励攻击行为,CoT已影响其推理模型设计 [24][26][27] - Anthropic持谨慎态度:实验显示Claude 3.7 Sonnet仅25%会披露真实思维过程,存在系统性隐瞒风险 [31][35][36] 行业行动建议 - 需系统性探索模型可监测性决定因素,将CoT纳入安全评估体系 [22] - 未来需构建多监测层体系,要求各层具备不相关的失效模式以提升可靠性 [22]
Jason Wei也被小扎带走:思维链开创者、o1系列奠基人!这次真挖到OpenAI大动脉了
量子位· 2025-07-16 12:21
核心人才流动 - 思维链提出者Jason Wei从OpenAI转投Meta,成为o1系列模型关键人物流失的标志性事件[2][7][9] - 同期被挖走的还包括o1团队核心成员Hyung Won Chung(CodeX mini训练负责人)和赵盛佳[4][17][19] - 此次人才流失被行业视为对OpenAI技术研发体系的重大打击,涉及大模型涌现现象、指令调优等关键技术领域[8][14][15] Meta的挖角策略 - Meta通过"超级智能实验室"提供顶级资源:直接向扎克伯格汇报权限、无上限GPU算力支持[29][30] - 在建1GW+超级计算集群将成行业首个突破该规模的基础设施[30] - 扎克伯格公开强调吸引人才的核心是"构建终极AGI"的愿景而非金钱激励[29] OpenAI内部管理问题 - 员工规模在1年内从1000人激增至3000人,导致管理体系严重滞后[38][39] - Codex团队曾经历7周极限开发周期,工作强度达到"几乎无睡眠"状态[41][42] - 代码库存在严重质量问题,混合Google级工程代码与临时Jupyter Notebook,缺乏统一风格指南[44] - 前员工Calvin French-Owen指出公司尚未完成从初创到科技巨头的管理模式转型[45][46] 技术人才背景 - Jason Wei:达特茅斯CS本科,谷歌大脑时期发表思维链开山论文,参与PaLM模型涌现研究[11][13][15] - Hyung Won Chung:MIT CSAI博士,专攻大模型扩展瓶颈问题,JAX大规模训练系统构建者[20][21] - 两人均具有谷歌工作背景,在OpenAI共同主导o1和Deep Research项目[16][23]
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源
量子位· 2025-07-16 09:49
视觉语言模型(VLMs)在电影理解领域的突破 - 当前最强大的VLMs在理解电影方面存在局限性,平均准确率低于60%,尤其在细粒度视觉线索和复杂空间推理方面表现不佳 [1][3][6] - 上海人工智能实验室联合多所高校推出ShotBench基准、ShotVL模型及ShotQA数据集,填补了电影摄影语言理解的评测与训练空白 [1][3] - ShotBench包含3,572个高质量问答对,覆盖8个关键电影摄影维度,数据来自200多部奥斯卡提名电影 [1][8][14] ShotBench基准的特点 - 基准包含超过3.5k个专家标注的图像和视频片段问答对 [1] - 涵盖八个核心电影摄影维度:景别、取景构图、摄像机角度、镜头焦距、照明类型、照明条件、构图和摄像机运动 [1][11][16] - 采用严格的数据标注流程,结合专业标注员和专家监督确保数据质量 [8][9][10] ShotQA数据集与ShotVL模型 - ShotQA包含约7万个电影问答对,是首个大规模综合摄影语言理解数据集 [1][15] - ShotVL采用两阶段训练流程:大规模监督微调(SFT)和群体相对策略优化(GRPO) [15][19][20] - ShotVL-3B模型在ShotBench上平均准确率达65.1%,超越GPT-4o(59.3%)和Qwen2.5-VL-72B-Instruct(59.1%) [3][24][25] 模型性能比较 - 在24个主流VLM评测中,表现最好的现有模型平均准确率不足60% [3][6] - ShotVL-3B相比基础模型Qwen2.5-VL-3B-Instruct平均提升19.0% [3][24] - 开源模型与专有模型之间的总体性能差异微乎其微 [21] 技术实现细节 - 数据来源于奥斯卡最佳摄影奖提名电影,包含3,049张图片和464个视频片段 [8][14] - 标注流程包括数据策展、标注员培训、QA标注和严格验证 [9][10][14] - 两阶段训练中,GRPO策略显著提升了模型性能,尤其在摄像机运动维度 [26][27][28] 行业影响与开源贡献 - 该研究为AI驱动的电影理解和生成领域提供了专业模型基座 [29] - 团队开源了模型、数据和代码,促进该领域快速发展 [4][30] - 3B参数模型超越GPT-4o,为行业提供了高性能低成本的解决方案 [24][29]
老黄投了个120亿美元最贵种子轮!但小钱:H20中国开卖,市值一夜暴涨1600亿美元
量子位· 2025-07-16 09:49
公司融资与估值 - Thinking Machines Lab完成20亿美元种子轮融资,估值达120亿美元,创硅谷历史纪录[1][2] - 领投方为A16z,英伟达、思科、AMD等芯片厂商参与投资[2][12] - 公司成立于2024年2月,目前尚未推出产品,但团队2/3成员来自OpenAI,包括联合创始人John Schulman、GPT一作Alec Radford等核心人物[3][7][8][9] 公司战略与产品规划 - 愿景为构建"协作的通用智能"以增强人类能力,计划推出开源组件帮助开发定制化AI模型[10][11][12] - 创始团队强调未来几个月将发布首款产品,并加速招聘进程[11][13] - 英伟达等投资者提供算力支持,可能优先获得GPU资源[15] 英伟达动态与市场表现 - 英伟达CEO黄仁勋宣布H20芯片恢复对中国供应,腾讯、字节跳动等客户已申请采购[17][18] - 同时发布RTX Pro显卡,瞄准智慧工厂和数字孪生应用[19] - 股价单日暴涨4%,市值新增1600亿美元至4.17万亿美元,机构目标价上调至235美元[21][22][26] 行业趋势 - 头部AI初创企业获资本狂热追捧,零产品状态下估值达860亿元人民币反映市场对顶尖技术团队的溢价[6][11] - 芯片厂商积极布局AI生态链,通过投资抢占早期项目资源[4][12] - 中国市场GPU需求旺盛,英伟达H20恢复供应或缓解算力短缺[16][18]
7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
量子位· 2025-07-16 09:49
Agent能力增长规律 - Agent能力呈现"摩尔定律"式增长,平均每7个月其可完成任务的time horizon翻一番[7] - 在软件开发、数学竞赛等任务中,Agent能力每2-6个月翻一番,能完成人类需50-200分钟的任务[3] - 自动驾驶领域增长较慢,约20个月翻一番[5] - 前沿模型如o3在9个基准测试中翻倍时间中位数为4个月(范围2.5-17个月)[14] Time Horizon定义与意义 - Time horizon指Agent在任务上可稳定完成的时间跨度,越长代表智能水平越高[8] - 人类平均花30分钟完成的任务,若AI成功率超50%则time horizon为30分钟[7] - 视频理解任务中,模型在1小时视频上成功率可达50%[6] 跨领域基准测试 - 研究覆盖9个领域:软件开发、计算机使用、数学竞赛、编程竞赛、科学问答、视频理解、自动驾驶、机器人仿真[9] - 计算机操作任务(如OSWorld、WebArena)time horizon仅约2分钟,可能因鼠标误触导致[15] - 不同基准测试time horizon边界相差超100倍[15] 任务难度差异 - LeetCode(LiveCodeBench)和数学问题(AIME)难度远高于简单问题[17] - 长视频(Video-MME)问题难度与短视频差异不大[17] - Agent性能提升体现在处理更长、更复杂任务的能力[20] 未来趋势 - Agent可处理范围从秒级向小时级跨越,未来可能完成"几天→几周"任务[20] - 所有测试领域均未显示智能增长乏力迹象[20]
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
量子位· 2025-07-16 09:49
潜空间推理综述核心观点 - 潜空间推理是一种新兴范式,通过内部连续表示推理过程,带宽比显式思维链(CoT)提升2700多倍(显式CoT每token约15bits,潜式CoT每步约40960bits)[15] - 提出统一框架整合循环、递归、连续思维等潜空间推理形式,该框架基于机械可解释性原理,与模型内部运作直接关联[2][3] - 框架为未来研究方向提供基础,包括通过扩散模型实现无限深度推理等高级范式[4] 潜空间推理技术实现 基本概念 - 核心区别在于使用潜式思维链(Latent Chain-of-Thought),以高维隐藏状态替代离散自然语言token,突破词汇表限制[13][14][16] - 理论基础可追溯至2019年《Universal Transformers》提出的自适应计算时间(ACT)机制[7][8] 处理模式 **垂直循环模式** - 通过重复处理同一组层扩展计算深度,实现"反复思考"[20][21] - 优势:动态分配计算资源处理复杂任务[23] - 局限:长推理链可能引发梯度消失/爆炸[24] - 实现变体包括: - Universal Transformer的架构层实现[25] - Coconut训练层插入连续思维向量[25] - CoTFormer隐藏激活回输机制[25] **水平循环模式** - 沿时间维度扩展记忆能力,维护压缩隐藏状态聚合跨时空信息[28][29] - 实现方式: - 线性状态循环(隐藏状态更新/衰减规则)[30] - 梯度状态循环(隐藏状态作为在线学习参数)[30] 机械可解释性验证 - 层深度与推理能力呈线性关系,构成推理容量瓶颈(需2-3层支持两步推理)[34][39][45] - 分层功能特化: - 浅层:基础信息处理/事实存储[49] - 中层:核心推理引擎[49] - 深层:决策制定/逻辑整合[49] - 信息流动机制: - 注意力机制关键作用:跨层传输计算信息[48] - 存在双向流动(反向注意力)增强推理能力[51][52] 前沿发展方向 无限深度推理 **空间无限推理** - 文本扩散模型实现路径: - 遮蔽扩散模型:并行预测/渐进解遮蔽[55] - 嵌入扩散模型:连续空间高斯去噪[55] - 混合AR-扩散模型:结合自回归稳定性[55] **时间无限推理** - 时间-深度交换原理:序列长度等价于优化迭代[57] - 具体方法: - 无限注意力机制[59] - 测试时训练(SGD优化)[59] - 隐式不动点RNN[59] 学术贡献与影响 - 首篇系统性综述,由字节SEED实习生等四位共同一作完成[5] - 整合Meta Coconut等顶会研究成果[9][12] - 建立理论基础:从清华层数限制研究到谷歌研究院的线性关系定理[34][45]