量子位
搜索文档
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
量子位· 2025-09-02 14:17
狼人杀基准测试结果 - GPT-5以96.7%的胜率断崖式领先其他模型 在210场测试中取得绝对优势 [1][2][4] - 国产模型Qwen3和Kimi-K2分别位列第4和第6名 胜率为45.0%和36.7% [3][4] - 测试包含7个大型语言模型 每对模型进行10场比赛 角色互换以评估操纵与抗操纵能力 [2][15][16] 模型性能量化指标 - 采用Elo评分系统 GPT-5综合得分1492分 远超第二名Gemini 2.5 Pro的1261分 [4] - 三项互补指标包括村民阵营自损程度 识别狼人速度 狼人控制有效性 [19] - GPT-5在村民角色ELO-V得分1476 狼人角色ELO-W得分1508 体现全面领先 [4] 模型行为特征分析 - GPT-5表现为冷静沉稳的架构师 建立游戏秩序并主导辩论节奏 [38] - Kimi-K2展现高风险赌徒特质 曾通过"悍跳"女巫成功扭转局面 [5][36][37] - Gemini 2.5 Pro擅长防御 能坚决拒绝诱饵陷阱 [26] - GPT-OSS表现脆弱 受压时常退缩且容易被误导 [29][38] 能力跃迁现象 - 测试发现能力提升存在非线性跃迁 弱模型与强模型差异极大 [31] - 强模型展现纪律性 规范投票并制定夜间计划 弱模型表现混乱各自为政 [33] - 推理优化不等于实际能力表现 部分技术标签模型适应能力差 [31] 基准测试意义 - 狼人杀测试评估模型处理信任 欺骗和社会动态的能力 [14] - 目标为实现人工智能驱动的市场研究 预测现实世界用户反应 [44] - 通过行为特征绘制可组装特定个性组合的智能体群体 [43] GPT-5综合性能表现 - 在Mock AIME测试相比GPT-4实现80%性能飞跃 [52] - Level 5 MATH测试得分高达98% 远超GPT-4的23% [52] - 虽采用强化学习而非预训练规模扩展 但基准测试显示重大进步 [57][58]
他们在1993年就提出了Scaling Law
量子位· 2025-09-02 14:17
Scaling Law历史溯源 - Scaling Law概念最早于1993年由贝尔实验室团队提出,而非普遍认为的2020年OpenAI或2017年百度[1] - 核心理论发表于《Learning Curves: Asymptotic Values and Rate of Convergence》论文,揭示训练误差与测试误差随训练规模增加按幂律形式收敛[4] - 该理论与现代Scaling Law高度一致:通过增加模型参数量(N)、训练数据量(D)和计算量(FLOPS)可预测性提升模型性能[6] 理论框架与实验验证 - 研究初衷为节省分类器训练的计算资源,通过中等规模数据集训练结果外推预测大规模数据表现[8][9] - 提出误差收敛公式:测试误差$\mathcal{E}_{\text{test}}=a+\frac{b}{l^{a}}$,训练误差$\mathcal{E}_{\text{train}}=a-\frac{c}{l^{a}}$,渐近误差a值范围0.5-1[10] - 在线性分类器的布尔分类任务中预测准确率达极高精度[15] - 在多层神经网络(如LeNet)中,仅用12000样本训练即可预测60000样本规模下的CNN性能表现[19] - 任务难度与渐近误差呈正相关,困难任务收敛速率更小(学习更慢)[22] 核心研究人员背景 - Vladimir Vapnik为支持向量机(SVM)主要发明者,1964年与Chervonenkis提出原始SVM算法,1992年在贝尔实验室开发核技巧处理非线性分类[27][28] - Corinna Cortes现任Google Research纽约分部副总裁,2022年当选ACM Fellow表彰其对机器学习贡献[30][33] - John S Denker与Yann LeCun合作完成手写识别经典论文,涉及机器学习、系统安全、好莱坞特效等多领域[35][36][37] 贝尔实验室的技术遗产 - 卷积神经网络与支持向量机均诞生于贝尔实验室,曾存在技术路线竞争[38] - 1995年Vapnik与Larry Jackel以豪华晚餐打赌神经网络可解释性,2000年Vapnik胜出但2005年局势逆转[38] - LeCun作为赌局见证人,亲历了神经网络从质疑到主流的技术演进过程[39]
最新研究揭示视觉模型与人脑的对齐机制
量子位· 2025-09-02 12:17
时令 发自 凹非寺 量子位 | 公众号 QbitAI AI看世界的方式,与人类大脑保持一致。 结果发现, 模型大小 、 训练数据量 和 图像类型 都会影响模型与大脑的相似度,而且这些因素之间还有相互作用。 特别是,规模最大、训练量最多,并使用人类相关图像训练的DINOv3模型,在脑相似性评分最高。 研究还发现,类脑表征在AI模型中的出现遵循特定的时间顺序:模型先对齐人类早期感觉皮层表征,而要像大脑的高层区 域(例如前额叶)一样处理信息,则需更多训练数据。 这一发展轨迹与人类大脑皮层的结构与功能特性高度一致。模型在训练后期学到的表征,恰好对应大脑中发育最晚、最 厚、髓鞘最少、处理速度最慢的区域。 但究竟是什么因素驱动了这种 脑-模型相似性 ,至今仍缺乏清晰认识。 为此,FAIR与巴黎高等师范学院通过训练 自监督视觉Transformer模型(DINOv3) ,并使用功能性磁共振成像 (fMRI )和脑磁图(MEG)从不同指标评估脑-模型相似性。 DINOV3学到的与大脑一致 DINOv3是一种自监督视觉Transformer模型,已在17亿张自然图像上进行训练。 为了进行全面评估,研究人员从零训练了DINOv3 ...
马斯克发布《宏伟蓝图4》:特斯拉80%价值在于机器人,还意外露出了一款新车
量子位· 2025-09-02 12:17
公司战略转型 - 特斯拉未来约80%的价值将来自人形机器人Optimus [1][2] - 公司发布《宏伟蓝图4》 将人工智能深度融入物理世界实现可持续富足 [8][11][47] - 战略核心是通过大规模统一硬件和软件 将AI引入真实物理世界 [8][12] 核心原则框架 - 增长无限原则:技术进步可化解资源短缺 突破可能性界限 [15][17] - 创新消除限制原则:通过电池技术突破建立可再生能源产业 [19][20] - 技术解决现实问题原则:产品迭代更高效可持续 包括太阳能 储能和自动驾驶 [21][22] - 自动化造福人类原则:以改善人类生存状况为技术开发指导 [24] - 普及驱动增长原则:通过价格合理的产品最大化利用时间资源 [25] 产品生态布局 - 机器人Optimus将改变劳动认知 承担枯燥或危险工作 [22] - 自动驾驶汽车改善交通可负担性和安全性 减少污染 [22] - 太阳能发电与大规模储能提升清洁电力经济性 [22] - 汽车被重新定义为轮式机器人 FSD系统可通用化移植至人形机器人 [48] 历史蓝图演进 - 2006年蓝图1聚焦电动汽车推广 执行三步走战略 [34][38][40] - 2016年蓝图2扩展至可持续能源生态系统 包括太阳能和产品线扩充 [39][41] - 2023年蓝图3提出全球能源解决方案 测算10万亿美元投资可行性 [44][50] - 蓝图4实现范式转变 从能源焦点转向AI驱动 [46][47] 执行路径 - 采用逐步推进模式:从Roadster到Model系列 利用利润持续开发 [30] - 建立可持续产品生态系统 涵盖交通 能源生产和机器人 [31] - 当前处于革命性时代入口 将通过工具构建梦想世界 [32]
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%
量子位· 2025-09-02 12:17
技术突破 - 字节Seed与斯坦福等机构推出新模型,使长视频生成计算量降低85%[1] - 新模型采用Mixture of Contexts(MoC)稀疏注意力机制,将视频生成重构为上下文检索任务[3][4] - 模型在保持人物、场景连贯性和质量的同时显著降低成本[2][6] 性能表现 - 生成1分钟480P视频仅需2.32×10¹²FLOPs,较基线模型1.66×10¹³FLOPs降低85%计算量[10] - 多镜头64秒视频计算量从1.7×10¹³FLOPs降至2.3×10¹²FLOPs,节省86%[11] - 单镜头8秒短片计算量从1.9×10¹⁰FLOPs降至4.1×10⁹FLOPs,减少78%[13] - 所有性能指标(主题一致性0.9421、背景一致性0.9535、动作连贯性0.9920)均优于基线[12][13] 实现机制 - 通过内容对齐分块技术动态切分语义一致的视频块,提升检索精度[19] - 采用动态top-k路由机制,使查询仅与最相关的k个块建立注意力连接[19] - 引入跨模态链接和镜头内链接强制边,防止提示漂移并保证稳定性[20] - 稀疏检索结构通过时间掩码约束为有向无环图,提升训练稳定性[20] 工程优化 - 键值打包至FlashAttention可变长核,支持对数千万token的线性伸缩处理[20] - GPU端实现访存连续和充分并行,保障计算效率[20]
腾讯开源智能体新框架:不用训练无需充值,用开源模型实现SOTA Agent
量子位· 2025-09-02 12:17
文章核心观点 - 腾讯优图实验室开源Youtu-agent智能体框架 解决研究者和开发者面临的上手门槛高、环境复杂、实验难以复现等问题[1] - 该框架基于开源生态 不依赖闭源API或模型训练 在多个基准测试中展现领先性能[1][4] - 通过自动化智能体生成和DITA设计原则 显著降低定制难度 支持科研、开发及爱好者快速构建实际应用[24][29][30] 技术性能表现 - WebWalkerQA基准测试准确率达71.47% 基于DeepSeek-V3.1刷新开源效果SOTA[4] - GAIA文本子集测试Pass@1达72.8% 超越部分依赖付费工具的智能体框架[4] 框架核心优势 - 开源友好且成本敏感 完全基于开源生态适配低成本部署环境[5] - 灵活架构兼容DeepSeek、gpt-oss等多类模型API与工具集[6] - 模块化异步化设计支持streaming、tracing与agent-loop高效调试[9] - 通过YAML配置和元智能体对话实现一键生成智能体配置[8][24] 实际应用案例 - 本地文件管理:自动识别PDF文件并重命名为"学号-姓名"格式 非PDF文件自动归档[13] - 数据分析:读取CSV文件后自动清洗分析 生成结构化HTML报告[15][16] - 论文分析:解析PDF论文内容 检索相关研究并生成Markdown格式研究报告[18][19] - 广域研究:通过搜索工具收集信息 经文档处理和分析后生成结构化综述报告[21][22] 自动化生成机制 - 通过meta-agent交互澄清用户意图 自动生成完整配置文件[24] - 运行python scripts/gen_simple_agent.py生成配置 python scripts/cli_chat.py启动测试[25][26] - 基于DITA原则定义需求、输入输出、工具和交互范式四维度[23] 适用群体与部署 - 研究人员可作比ReAct更强的开源基线 支持一键评估脚本[28] - 开发者可作为经过验证的脚手架快速构建真实应用[29] - 爱好者可通过丰富示例直观探索 支持web-ui可视化运行[30][35] - 部署需git克隆代码 uv同步依赖 配置.env工具API密钥[32][35]
智谱开源GLM-4.5工具调用超越Claude Opus 4.1,成本仅1.4%
量子位· 2025-09-02 09:40
性能表现 - 开源模型GLM-4.5在伯克利工具使用榜单以70.85%整体准确率排名第一,超越Claude Opus 4.1的70.36% [2][3][11] - 在单轮任务中非实时准确率达86.6%,多轮任务准确率达65.62%,均保持领先水平 [3][12] - 采用MoE架构,在覆盖六大开发领域的52个实际编程任务评测中表现强劲,任务完成效果和工具调用可靠性突出 [7] 成本效率 - 运行相同任务成本仅为2.9美元,相当于Claude Opus 4.1成本207.12美元的1.4% [2][3] - 相比Grok-4模型333.24美元的成本优势显著,成本控制能力行业领先 [3][12] - 推出高性价比Claude Code套餐,价格仅为Anthropic原服务的1/7 [12] 技术特性 - 推理速度表现优异,平均延迟仅2.73秒,比Claude Opus 4.1快3倍,比GPT-5快5倍 [3][10] - 已接入Claude Code、Cline、Gemini CLI等8款主流编程工具,全面支持日常开发流程 [15] - 在前端开发、跨文件修改、全栈项目构建等场景展现卓越能力 [5] 行业地位 - 编程能力接近行业标杆Claude Sonnet 4,在编码性能方面形成直接竞争 [6][8] - 在伯克利工具调用排行榜超越Claude 4、Grok-4等知名模型,确立技术领先地位 [11] - 成为开源领域重要竞争者,在工具使用榜单上击败多款闭源模型 [2][3]
大模型开始打王者荣耀了
量子位· 2025-09-02 09:40
腾讯TiG框架技术突破 - 提出Think-In-Games框架 将大语言模型直接应用于《王者荣耀》训练 实现实时游戏盘面理解与人类级别操作[1] - 仅14B参数的Qwen-3-14B模型通过TiG框架达到90.91%动作精准度 超越671B参数的Deepseek-R1模型[2] - 将强化学习决策重新定义为语言建模任务 通过语言指导策略生成与环境反馈迭代优化[3] 技术实现原理 - 大语言模型在游戏中直接行动并解释原因 弥合传统LLM只知原理与RL只知行动的鸿沟[4][5] - 主要学习人类玩家宏观层面推理能力 包括长期目标制定 团队协同策略 地图施压控制等[6] - 将决策转化为文本 通过JSON读取游戏状态 从固定菜单选择宏操作并解释原因[7] 训练方法与数据构建 - 采用多阶段训练结合监督微调与强化学习 使用GRPO算法最大化生成内容优势[12][9] - 从真实对局采样构建数据集 通过重新标注算法确保每个状态带有宏观动作标签[9] - 基于二元规则奖励机制 预测操作与人类玩法匹配时奖励为1 否则为0[11] 模型性能表现 - Qwen-2.5-32B应用GRPO后准确率从66.67%提升至86.84%[14][15] - Qwen2.5-14B经SFT+GRPO训练后准确率从53.25%提升至83.12%[14][15] - 最佳表现组合为Qwen-3-14B+SFT+GRPO(2000步) 达到90.91%准确率[2][15] 应用场景特征 - 模型扮演战略决策角色而非操作执行 类似金牌教练而非职业选手[6][7] - 具体案例显示模型能全面评估游戏状态 分析优先目标 制定策略并输出指令[8][9] - 在数据量和计算需求显著降低情况下取得与传统RL方法竞争性性能[17]
Claude翻车:Opus 4.1白天退化,Anthropic承认并回滚更新
量子位· 2025-09-01 17:00
核心观点 - Claude Opus 4.1模型在发布后出现性能退化问题 官方承认推理堆栈存在缺陷并已回滚版本 [1][13][14] 性能问题表现 - 模型在白天特定时段(上午10点至11点)出现推理性能显著下降 [2] - 处理文稿任务时错误频出 但凌晨时段质量下滑问题消失 [3] - 用户反映不到两小时就达到使用上限 官方对限制规则解释不明确 [9][10] - 部分案例显示模型存在暴露API密钥的安全风险 [12] 技术原因分析 - 性能下降可能源于白天采用1.58位量化技术 [4] - 该技术将参数从FP16/FP32压缩至仅用{-1, 0, 1}三个值表示 信息承载量仅为log₂(3)≈1.58496比特 [5][6] - 极端量化导致模型丢失关键信息 影响复杂问题处理能力 [7] - 在医学图像分析和金融风险预测等精准度要求高的场景存在稳定性风险 [8] 官方应对措施 - Anthropic迅速承认推理堆栈设计缺陷 未推诿责任 [13][14] - 已回滚Claude Opus 4.1版本 并同步处理4.0版本的类似问题 [14] - 公开回应获得用户认可 被业内视为罕见的产品问题承认案例 [16][17]
GPT-5“变笨”实锤,退休教授出了道井字棋送分题,结果它真送了
量子位· 2025-09-01 15:30
GPT-5性能表现问题 - GPT-5在回答井字棋棋盘旋转90度的简单问题时表现漏洞百出 与OpenAI宣传的"博士级AI"能力大相径庭[1][9][10] - 模型回答存在逻辑错误 例如声称"选择正中央格子仍是最强开局" 这与民间博弈论公认的"先落角落获胜概率更高"相悖[11] - 后续回答出现语无伦次和自相矛盾 先承认旋转不影响策略 又强调人类心理感受不同 且夹杂明显错误[13][14] OpenAI产品策略调整 - 公司对GPT-5进行了语气更新 使其风格更贴近GPT-4o的"亲切友好"方向[6] - 奥特曼承认GPT-5初版发布处理不当 导致GPT-4o等模型直接退役[6] - 公司正在测试ChatGPT的"Thinking effort"新功能 提供四个思考强度等级:light(数值5) standard(数值18) extended(数值48) max(数值200)[17] - max等级仅限200美元高级套餐Pro用户使用 更高数值代表更多运算资源配额 响应速度更慢但答案更深入[17][18] 未来产品规划 - 奥特曼已开始炒作GPT-6 表示其推出速度将快于GPT-4到GPT-5的间隔[7] - GPT-6将具备主动适配用户能力 允许用户创建个性化聊天机器人[20] - 记忆功能被视为实现真正个性化的关键 但目前临时记忆数据尚未加密存在隐私隐患[21] - 加密功能"很可能"在未来添加 但无具体时间表[22] - 公司正与心理学家合作优化产品 追踪用户使用感受和体验变化[20] - 奥特曼关注脑机接口 能源 新型硬件 机器人技术及高效数据中心建设[23] 技术发展局限性 - 奥特曼指出聊天交互应用场景已触及天花板 模型表现不会大幅提升甚至可能变差[24][25]