机器之心

搜索文档
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
机器之心· 2025-07-09 17:52
状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息,实现流式处理,而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer,即使后者使用更多计算资源,表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优,类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块,本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下,计算量仍随token增加而增长,无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token,在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合,实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长,包括RWKV、xLSTM等变体,共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力,预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习,而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担,当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案,存在改进空间以更好利用FLOP资源[87][88]
花49元试了下Lovart国内版,集结数十个模型的设计Agent能有多强?
机器之心· 2025-07-09 17:52
产品概述 - 星流Agent是海外爆火产品Lovart的国内版本,专注于设计和创意内容生成[2][3] - 产品接入F1、Kling、Qwen、hailuo02等数十个顶尖模型,支持图像、视频、3D建模等全链条创作[4] - 采用会员制收费模式,首次登录赠送150积分(约3次任务),邀请好友可获200积分,最低套餐49元/月[5][79] 核心功能 - **多模态生成能力**:支持照片/插画/海报/3D模型等创作,视频生成限时5秒且需3分钟处理时间[4][46][50] - **工作流整合**:自动拆解"文字-图片-建模-视频"全流程,调用Tripo AI、可灵2.1等工具实现一站式输出[76][77] - **编辑工具**:提供无限画布、局部重绘、扩图等9项编辑功能,但中文文字生成存在乱码问题[43][19][20] 技术表现 - 图像生成依赖F1 Kontext等模型,中文需切换至Seedream 3.0才能避免乱码[14][20] - 3D建模存在拓扑结构杂乱问题,简单几何体完成度显著优于复杂模型[58][61][63] - 视频生成存在动作指令偏离(如皮卡丘开合跳失控)和逻辑断裂问题[71][69] 竞品对比 - 优势在于整合工作流效率,较传统多工具切换模式节省80%操作时间[76][77] - 精度落后于专业工具:手部细节瑕疵率超30%,建模质量低于官网重拓扑版本[78][74] 团队背景 - 研发团队核心王浩帆为InstantID项目成员,具有卡内基梅隆大学硕士及15段AI领域从业经历[84][89][90] - 母公司Liblib AI成立1年内完成4轮数亿元融资,团队来自清华、北大、CMU及字节/腾讯等企业[94][95] - 商业化负责人陈冕曾任字节剪映商业化负责人,28岁达成字节4-1职级[96]
ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台
机器之心· 2025-07-09 15:10
核心观点 - UniOcc是首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架,融合真实世界与仿真环境的多源数据,统一体素格式与语义标签,并首次引入体素级前后向运动流标注 [1] - UniOcc设计了多项免真值指标,用于衡量物体形状合理性与时序一致性,摆脱了伪标签评估限制 [1] - UniOcc支持多车协同占位预测与推理,推动自动驾驶迈向多模态、泛化能力更强的新阶段 [2] 背景与挑战 - 当前自动驾驶感知研究面临伪标签缺陷、数据割裂、动态信息缺失和多车协同感知缺乏四大挑战 [7][8][10] - 主流数据集缺乏真实占位标注,依赖LiDAR启发式生成的伪标签,仅覆盖可见表面,无法反映真实物体完整形状 [7] - 现有方法多局限于单一数据源,不同数据集间配置、采样率、格式、注释不统一 [8] - 当前三维占位标签通常不包含物体运动信息,模型无法利用运动线索进行预测 [8] - 之前缺乏多车协同占位预测的数据集 [10] 四项关键创新 - 多源数据统一处理:汇聚真实场景和仿真场景数据,统一格式并提供标准化预处理和加载Dataloader [12] - 体素级运动流标注:为每个三维体素标注前向和反向三维速度向量,全面记录物体平移与旋转 [13] - 免真值评估指标:提出免真值评估指标和工具,避免依赖伪标签进行评价 [14] - 支持协同预测能力:涵盖多车协同感知场景,支持多车传感器融合方法 [16] 实验验证 - 引入运动流信息后,OccWorld等3D占位预测模型在nuScenes和Waymo上的mIoU指标均有提高 [18] - 多源联合训练增强跨域泛化能力,在nuScenes和CARLA等多域数据上联合训练OccWorld,mIoU均优于单源训练 [19] - 在模拟多车场景中验证协同优势,CoHFF模型通过多车信息共享对Car类别的IoU达到87.22% [22] 开源与应用价值 - UniOcc支持单帧占位预测、多帧占位预测、多车协同预测和动态分割与跟踪等多种任务 [24] - 提供跨域数据格式、完整流注释、分割跟踪工具和免真值评估指标,简化研究者开发和对比工作 [25] - 为训练和评估多模态/语言模型奠定基础,推动语义占位预测技术发展 [25]
「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式
机器之心· 2025-07-09 15:10
世界模型的局限性批判 - 当前大语言模型(LLM)通过预测下一个单词生成输出,接近人类智力水平,但与真正的AGI仍有明显差距 [2][3] - 人类能力包含具体技能和深度复杂能力的区分,而AI系统尚不能完成所有基于相同认知架构的任务 [3][5] - 研究者提出构建世界模型的五个关键维度:数据准备、通用表征空间、推理架构、目标函数和决策系统应用 [7] PAN世界模型架构 - PAN采用分层、多级和混合连续/离散表示,结合生成式和自监督学习框架 [8] - PAN将发布27B参数的第一版,成为首个可运行的通用世界模拟器 [9] - PAN设计原则包括:多模态数据、混合表示、分层生成建模、生成损失和强化学习应用 [37] 对世界模型五个维度的批判 数据维度 - 感官数据量虽大但信息冗余度高,而文本是人类经验的高度压缩和抽象形式 [16][17] - 通用AI需要融合视频、文本、音频等多模态数据,单一模态会导致关键信息缺失 [18] 表示维度 - 仅用连续嵌入表示世界状态脆弱且难以应对噪声,离散符号序列更具稳健性 [19][20] - 最佳路径是混合表示,结合离散符号的稳健性和连续嵌入的感官细节捕捉能力 [23] 架构维度 - 编码器-编码器架构在功能上仍是自回归的,未能解决误差累积问题 [25] - 分层生成式潜在预测(GLP)架构能确保模型与真实数据挂钩,实现更鲁棒的推理 [27] 目标维度 - 潜在空间重构损失存在"平凡解崩溃"风险,需依赖复杂正则化项 [29] - 数据空间生成式重构目标提供稳定可靠的监督信号,避免崩溃问题 [30] 用途维度 - 模型预测控制(MPC)计算开销大,难以应对快速变化环境和长时程规划 [33] - 强化学习(RL)将计算成本转移到训练时,支持更具战略性的长远规划 [35] PAN模型的优势与应用 - PAN通过分层世界观实现数据处理效率,利用LLM促进跨模态泛化能力 [39] - PAN作为内部沙盒用于模拟、实验和预见未来,支持更高效的规划方式 [40][42] - 世界模型应模拟现实世界中所有可能性,当前范式仍处于原始阶段 [41]
百万奖金 + 顶配资源!AI 创业者征集令!
机器之心· 2025-07-09 12:23
行业动态 - 上海银行杯 AI 创新创业大赛正式启动,聚焦 AI 技术在技术创新和产业应用中的跨界融合 [1] - 大赛旨在推动 AI 模型从实验室走向真实场景,构建 AI 生态 [1] - 活动定位为技术竞技场和梦想孵化器,鼓励 AI 创新与应用 [1]
OpenAI反挖四位特斯拉、xAI、Meta高级工程师,目标星际之门
机器之心· 2025-07-09 12:23
AI行业人才争夺战 - Meta近期从OpenAI挖走至少7位员工并提供高薪酬和充足算力资源 [8] - OpenAI从特斯拉、xAI和X公司挖来4位知名工程师包括特斯拉前软件工程副总裁David Lau [3][5] - 被Meta挖走的OpenAI研究者已达8位可能加入Meta新组建的超级智能实验室 [18] OpenAI的战略布局 - OpenAI扩展团队负责管理后端硬件与软件系统及数据中心包括"星际之门"超级计算机项目 [7] - "星际之门"计划将包含百万块专用AI芯片预计成本达1150亿美元 [7] - 公司强调基础设施对实现通用人工智能(AGI)使命的关键作用 [7] 行业竞争态势 - AI行业自2022年底ChatGPT推出后人才争夺战异常激烈 [13] - 各大公司为率先实现人工超级智能(ASI)重新反思常规人才招聘规范 [14][15] - 扩展能力(scaling)对AI发展起关键作用更多数据和算力使模型更强大 [16][17] 公司间关系动态 - OpenAI从xAI挖人可能加剧与马斯克的紧张关系 [10] - 马斯克2018年退出OpenAI后现正起诉公司背弃初衷 [11] - OpenAI反诉马斯克指控其存在不正当竞争并干扰公司运营 [12] 人才流动影响 - OpenAI首席研究官Mark Chen表示要在顶尖研究人才争夺战中与Meta正面交锋 [19] - 公司可能调整研究人员薪酬方案以更好应对竞争 [8] - Meta挖角目标还包括Thinking Machines Lab多位员工 [9]
刚刚,为对抗哥大退学生开发的AI作弊器,哥大学生造了个AI照妖镜
机器之心· 2025-07-09 12:23
Cluely AI工具 - Cluely是一款AI桌面助手,能够以透明窗口形式出现在屏幕上,监听和录制会议内容,代替用户接受采访或参加会议 [1] - 该工具由Roy Lee和Neel Shanmugam共同创办的创业公司开发,被称为"人生作弊器" [1] - Roy Lee宣称该工具"杀死了9个行业",相关宣传推文获得超过293万查看次数 [2] Truely反作弊工具 - 哥伦比亚大学学生Antonio Li和Patrick Shen开发了反Cluely工具Truely,用于检测通话对方是否为真人 [4] - Truely通过检测对方设备上的进程标识符(PID)来识别Cluely进程,发现后会发送警报信号 [7] - 工具核心功能包括实时进程监控、自动加入Zoom会议、发送聊天警报等 [9] - 使用Truely需要对方安装特定应用,过程较为繁琐且存在安全隐患 [8] 市场反应 - Truely获得积极反馈,有用户称赞开发者"坚守正直" [10] - 有评论建议该工具在工作场所和学校有广泛应用前景 [11] - 开发者表示这只是一个小项目,未来发展方向尚不确定 [11] 法律争议 - Cluely向安全研究者Jack Cable发出DMCA申请,要求删除其公布的逆向工程提示词 [14] - Jack Cable批评Cluely对研究者发出法律威胁,希望公司能更开放 [15] - 相关提示词在GitHub上仍有备份可供研究 [17] 行业影响 - Cluely的成功引发市场关注,催生反制工具Truely的出现 [3] - 两款工具分别代表了AI应用的创新和监管需求 [4][7] - 该案例展示了AI技术在会议和通讯领域的应用潜力及引发的伦理争议 [1][4]
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 12:23
核心观点 - AI研究正从个体智能转向多智能体协作与竞争研究,MultiAgentBench填补了多智能体系统评估的空白 [2][3][4] - 该基准首次系统化评估LLM多智能体的协作效率、沟通质量和竞争策略,揭示团队动态中的关键规律 [6][8][9] - 实验发现个体能力是协作基础,去中心化结构效率最高,且AI展现出"社会智慧"的涌现行为 [25][32][44] 框架设计 - **协作引擎**:区分规划者与执行者角色,实现任务分解与动态调度 [13] - **智能体图**:用三元组(agent1,关系,agent2)构建结构化关系网络,模拟真实团队架构 [14] - **认知模块**:提供个性化记忆与推理方式,支持策略动态调整 [15] 评测场景 - 覆盖6类场景:科研(合作写报告)、Minecraft(游戏协作)、数据库开发、编程、狼人杀(欺骗博弈)、商业谈判(资源竞争) [22] - 包含共同目标与冲突目标两类任务,模拟从合作到对抗的连续谱系 [20][21] 评估指标 - **任务得分(TS)**:按场景定制化评价最终产出质量,如编程任务代码完成度 [27] - **协作总分(CS)**:综合沟通分数(信息传递效率)与规划分数(战略连贯性) [28] - **里程碑KPI**:动态检测关键节点达成情况,识别核心贡献智能体 [27] 关键结论 - **个体能力优先**:Meta-Llama-3-70B在Minecraft任务中CS达75但TS仅0.21,显示执行能力缺陷无法通过协作弥补 [31][32] - **组织结构效率**:图结构去中心化协作效率最高,树型层级结构因沟通损耗表现最差 [38] - **规模效应**:智能体数量超过3个时出现"林格曼效应",KPI随规模扩大下降 [40][41] - **社会行为涌现**:狼人杀中AI自发形成战略性沉默、信任分化等高级博弈策略 [44][47] 技术亮点 - **认知自演化规划**:通过复盘动态调整策略,优于小组讨论等传统方法 [38] - **动态关系网络**:支持协作/监督等多元关系,比固定指令更接近真实团队 [14] - **多模态评估**:同时量化任务结果(硬指标)与协作过程(软实力) [27][28]
斯坦福毕业,用RL做Agent,华人创业团队种子轮融资1200万美元
机器之心· 2025-07-09 08:50
公司概况 - Pokee AI 公开测试版正式上线,公司定位为开发交互式、个性化、高效的 AI Agent [1][4] - 公司完成 1200 万美元种子轮融资,由 Point72 Ventures 领投 [8] - 团队从 4 人核心组扩张至 7 人,计划在收入规模扩大前将团队控制在 10 人以内 [2][26] 技术架构 - 以强化学习(RL)为核心构建 AI Agent,LLM 仅作为人机交互的“UI层” [5][17] - RL 模型的动作空间直接调用工具,而非 LLM 的 Token 生成,提升任务执行泛化性 [17] - 目标是通过 No Code/Low Code 方式让第三方开发者快速搭建 AI Agent [16] 产品愿景 - 通用 Agent 的终极形态是仅需用户提供 prompt 即可自动调用工具解决问题,无需人工配置 [14][15] - 当前行业尚未完成“决策能力”第一步,后续需攻克个性化记忆(Memory)和对齐(Alignment) [19][21] - 公司认为 LLM 的进步将直接提升其 RL 架构的理解能力,两者非竞争关系 [22] 行业定位 - 创业初期 RL 方向被视为“天方夜谭”,现逐渐成为行业共识 [7][11] - 公司节奏比 Meta 快 4-5 倍,7 个月内完成产品公测和融资 [9] - AI 时代创业更轻量级,远程办公模式高效,无实体办公室 [27][28][30] 商业化路径 - 优先聚焦解决实际问题能力,再逐步优化意图理解 [22] - 商业化初期不追求完美对齐用户意图,而是通过迭代实现三步走战略 [19][21]
长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」
机器之心· 2025-07-09 08:50
核心观点 - 研究提出通过分析句子层面的"思维锚"来理解LLM推理机制,三种互补方法(黑盒/白盒/因果归因)可识别对后续推理有重大影响的关键步骤[4][6][9][10][11] - 规划生成和不确定性管理类句子的重要性显著高于事实检索类句子,这类高层组织性句子能锚定推理轨迹[23][25] - 开源工具实现可视化分析,为调试推理失败和提升模型可靠性提供新路径[14][15] 方法论 黑盒反事实分析 - 通过替换句子并比较答案分布差异(KL散度)量化句子重要性,采样100次轨迹并过滤语义相似替代句[21][22] - 相比强制回答方法,避免因关键句子出现较晚导致的评估偏差[18][20] 白盒注意力模式 - 计算注意力头峰度值,发现特定头会集中关注关键句子(如规划生成类)[24] - 接收头分析显示高关注度句子与重采样重要性结果高度一致[25] 因果归因 - 抑制特定句子注意力后测量后续token logits变化,分离句子间直接影响[31] - 与重采样法显著正相关(20条轨迹中19条验证),尤其在5句间隔内相关性更强[32] 案例验证 十六进制转换问题 - 重采样法捕捉到第13句从错误"20比特"转向正确"19比特"的关键转折[36][37] - 接收头将推理轨迹划分为计算模块(十六进制→十进制→二进制)和验证回路[39][40] - 注意力抑制矩阵定位矛盾解决路径(如12→66句的错误根源解释)[41][42]