机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

机器之心· 2025-07-09 17:52

状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息，实现流式处理，而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer，即使后者使用更多计算资源，表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优，类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块，本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下，计算量仍随token增加而增长，无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token，在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合，实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长，包括RWKV、xLSTM等变体，共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力，预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习，而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担，当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案，存在改进空间以更好利用FLOP资源[87][88]

花49元试了下Lovart国内版，集结数十个模型的设计Agent能有多强？

机器之心· 2025-07-09 17:52

产品概述 - 星流Agent是海外爆火产品Lovart的国内版本，专注于设计和创意内容生成[2][3] - 产品接入F1、Kling、Qwen、hailuo02等数十个顶尖模型，支持图像、视频、3D建模等全链条创作[4] - 采用会员制收费模式，首次登录赠送150积分（约3次任务），邀请好友可获200积分，最低套餐49元/月[5][79] 核心功能 - **多模态生成能力**：支持照片/插画/海报/3D模型等创作，视频生成限时5秒且需3分钟处理时间[4][46][50] - **工作流整合**：自动拆解"文字-图片-建模-视频"全流程，调用Tripo AI、可灵2.1等工具实现一站式输出[76][77] - **编辑工具**：提供无限画布、局部重绘、扩图等9项编辑功能，但中文文字生成存在乱码问题[43][19][20] 技术表现 - 图像生成依赖F1 Kontext等模型，中文需切换至Seedream 3.0才能避免乱码[14][20] - 3D建模存在拓扑结构杂乱问题，简单几何体完成度显著优于复杂模型[58][61][63] - 视频生成存在动作指令偏离（如皮卡丘开合跳失控）和逻辑断裂问题[71][69] 竞品对比 - 优势在于整合工作流效率，较传统多工具切换模式节省80%操作时间[76][77] - 精度落后于专业工具：手部细节瑕疵率超30%，建模质量低于官网重拓扑版本[78][74] 团队背景 - 研发团队核心王浩帆为InstantID项目成员，具有卡内基梅隆大学硕士及15段AI领域从业经历[84][89][90] - 母公司Liblib AI成立1年内完成4轮数亿元融资，团队来自清华、北大、CMU及字节/腾讯等企业[94][95] - 商业化负责人陈冕曾任字节剪映商业化负责人，28岁达成字节4-1职级[96]

AI设计

Artificial Intelligence

星流 Agent

Lovart

AI设计

Artificial Intelligence

星流 Agent

Lovart

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

机器之心· 2025-07-09 15:10

核心观点 - UniOcc是首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架，融合真实世界与仿真环境的多源数据，统一体素格式与语义标签，并首次引入体素级前后向运动流标注 [1] - UniOcc设计了多项免真值指标，用于衡量物体形状合理性与时序一致性，摆脱了伪标签评估限制 [1] - UniOcc支持多车协同占位预测与推理，推动自动驾驶迈向多模态、泛化能力更强的新阶段 [2] 背景与挑战 - 当前自动驾驶感知研究面临伪标签缺陷、数据割裂、动态信息缺失和多车协同感知缺乏四大挑战 [7][8][10] - 主流数据集缺乏真实占位标注，依赖LiDAR启发式生成的伪标签，仅覆盖可见表面，无法反映真实物体完整形状 [7] - 现有方法多局限于单一数据源，不同数据集间配置、采样率、格式、注释不统一 [8] - 当前三维占位标签通常不包含物体运动信息，模型无法利用运动线索进行预测 [8] - 之前缺乏多车协同占位预测的数据集 [10] 四项关键创新 - 多源数据统一处理：汇聚真实场景和仿真场景数据，统一格式并提供标准化预处理和加载Dataloader [12] - 体素级运动流标注：为每个三维体素标注前向和反向三维速度向量，全面记录物体平移与旋转 [13] - 免真值评估指标：提出免真值评估指标和工具，避免依赖伪标签进行评价 [14] - 支持协同预测能力：涵盖多车协同感知场景，支持多车传感器融合方法 [16] 实验验证 - 引入运动流信息后，OccWorld等3D占位预测模型在nuScenes和Waymo上的mIoU指标均有提高 [18] - 多源联合训练增强跨域泛化能力，在nuScenes和CARLA等多域数据上联合训练OccWorld，mIoU均优于单源训练 [19] - 在模拟多车场景中验证协同优势，CoHFF模型通过多车信息共享对Car类别的IoU达到87.22% [22] 开源与应用价值 - UniOcc支持单帧占位预测、多帧占位预测、多车协同预测和动态分割与跟踪等多种任务 [24] - 提供跨域数据格式、完整流注释、分割跟踪工具和免真值评估指标，简化研究者开发和对比工作 [25] - 为训练和评估多模态/语言模型奠定基础，推动语义占位预测技术发展 [25]

「世界模型」也被泼冷水了？邢波等人揭开五大「硬伤」，提出新范式

机器之心· 2025-07-09 15:10

世界模型的局限性批判 - 当前大语言模型（LLM）通过预测下一个单词生成输出，接近人类智力水平，但与真正的AGI仍有明显差距 [2][3] - 人类能力包含具体技能和深度复杂能力的区分，而AI系统尚不能完成所有基于相同认知架构的任务 [3][5] - 研究者提出构建世界模型的五个关键维度：数据准备、通用表征空间、推理架构、目标函数和决策系统应用 [7] PAN世界模型架构 - PAN采用分层、多级和混合连续/离散表示，结合生成式和自监督学习框架 [8] - PAN将发布27B参数的第一版，成为首个可运行的通用世界模拟器 [9] - PAN设计原则包括：多模态数据、混合表示、分层生成建模、生成损失和强化学习应用 [37] 对世界模型五个维度的批判数据维度 - 感官数据量虽大但信息冗余度高，而文本是人类经验的高度压缩和抽象形式 [16][17] - 通用AI需要融合视频、文本、音频等多模态数据，单一模态会导致关键信息缺失 [18] 表示维度 - 仅用连续嵌入表示世界状态脆弱且难以应对噪声，离散符号序列更具稳健性 [19][20] - 最佳路径是混合表示，结合离散符号的稳健性和连续嵌入的感官细节捕捉能力 [23] 架构维度 - 编码器-编码器架构在功能上仍是自回归的，未能解决误差累积问题 [25] - 分层生成式潜在预测(GLP)架构能确保模型与真实数据挂钩，实现更鲁棒的推理 [27] 目标维度 - 潜在空间重构损失存在"平凡解崩溃"风险，需依赖复杂正则化项 [29] - 数据空间生成式重构目标提供稳定可靠的监督信号，避免崩溃问题 [30] 用途维度 - 模型预测控制(MPC)计算开销大，难以应对快速变化环境和长时程规划 [33] - 强化学习(RL)将计算成本转移到训练时，支持更具战略性的长远规划 [35] PAN模型的优势与应用 - PAN通过分层世界观实现数据处理效率，利用LLM促进跨模态泛化能力 [39] - PAN作为内部沙盒用于模拟、实验和预见未来，支持更高效的规划方式 [40][42] - 世界模型应模拟现实世界中所有可能性，当前范式仍处于原始阶段 [41]

百万奖金 + 顶配资源！AI 创业者征集令！

机器之心· 2025-07-09 12:23

行业动态 - 上海银行杯 AI 创新创业大赛正式启动，聚焦 AI 技术在技术创新和产业应用中的跨界融合 [1] - 大赛旨在推动 AI 模型从实验室走向真实场景，构建 AI 生态 [1] - 活动定位为技术竞技场和梦想孵化器，鼓励 AI 创新与应用 [1]

人工智能

OpenAI反挖四位特斯拉、xAI、Meta高级工程师，目标星际之门

机器之心· 2025-07-09 12:23

AI行业人才争夺战 - Meta近期从OpenAI挖走至少7位员工并提供高薪酬和充足算力资源 [8] - OpenAI从特斯拉、xAI和X公司挖来4位知名工程师包括特斯拉前软件工程副总裁David Lau [3][5] - 被Meta挖走的OpenAI研究者已达8位可能加入Meta新组建的超级智能实验室 [18] OpenAI的战略布局 - OpenAI扩展团队负责管理后端硬件与软件系统及数据中心包括"星际之门"超级计算机项目 [7] - "星际之门"计划将包含百万块专用AI芯片预计成本达1150亿美元 [7] - 公司强调基础设施对实现通用人工智能(AGI)使命的关键作用 [7] 行业竞争态势 - AI行业自2022年底ChatGPT推出后人才争夺战异常激烈 [13] - 各大公司为率先实现人工超级智能(ASI)重新反思常规人才招聘规范 [14][15] - 扩展能力(scaling)对AI发展起关键作用更多数据和算力使模型更强大 [16][17] 公司间关系动态 - OpenAI从xAI挖人可能加剧与马斯克的紧张关系 [10] - 马斯克2018年退出OpenAI后现正起诉公司背弃初衷 [11] - OpenAI反诉马斯克指控其存在不正当竞争并干扰公司运营 [12] 人才流动影响 - OpenAI首席研究官Mark Chen表示要在顶尖研究人才争夺战中与Meta正面交锋 [19] - 公司可能调整研究人员薪酬方案以更好应对竞争 [8] - Meta挖角目标还包括Thinking Machines Lab多位员工 [9]

刚刚，为对抗哥大退学生开发的AI作弊器，哥大学生造了个AI照妖镜

机器之心· 2025-07-09 12:23

Cluely AI工具 - Cluely是一款AI桌面助手，能够以透明窗口形式出现在屏幕上，监听和录制会议内容，代替用户接受采访或参加会议 [1] - 该工具由Roy Lee和Neel Shanmugam共同创办的创业公司开发，被称为"人生作弊器" [1] - Roy Lee宣称该工具"杀死了9个行业"，相关宣传推文获得超过293万查看次数 [2] Truely反作弊工具 - 哥伦比亚大学学生Antonio Li和Patrick Shen开发了反Cluely工具Truely，用于检测通话对方是否为真人 [4] - Truely通过检测对方设备上的进程标识符(PID)来识别Cluely进程，发现后会发送警报信号 [7] - 工具核心功能包括实时进程监控、自动加入Zoom会议、发送聊天警报等 [9] - 使用Truely需要对方安装特定应用，过程较为繁琐且存在安全隐患 [8] 市场反应 - Truely获得积极反馈，有用户称赞开发者"坚守正直" [10] - 有评论建议该工具在工作场所和学校有广泛应用前景 [11] - 开发者表示这只是一个小项目，未来发展方向尚不确定 [11] 法律争议 - Cluely向安全研究者Jack Cable发出DMCA申请，要求删除其公布的逆向工程提示词 [14] - Jack Cable批评Cluely对研究者发出法律威胁，希望公司能更开放 [15] - 相关提示词在GitHub上仍有备份可供研究 [17] 行业影响 - Cluely的成功引发市场关注，催生反制工具Truely的出现 [3] - 两款工具分别代表了AI应用的创新和监管需求 [4][7] - 该案例展示了AI技术在会议和通讯领域的应用潜力及引发的伦理争议 [1][4]

AI作弊与反作弊

Artificial Intelligence

Cluely

Truely

AI作弊与反作弊

Artificial Intelligence

Cluely

Truely

给你一群顶尖AI，如何组队才能发挥最大战力？UIUC用一个新的多智能体协作基准寻找答案

机器之心· 2025-07-09 12:23

核心观点 - AI研究正从个体智能转向多智能体协作与竞争研究，MultiAgentBench填补了多智能体系统评估的空白 [2][3][4] - 该基准首次系统化评估LLM多智能体的协作效率、沟通质量和竞争策略，揭示团队动态中的关键规律 [6][8][9] - 实验发现个体能力是协作基础，去中心化结构效率最高，且AI展现出"社会智慧"的涌现行为 [25][32][44] 框架设计 - **协作引擎**：区分规划者与执行者角色，实现任务分解与动态调度 [13] - **智能体图**：用三元组(agent1,关系,agent2)构建结构化关系网络，模拟真实团队架构 [14] - **认知模块**：提供个性化记忆与推理方式，支持策略动态调整 [15] 评测场景 - 覆盖6类场景：科研(合作写报告)、Minecraft(游戏协作)、数据库开发、编程、狼人杀(欺骗博弈)、商业谈判(资源竞争) [22] - 包含共同目标与冲突目标两类任务，模拟从合作到对抗的连续谱系 [20][21] 评估指标 - **任务得分(TS)**：按场景定制化评价最终产出质量，如编程任务代码完成度 [27] - **协作总分(CS)**：综合沟通分数(信息传递效率)与规划分数(战略连贯性) [28] - **里程碑KPI**：动态检测关键节点达成情况，识别核心贡献智能体 [27] 关键结论 - **个体能力优先**：Meta-Llama-3-70B在Minecraft任务中CS达75但TS仅0.21，显示执行能力缺陷无法通过协作弥补 [31][32] - **组织结构效率**：图结构去中心化协作效率最高，树型层级结构因沟通损耗表现最差 [38] - **规模效应**：智能体数量超过3个时出现"林格曼效应"，KPI随规模扩大下降 [40][41] - **社会行为涌现**：狼人杀中AI自发形成战略性沉默、信任分化等高级博弈策略 [44][47] 技术亮点 - **认知自演化规划**：通过复盘动态调整策略，优于小组讨论等传统方法 [38] - **动态关系网络**：支持协作/监督等多元关系，比固定指令更接近真实团队 [14] - **多模态评估**：同时量化任务结果(硬指标)与协作过程(软实力) [27][28]

Artificial Intelligence

Artificial Intelligence

OpenManus(RL)

斯坦福毕业，用RL做Agent，华人创业团队种子轮融资1200万美元

机器之心· 2025-07-09 08:50

公司概况 - Pokee AI 公开测试版正式上线，公司定位为开发交互式、个性化、高效的 AI Agent [1][4] - 公司完成 1200 万美元种子轮融资，由 Point72 Ventures 领投 [8] - 团队从 4 人核心组扩张至 7 人，计划在收入规模扩大前将团队控制在 10 人以内 [2][26] 技术架构 - 以强化学习（RL）为核心构建 AI Agent，LLM 仅作为人机交互的“UI层” [5][17] - RL 模型的动作空间直接调用工具，而非 LLM 的 Token 生成，提升任务执行泛化性 [17] - 目标是通过 No Code/Low Code 方式让第三方开发者快速搭建 AI Agent [16] 产品愿景 - 通用 Agent 的终极形态是仅需用户提供 prompt 即可自动调用工具解决问题，无需人工配置 [14][15] - 当前行业尚未完成“决策能力”第一步，后续需攻克个性化记忆（Memory）和对齐（Alignment） [19][21] - 公司认为 LLM 的进步将直接提升其 RL 架构的理解能力，两者非竞争关系 [22] 行业定位 - 创业初期 RL 方向被视为“天方夜谭”，现逐渐成为行业共识 [7][11] - 公司节奏比 Meta 快 4-5 倍，7 个月内完成产品公测和融资 [9] - AI 时代创业更轻量级，远程办公模式高效，无实体办公室 [27][28][30] 商业化路径 - 优先聚焦解决实际问题能力，再逐步优化意图理解 [22] - 商业化初期不追求完美对齐用户意图，而是通过迭代实现三步走战略 [19][21]

AI Agent

强化学习（RL）

Artificial Intelligence

Pokee AI

AI Agent

强化学习（RL）

Artificial Intelligence

Pokee AI

长思维链里的推理步骤，哪些最关键？三招锁定LLM的「命门句子」

机器之心· 2025-07-09 08:50

核心观点 - 研究提出通过分析句子层面的"思维锚"来理解LLM推理机制，三种互补方法（黑盒/白盒/因果归因）可识别对后续推理有重大影响的关键步骤[4][6][9][10][11] - 规划生成和不确定性管理类句子的重要性显著高于事实检索类句子，这类高层组织性句子能锚定推理轨迹[23][25] - 开源工具实现可视化分析，为调试推理失败和提升模型可靠性提供新路径[14][15] 方法论黑盒反事实分析 - 通过替换句子并比较答案分布差异（KL散度）量化句子重要性，采样100次轨迹并过滤语义相似替代句[21][22] - 相比强制回答方法，避免因关键句子出现较晚导致的评估偏差[18][20] 白盒注意力模式 - 计算注意力头峰度值，发现特定头会集中关注关键句子（如规划生成类）[24] - 接收头分析显示高关注度句子与重采样重要性结果高度一致[25] 因果归因 - 抑制特定句子注意力后测量后续token logits变化，分离句子间直接影响[31] - 与重采样法显著正相关（20条轨迹中19条验证），尤其在5句间隔内相关性更强[32] 案例验证十六进制转换问题 - 重采样法捕捉到第13句从错误"20比特"转向正确"19比特"的关键转折[36][37] - 接收头将推理轨迹划分为计算模块（十六进制→十进制→二进制）和验证回路[39][40] - 注意力抑制矩阵定位矛盾解决路径（如12→66句的错误根源解释）[41][42]

思维锚（Thought Anchors）

大语言模型（LLM）推理

Artificial Intelligence

Thought Anchors 开源工具

思维锚（Thought Anchors）

大语言模型（LLM）推理

Artificial Intelligence

Thought Anchors 开源工具

Previous Next