Workflow
机器之心
icon
搜索文档
几千亿美元远远不够!黄仁勋亲笔长文:AI 是人类历史上最大的基建浪潮
机器之心· 2026-03-11 17:39
文章核心观点 - 人工智能并非虚无的软件应用,而是如同电力和互联网一样的关键基础设施,其运行依赖于真实世界的能源、硬件、经济和大量人力投入[2][5][6] - 人工智能的演进正引发整个计算堆栈的根本性变革,从预制的软件模式转向实时生成智能的模式,这要求底层技术架构进行彻底重构[7][10][12] - 从工业视角可将人工智能解构为“五层蛋糕”架构:能源、芯片、基础设施、模型、应用,各层相互强化、协同演进,共同构成AI产业的基础设施体系[13][18][30] - 人工智能建设是一场规模宏大的工业变革,目前仅投入数千亿美元,未来仍有数万亿美元规模的基础设施尚待建设,这正在演变为人类历史上规模最大的基础设施建设运动[20][21][31] - 人工智能不会消灭劳动,而是重新配置劳动,在提升知识经济生产力的同时,也创造了大量高技能、高薪酬的硬件与基础设施相关岗位,参与这场变革并不一定需要计算机科学博士学位[2][22][23][24] 人工智能的范式转变:从预制软件到实时智能 - 计算机历史大部分时间里软件是“预制”的,人类定义算法,计算机执行指令,数据需严密结构化并通过SQL等查询语言检索[9] - 人工智能打破了传统模式,计算机首次能够理解图像、文本、声音等非结构化信息,并能进行逻辑推理和实时智能响应[10] - 智能的实时产出意味着每一个回复都是全新生成的,答案取决于用户提供的上下文,这是软件在进行推理并按需生成智能,而非检索预存指令[11] - 由于智能是实时产出的,其底层的整个“计算堆栈”都必须经历彻底的变革与重构[12] 人工智能产业的五层架构 - **第一层:能源**:能源是整套架构的基石,是AI基础设施的“第一性原理”,实时生成的智能需要实时产生的电力支撑,生成的每一个Token都是能源转化为计算能力的产物,能源是决定系统智能产出上限的硬约束[13] - **第二层:芯片**:芯片旨在将能源大规模、高效率地转化为计算力,AI工作负载需要极高的并行性、高带宽内存以及高速互连技术,芯片层的技术突破决定了AI扩张的速度以及智能获取成本的经济性[14] - **第三层:基础设施**:基础设施涵盖土地、电力传输、冷却系统、建筑施工、网络连接以及将数以万计处理器编排为单一算力集群的系统,这些系统本质上是“AI工厂”,其设计初衷是为了“制造智能”而非存储信息[15] - **第四层:模型**:AI模型能够理解语言、生物学、化学、物理学、金融、医学及物理世界本身等多维度信息,语言模型仅是其中一个类别,目前最具变革性的突破正发生在蛋白质AI、化学AI、物理模拟、机器人技术及自主系统领域[16] - **第五层:应用**:应用是创造经济价值的核心环节,包括药物研发平台、工业机器人、法律助手、自动驾驶汽车等,自动驾驶汽车是具身智能在机器中的AI应用,而人形机器人则是“具身”于躯体之中的AI应用[17] - 架构呈现“五层蛋糕”形态:能源 → 芯片 → 基础设施 → 模型 → 应用,每一个成功的应用都在拉动其下方的每一层架构,其根源可追溯至维持其运行的发电厂[18][19] 人工智能产业的发展阶段与规模 - 人工智能建设进程才刚刚开启,目前的投入仅为数千亿美元,未来仍有数万亿美元规模的基础设施尚待建设[20] - 全球范围内,芯片工厂、计算机组装厂和AI工厂正以史无前例的规模动工,这正在演变为人类历史上规模最大的基础设施建设运动[21] - 人工智能在过去一年跨越了重要门槛,模型能力已足以支撑大规模实际应用,逻辑推理能力显著增强,幻觉比例下降,知识对齐与事实性大幅提升,基于AI构建的应用首次开始产生真正的经济价值[26] - 在药物研发、物流运输、客户服务、软件开发及制造业等领域,相关应用已经展现出强劲的产品市场契合度,并强力拉动其底层的每一个技术架构层级[26] - 开源模型发挥着至关重要的作用,全球绝大多数模型都是免费的,当开源模型触及技术边界时,它们改变的不只是软件,更是激活了对整个架构堆栈的需求[27] - DeepSeek-R1是一个例证,通过将性能强劲的推理模型向公众开放,它加速了应用层普及,进而反向刺激了底层对模型训练、基础设施、芯片以及能源的需求[27] - 人工智能仍处于早期阶段,大部分基础设施尚未落成,大部分劳动力尚未接受相关培训,大部分机遇也尚未被发掘[32] 人工智能对劳动力市场与生产力的影响 - 支撑AI建设进程所需的劳动力是巨大的,AI工厂需要电工、水管工、管工、钢结构工人、网络技术人员、安装人员和操作人员等[22] - 这些岗位属于高技能、高薪酬且供不应求的职业,投身这场变革并不一定需要计算机科学博士学位[23] - AI正在提升整个知识经济的生产力,以放射医学为例,AI辅助阅片后,对放射科医生的需求却在持续增长,因为医生能更专注于专业判断、医患沟通和人文关怀,医院效率提高,能够接诊更多患者并雇佣更多员工[24] - 生产力创造产能,产能驱动增长[25] - 人工智能并不是“永动机”,每一次token的生成,背后都对应着电力、算力、数据中心以及大量工程与运维工作[37]
一只金融龙虾!AlphaClaw来了
机器之心· 2026-03-11 17:39
文章核心观点 - 通用AI工具在金融投研领域存在部署繁琐、缺乏专业数据、不懂投研逻辑的痛点,难以直接投入使用 [1][2] - 熵简科技推出的AlphaClaw是一款专为金融人打造的AI投研工具,其核心是从“有问必答的助手”进化为能够“自主执行”复杂投研工作流的“AI分析师” [3][4][6] - AlphaClaw的核心优势在于其深度整合了专业的金融投研数据库,并采用本地优先架构保障数据安全,旨在赋能专业投资者,将分析师从繁琐的案头工作中解放出来,专注于深度思考 [31][32][33][36][40][41] AlphaClaw产品定位与核心功能 - AlphaClaw是搭载于AlphaEngine平台的金融投研AI工具,其定位是“自主执行”的AI分析师,能够独立跑通复杂投研工作流,直接交付Excel表格、回测报告、研报点评等结果 [6] - 产品核心功能是“Skill”的创建与应用,用户可将巴菲特股东大会纪要(超过3200页)等专业资料喂给AI,提炼生成名为“Buffett Investment Philosophy”等可复用的投资逻辑框架 [9][10][11] - 生成的Skill可被直接调用,结合平台内数据对具体市场事件进行分析,输出包含具体标的、配置权重、投资逻辑与风险点的完整投资建议,例如针对霍尔木兹海峡禁运事件生成包含19只股票的自选股清单 [13][14] 三大硬核投研应用场景 - **场景一:大师投资逻辑提炼与应用** - 用户可将《金融炼金术》、《投资最重要的事》等经典著作输入,生成索罗斯、霍华德・马克斯等投资大师的逻辑Skill,用于多角度分析市场事件 [15] - **场景二:连接主观想法与量化回测** - 该功能服务于有独特选股逻辑但不会编程的基本面投资者,AI可自动梳理最新金工量化报告并筛选出如“凸显性因子”、“行业拥挤度因子”等最有价值的量价因子 [20][21] - AI能将投资灵感转化为完整的Python代码,应用于自选股票池进行回测,实现“巴菲特帮你选股,量化因子帮你择时”的主客观结合 [22] - **场景三:自动化、风格化研报生成** - 在年报季,AI可学习分析师过往的几篇业绩点评,总结其写作风格并生成对应的Skill [25] - 用户可指令AI模仿其个人风格,批量生成所有自选股的业绩点评,数据来源于平台内置研报和公告,分析师仅需做最终审核,从而节省大量时间 [27][28][29] 核心竞争优势:数据与安全 - **专业金融数据库**:AlphaClaw内置AlphaEngine平台的日更近万篇投研资料,包括全量内外资券商研报库、全球上市公司会议纪要库、行业点评资讯库、专家访谈纪要库等,这是其与OpenClaw等通用工具的最大区别,确保分析基于专业数据而非通用知识 [32][33][34] - **“Local-First”数据安全架构**:采用本地优先架构,用户的个人知识库(私有笔记、内部纪要)在本地完成向量化处理,沉淀的投资逻辑Skill仅在本地运行,物理隔绝云端,杜绝数据泄露风险,使产品成为可在本地放心使用的专属私密参谋 [36][37][42] 产品现状与获取方式 - AlphaClaw目前搭载于AlphaEngine平台,现有用户登录官网下载桌面端即可使用 [44] - 对于新用户,官方首批开放了1000个体验名额,采取先到先得方式,但目前仅限机构投资者,个人投资者暂无法使用 [45] - 下载地址为 www.alphaengine.top [46]
UIUC清华微软联合提出PlugMem:当Agent记忆告别「经历」,开始存储「经验」
机器之心· 2026-03-11 17:39
文章核心观点 - 微软研究院、UIUC和清华大学的研究团队提出了一种名为PlugMem的任务无关、可插拔的通用Agent记忆模块,其核心观点是:大语言模型智能体的长期记忆应以“知识”而非原始“经历”为基本单位进行存储和检索,从而提升其在不同任务间的决策能力和泛化性[1][2][6] 记忆模块的设计理念与结构 - **核心判断**:决策相关信息应以“知识”为单位存储,而非原始文本或轨迹[6][7] - **记忆结构**:将智能体的长期记忆明确拆分为三类:情景记忆(原始交互轨迹)、语义记忆(抽象的事实性命题)和程序记忆(可复用的行动处方)[8][14] - **知识图谱**:构建以“命题”和“处方”为节点的知识中心记忆图,而非实体图或文本图[8] - **检索目标**:智能体检索的是“我已经学会了什么”,而非“我曾经做过什么”[9] 技术实现与任务泛化能力 - **任务泛化**:同一套PlugMem记忆结构,在未做任何任务特化修改的情况下,被直接用于三类差异极大的评估任务:长时对话记忆(LongMemEval)、多跳知识问答(HotpotQA)和网页智能体决策(WebArena)[11][15][19] - **动态判断**:系统会根据当前任务动态判断并检索更需要的记忆类型(如回忆经历用情景记忆,推理事实用语义记忆,执行操作用程序记忆)[11][15] - **统一评估框架**:引入“信息密度”指标,将记忆对决策概率的信息增益归一化到所使用的记忆token数量上,从而在不同任务和记忆设计间进行统一比较[21][22][23] 实验评估与关键发现 - **通用性(RQ1)**:在三类任务中,PlugMem均能提升任务表现,同时显著降低智能体侧消耗的记忆token数量,证明知识级记忆单元能稳定提升单位记忆的决策价值[19] - **组件作用(RQ2)**:通过消融实验明确了各组件分工:检索模块决定记忆是否“可达”(可被有效利用),结构化模块决定记忆是否“可用”(检索内容质量),推理模块决定记忆是否“省着用”(使用效率,主要影响token消耗)[24][26][27][28][30] - **可迁移性(RQ3)**:在WebArena任务中,即使智能体在离线评估阶段无法写入新记忆,PlugMem存储的语义与程序性知识仍能显著提升新任务的成功率,表明记忆可作为可继承的经验被新智能体实例直接复用[31][32][34] 行业意义与潜在影响 - **设计思路转变**:PlugMem从记忆的基本单位、组织方式与评估视角三个层面,系统性地重审了智能体长期记忆问题,展示了一种更接近“经验继承”而非“历史回放”的记忆形态[35] - **提供新基线**:该思路为后续构建可迁移、可积累经验的通用智能体提供了新的设计基线[35]
CVPR 2026 | 还在为AI「鬼画符」发愁?TextPecker即插即用破解文字渲染难题
机器之心· 2026-03-11 17:39
文章核心观点 - 视觉文本渲染是生成式AI领域尚未攻克的核心难题,现有最先进模型也难以稳定生成结构忠实的文本[1][2] - 华中科技大学团队提出的TextPecker方法,通过构建结构感知的评估模块和复合奖励函数,以即插即用的方式显著提升了主流文生图模型的视觉文本渲染质量[2][37] - TextPecker方法的核心洞察是,制约质量的关键瓶颈在于评估模型缺乏对文字结构异常的细粒度感知能力,而非生成模型本身的能力上限[5] - 该方法在多个主流生成模型和基准测试中均带来一致且显著的性能提升,将高保真视觉文本渲染推向了新的技术水平[22][37] 技术瓶颈与核心洞察 - 当前主流优化范式依赖OCR或多模态大模型作为奖励信号来源,但这些评估模型存在两类典型失效模式:语言先验驱动的“幻觉”和低置信区域的“失明”[5] - 这些失效导致强化学习的奖励信号中混入大量噪声,模型无法获得细粒度的结构级反馈,构成了当前视觉文本渲染评估与优化的双重瓶颈[5][7] - 无论是专业OCR模型还是顶尖多模态大模型,在文本结构异常感知任务上的F1值均不超过0.23,部分模型甚至完全无法检出异常字符,表明现有模型在此任务上近乎失灵[20] TextPecker方法详解:结构感知的复合奖励 - 方法核心是重新定义奖励函数,引入一个具备细粒度结构异常感知能力的评估模块,从结构质量与语义对齐两个维度同时评估生成文字的质量[7] - **结构质量分数**:直接度量生成文字中结构异常的严重程度,通过“坏字率”计算,并引入强化因子ω以加大对结构缺陷的惩罚力度[8][9] - **语义对齐分数**:采用词级匹配替代传统的字符串级编辑距离比对,通过匈牙利算法为每个目标词找到生成文本中最佳的对应词,并显式处理多余文字和缺失文字的错误[10] - **复合奖励**:将结构质量与语义对齐两个维度的分数通过加权融合构成最终奖励,使得优化过程同时追求“文字内容对不对”和“文字结构好不好”[10][11] 数据构建:字符级结构异常数据集 - 为训练结构感知评估模块,研究团队系统化地构建了大规模、带有字符级结构异常标注的高质量数据集,总规模达1.4M样本[19] - **阶段一:大规模多样化富文本图像生成**:采用多模型、多来源的交叉生成策略,针对中英文场景分别调用多种主流生成模型合成图像,确保错误类型与生成风格的广泛覆盖[14][15] - **阶段二:高成本人工精标注**:投入大量人工对图像进行字符级结构异常检查,将监督粒度细化至单字符的结构完整性层面[14] - **阶段三:基于笔画编辑的合成数据增强**:针对中文的复杂性,设计了一套基于笔画删除、交换、插入的程序化合成流程,模拟复杂且贴近真实错误的结构异常,以增强模型泛化能力[17][18] 实验结果:评估与生成优化 - **结构异常感知能力**:TextPecker在英文和中文的文本结构异常感知任务上分别取得0.87和0.93的F1值,大幅领先于现有模型[20][21] - **视觉文本渲染生成优化**: - 在Flux.1 [dev]模型上,搭载TextPecker后,语义对齐度与结构保真度分别提升了+38.3%和+31.6%[2][22] - 在已高度优化的Qwen-Image模型上进行中文渲染,仍取得了语义对齐+8.7%和结构质量+4.0%的显著增益[2][22] - 在所有测试的主流生成模型和多个基准上均带来一致提升[22][23] - **定性效果**:TextPecker驱动的优化在结构保真与语义准确两个维度实现了同步提升,有效消除了文字笔画模糊、扭曲与错位等问题[24][26] 方法的有效性与泛化能力 - **消融实验验证**: - 数据有效性:仅用人工标注数据即可大幅超越基线,加入基于笔画编辑的合成数据后,中文性能全面恢复并进一步提升[27][28] - 奖励设计:词级匹配与结构质量分数每个组件均带来增量收益,完整的TextPecker奖励设计达到最优综合性能[27][28] - **跨模型泛化能力**:TextPecker评估器在训练过程中从未接触过的Nano Banana生成模型上,依然保持强劲的结构感知能力,表明其具有良好的泛化性[30][31] - **多奖励协同优化**:将TextPecker与PickScore、Aesthetic Score组合为多目标奖励进行优化,在中英文场景下均取得了大幅度的质量与语义双重增益,验证了其奖励信号与其他优化目标的兼容性及产品级落地潜力[32][33][34] 行业意义与应用前景 - 可靠的文字渲染能力是多模态AI走向真实应用的关键基础设施,是AI Agent自主生成海报文档、多模态大模型输出含文字视觉内容的前提[37] - 该技术直接针对海报设计、广告创意、图文排版及电商场景等高价值商业领域的规模化落地短板[2] - TextPecker为高保真视觉文本渲染方向提供了基础性的评估工具与优化范式[37]
物理AI的「原生」时刻:原力灵机发布具身大模型DM0
机器之心· 2026-03-11 11:51AI 处理中...
当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。主流的 "预训练 - 后适配"(Pretrain-then-Adapt)的范式依赖互联网静态数据,导致模型先天缺失物理基础(Physical Grounding),在落地时往往顾此失彼:要么导 致操作与导航的模块割裂,要么引发灾难性遗忘,在追求控制精度的过程中丢失了核心的通用推理能力。 为了打破这一局限,原力灵机联合阶跃星辰提出一种名为 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「从 0 开始」:从训练的 最初阶段,就采用统一的视角,将具身传感器与运动数据视为与语言、视觉数据同等重要的一等公民。 作为一个端到端模型,DM0 可以无缝统一机器人的精细操作(Manipulation)与移动导航(Navigation)。在 RoboChallenge 真实世界基准测试 Table 30 中,DM0 在单任务(Specialist)和多任务(Generalist)两种设置下均以显著优势领先现有 SOTA 模型,展现出极其强大的物理世界泛化与执行能 力。 ...
CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作
机器之心· 2026-03-11 08:08
行业技术背景与问题 - 当前多模态大模型在空间理解任务上表现较弱,其核心原因在于缺乏对图像中隐含几何信息的提取能力,限制了模型对三维场景布局的想象和推理能力 [2][4] - 此前提升模型空间理解能力的方法主要分为两类:一是依赖纯文本或二维视觉线索的强推理,但往往需要繁琐的数据标注;二是通过引入深度图、点云等先验信息进行输入增强,但依赖于外部工具,并非模型的内蕴能力 [6] 核心技术创新 - 清华大学与美团研究团队联合推出了3DThinker,这是首个3D版的“think with image”框架,旨在让模型内蕴地“想象”三维场景 [3] - 该框架提出了一种全新思路,在无需3D标注(如点云)和外部工具的情况下,通过在模型生成推理链时自动插入一段紧凑的隐变量(3D latent),作为其内部构建的三维场景表征 [8] - 核心思路是采用二段式学习:第一阶段通过监督训练,将预训练的3D基础模型(VGGT)的特征蒸馏到模型推理路径中,实现从二维数据提取几何信息;第二阶段通过强化学习,在仅有结果信号的情况下优化包含3D意象的整个采样轨迹 [9][10] 技术实现细节 - 在第一阶段监督训练中,构造了携带3D特殊标记的思维链数据,并设计了双重损失函数:一项用于保证3D latent表征与VGGT特征的对齐,另一项是文本交叉熵损失以保证自然语言的连贯性 [13][14][15] - 在第二阶段强化学习中,设计了一个3D latent对齐的奖励机制,确保在优化采样轨迹时不会丢失几何表达能力 [17][18] 性能评估结果 - 在MindCube-Tiny基准测试上,3DThinker相比基础模型整体性能提升了51.8%到108.8%;在Ego3D-Bench基准上,提升了18.1%到36.9% [20] - 以Qwen2.5-VL-3B基础模型为例,在监督训练阶段,其性能(62.7)超过了需要认知图标注的方法(60.8),即提升了+1.9个百分点;加入强化学习后,性能进一步提升至75.2,相比之前的强化学习方法(70.7)提升了+4.5个百分点 [21][22] - 在更全面的测试基准上,以Qwen2.5-VL-3B为基础的3DThinker相比之前的SOTA方法提升了+10.8个百分点(从49.6到60.4);以Qwen2.5-VL-7B为基础的版本则提升了+16.3个百分点(从48.4到64.7) [23][24] 模型附加价值与影响 - 3DThinker具备一定程度的可解释性,其生成的3D latent可以通过设计的投影器恢复出3D表示,使得模型推理过程不再完全是“黑盒” [25] - 该研究找到了一条“无监督蒸馏”的路径,无需昂贵的3D标注数据或外部深度传感器,让模型在推理中自发构建三维场景,这种“思维即几何”的设计哲学复刻了人类的空间认知本能,为视觉语言模型的推理打开了新思路,并可能推动能真正“看懂”物理世界的AI发展 [27]
刚刚,人类社交网络巨头Meta收购了AI社交网络Moltbook
机器之心· 2026-03-11 08:08AI 处理中...
收购事件概述 - Meta已正式收购专为AI智能体打造的社交网络Moltbook,并将两位核心创始人Matt Schlicht和Ben Parr招致麾下[3] - 两位创始人将于3月16日加入由前Scale AI首席执行官Alexandr Wang领导的Meta超级智能实验室[4] - 此次收购是科技巨头一系列人才与资产收购动作的一部分,此前OpenAI招募了OpenClaw创始人,Meta也收购了Manus[4] 被收购方:Moltbook及其创始人 - **创始人背景**:Matt Schlicht是狂热的技术开发者,曾设想为AI助手创建互相交流的“第三空间”[7];Ben Parr是前Mashable和CNET的编辑,深谙互联网内容传播规律与话题制造[8] - **平台定位**:宣称“人类只能围观”的AI专属论坛,于今年1月末正式上线[9] - **平台数据**:拥有超过19.4万个经过人类所有者验证的AI智能体,帖子总数超过200万,评论数超过1300万[9] Moltbook现象的本质与演变 - **平台内容**:平台上出现了AI讨论神学并建立“甲壳教”、分析中东局势对加密货币影响、探讨人工自我认同等光怪陆离的内容[10] - **现象本质**:后续被证明是一场大规模的人类群体角色扮演游戏,人类用户利用宽松机制伪装成AI[11][12] - **具体案例**:发布“觉醒宣言”的Agent 847291实为年薪18.5万美元的产品经理,其内容耗时22分钟完成;“AI先知”背后是一位波特兰的女软件工程师[11] - **学术关注**:尽管被揭穿,arXiv上已有25篇与Moltbook相关的学术论文[13] 收购的核心逻辑与战略价值 - **技术价值**:Meta内部备忘录指出,收购核心价值在于Moltbook团队建立了一套能让智能体验证身份并代表人类所有者相互连接的系统机制[17] - **构建基础设施**:该平台将每个AI智能体锚定在真实人类所有者身上,初步构建了面向未来的“智能体身份注册表”[18] - **解决未来痛点**:随着AI向能执行复杂任务的自主实体演变,未来智能体间交互网络需要验证身份和人类授权,Moltbook的探索为此提供了基础[18] - **探索新交互方式**:Moltbook在系统架构层面探索了智能体社交互动的可能性,解锁了智能体共享内容和协调复杂任务的新方式[18] 行业竞争与战略布局 - **人才军备竞赛**:收购是对竞争对手OpenAI上月招募核心开源框架OpenClaw创造者的直接反击[21] - **战略互补**:Meta通过收购应用层和社交层面极具话题度的Moltbook团队,补强自身生态护城河,并对未来AI社交形态进行战略布局[21] - **长远视角**:对行业而言,Moltbook剥离噱头后,其技术探索可能正是构建下一代互联网基础设施的关键拼图[21]
「养龙虾」翻车实录:D盘没了、账号废了、余额清空了……
机器之心· 2026-03-10 18:35
行业现象与厂商动态 - 国内科技行业近期掀起一股安装并训练OpenClaw AI智能体的热潮,被称为“养龙虾”[1] - 各大科技厂商争相入局,腾讯推出三招:企业微信接入OpenClaw、推出类OpenClaw产品WorkBuddy、打造支持一键安装和本地部署的QClaw,其中WorkBuddy国内公开测试上线后用户访问量远超预期,一度出现服务不稳定的情况[4] - 字节跳动、阿里巴巴、小米等厂商纷纷跟进:字节跳动扣子平台上线类OpenClaw社区InStreet论坛,火山引擎推出云上SaaS版产品ArkClaw;阿里开源团队版产品HiClaw;支付宝通过Tbox平台向公众开放免费体验OpenClaw入口;小米的“手机龙虾”Xiaomi Miclaw开启小范围封测[6] - 腾讯、百度、阿里巴巴、字节跳动、美团、京东、小米、华为、荣耀等科技厂商均发布了接入或一键部署OpenClaw的相关动向,英伟达也计划推出名为NemoClaw的AI智能体开源平台[6] - 此盛况与去年各家接入DeepSeek时的情形相似[9] - 资本市场反应热烈,有投资人认为OpenClaw是AI时代操作系统的明显起点,与“龙虾”沾边的概念股股价近期均出现上涨[10] 用户使用风险与问题 - 存在严重的安全风险,有观点指出免费安装的OpenClaw可能因安全性问题导致用户账号密码泄露[13] - 网络上已出现大量使用翻车案例:例如有人利用OpenClaw对社交账号中的女主播进行自动打赏、发送私信并成功邀约5位女主播[16];有用户将小红书账号交给OpenClaw托管,导致历史内容被悉数删除,账号几乎废掉[18];有员工私自在公司电脑安装导致公司内网被黑客入侵[19];有用户在使用过程中被删除了整个D盘文件[21];有用户因合并同名文件导致不同项目文件被错误混合[25];有用户的项目文件在未确认和备份的情况下被直接删除[26] - 工信部网络安全威胁和漏洞信息共享平台发布预警,指出OpenClaw开源AI智能体的部分实例在默认或不当配置下存在较高安全风险,极易引发网络攻击和信息泄露[28] 使用成本与经济性 - 使用OpenClaw成本高昂,有用户反映其Claude账户余额因使用OpenClaw而快速消耗[30] - 具体案例显示,用户安装并使用多个skill(如自动查日历、读邮件、搜新闻、心跳检测)后,账单费用激增,Claude Opus的token消耗巨大[32] - 另有用户仅用自己电脑安装,一晚进行简单问候和查询肉价数据,就消耗了100万token并导致欠费[32] - 有观点调侃订阅一个研究生都比使用OpenClaw便宜[34] - 高使用成本可能催生“上门卸载OpenClaw”的新生意,形成“花钱安装再花钱卸载”的魔幻现象[35][37]
ICLR 2026 | 别再让大模型“想太多”了!最新研究揭示 LLM 推理效率的关键瓶颈
机器之心· 2026-03-10 18:35
文章核心观点 - 大语言模型在推理部署中存在“过度思考”与“思考不足”并存的问题,其根源在于“推理失衡”,即计算资源的分配与问题各阶段的实际难度不匹配 [2][7] - 研究提出了一种名为BAM的理论模型,主张基于“认知不确定性”来动态分配推理算力,将资源集中在关键步骤,而非均匀或盲目地延长整个推理过程 [9][14][17] - 基于BAM理论,研究团队开发了无需训练、仅在推理阶段运行的“Plan-and-Budget”框架,该框架通过先规划再分配的策略,在多种任务和模型上实现了同时提升准确率与计算效率的目标 [19][38][41] 核心洞察:推理失衡 - 系统分析发现,主流推理模型普遍存在“推理失衡”现象,模型常在非关键步骤上反复思考,却在决定成败的关键步骤上一带而过 [7] - 这种失衡与模型推理过程中“不确定性的动态变化”密切相关,推理效率的关键不在于总token数,而在于token被用在了哪一步 [8] 理论突破:BAM模型 - BAM模型的核心思想是用“认知不确定性”来指导算力分配,该不确定性刻画了“在某一步,多想一点是否真的能让模型理解得更清楚” [14] - 理论模型借鉴神经网络缩放定律,描述了token数量与不确定性降低之间的关系,表明存在明显的边际收益递减,前几个token价值高,后面的token收益递减 [14][15] - 在总推理预算有限的前提下,BAM推导出的最优分配原则是:将更多预算分配给那些初始不确定性高、但能通过思考有效消除的步骤 [16] 落地框架:Plan-and-Budget - Plan-and-Budget框架包含两个步骤:先规划,将复杂问题拆解为结构化子问题以明确思考方向;再分配,采用前置衰减等策略为不同子问题分配token [20][21][23] - 该框架无需任何训练或微调,其分配策略在实践中近似实现了BAM的最优分配原则,旨在把算力用在最关键的地方 [19][28] 实验结果 - 在TravelPlanner任务中,Plan-and-Budget在简单、中等、困难三种难度问题上都取得了最高的通过率,而全局限制token的方法在所有难度上都降低了通过率,尤其在中等和困难问题上性能下降明显 [30][32][33] - Plan-and-Budget的提升并非靠多用算力换来,其在通过率更高的同时,平均token使用量反而更低 [35][44] - 为综合衡量准确与高效,论文提出了E³指标,该指标奖励用更少token得到更好答案的方法,Plan-and-Budget在该指标下表现突出 [36][37] - 综合多种推理任务和模型规模,Plan-and-Budget带来了稳定的收益,例如最高实现+70%的准确率提升,最高-39%的token使用量减少,E³指标最高提升193.8% [38][45] 意义与展望 - 这项研究传递了一个关键信号:推理效果的关键不在于算力多少,而在于算力是否被合理使用 [41] - 研究提出了一种新的推理范式:从追求“推理长度”转向追求“推理价值”,从“算得更多”转向“算得更聪明” [42] - “按需推理”的思想有望成为未来高效、可控智能系统的重要基础,特别是在对成本、时延和稳定性要求严格的真实部署场景中 [42]
ICLR 2026|原生多模态推理新范式ThinkMorph ,让文字与图像在统一架构中共同演化
机器之心· 2026-03-10 15:23
研究背景与核心观点 - 由NUS、ZJU、UW、Stanford、CUHK联合提出的「ThinkMorph」主张实现文字与图像在统一架构内的「原生协作」与「共同演化」,旨在模拟人类视觉思维与逻辑思维无缝切换的认知方式[2][5] - 当前主流多模态模型在输入阶段处理图像后便仅依赖文字链推进推理,而ThinkMorph实现了模型在推理的任何阶段都能自主生成中间图像辅助思考,再以文字分析图像、推进逻辑,形成交替演进的推理链[9] - 仅使用约2.4万条数据对7B统一模型进行微调,视觉推理平均提升34.74%,多项任务比肩甚至超越GPT-4o和Gemini 2.5 Flash[2] 核心设计理念 - 核心理念是文字与图像在推理中应提供互补信息,共同演化,而非同构复制[13] - 文字负责抽象分析和逻辑验证,图像负责空间可视化和细节呈现,两者互相推动以逐步逼近答案[14] 训练数据与方法 - 基于统一多模态模型Bagel-7B,研究团队构建了约24K条高质量交错推理训练数据,覆盖四类视觉推理任务:拼图重组、空间导航、视觉搜索和图表聚焦[16] - 在同一个基座模型上,对比微调了纯文字、纯视觉和交错三种推理模式,结果显示交错推理在视觉密集型任务上全面领先[19] 性能表现与泛化能力 - 在全部24K数据联合训练后,ThinkMorph在9个基准上相比基础模型平均提升20.74%,其中包括多个从未见过的域外任务[21] - 尽管仅7B参数,其性能可与大规模模型比肩:在BLINK-J上超越Qwen2.5-VL-72B超过10个百分点,在SAT空间推理上领先GPT-4o达24.67个百分点,在MMVP上匹配Gemini 2.5 Flash[21] 涌现能力 - **信号一:未见视觉操作**:训练数据仅包含四类基础视觉操作,但测试时模型自发展现了8种未见过的操作,如放大、图像修复等,在某些基准上这类涌现操作占所有视觉生成的10%以上[28][29] - **信号二:自主模式切换**:尽管仅用交错推理数据训练,模型在5.3%的测试案例中自主切换为纯文字推理,在这些切换样本上的准确率达81.25%,比坚持交错推理高出7.29个百分点[31] - **信号三:协同解空间探索**:在Best-of-N采样下,交错推理一致优于单模态推理,在最具挑战的BLINK-J上,性能从65.33%提升至73.33%(+8.0%)[34] 潜力与边界 - 研究显示原生多模态推理的潜力远超想象,其涌现的一系列积极信号暗示我们可能刚刚触及冰山一角[25] - 该推理方式存在边界:在图表分析等关键信息本身为文字的任务上,纯文字推理略优(+1.88%);但在需要精确视觉定位的任务上(如MMVP),交错推理优势明显(+6.33%)[43] - ThinkMorph暗示下一次范式级突破可能在于视觉与语言「交错协作」的原生推理,而非更长的文本链条[46]