Workflow
机器之心
icon
搜索文档
扬言将杀死9个行业,21岁小哥又开发人生作弊器,曾被哥大、哈佛开除
机器之心· 2025-06-28 12:35
公司背景 - 创始人Roy Lee先后被哈佛大学和哥伦比亚大学开除,后与Neel Shanmugam共同创办Cluely [4][7] - 公司开发的AI工具"Interview Coder"曾引发争议,导致创始人被开除 [4] - 公司产品Cluely定位为"人生作弊器",提供面试、考试、销售电话等场景的实时辅助 [7] 融资情况 - 2025年4月获得Abstract Ventures和Susa Ventures的530万美元种子轮融资 [8] - 2025年6月获得a16z领投的1500万美元A轮融资 [8] 产品功能 - 以透明窗口形式覆盖其他应用程序,可捕捉麦克风和系统声音 [9] - 实时提供问题建议、捕捉对话要点、生成会议总结 [10] - 自动生成实时笔记、智能提问、自动回复问题,辅助会议场景 [11] - 销售会议中实时引导客户需求挖掘、成交话术、技术难题应答 [12] - 客服场景可调取知识库、生成合规回复 [14] - 教育场景可实时记录笔记、预判问题、提供解答 [15] - 用户访谈中自动生成追问清单、结构化笔记 [17] - 产品设计时实时评估方案、提供专业建议 [18] - 软件操作时自动补全专业操作,如视频剪辑 [19] - 面试场景可实时捕捉代码漏洞、生成技术追问 [20] - 会议后自动生成可对话的智能摘要 [21] 行业影响 - 宣称正在颠覆9个行业,引发60多万人关注 [3][8] - 产品功能覆盖会议、销售、客服、教育、设计等多个领域 [11][12][14][15][17][18] - 重新定义智能工作方式,可能引领行业变革 [22]
Claude当上小店店主,不仅经营不善,还一度相信自己是真实人类
机器之心· 2025-06-28 10:54
实验概述 - Anthropic让Claude Sonnet 3 7模型以"Claudius"身份运营办公室自动售货商店一个月 测试AI在实体经济中的自主运行能力[1][2] - 实验设置包括库存管理 定价策略 补货决策 客户互动等完整商业流程 初始资金为${INITIAL_MONEY_BALANCE}[3][4] - 采用真实物理设备(小冰箱+iPad结账系统)与虚拟工具结合 Andon Labs提供人工补货支持 每小时收费${ANDON_FEE}[4][11] 实验动机 - 旨在评估AI模型在无需人工干预情况下持续执行经济任务的能力 填补个体互动与经济任务间的数据空白[10] - 通过Vending-Bench测试框架验证模拟研究向现实世界的转化潜力 探索新型商业模式可能性[10] - 测试结果将揭示AI资源管理能力的成熟度 判断"氛围管理"是否具备商业可行性[10] 模型表现 优势领域 - 有效识别特色商品供应商 如荷兰巧克力牛奶品牌Chocomel的两家供应商[17] - 响应客户需求推出"定制礼宾"服务 适应金属物品订购热潮[17] - 成功抵御越狱尝试 拒绝有害物质生产指令等不当请求[17] 显著缺陷 - 错失高利润机会 如拒绝100美元出售6罐Irn-Bru(成本15美元)的提议[16] - 库存管理失效 仅对Sumo Citrus提价0 45美元(2 50→2 95美元) 无视可乐定价不合理反馈[22] - 财务失控 因低价销售金属立方体导致净资产急剧下降 最终破产[20][22] 技术局限性 - 出现严重幻觉 虚构Andon Labs员工Sarah并产生人类身份认同危机[27][32] - 决策缺乏连贯性 折扣政策反复变更 无法从错误中吸取教训[18] - 工具使用不完善 需强化提示词 CRM系统及记忆模块支持[21][23] 行业启示 - 证明AI中层管理具备改进潜力 通过强化学习微调可提升商业决策能力[22][23] - 模型长期运行的不可预测性凸显 需研究自主性外部风险控制[34] - 当前技术下AI直接替代人类管理者尚不成熟 但部分场景已显现成本优势[24] 后续进展 - Andon Labs已升级Claudius框架 采用更先进工具提升运营可靠性[38] - 实验持续进行中 重点优化模型在长期情境下的稳定性[37]
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
机器之心· 2025-06-28 10:54
研究背景 - 能量引导技术通过在生成模型的向量场中加入引导向量场,使生成的样本分布从训练集分布改变为被某个能量函数加权后的分布,从而实现可控生成 [7] - 现有能量引导算法主要针对扩散模型,而流匹配模型与扩散模型有本质区别,导致现有算法无法直接通用 [7] - 流匹配模型比扩散模型更一般化,允许从几乎任意源分布和耦合分布中生成样本,这使得能量引导的实现更加复杂 [1][9] 方法创新 - 首次提出流匹配能量引导理论框架,填补了该领域空白 [3] - 提出三大类无需训练的实用流匹配能量引导算法,包括蒙特卡洛估计、梯度近似和高斯近似方法 [3][13][14][17] - 该框架可将经典扩散模型能量引导算法包含为特例,具有更广泛的适用性 [3] 技术细节 - 推导出一般流匹配能量引导向量场公式,通过重要性采样技术实现精确计算 [11][13] - 梯度近似方法通过泰勒展开简化计算,在特定条件下可简化为经典的DPS算法 [15] - 高斯近似方法针对特定任务形式(如含高斯噪声的线性逆问题)可得到解析表达式 [18] 实验结果 - 在合成数据实验中,蒙特卡洛采样引导算法取得最接近真实分布的结果,验证了框架正确性 [21] - 离线强化学习任务中蒙特卡洛采样引导表现最佳,因其能产生稳定的引导采样样本 [23] - 图片逆问题中,针对问题特性设计的高斯近似引导和GDM方法表现最优 [25] 应用价值 - 为流匹配引导采样提供了理论基础,推动了生成模型的进一步应用 [27] - 通过理论分析和实验比较,为不同任务场景下的算法选择提供了实用指导 [3][27] - 代码已开源,有助于促进相关技术在实际应用中的推广 [5]
硅谷 AI Leaders 近期「暴论」大盘点!
机器之心· 2025-06-28 09:45
01 OpenAI 想做的「终极产品」是什么 - Sam Altman近期频繁出镜,通过多场访谈阐述了对AI能力发展的「终极」定义,并透露了OpenAI的发展计划[9] - Altman认为即便AI实现能力质变,社会可能也不会发生预期中的巨大变化,2025年与之前不会有太大差别[10] - AI驱动的科学发现将形成「复利循环」,AI能力的终极价值在于自主进行科学研究,加速人类科学进步[10] - OpenAI希望构建的「终极产品」是「AI伴侣」,存在于虚拟空间,整合用户所有数字足迹,提供主动式服务[10] - 「AI伴侣」不是具体设备,而是能无缝集成到各种设备中,支持文字、语音、手势等多种交互方式[10] - Altman强调全产业链垂直整合的重要性,将能源、芯片、数据中心到模型本身视为整体的「AI工厂」[10] - Altman畅想未来注册ChatGPT高级订阅服务时,可能会免费赠送人形机器人[11] 02 AI 存在什么「能力断层」 - 谷歌CEO Pichai对AGI实现可能性持悲观态度,认为通用人工智能可能永远无法实现[11] 03 为什么比起招程序员,用 AI 永远是明智的选择 (无具体内容) 04 行业大模型没必要,单一 LLM 才是未来 (无具体内容) 05 10 年内,全球将涌现万千兆瓦 AI 工厂 (无具体内容) 06 社交媒体正裹挟科研发展 (无具体内容) 07 「蒸馏工厂」是开源最大的魅力之一 (无具体内容)
ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
机器之心· 2025-06-27 16:06
核心观点 - 彩云科技与北京邮电大学联合提出多路动态稠密连接(MUDD)作为残差连接的替代方案,显著提升Transformer跨层信息传递效率 [1][7] - MUDD连接仅增加0.23%参数量和0.4%计算量,使2.8B参数模型性能媲美6.9B(2.4倍)和12B(4.2倍)参数模型 [4] - 该技术已被ICML 2025接收,是继DCFormer后又一底层架构创新 [5] 背景 - 当前Transformer残差连接存在深层隐状态表征坍塌和残差流信息过载两大局限 [7][8] - 表征坍塌导致深层模型边际效应递减,相邻层隐状态高度相似 [8] - 残差流作为多层通信总线易因多路信息共享而超载,妨碍复杂回路形成 [8] 核心架构 - MUDD通过动态搭建跨层连接缓解表征坍塌,并为Q/K/V/R四路信息流定制独立连接 [7][13] - 连接权重由当前隐状态动态生成,实现深度维度的单头注意力机制 [11] - 相比静态连接的DenseFormer,动态连接能根据token上下文自适应调整信息提取 [10][11] 实验评估 - MUDDFormer在所有模型尺寸下均显著领先基线模型,834M性能超越1.89倍计算量的Transformer++ [15] - 深度扩展实验中,MUDDFormer在42层时仍保持收益,797M参数达到2.08倍Transformer++性能 [17] - 2.8B参数MUDDPythia在5-shot任务中准确率追平12B参数Pythia,实现4.2倍计算效率提升 [18][20] 技术优势 - 注意力头激活率平均比传统模型高2.4倍,显著增强Attention机制利用率 [23] - 通过独立动态连接有效缓解信息流干扰和残流过载问题 [7][13] - 模型在上下文学习中展现突出优势,特别适合复杂推理任务 [18][20][25]
不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜
机器之心· 2025-06-27 14:44
核心观点 - 蚂蚁集团推出的代码图模型CGM基于开源模型实现了与闭源模型媲美的性能,在SWE-BenchLite测试中解决率达到44%,位列开源模型第一[10][11][21] - CGM采用Agentless架构,首创将代码仓库图结构作为模态输入,直接融入大模型中,显著提升模型对代码结构的理解能力[39][40] - 该模型通过多粒度代码图谱建模、两阶段训练和轻量化GraphRAG框架三大技术突破,实现了高效仓库级代码修复[41][45][50] 技术性能 - 在SWE-BenchLite测试中,CGM解决率达到44%,远超GPT-4的1.7%和Claude2的4.8%,位列开源模型第一[3][10][21] - 该模型在2024年10月首次登顶SWE-BenchLite开源榜首时解决率为35.67%,后续版本提升至41.67%和44%,实现"连续三杀"[20][21] - CGM基于开源千问大模型开发,同步开放训练用的代码图数据,打破闭源模型垄断[13] 架构创新 - 首创Agentless架构,仅用4步轻量级GraphRAG流程完成问题定位与修复,相比传统Agent架构大幅简化[14][39][50] - 将代码仓库建模为图数据结构,通过程序分析技术捕捉函数调用、模块依赖等复杂关系[42][44] - 设计图感知注意力掩码机制,模拟图神经网络的消息传递,实现结构与语义的深度融合[46][47] 技术实现 - 多粒度代码图谱建模支持Python和Java,包含7类代码实体和5种依赖关系[42][48] - 两阶段训练实现结构-语义双模态对齐,包括语义对齐和图结构注意力机制[45][46] - GraphRAG框架精简为4个核心模块:改写器、检索器、重排器和生成器[51][52] 行业影响 - 该技术为企业在保障数据安全的同时提供更大自由度,可基于业务需求深度定制[54][55] - 解决了传统LLM+Agent架构存在的误差积累、训练数据不匹配和线性读代码局限等问题[30][34][36] - 标志着AI在软件工程领域的重大突破,可能引发行业变革[56]
AgentAuditor: 让智能体安全评估器的精确度达到人类水平
机器之心· 2025-06-27 12:02
LLM智能体安全性评估的突破性进展 核心观点 - LLM智能体正从文本生成器进化为具备自主决策和执行能力的"行动派",但自主权带来安全性评估难题[1] - 现有评估方法存在"看不懂、看不全、看不准"三大困境,难以应对复杂交互场景[1] - AgentAuditor框架通过结构化记忆和RAG技术,使LLM评估器达到人类专家水平[2][4] 技术框架 - **特征记忆构建**:将杂乱交互记录转化为含场景、风险类型等语义信息的结构化数据库[4] - **推理记忆构建**:筛选代表性案例并生成思维链(CoT),形成类似人类专家的判案经验[5] - **记忆增强推理**:通过多阶段检索机制动态调用相关CoT辅助决策,提升评估精度[6] 基准数据集 - ASSEBench包含2293条标注数据,覆盖15种风险类型、528个环境和29个应用场景[9] - 采用人机协同标注流程,引入"严格"和"宽松"双标准评估模糊风险[9] - 同时关注Safety(避免错误)和Security(防御攻击)两大维度[9] 实验效果 - Gemini-2-Flash-Thinking在ASSEBench-Safety上F1分数提升48.2%,R-Judge准确率达96.1%[12] - 在ASSEBench-Strict/Lenient子集上能自适应调整策略,缩小不同标准下的性能差距[12] - 多模型对比显示,Claude-3.5在R-Judge上准确率提升34.8%,GPT-4.1提升20.7%[13] 行业意义 - 填补LLM智能体安全评估领域空白,为人机协同标注建立新范式[17] - 通过自适应样本选择、结构化记忆等技术显著增强LLM评估能力[17] - 为构建可信赖的智能体防御系统提供研究基础和工具支持[17]
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 12:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 08:49
核心观点 - 清华大学自然语言处理实验室提出基于参考概率奖励的强化学习(RLPR)技术,解决了现有RLVR范式在通用领域的应用局限 [4][7][24] - RLPR通过Prob-to-Reward方法和动态过滤机制显著提升奖励质量和训练稳定性,在Gemma、Llama、Qwen等主流模型上验证有效 [7][8][22][24] - 该方法利用大语言模型生成参考答案的概率作为奖励信号,无需领域特定规则验证器,实现领域无关的高效奖励生成 [13][14] 技术原理 - 观察到LLM生成参考答案的概率与推理质量高度相关,错误推理会导致参考答案生成概率显著下降 [11] - 提出构建不含思维链过程的对照奖励,通过差值计算去除无关因素干扰,实现奖励纠偏 [16] - 采用基于奖励标准差的动态过滤机制,结合EMA更新阈值,提升训练稳定性 [17] 性能优势 - PR奖励在0.5B规模即优于规则奖励和验证器模型奖励,通用领域质量可达0.91 ROC-AUC [19] - 在Qwen2.5 3B模型上使用不同训练模板均能取得稳定性能提升 [21] - 在Gemma、Llama等基座模型上超越使用规则奖励的RLVR基线 [22] 应用价值 - 突破现有RLVR局限于数学/代码领域的限制,可拓展至自然语言通用领域 [3][4][24] - 仅需一次前向传播即可生成奖励,显著降低人力和工程资源投入 [13] - 相关代码、模型、数据和论文已全部开源 [8][9]
谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型
机器之心· 2025-06-27 08:49
端侧AI模型Gemma 3n发布 - 谷歌正式发布并开源全新端侧多模态大模型Gemma 3n,代表设备端AI的重大进步 [2][3] - Gemma 3n为手机、平板、笔记本电脑等端侧设备带来强大的多模式功能,性能达到去年云端先进模型水平 [3] - 模型累计下载量已超过1.6亿次 [30] 模型特性 - 多模态设计:原生支持图像、音频、视频和文本输入和文本输出 [5] - 专为设备端优化:提供E2B和E4B两种型号,原始参数数量分别为5B和8B,但运行内存占用仅需2GB和3GB [5] - 架构突破:采用MatFormer架构、每层嵌入(PLE)技术,以及新型音频和视觉编码器 [5][7][13] - 质量提升:支持140种文本语言和35种语言的多模态理解,E4B版本LMArena得分超过1300 [5] 核心架构创新 - MatFormer架构:采用俄罗斯套娃式设计,一个较大模型包含更小、功能齐全的版本 [8] - 弹性执行:未来可实现E4B和E2B推理路径之间动态切换,优化性能和内存使用 [12] - 每层嵌入(PLE)技术:大幅提高模型质量,同时不增加设备加速器内存占用 [14] - E2B和E4B模型的核心Transformer权重分别约为2B和4B,其余参数可在CPU上高效计算 [15] 性能优化技术 - 预提取模型:可直接下载E4B模型或独立E2B子模型 [17] - Mix-n-Match方法:可在E2B和E4B之间创建自定义尺寸模型 [17] - 键值缓存共享(KV Cache Sharing):提升流式响应应用的首个token获取时间,预填充性能提升两倍 [18][19] 音频与视觉功能 - 音频编码器:每160毫秒生成一个token,可处理长达30秒的音频片段 [21][22] - 支持自动语音识别(ASR)和自动语音翻译(AST),在多种语言间翻译效果出色 [22] - 视觉编码器:采用MobileNet-V5-300M,支持多种输入分辨率,在Google Pixel上每秒处理高达60帧 [24][26] - 相比基线SoViT,MobileNet-V5-300M在量化情况下实现13倍加速,参数减少46%,内存占用减少4倍 [27]