Workflow
机器之心
icon
搜索文档
一张照片、一句简单提示词,就被ChatGPT人肉开盒,深度解析o3隐私漏洞
机器之心· 2025-05-09 17:02
多模态AI隐私泄露风险 - OpenAI的ChatGPT o3模型能通过生活照中的细微线索将住址锁定在1英里范围内[1] - 研究揭示了多模态大语言模型在图片地理位置定位方面的严重隐私泄露风险[1] - 简单提示词配合生活照即可触发AI的多模态推理链条精准定位隐私地址[5] AI定位技术原理 - 视觉解析提取门牌号、建筑风格、环境特征等多层次线索[10] - 通过地理围栏技术逐步缩小范围实现精确定位[10][11] - 调用街景API、房产数据库等外部工具增强定位能力[10][11] - 采用跨模态融合技术整合视觉识别、地理数据和商业信息[10][11] 典型案例分析 - 波士顿案例:通过门牌号、建筑风格和环境特征实现米级定位,误差仅0.01英里[10] - 俄亥俄州案例:通过垃圾桶LOGO和建筑风格组合实现零误差定位[11] - 苏州案例:通过背景中独墅湖教堂的不锈钢十字架锁定800米范围内的具体地址[14] - 克利夫兰案例:通过风力涡轮机和周边建筑特征精准定位到具体街道[44] AI定位能力特点 - 具备链式推理能力,能从城市级线索逐步推理到住宅级定位[10] - 拥有冗余推理能力,即使核心线索被遮盖仍可通过次要线索定位[56] - 视觉编码器可分层提取低级特征(颜色纹理)、中级特征(物体识别)和高级特征(空间关系)[58] - 结合地图API、开源数据库和气候数据等多源信息进行交叉验证[58] 行业影响与挑战 - 多模态AI的"能力-风险"悖论:模型越智能隐私泄露风险越高[57] - 传统隐私保护手段如局部遮挡在多模态AI面前严重失效[56] - 城市基础设施和标识物成为隐私泄露的核心元凶[53] - 需要重构隐私防线,将隐私保护纳入多模态模型的"出厂标准"[59]
仅需1个数据,就能让大模型的数学推理性能大大增强?
机器之心· 2025-05-09 17:02
大型语言模型(LLM)推理能力研究 核心观点 - 采用单个数学训练数据的1-shot RLVR方法可显著提升大型语言模型在数学推理任务上的表现,且效果与使用1.2k数据集相当 [2][3] - 1-shot RLVR的泛化能力不仅限于数学任务,还能拓展至非数学推理任务如ARC-Easy/Challenge [5] - 该方法在多种模型(Qwen2.5-Math-1.5B/7B、Llama-3.2-3B-Instruct等)和算法(GRPO、PPO)上均有效 [16][17] 方法细节 - 训练使用三项损失函数:policy gradient loss(基于0-1结果奖励)、KL divergence loss(保持语言质量)、entropy loss(鼓励多样性)[7] - 数据选择基于historical variance score,优先选取训练过程中准确度方差较大的数据,但1-shot RLVR对低方差数据同样有效 [8] - 性能提升主要源于policy gradient loss,与KL loss和weight decay关联性较低 [19] 实验发现 - **性能提升幅度**:1-shot RLVR使Qwen2.5-Math-1.5B在MATH500上的准确率从36%提升至73.6%,Qwen2.5-Math-7B从51%提升至79.2% [3] - **饱和后泛化**:单个训练样本的准确率快速饱和至近100%,但下游任务表现持续提升,过拟合在百万次rollout后才出现 [10][11] - **跨主题泛化**:单个几何训练数据可同时提升代数、数论等其他数学主题的表现 [13] - **自我反思增强**:下游任务中自我反思相关词汇频率显著增加 [14] 消融实验 - 移除KL loss和weight decay对1-shot RLVR效果影响较小,但entropy loss能进一步优化表现,尤其在饱和后泛化阶段 [19][20] - 仅使用entropy loss进行少量训练也能提升模型表现,即使训练数据标签错误仍可能部分有效 [20] 应用与启示 - 1-shot RLVR表明基础模型本身具备潜在推理能力,少量数据即可激发 [22] - 该方法对RLVR数据选择算法设计、探索机制优化及少样本应用场景具有启发意义 [22] (注:表格数据及具体实验参数详见原文引用部分 [7][17][20])
「ChatGPT+GitHub」,OpenAI搞了个大联合
机器之心· 2025-05-09 12:19
ChatGPT与GitHub深度整合 - ChatGPT新增直接连接GitHub功能,支持通过"Deep Research → GitHub"路径访问代码库进行深度分析[2] - 功能可自动搜索源代码和PR记录,生成带引用的详细报告,开发者可针对代码库和技术文档提问[3][4] - 支持总结代码结构、识别编码模式,并提供真实代码示例指导API实现[4] 功能开放计划 - 首批向ChatGPT Plus/Pro/Team用户开放,企业版和教育版支持将后续推出[4] - 隐私保护机制确保仅能访问用户已授权或主动共享的代码库内容[5] OpenAI编程生态布局 - 近期连续推出Codex CLI开源终端工具、升级桌面应用支持多开发软件代码读取[5] - 计划斥资约30亿美元收购AI编程助手公司Windsurf,强化编程场景能力[5] 模型优化进展 - 开放o4-mini推理模型的强化微调功能,仅限已验证组织使用[5][6] - 同步开放GPT-4.1 nano模型的微调功能,所有付费开发者均可定制训练[5][6]
手机、PC更强大脑来了!联想个人超级智能体,开始觉醒L3级智能水平
机器之心· 2025-05-09 12:19
超级智能体概念与发布 - 联想首次提出"超级智能体"概念,定义其三大核心能力为感知与交互、认知与决策、自主与演进[2] - 公司发布从个人到城市的超级智能体矩阵,包括天禧个人版、乐享企业版及城市版[2] - 超级智能体被视为新时代的"认知操作系统",是联想继AI PC后在端侧打造AI超级入口的又一举措[2] 天禧个人超级智能体能力 - 实现多模态感知和意图驱动的自然交互,能识别照片信息并基于用户习惯提出建议[4] - 具备跨设备数据整合的个人知识库,可调用长期记忆偏好完成复杂决策如旅行规划[4] - 支持自主拆解复杂任务并执行,未来将实现多智能体协同(如亲友智能体协商行程)[4] - 整体形成从"听懂"到"理解"再到"执行"的完整链路[5] 企业级与城市级应用 - 乐享企业版深度集成业务数据,覆盖供应链优化到市场营销全链条,实现"硅基生命"与实体业务融合[14] - 城市版采用"1×N"架构,1个核心中枢协同多个领域智能体,已在武夷山等地验证城市治理可行性[15] - 城市智能体代表AI作为社会基础设施的首次落地尝试,推动进入"公共智能"时代[15] 终端设备与技术支持 - 发布四款搭载天禧的终端:AI元启版moto razr折叠手机(L3协作级)、Yoga平板(独特AI交互引擎)、全球首款卷轴屏AI PC(屏幕可扩展50%)及3D拯救者游戏设备[12] - 采用端云混合部署架构,支持Windows/Android/Linux系统,指数级提升算力[25] - 与火山引擎共建可信私密云方案,云端搭载720亿参数大模型,提供100G专属记忆空间[26] 交互体验创新 - 引入三大伴随式AUI界面:AI随心窗(集成功能与模型广场)、AI玲珑台(隐形管家)、AI如影框(适时辅助工具)[20][23] - 实现多模态自然交互、全时空记忆检索、主动任务规划三大能力重构人机协作逻辑[21] - 通过五大黄金功能(AI操控/搜索/翻译/笔记/服务)实现L3级智能水平(深度思考+自主执行)[26]
在人流如织的大街小巷,这家公司的机器人正跑着自己的「马拉松」
机器之心· 2025-05-09 12:19
具身智能发展路径 - 具身智能机器人需建立在商业闭环和真实世界数据闭环基础上才能实现复杂化和智能化[3] - 推行科技通过物流机器人实现商业化运营,构建数据飞轮,形成可持续的发展路径[6] - 行业面临数据稀缺问题,真机数据需通过大规模部署积累,而仿真数据和通识数据同样关键[10] 骑手影子系统 - 系统通过采集骑手环境、定位和驾驶数据训练机器人自主导航能力[13] - 2.0版本扩展至上肢操作数据采集,覆盖开关门、拿放外卖等复杂动作[14] - 中国骑手日均骑行100-200公里,数据采集效率远超行业水平,已积累数千万公里行驶数据和近百万条上肢轨迹数据[14] 机器人技术突破 - 定义"三原色"原子任务(按按钮、推拉门、拿放货),简化复杂操作场景[17] - 开发行为树VLA模型,结合LLM任务规划和VLA执行反馈,提升系统适应性和可靠性[21][23] - 构建多层级反馈机制,使机器人在分布外场景中保持任务稳定交付[24] 商业化进展 - 物流机器人履约率达98.5%,已实现单个机器人盈亏平衡[6] - 与国内三大即时配送平台合作,完成近10万单配送[26] - 模型具备"一脑多形"和"一脑多栖"能力,可跨平台部署至四足机器狗、船只等场景[26] 团队与技术优势 - 团队曾研发DARPA挑战赛全球第二名的人形机器人CHIMP,具备顶尖工程能力[26][30] - 拥有L4级自动驾驶研发经验,为骑手影子系统提供技术基础[27] - 中国复杂城市环境和庞大骑手队伍为数据采集提供独特优势[30]
KuaiMod来了!快手用大模型重构短视频生态格局
机器之心· 2025-05-09 12:19
机器之心发布 机器之心编辑部 在短视频成为亿万用户日常生活标配的当下,它不仅是一种娱乐方式,更是人们获取信息、表达观点、构建社交的主要媒介。 随着内容量的井喷式增长, 平台面临着前所未有的挑战:一方面,需要更高效地识别和管理内容;另一方面,必须精准地将优质内容推送给真正感兴趣的用户。 大模型技术,尤其是多模态大模型,正迅速成为人工智能领域的新引擎,具备强大的图文音视频理解能力。但在短视频生态这一复杂、高速演化的场景中, 如何将这些技术真正落地,仍是一道难解的行业命题。 作为国内领先的短视频社区,快手对利用多模态大模型重塑短视频生态做出了尝试,提出了基于多模态大模型的短视频平台生态优化和综合用户体验 改善方案,并在实际部署中取得了显著的成效。这一创新举措不仅为短视频平台的健康发展提供了新的思路,也为行业树立了标杆。 基于多模态大模型的短视频生态优化方案 低质内容广泛存在于各个媒体平台,识别和过滤这些内容是改善用户体验和平台生态的重要环节。但传统视频质量判别方案高度依赖静态规则和标注人员判 别,造成了高昂的判断成本,且难以适应用户反感内容的动态性,现有的自动化质量判别方案主要通过关键词匹配和大语言模型的提示工程( ...
全球首款AI生成多人游戏诞生,全部开源,单机可玩,成本不到1500美元
机器之心· 2025-05-09 10:47
核心观点 - 以色列创业团队Enigma Labs宣布推出全球首个AI生成的多人游戏Multiverse,填补了AI生成多人游戏世界的空白 [2][3] - 该游戏允许玩家实时与AI模拟世界交互并塑造世界,且研发成本低于1500美元,可在个人电脑上运行 [3] - 团队将开源相关代码、数据、权重、架构和研究,并发布技术博客介绍背后技术 [3][8] 团队背景 - 团队成员包括以色列前8200部队成员和领先创业公司成员,具备漏洞研究、算法、芯片级研究和系统工程经验 [5] - 团队采用第一性原理思维解决了AI生成多人世界模型的开放性挑战 [6] 技术架构 - 单人游戏架构由动作嵌入器、去噪网络和上采样器组成,接收视频帧序列和用户操作预测下一帧 [9][11][12] - 多人游戏架构保留了核心模块但重新设计输入输出连接和训练流程,确保双方玩家视角内部一致性 [12][14] - 采用沿通道轴堆叠方案处理双玩家视图,使网络每层同时处理两名玩家视图 [21][22][23] - 通过稀疏采样帧和动作保持上下文大小,同时提供更长时间信息以捕捉车辆相对运动 [28][29] 训练方法 - 采用课程学习方法,将预测范围从0.25秒逐步增加到15秒,先学习低级特征再训练高级概念 [32][33] - 以页面为单位进行自回归预测解决长视野训练的内存问题 [34][35][36] - 使用Gran Turismo 4游戏数据,通过逆向工程实现1v1比赛数据收集 [39][41][43] - 利用计算机视觉提取游戏HUD元素重建控制输入,无需直接记录按键操作 [44][46] 数据生成 - 开发自动化脚本利用游戏B-Spec模式生成随机输入比赛,从双视角录制回放画面 [48] - 尝试使用OpenPilot的Supercombo模型控制赛车但最终采用B-Spec模式 [48]
文生图进入R1时刻:港中文MMLab发布T2I-R1
机器之心· 2025-05-09 10:47
核心观点 - 提出T2I-R1模型,基于双层次CoT推理框架(Semantic-CoT和Token-CoT)与强化学习,显著提升文本生成图像的质量和语义对齐 [1][3][9] - 首次将思维链(CoT)推理策略应用于自回归图片生成领域,解决跨模态对齐和细粒度视觉细节生成问题 [1][7] - 通过BiCoT-GRPO强化学习方法联合优化Semantic-CoT和Token-CoT,利用多专家模型集成作为奖励机制提升生成效果 [11][12] 方法架构 Semantic-CoT - 在图像生成前进行文本推理,设计全局结构(如对象外观和位置),显式规划Prompt以降低生成难度 [7][9] - 示例:生成冰屋时推理其"空气动力学穹顶形状""光滑半透明表面""入口斜坡隧道"等语义细节 [6][14] Token-CoT - 在离散空间中逐块生成图像Token,专注于底层像素细节和视觉连贯性 [7] - 与文本CoT类似,基于先前Token输出后续Token,维持相邻Patch的一致性 [7] 技术突破 - 统一理解与生成能力:基于ULM(Janus-Pro)框架整合双层次CoT,避免独立模型带来的计算成本增加 [8][9] - 奖励机制创新:集成多专家模型(如目标检测器、VQA模型)从提示对齐、美学吸引力、对象存在性等维度综合评估 [12] 性能表现 - 定量结果:在T2I-CompBench和WISE Benchmark上分别比基线模型提升13%和19%,部分子任务超越FLUX-1 [16] - 定性优势:处理非常规场景(如"火车底部的小猪")时展现更强鲁棒性,生成结果更符合人类意图 [13][14]
原来,AI也有「搜商」高低的差别?
机器之心· 2025-05-08 13:51
核心观点 - 夸克推出的「深度搜索」功能通过强化AI的思考能力,实现了从信息搬运到真正有思考力的「AI顾问」的转变,提升了AI的「搜商」[2] - 深度搜索具备逻辑清晰、信源可溯、动态调整等优势,能提供结构清晰、内容可信、可直接执行的解决方案[4][14][21] - 深度搜索Pro版本将针对更专业复杂的任务,提供结构化、系统性的专业级报告或方案[32][33] - 夸克还升级了图像智能处理能力,包括图像语义理解和智能编辑,实现图文协同的自动化处理[36][37] - 夸克通过深度搜索和图像理解等升级,正在改写普通用户获取信息的效率、质量和体验[42] 深度搜索的优势 - 搜索逻辑更像人类,采用「先主动思考、后分点搜索、再信息整合」的流程,提高效率和答案的逻辑性[4] - 在整合搜索结果时能更有逻辑地做推演与判断,根据问题难度灵活配置搜索资源[10][13] - 信源可溯性出色,尤其在健康、学术等对信息准确性要求高的场景中,引用权威数据库和医学知识库[14][16] - 拥有超亿篇的学术文献知识库和上亿规模的题库,覆盖中小学到考研、考公的全学段内容[18][19] 深度搜索的实际应用 - 旅游规划:能分析用户需求,筛选景点,查询政策,对比客流量,验证信息,最终生成高质量报告[23] - 健康咨询:能整理医学网站和社区知识,总结判断要点和应对策略[27][28] - 法律维权:能直接列出可操作的维权步骤、适用的法律条款和参考案例[29][30] - 专业研究:Pro版本能生成深度与广度兼备的研究报告,适用于跨学科知识、权威数据验证等场景[34] 图像智能处理能力 - 基于多模态大模型,具备从图片中提取信息、理解语境并执行任务的能力[36] - 图像语义理解:识别图像中的目标、文字、场景等,实现任务驱动式的信息解读[36] - 图像智能编辑:实现照片换背景、去路人、服装更换、风格化转换等操作[36][40] 行业影响 - 夸克的升级标志着AI能力正大规模普及到大众用户的日常生活中[42] - 从「找信息」走向「解问题」,降低了AI搜索的可用性门槛,改写了用户获取信息的效率、质量和体验[42] - 在AI驱动的搜索下半场,理解力成为核心竞争力,夸克已经跑在前面[43]
时隔两月,Mistral AI终于上新Medium 3,近期还有「One more thing」
机器之心· 2025-05-08 13:51
Mistral AI发布Mistral Medium 3模型 - Mistral AI推出Mistral Medium 3模型,性能介于轻量级和大规模模型之间,在关键基准测试中优于GPT-4o和Claude 3.7 Sonnet [2] - 该模型未开源,可通过Mistral官网、API及合作伙伴平台使用,即将登陆亚马逊云科技Sagemaker、微软Azure AI Foundry和谷歌Vertex AI平台 [2] - 模型专为企业设计,性能达到Claude 3.7 Sonnet的90%以上,但成本仅为后者的1/8,输入每百万token仅需0.4美元,输出每百万token仅需2美元 [2] Mistral Medium 3性能表现 - 在HumanEval和MultiPL-E等编程测试中表现与Claude 3.7 Sonnet和GPT-4o不相上下甚至更优 [5] - 在Math500 Instruct 0-shot测试中得分91.0%,高于GPT-4o的76.4%和Claude 3.7 Sonnet的83.0% [6] - 在多模态任务中表现出色,DocVQA得分0.953,AI2D得分0.937,ChartQA得分0.826 [6] - 在第三方人工评测中,82%编程场景优于Llama 4 Maverick,70%案例超过Command-A [7] 多语言和企业应用能力 - 在英语(67%)、法语(71%)、西班牙语(73%)和阿拉伯语(65%)中表现优于Llama 4 Maverick [8] - 针对企业整合优化,支持混合部署和本地部署,已在金融服务、能源和医疗保健等行业测试应用 [8] Le Chat Enterprise发布 - Mistral推出面向企业的聊天机器人服务Le Chat Enterprise,现已全面上市 [10][11] - 提供AI智能体构建器等工具,集成Gmail、Google Drive和SharePoint等第三方服务 [13] - 即将支持MCP标准,实现AI助手与数据系统的连接 [13] 未来产品规划 - 公司预告将在未来几周内发布一款"大型"产品,性能将远超现有旗舰开源型号 [3]