量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-06-25 16:12

OpenAI硬件"抄袭门"事件 - OpenAI被初创公司IYO指控商标侵权和不正当竞争，涉及新硬件产品命名"IO"与IYO发音相似且产品定位功能高度重合[10][12] - IYO在诉讼中提及OpenAI自2022年起频繁接触并索取设计文件，在多次抗议后仍拒绝停止使用"IO"名称[15][16] - 法院批准IYO临时限制令，OpenAI已撤下官网相关宣传信息[13] 双方核心争议点 - IYO指控OpenAI硬件抄袭产品命名及无屏幕智能交互设备定位，强调市场混淆风险[12][14] - OpenAI反驳称IO产品至少一年后上市且与IYO定制耳戴式设备存在技术差异，属于"假设性争议"[17][18] - 诉讼前IYO创始人曾主动寻求OpenAI1000万美元投资及知识产权合作，演示多次失败后合作终止[23][24][25] 事件最新进展 - OpenAI创始人奥特曼公开回应，称诉讼"愚蠢"并披露IYO寻求收购的邮件记录[2][3][21] - IYO创始人反驳称只想公平竞争并收回产品命名权，双方在社交媒体持续交锋[6][8] - 马斯克被网友卷入讨论，关联其与奥特曼过往诉讼历史[7][8] ChatGPT产品动态 - OpenAI正开发ChatGPT协作和聊天功能，直接对标Google Workspace和Microsoft Office[33][34] - 新功能聚焦文档实时协作与多模态集成，强化消费者产品属性[34][35] - 创始人发起o3-mini模型手机运行时间投票，显示研发重心仍在AI软件[31][32]

人类创造力的核心机制，AI已经开始掌握了 | 北大CogSci 2025（Oral）

量子位· 2025-06-25 13:00

核心观点 - 北大团队提出系统性框架IEI（识别-解释-引申），首次从认知科学角度量化评估AI模型的组合创造力（Combinational Creativity）[1][13] - GPT-4等先进模型在创意理解任务上已超越普通人类（准确率70% vs 50%），但在深层语义解读（如隐喻）上仍落后于人类专家（专家胜率78%）[2][21] - 通过IEI框架优化后，AI创意生成质量提升35%（基于人类专家盲测），证明AI创造力可通过结构化思维引导优化[23][26] 组合创造力机制 - AI展示三层认知能力：识别基本元素（如寄居蟹与易拉罐）→解释功能关联（容器功能相似）→引申深层含义（环保反思）[8][9][17] - 组合创造力是人类创新的核心能力，指通过重组已有概念生成新颖且有意义的想法[11] - 传统评估方法仅关注结果新颖性，而IEI框架首次揭示创造性过程的结构与机制[12][14] 实验数据 - **模型表现**：GPT-4o在识别（75.67分）、解释（85分）、引申（73.5分）任务中综合领先，显著优于平均人类（三项分别为53.42/70.33/51分）[23] - **生成优化**：使用完整IEI方法的模型生成结果排名分（2.1）接近人类专家（1.8），优于简化II方法（2.9）[24][25] - **跨模型对比**：Claude-3.5-Sonnet在引申任务得分74.19，超过Gemini-1.5-Pro（54.34）[23] 方法论价值 - 为AI创造性应用提供结构化路径：理解组合意义而非机械拼贴[33] - 首次建立人类与机器创造力的标准化比较基准[33] - 可应用于产品设计领域（如将护手霜与皇冠创意组合）[41]

Artificial Intelligence

Combinational Creativity

IEI Framework

Conceptual Blending Theory

Artificial Intelligence

DALL·E 3

Artificial Intelligence

Combinational Creativity

IEI Framework

Conceptual Blending Theory

Artificial Intelligence

DALL·E 3

人形机器人首次打通视觉感知与运动断层，UC伯克利华人博士让宇树G1现场演示

量子位· 2025-06-25 13:00

核心观点 - LeVERB框架首次打通视觉语义理解与物理运动之间的断层，实现人形机器人通过感知新环境和理解语言指令直接完成全身动作 [3][15] - 该框架基于模拟数据训练实现零样本部署，在宇树G1机器人测试中简单视觉导航任务零样本成功率达80%，整体任务成功率58.5%，比传统方案强7.8倍 [1][10][36] - 采用分层双系统设计，高层专注任务理解（10Hz），底层专注动作执行（50Hz），通过潜在动作词汇实现高效协同 [17][18][23][24] 技术架构系统设计 - 高层LeVERB-VL：102.6M参数的视觉语言主干，将指令和视觉转换为潜在动词，包含VLA先验模块、运动学编码器等组件 [23] - 底层LeVERB-A：1.1M参数的全身动作专家，通过强化学习将潜在指令解码为动力学级动作，采用Transformer架构输出关节位置指令 [23][24] - 潜在动作词汇作为接口实现两层协同，训练时通过轨迹重建、分布对齐等优化模型 [15][16][18] 性能优势 - 解决传统VLA模型只能处理准静态任务的问题，支持高频控制（50Hz）与低频规划（10Hz）结合 [12][14] - 消除人工预设动作库依赖，直接根据环境语义生成动作，如"坐下"动作通过相机感知+语言指令完成 [3][4] 基准测试 LeVERB-Bench - 首个面向人形机器人全身控制的仿真到真实基准，包含10类154个视觉语言任务和460个仅语言任务 [6][7][30] - 采用IsaacSim光线追踪渲染，程序化生成17.1小时运动轨迹和2.7小时仅语言数据，覆盖500条不同轨迹 [26][27][31] - 在20个随机环境中评估，场景纹理和物体属性完全随机化以检验泛化能力 [33] 测试结果 - 视觉导航任务：简单场景成功率80%，中级场景75%，困难场景50% [36][37] - 仅语言任务（坐/站/移动）成功率高达97% [37] - 消融实验显示判别器和运动学编码器对性能有关键影响，移除后性能显著下降 [38] 应用验证 - 成功部署于宇树G1机器人，完成"走向椅子坐下"等真实场景任务 [34] - 验证仿真到真实的迁移能力，最高实现7.8倍性能提升 [10][36] 团队背景 - 半数成员为UC伯克利、卡内基梅隆大学的华人学者 [39] - 负责人薛浩儒曾领导价值数百万美元的AI Racing Tech自动驾驶赛车项目，最高时速160英里 [43][44] - 另一位负责人廖启源在波士顿动力公司实习，研究方向为机器驱动与学习控制结合 [47][48][49]

这个AI能救命！提前6个月发现胃癌病灶，突破医学影像认知，达摩院做成了

量子位· 2025-06-25 13:00

核心观点 - AI模型DAMO GRAPE通过平扫CT识别早期胃癌，敏感性85.1%，特异性96.8%，较人类医生分别提升21.8%和14.0% [19][20] - 该技术可提前2-10个月发现胃癌病灶，在模拟试验中检出率最高达24.5%，其中40%为无症状患者 [25][28][29] - 浙江省肿瘤医院与阿里巴巴达摩院合作，构建全球最大胃癌平扫CT数据集(6720例)，突破传统影像学限制 [4][6][18] 技术突破 - 全球首个利用平扫CT识别早期胃癌的AI模型，填补临床空白 [3][4] - 采用非侵入式检查，成本低效率高，可复用现有CT影像数据 [16] - 克服胃部形态变化大、内容物干扰等技术难点，实现黏膜层微小病变识别 [17][18] 临床应用 - 已在浙江、安徽部署推广，计划开展大规模筛查 [7][27] - 采用"AI初筛+胃镜确诊"模式，解决传统方法依从性低问题(检出率仅1%) [11][13][20] - 早期胃癌5年生存率可达95%-99%，技术可显著改善预后 [10] 行业意义 - 达摩院此前开发的胰腺癌AI模型DAMO PANDA获FDA"突破性医疗器械"认定 [43] - 医疗AI团队专注肿瘤早筛和影像智能两大方向，已实现技术落地 [46][48] - 未来探索"一扫多查"模式，通过单次CT检测多种疾病 [55] 公司战略 - 达摩院成立8年，布局基础科研与产业应用双轨 [49][50] - 在大模型时代孵化通义系列，同时坚持医疗AI等前沿领域 [52][53] - 技术路径聚焦数据深度挖掘与结构化知识生成 [54]

机器人视觉语言导航进入R1时代！港大联合上海AI Lab提出全新具身智能框架

量子位· 2025-06-25 08:33

技术突破 - VLN-R1实现了将自然语言指令直接转化为第一人称视角下的连续导航动作，无需依赖离散地图，能在复杂环境中灵活感知、决策与行动，实现类人级别的具身智能导航[1] - 该技术打破了"视觉输入→文本描述→离散决策"的传统链条，直接让LVLM以第一人称视频流为"眼睛"，输出连续导航动作（前进、左转、右转、停止）[5] - 在VLN-CE基准测试中，仅用20亿参数模型就超越了70亿参数模型的SFT结果，在长距离导航中仅用1万RxR样本进行RFT就超过了使用完整RxR数据训练的模型[2] 技术创新 - 采用两阶段训练框架：先通过监督微调学习正确动作序列的文本表达，再通过强化微调引入奖励机制优化决策[7] - 提出分组对比优化(GRPO)方法，通过比较多个动作方案的相对优劣来学习最优路径，不需要提前设定固定奖励规则[7] - 引入时间衰减奖励(TDR)机制，对近期动作赋予更高权重，让模型优先确保眼前动作的精准执行[8][9] 数据集与训练 - 构建了全新的VLN-Ego数据集，包含63万R2R和120万RxR训练样本，完全基于第一人称视角，摒弃全局地图等"作弊"信息[12] - 提出长短时记忆采样策略，平衡近期信息与长期记忆，确保Agent在复杂环境中既不迷失方向又能对突发情况做出反应[14] 性能表现 - 2B模型通过RFT优化后性能直逼7B模型，为资源受限场景(如家用机器人)的落地提供了可能[15] - 展现出极强的数据效率，在跨域迁移任务中仅用少量样本就超越了完整数据集训练的效果[2] 应用前景 - 该框架正在促进AI从"数字智能"向"具身认知"跨越，可应用于工厂物流机器人和家庭服务助手等领域[16] - 研究证明LVLM完全有能力成为"感知-决策-行动"闭环的控制中枢，为具身智能发展提供了新思路[16]

谷歌发布本地具身智能模型！全程无联网执行精细操作，从人形机器人到工业机器人全覆盖

量子位· 2025-06-25 08:33

核心观点 - Google DeepMind团队发布首个完全本地运行的视觉-语言-动作模型Gemini Robotics On-Device，解决了网络延迟和连接不稳定问题 [2][4] - 模型具备强大的多模态推理和真实世界理解能力，可离线运行且响应延迟极低 [3][5] - 在泛化性能测试中表现优异，大幅超越此前最好的本地模型 [6][8] - 首次开放VLA模型微调功能，仅需50-100个演示样本即可适应新任务 [10][11] - 成功实现跨平台部署，在不同机器人本体上展现强大泛化能力 [13][14] - 发布Gemini Robotics SDK，支持开发者评估模型和模拟测试 [15][16] 技术突破 - 将云端AI能力完全本地化，支持从人形机器人到工业双臂机器人的多种平台部署 [4][5] - 在视觉泛化、语义理解和行为泛化等维度接近云端版本性能 [6] - 处理分布外任务和复杂多步骤指令时碾压此前本地模型 [8] - 能理解自然语言指令而非简单执行预设程序 [9] 应用优势 - 特别适合对延迟敏感的应用场景和网络不稳定环境 [6] - 微调效率极高，复杂任务不到100个样本即可达到高成功率 [11][12] - 在ALOHA、Franka FR3和Apollo等不同机器人平台均验证有效 [13][14] - 采用语义安全和物理安全并重的整体安全方案 [14] 开发者支持 - 提供SDK支持开发者评估模型和MuJoCo物理模拟器测试 [15] - 通过可信测试者计划逐步开放申请 [16] - 可先在模拟环境验证再部署到真实机器人，降低开发成本 [15]

本地具身智能

人工智能

Gemini Robotics On-Device

Gemini Robotics SDK

本地具身智能

人工智能

Gemini Robotics On-Device

Gemini Robotics SDK

一文读懂深度表格数据表示学习 | 南京大学

量子位· 2025-06-25 08:33

表格数据在AI应用中的重要性 - 表格数据在金融、医疗健康、教育、推荐系统及科学研究领域广泛应用[1] - 表格数据本质上是一种结构化的信息表示方式在组织与表达复杂数据关系方面具有天然优势[3] 深度神经网络在表格数据建模中的发展 - 深度神经网络（DNN）凭借其强大的表示学习能力在表格数据建模上展现出潜力[2] - DNN在表格数据相关应用中已取得显著进展如点击率预测、异常检测、推荐系统与时间序列预测等[6] - 现代深度学习方法在多个方面的改进推动了DNN在表格数据建模中的复兴其性能已逐步接近甚至超过传统树模型[6] 表格表示学习方法分类 - 现有方法按泛化能力划分为三大类：专用模型（Specialized）、可迁移模型（Transferable）和通用模型（General）[2] - 专用方法是最早提出、使用最广泛的一类方法围绕如何从特征层面和样本层面获得高质量表示展开讨论[9] - 可迁移方法基于预训练模型进行学习能够提升学习效率并降低对算力资源和数据规模的依赖[12] - 通用模型是在可迁移模型基础上的进一步发展将预训练表格模型的泛化能力扩展到多种异构的下游表格任务中[19] 表格数据建模的核心挑战 - 表格数据通常具有属性类型异质性包含数值型、类别型或混合型等多种数据类型[4] - 表格数据面临测量噪声、缺失值、异常值、数据不准确以及隐私保护等问题这些因素加大建模复杂性[4] - 表格数据缺乏空间或序列结构使得传统深度学习架构难以直接适用[24] - 表格数据对不完整或错误的记录更加敏感缺失值可能引入显著偏差严重影响模型预测效果[25] - 许多表格数据集中存在类别分布不均的问题尤其在分类任务中某些类别样本数量远少于其他类别[27] 表格数据建模的评估方法 - 单任务评估中分类任务常用准确率或错误率回归任务常用均方误差（MSE）、平均绝对误差（MAE）和均方根误差（RMSE）[33] - 多任务评估早期主要依赖"平均排名"方法常结合"临界差异比较"一起使用[34] - 近期研究提出更多多样化的评估指标如算术平均指标、移位几何均值（SGM）误差等[35] - 基准测试应涵盖不同规模的数据集包括样本量和特征数量较大的数据集以及较小规模的数据集[36] - 带语义的benchmark开始关注结合任务相关的元信息或整合属性名称如UniTabE、OpenTabs等数据集[38] 模型选择与性能评估 - 模型选择通常在验证集上进行包含超参数调优和提前停止两部分[41] - 为评估模型的泛化能力常采用独立的训练/验证/测试集划分典型比例为64%/16%/20%[42] - 近期研究表明基于固定验证集的超参数调优不够稳定易导致对验证集过拟合[43] - 对于小规模数据集已有多种替代评估策略如重新打乱数据划分可提升泛化性能[43]

量子位· 2025-06-24 21:36

鸿蒙服务分发能力升级 - 鸿蒙通过负一屏卡片实现服务主动推送用户可快速完成点咖啡寄快递等操作仅需三步指令→选择→付款耗时不到一分钟 [1] - 快递状态购物信息取件码等数据通过手机号聚合至负一屏无需跳转APP查找 [2] - 股市金融日常出行生活缴费等场景信息均以卡片形式展示实现重点信息智能筛选 [2] 服务分发模式创新 - 传统服务获取需手动打开APP 新模式通过Agent网络直达服务甚至能基于习惯自动推送咖啡订购卡片 [6] - 新增"探索"服务流结合地理位置推送当地服务如Grab打车覆盖出行餐饮等多元场景 [7] - 元服务支持跨设备运行如车机语音点餐后订单可流转至手机支付实现生态无缝衔接 [7] 开发者生态建设 - 奈雪的茶通过"碰一碰"点单接入鸿蒙日均单量创新高东方财富元服务卡片带动日活增长10倍 [10] - 华为提供ArkUI框架和DevEco Studio工具支持一次开发多端部署开发周期可缩短至两周 [12][13] - ASCF框架支持小程序代码复用备案流程简化至平台级提升上架效率 [13] 商业激励政策 - 推出"鸿蒙有礼""日日新红包"活动吸引用户联合银联实施支付手续费全额返还激励开发者 [15] - 元服务增长平台提供6类经营工具包括支付转换跨平台分发等已有商家获得实际增长 [9]

Agent+数据，会成为企业的新决策大脑吗？｜直播预告

量子位· 2025-06-24 21:36

企业级数据智能Agent - Agent产品当前火热但真正懂企业决策的Agent仍稀缺[1] - 企业内部积累的大量业务数据尚未被高效利用[1] - 复杂非标化跨部门数据需通过Agent转化为业务价值[1] 核心应用场景 - 行业首个企业级数据智能分析AI Agent SwiftAgent已服务中金平安沃尔玛宝洁博世等头部企业[3] - Agent需解决数字化转型规划指标体系设计指标平台建设数据价值业务化等关键问题[3] 技术实现路径 - Agent需逐步理解业务逻辑并形成决策洞察[1] - 数据直接影响Agent的决策逻辑构建[8] - 对比传统BI+大模型方案 Agent+Data模式具有差异化优势[8] 行业落地案例 - 数势科技联合创始人谭李具备京东百度德勤等跨领域数据中台经验[3] - 飞轮科技团队研发的Apache Doris应用于日志存储分析及半结构化数据分析[4][5] - 网络安全领域已构建全球最大规模的大数据系统实践[5] 行业发展趋势 - AI技术正渗透至365个行业推动产业升级[7] - 企业级Agent可能成为新的决策大脑重构组织运作方式[1][8]

AI落地方案

数字化转型

Artificial Intelligence

Artificial Intelligence

Agent

SwiftAgent

Apache Doris

生成式视角重塑监督学习！标签不只是答案，更是学习指南 | ICML 2025

量子位· 2025-06-24 21:36

生成式视角下的监督学习范式革新 - 提出预测一致性学习（PCL）框架，通过噪声标签渐进式分解标签信息，实现标签信息的复用和价值挖掘 [1] - 核心思想是将标签作为学习过程的辅助参考而非单纯标准答案，借鉴生成式一致性模型的扩散过程 [1] - 通过引入噪声标签作为输入提示，模型在数据输入和噪声标签共同参照下预测完整标签 [1] PCL训练机制 - 传统监督学习直接对比预测结果与标准答案计算损失，PCL将学习过程分解为逐步逼近的渐进式任务 [4][5] - 采用扩散模型加噪过程，以不同噪声水平的带噪标签作为输入提示，约束跨噪声水平的预测一致性 [5][6] - 损失函数包含预测精度损失和一致性损失，权重由λ₁和λ₂控制 [8] 标签噪声处理技术 - 离散标签采用分类分布噪声过程，通过转移矩阵实现类别间转换 [9] - 连续标签采用高斯扩散模型，逐步添加方差为βₜ的高斯噪声 [10] - 复杂标签直接向潜在嵌入空间引入高斯噪声，计算效率与连续标签一致 [11] 推理阶段优化 - 测试时从随机噪声分布采样标签提示进行单步预测，实际效果优于传统监督学习 [14] - 多步推理策略通过逐步降低噪声水平细化输出，利用早期预测的提示信息提升精度 [14] - 训练目标是将低噪声条件下的高精度传递至高噪声条件，减少对标签提示的依赖 [7][19] 信息论理论基础 - 通过分解互信息I(X;Y)为条件互信息I(X;Y|Yₜ)和I(X;Yₜ)，实现标签信息的渐进式学习 [15][16] - 噪声标签Yₜ的信息量控制学习重点：高噪声时捕捉全局结构，低噪声时优化细节 [17] - 最小化噪声条件依赖项，确保预测结果在不同噪声水平下保持一致 [18][19] 跨模态实验结果 - 图像语义分割任务中，PCL单步预测即超越传统监督学习，多步推理进一步提升质量 [22][25] - 图模态预测显示推理步数存在最优平衡点，需通过早停机制避免误差累积 [26][27] - 语言模型微调任务中，PCL在LLaMa2-7B上表现优于传统方法，但噪声过程仍有优化空间 [30][31] 技术实现资源 - 论文与代码已公开，涵盖理论推导和实现细节 [33] - 实验覆盖视觉、图结构、语言三大模态，验证框架通用性 [20]