量子位

搜索文档
MIT终身教授何恺明,入职谷歌了
量子位· 2025-06-26 10:11
何恺明职业动向 - AI大牛何恺明在获得MIT终身教职后,宣布以兼职形式加盟谷歌DeepMind担任杰出科学家[1][5] - MIT官网显示其成为2025年工程学院11位新晋终身教职人员之一,距离正式入职MIT仅一年左右[2][3] - 在DeepMind的职位隶属基础研究组,直属领导职级为L8,距离CEO哈萨比斯相差三级管理层级[6] 学术成就与行业影响 - 何恺明是计算机视觉领域标杆人物,其2009年雾霾去除论文获CVPR最佳论文(亚洲学者首次)[9][10] - 2015年提出的ResNet获ILSVRC 2015分类任务冠军,论文引用量超28万次,成为其最高引研究[11][12] - ResNet框架被Transformer、AlphaGo Zero、AlphaFold及多数GenAI模型采用[13] - 在FAIR期间主导的Mask R-CNN获ICCV 2017最佳论文,解决实例级对象分割问题[15] - 谷歌学术总引用量达71万次,近期聚焦模型性能优化(如表示正则化、高压缩Tokenizer)[19][20] 与谷歌DeepMind的合作基础 - 2024年2月与DeepMind全华人团队合作提出分形生成模型,实现逐像素高分辨率图像生成并开源代码[23][24] - 2023年联合开发Fluid模型,突破视觉自回归模型扩展瓶颈,提升连续token生成质量[25][26][29] - 历史合作表明双方在生成模型领域有深度技术协同,此次加盟属强强联合[28]
老黄新鲜一刀,RTX 5050正式官宣
量子位· 2025-06-25 16:12
产品发布与定价 - 英伟达正式官宣RTX 5050桌面/笔记本GPU,定档7月上市,国内建议零售价桌面版2099元起(比RTX 5060便宜400元),笔记本版7499元起 [1] - 该产品跳过RTX 4050直接迭代,搭配DLSS 4多帧生成技术,宣称能让《赛博朋克2077》光追帧率突破150fps [1] 性能提升 - 相比RTX 3050,RTX 5050 GPU光栅化性能(1080P分辨率)平均提升60%,在支持DLSS 4技术的游戏中带来高达4倍性能提升 [3] - 笔记本版RTX 5050相比RTX 3050笔记本GPU光栅性能平均提升2.4倍,在支持DLSS 4多帧生成的游戏中带来4倍以上性能提升 [16] 产品规格与差异化策略 - 桌面版采用8GB GDDR6显存(128-bit位宽),笔记本版采用8GB GDDR7显存(24 Gbps速度),形成"新旧混搭"策略 [3][11][16] - 桌面版配备2560个Blackwell CUDA核心、第5代AI Tensor核心、第4代RT核心,基础频率2.31GHz,加速频率2.57GHz,最大功耗130W [10][11][12] - GDDR7显存能效最高可达GDDR6的2倍,有助于笔记本轻薄化和延长续航 [16] 市场定位与用户群体 - 桌面版主攻"花小钱攒光追主机"的性价比市场,适合预算有限但想体验3A大作的玩家 [6] - 笔记本版定位"背着电脑去打光追",适合学生党和移动办公族 [7] - 通过显存规格差异化实现既覆盖低端市场利润又保留高端产品溢价空间的策略 [4][5] 行业动态与配套支持 - 英伟达计划7月推出新GeForce Game Ready驱动,全面优化RTX 5050性能表现 [18] - 该驱动旨在确保玩家获得最佳游戏体验,充分挖掘显卡潜力 [18] 市场反馈 - 部分用户认为RTX 5050作为x50系列卡130W能耗过高 [21] - 在规格相近产品中,RTX 5050性能和价格(国外249美元起)优势不明显 [22][24]
华科校友在港冲刺AI infra第一股!已是中国最能赚的独立边缘云服务商,王小川天使轮就投了
量子位· 2025-06-25 16:12
公司概况 - PPIO派欧云是一家独立分布式云计算服务商,专注于边缘云计算和AI云计算服务,近期已向港交所递交招股书[2] - 公司由两位华中科技大学校友联合创立,核心团队为PPTV原班创始团队,累计完成5亿融资,投后估值达46.9亿元[3][4][44] - 主要投资者包括百川智能创始人王小川、前微软Azure中国总裁申元庆、迅雷联创程浩等知名科技界人士[3][43] 业务模式 边缘云计算服务 - 通过整合第三方分散计算资源,将算力部署在互联网边缘节点,降低延迟并提升数据处理速度[6][7] - 细分服务包括边缘节点服务(占2024年收入70%)和边缘CDN(占2024年收入28.1%),后者增速更快[8][20] - 边缘容器和边缘裸金属是核心产品,分别提供轻量级虚拟化和独立物理服务器支持[8] AI云计算服务 - 2023年新增业务,包括GPU云服务(按需付费)和模型API(开源大模型调用与自定义模型托管)[11][17] - 采用PD分离等分布式计算技术优化模型性能,使DeepSeek-R1模型吞吐量提升10倍,运营成本降低90%[14] - 注册开发者数量从2023年12,112位暴增至2024年125,545位(增长率936.5%),2025年4月达295,524位[18] 运营数据 - 计算节点总数从2022年2,629个增至2024年4,012个,覆盖县市从837个扩展至1,296个[19] - AI计算节点从2023年5个快速增至2024年19个,2025年4月达34个,覆盖县市29个[19] - 日均token消耗量从2023年0次跃升至2024年271亿次,2025年5月达1419亿次[18] 财务表现 - 营收从2022年2.86亿元增至2024年5.58亿元,CAGR达39.7%,边缘云服务贡献超98%收入[20] - AI云服务收入从2023年26.5万元增至2024年1038.7万元,增速显著但占比仍小(1.9%)[20] - 综合毛利率从2022年16.1%波动至2024年12.3%,主要因AI业务初期毛损拖累[21][22] - 年内亏损从2022年0.85亿元扩大至2024年2.94亿元,经调整亏损同期为0.39-0.62亿元[24][25] 研发投入 - 研发开支从2022年0.41亿元增至2024年0.86亿元,占收入比重维持在14.5%-18.9%[26] - 204名员工中67.6%为研发人员,团队规模达138人[28] - 现金储备充足,2024年末现金及等价物余额达11.3亿元[30] 行业前景 - 2024年全球边缘云市场1851亿元,预计2029年达5003亿元[51] - 2024年全球AI云服务市场315亿元,预计2029年达4277亿元(CAGR 68.5%)[51] - 生成式AI爆发导致算力需求指数增长,传统数据中心难以满足,分布式云迎来机遇[45] - 全球算力供需错配严重(数据中心平均利用率仅50%-70%),分布式云可提升资源利用率[45][48]
奥特曼回应OpenAI硬件抄袭:投资没谈拢就来反咬我!新一轮邮件证据曝光
量子位· 2025-06-25 16:12
OpenAI硬件"抄袭门"事件 - OpenAI被初创公司IYO指控商标侵权和不正当竞争,涉及新硬件产品命名"IO"与IYO发音相似且产品定位功能高度重合[10][12] - IYO在诉讼中提及OpenAI自2022年起频繁接触并索取设计文件,在多次抗议后仍拒绝停止使用"IO"名称[15][16] - 法院批准IYO临时限制令,OpenAI已撤下官网相关宣传信息[13] 双方核心争议点 - IYO指控OpenAI硬件抄袭产品命名及无屏幕智能交互设备定位,强调市场混淆风险[12][14] - OpenAI反驳称IO产品至少一年后上市且与IYO定制耳戴式设备存在技术差异,属于"假设性争议"[17][18] - 诉讼前IYO创始人曾主动寻求OpenAI1000万美元投资及知识产权合作,演示多次失败后合作终止[23][24][25] 事件最新进展 - OpenAI创始人奥特曼公开回应,称诉讼"愚蠢"并披露IYO寻求收购的邮件记录[2][3][21] - IYO创始人反驳称只想公平竞争并收回产品命名权,双方在社交媒体持续交锋[6][8] - 马斯克被网友卷入讨论,关联其与奥特曼过往诉讼历史[7][8] ChatGPT产品动态 - OpenAI正开发ChatGPT协作和聊天功能,直接对标Google Workspace和Microsoft Office[33][34] - 新功能聚焦文档实时协作与多模态集成,强化消费者产品属性[34][35] - 创始人发起o3-mini模型手机运行时间投票,显示研发重心仍在AI软件[31][32]
人类创造力的核心机制,AI已经开始掌握了 | 北大CogSci 2025(Oral)
量子位· 2025-06-25 13:00
核心观点 - 北大团队提出系统性框架IEI(识别-解释-引申),首次从认知科学角度量化评估AI模型的组合创造力(Combinational Creativity)[1][13] - GPT-4等先进模型在创意理解任务上已超越普通人类(准确率70% vs 50%),但在深层语义解读(如隐喻)上仍落后于人类专家(专家胜率78%)[2][21] - 通过IEI框架优化后,AI创意生成质量提升35%(基于人类专家盲测),证明AI创造力可通过结构化思维引导优化[23][26] 组合创造力机制 - AI展示三层认知能力:识别基本元素(如寄居蟹与易拉罐)→解释功能关联(容器功能相似)→引申深层含义(环保反思)[8][9][17] - 组合创造力是人类创新的核心能力,指通过重组已有概念生成新颖且有意义的想法[11] - 传统评估方法仅关注结果新颖性,而IEI框架首次揭示创造性过程的结构与机制[12][14] 实验数据 - **模型表现**:GPT-4o在识别(75.67分)、解释(85分)、引申(73.5分)任务中综合领先,显著优于平均人类(三项分别为53.42/70.33/51分)[23] - **生成优化**:使用完整IEI方法的模型生成结果排名分(2.1)接近人类专家(1.8),优于简化II方法(2.9)[24][25] - **跨模型对比**:Claude-3.5-Sonnet在引申任务得分74.19,超过Gemini-1.5-Pro(54.34)[23] 方法论价值 - 为AI创造性应用提供结构化路径:理解组合意义而非机械拼贴[33] - 首次建立人类与机器创造力的标准化比较基准[33] - 可应用于产品设计领域(如将护手霜与皇冠创意组合)[41]
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
量子位· 2025-06-25 13:00
核心观点 - LeVERB框架首次打通视觉语义理解与物理运动之间的断层,实现人形机器人通过感知新环境和理解语言指令直接完成全身动作 [3][15] - 该框架基于模拟数据训练实现零样本部署,在宇树G1机器人测试中简单视觉导航任务零样本成功率达80%,整体任务成功率58.5%,比传统方案强7.8倍 [1][10][36] - 采用分层双系统设计,高层专注任务理解(10Hz),底层专注动作执行(50Hz),通过潜在动作词汇实现高效协同 [17][18][23][24] 技术架构 系统设计 - 高层LeVERB-VL:102.6M参数的视觉语言主干,将指令和视觉转换为潜在动词,包含VLA先验模块、运动学编码器等组件 [23] - 底层LeVERB-A:1.1M参数的全身动作专家,通过强化学习将潜在指令解码为动力学级动作,采用Transformer架构输出关节位置指令 [23][24] - 潜在动作词汇作为接口实现两层协同,训练时通过轨迹重建、分布对齐等优化模型 [15][16][18] 性能优势 - 解决传统VLA模型只能处理准静态任务的问题,支持高频控制(50Hz)与低频规划(10Hz)结合 [12][14] - 消除人工预设动作库依赖,直接根据环境语义生成动作,如"坐下"动作通过相机感知+语言指令完成 [3][4] 基准测试 LeVERB-Bench - 首个面向人形机器人全身控制的仿真到真实基准,包含10类154个视觉语言任务和460个仅语言任务 [6][7][30] - 采用IsaacSim光线追踪渲染,程序化生成17.1小时运动轨迹和2.7小时仅语言数据,覆盖500条不同轨迹 [26][27][31] - 在20个随机环境中评估,场景纹理和物体属性完全随机化以检验泛化能力 [33] 测试结果 - 视觉导航任务:简单场景成功率80%,中级场景75%,困难场景50% [36][37] - 仅语言任务(坐/站/移动)成功率高达97% [37] - 消融实验显示判别器和运动学编码器对性能有关键影响,移除后性能显著下降 [38] 应用验证 - 成功部署于宇树G1机器人,完成"走向椅子坐下"等真实场景任务 [34] - 验证仿真到真实的迁移能力,最高实现7.8倍性能提升 [10][36] 团队背景 - 半数成员为UC伯克利、卡内基梅隆大学的华人学者 [39] - 负责人薛浩儒曾领导价值数百万美元的AI Racing Tech自动驾驶赛车项目,最高时速160英里 [43][44] - 另一位负责人廖启源在波士顿动力公司实习,研究方向为机器驱动与学习控制结合 [47][48][49]
这个AI能救命!提前6个月发现胃癌病灶,突破医学影像认知,达摩院做成了
量子位· 2025-06-25 13:00
核心观点 - AI模型DAMO GRAPE通过平扫CT识别早期胃癌,敏感性85.1%,特异性96.8%,较人类医生分别提升21.8%和14.0% [19][20] - 该技术可提前2-10个月发现胃癌病灶,在模拟试验中检出率最高达24.5%,其中40%为无症状患者 [25][28][29] - 浙江省肿瘤医院与阿里巴巴达摩院合作,构建全球最大胃癌平扫CT数据集(6720例),突破传统影像学限制 [4][6][18] 技术突破 - 全球首个利用平扫CT识别早期胃癌的AI模型,填补临床空白 [3][4] - 采用非侵入式检查,成本低效率高,可复用现有CT影像数据 [16] - 克服胃部形态变化大、内容物干扰等技术难点,实现黏膜层微小病变识别 [17][18] 临床应用 - 已在浙江、安徽部署推广,计划开展大规模筛查 [7][27] - 采用"AI初筛+胃镜确诊"模式,解决传统方法依从性低问题(检出率仅1%) [11][13][20] - 早期胃癌5年生存率可达95%-99%,技术可显著改善预后 [10] 行业意义 - 达摩院此前开发的胰腺癌AI模型DAMO PANDA获FDA"突破性医疗器械"认定 [43] - 医疗AI团队专注肿瘤早筛和影像智能两大方向,已实现技术落地 [46][48] - 未来探索"一扫多查"模式,通过单次CT检测多种疾病 [55] 公司战略 - 达摩院成立8年,布局基础科研与产业应用双轨 [49][50] - 在大模型时代孵化通义系列,同时坚持医疗AI等前沿领域 [52][53] - 技术路径聚焦数据深度挖掘与结构化知识生成 [54]
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
量子位· 2025-06-25 08:33
技术突破 - VLN-R1实现了将自然语言指令直接转化为第一人称视角下的连续导航动作,无需依赖离散地图,能在复杂环境中灵活感知、决策与行动,实现类人级别的具身智能导航[1] - 该技术打破了"视觉输入→文本描述→离散决策"的传统链条,直接让LVLM以第一人称视频流为"眼睛",输出连续导航动作(前进、左转、右转、停止)[5] - 在VLN-CE基准测试中,仅用20亿参数模型就超越了70亿参数模型的SFT结果,在长距离导航中仅用1万RxR样本进行RFT就超过了使用完整RxR数据训练的模型[2] 技术创新 - 采用两阶段训练框架:先通过监督微调学习正确动作序列的文本表达,再通过强化微调引入奖励机制优化决策[7] - 提出分组对比优化(GRPO)方法,通过比较多个动作方案的相对优劣来学习最优路径,不需要提前设定固定奖励规则[7] - 引入时间衰减奖励(TDR)机制,对近期动作赋予更高权重,让模型优先确保眼前动作的精准执行[8][9] 数据集与训练 - 构建了全新的VLN-Ego数据集,包含63万R2R和120万RxR训练样本,完全基于第一人称视角,摒弃全局地图等"作弊"信息[12] - 提出长短时记忆采样策略,平衡近期信息与长期记忆,确保Agent在复杂环境中既不迷失方向又能对突发情况做出反应[14] 性能表现 - 2B模型通过RFT优化后性能直逼7B模型,为资源受限场景(如家用机器人)的落地提供了可能[15] - 展现出极强的数据效率,在跨域迁移任务中仅用少量样本就超越了完整数据集训练的效果[2] 应用前景 - 该框架正在促进AI从"数字智能"向"具身认知"跨越,可应用于工厂物流机器人和家庭服务助手等领域[16] - 研究证明LVLM完全有能力成为"感知-决策-行动"闭环的控制中枢,为具身智能发展提供了新思路[16]
谷歌发布本地具身智能模型!全程无联网执行精细操作,从人形机器人到工业机器人全覆盖
量子位· 2025-06-25 08:33
核心观点 - Google DeepMind团队发布首个完全本地运行的视觉-语言-动作模型Gemini Robotics On-Device,解决了网络延迟和连接不稳定问题 [2][4] - 模型具备强大的多模态推理和真实世界理解能力,可离线运行且响应延迟极低 [3][5] - 在泛化性能测试中表现优异,大幅超越此前最好的本地模型 [6][8] - 首次开放VLA模型微调功能,仅需50-100个演示样本即可适应新任务 [10][11] - 成功实现跨平台部署,在不同机器人本体上展现强大泛化能力 [13][14] - 发布Gemini Robotics SDK,支持开发者评估模型和模拟测试 [15][16] 技术突破 - 将云端AI能力完全本地化,支持从人形机器人到工业双臂机器人的多种平台部署 [4][5] - 在视觉泛化、语义理解和行为泛化等维度接近云端版本性能 [6] - 处理分布外任务和复杂多步骤指令时碾压此前本地模型 [8] - 能理解自然语言指令而非简单执行预设程序 [9] 应用优势 - 特别适合对延迟敏感的应用场景和网络不稳定环境 [6] - 微调效率极高,复杂任务不到100个样本即可达到高成功率 [11][12] - 在ALOHA、Franka FR3和Apollo等不同机器人平台均验证有效 [13][14] - 采用语义安全和物理安全并重的整体安全方案 [14] 开发者支持 - 提供SDK支持开发者评估模型和MuJoCo物理模拟器测试 [15] - 通过可信测试者计划逐步开放申请 [16] - 可先在模拟环境验证再部署到真实机器人,降低开发成本 [15]
一文读懂深度表格数据表示学习 | 南京大学
量子位· 2025-06-25 08:33
表格数据在AI应用中的重要性 - 表格数据在金融、医疗健康、教育、推荐系统及科学研究领域广泛应用[1] - 表格数据本质上是一种结构化的信息表示方式 在组织与表达复杂数据关系方面具有天然优势[3] 深度神经网络在表格数据建模中的发展 - 深度神经网络(DNN)凭借其强大的表示学习能力 在表格数据建模上展现出潜力[2] - DNN在表格数据相关应用中已取得显著进展 如点击率预测、异常检测、推荐系统与时间序列预测等[6] - 现代深度学习方法在多个方面的改进 推动了DNN在表格数据建模中的复兴 其性能已逐步接近甚至超过传统树模型[6] 表格表示学习方法分类 - 现有方法按泛化能力划分为三大类:专用模型(Specialized)、可迁移模型(Transferable)和通用模型(General)[2] - 专用方法是最早提出、使用最广泛的一类方法 围绕如何从特征层面和样本层面获得高质量表示展开讨论[9] - 可迁移方法基于预训练模型进行学习 能够提升学习效率并降低对算力资源和数据规模的依赖[12] - 通用模型是在可迁移模型基础上的进一步发展 将预训练表格模型的泛化能力扩展到多种异构的下游表格任务中[19] 表格数据建模的核心挑战 - 表格数据通常具有属性类型异质性 包含数值型、类别型或混合型等多种数据类型[4] - 表格数据面临测量噪声、缺失值、异常值、数据不准确以及隐私保护等问题 这些因素加大建模复杂性[4] - 表格数据缺乏空间或序列结构 使得传统深度学习架构难以直接适用[24] - 表格数据对不完整或错误的记录更加敏感 缺失值可能引入显著偏差 严重影响模型预测效果[25] - 许多表格数据集中存在类别分布不均的问题 尤其在分类任务中某些类别样本数量远少于其他类别[27] 表格数据建模的评估方法 - 单任务评估中分类任务常用准确率或错误率 回归任务常用均方误差(MSE)、平均绝对误差(MAE)和均方根误差(RMSE)[33] - 多任务评估早期主要依赖"平均排名"方法 常结合"临界差异比较"一起使用[34] - 近期研究提出更多多样化的评估指标 如算术平均指标、移位几何均值(SGM)误差等[35] - 基准测试应涵盖不同规模的数据集 包括样本量和特征数量较大的数据集以及较小规模的数据集[36] - 带语义的benchmark开始关注结合任务相关的元信息或整合属性名称 如UniTabE、OpenTabs等数据集[38] 模型选择与性能评估 - 模型选择通常在验证集上进行 包含超参数调优和提前停止两部分[41] - 为评估模型的泛化能力 常采用独立的训练/验证/测试集划分 典型比例为64%/16%/20%[42] - 近期研究表明基于固定验证集的超参数调优不够稳定 易导致对验证集过拟合[43] - 对于小规模数据集 已有多种替代评估策略 如重新打乱数据划分可提升泛化性能[43]