SAM 3
搜索文档
2亿美金留不住的华人天才,为何集体投奔OpenAI?
新浪财经· 2026-02-27 18:11
文章核心观点 - 硅谷顶尖AI人才正从Meta向OpenAI集中流动 这并非单纯受薪酬驱动 而是由对顶级算力资源 前沿研究平台和实现技术突破可能性的追求所主导 反映了人工智能行业竞争核心要素的转变[3][5][15] - 行业竞争正从算法和算力的比拼 转向对能提升系统效率的“基建型”人才 以及能融合理论与工程解决根本性难题的顶尖学者的争夺[11][12] - 人才流动揭示了硅谷的新秩序:平台与资源(尤其是算力和世界模型基础设施)的吸引力已超越天价薪酬 成为吸引顶尖人才的首要因素[7][8][10] 关键人才流动事件 - Meta AI基础设施负责人庞若鸣在入职仅7个月后转投OpenAI 其此前薪酬包价值超过2亿美金(约合人民币14.35亿元)[3][6] - 此前一周 Meta FAIR的清华博士张鹏川也已加入OpenAI 张鹏川是Segment Anything 3的项目负责人 并主导了Llama 3和Llama 4的视觉项目[5][8] - 2026年初以来 已有包括Avi Verma Ethan Knight在内的多位身价超2亿美金的人才从Meta跳槽至OpenAI[10] 人才流动的驱动因素 - **平台与算力吸引力**:OpenAI提供的“算力+Sora级别的世界建模基础设施”被视为探索下一代AI(如物理智能 世界模拟)边界的关键 对庞若鸣等基建专家构成核心吸引力[7][8] - **对技术突破的追求**:顶尖研究员更看重“看不到成果的希望” Meta在Llama 4发布翻车后近一年内 未能推出对标GPT-4o或Sora的颠覆性产品 而OpenAI已被视为能“最快通向未来的游轮”[10][15] - **同侪与集聚效应**:OpenAI已形成强大的虹吸力 当越来越多顶尖华人研究员聚集 并由Sora负责人等亲自欢迎时 产生的“同侪吸引力”难以估量[10] 行业竞争要素的演变 - **“基建型”人才成为硬通货**:行业竞争重点从算力稀缺时代的算法 转向算力过剩时代的系统效率 像庞若鸣这样懂硬件 分布式和底层架构 能极大提升算力利用效率的人才成为战略资源[11] - **“理论+工程双驱动”成为新方向**:为突破大模型的“暴力美学”瓶颈(如幻觉 数学推理) OpenAI开始重仓AI4S 引入陈立杰等理论计算机顶尖学者 旨在从底层数学逻辑重构模型推理框架[11][12] - **人才定价逻辑改变**:市场为顶尖基础设施负责人开出2亿美金薪酬 是因他们能为公司节省数十亿美金算力成本并抢回关键发展时间[15] 涉及公司与背景 - **Meta**:尽管挥舞天价支票簿并豪掷千金组建“超级智能实验室” 但其人才持续流向OpenAI “超级智能实验室”被戏称为OpenAI的“人才后花园”[5][10] - **OpenAI**:作为有限营利公司 其在纯现金薪酬上对比Meta无绝对优势 但其在算力 世界模型基础设施(如Sora)以及前沿探索方向(世界模拟 机器人 AI4S)上构建了强大平台吸引力[7][8][11] - **关键人物背景**:流动的顶尖华人研究员多拥有顶尖中国本科教育(如清华 上海交大)和美国的博士及工业界训练(如谷歌 苹果) 是全球化教育体系的产物[6][14]
清华数学系大神跳槽OpenAI,曾主导SAM与Llama开发,Sora负责人:欢迎加入
36氪· 2026-02-25 20:23
核心人物动向 - 资深研究员张鹏川从Meta FAIR离职,加入OpenAI,投身世界模拟与机器人学方向研究 [1] - 张鹏川毕业于清华大学数学系,拥有加州理工学院应用与计算数学博士学位,在Meta FAIR工作近4年,曾担任SAM 3和Llama 3/4视觉grounding项目的负责人 [1][4][10][13] 人物背景与成就 - 张鹏川博士毕业后曾加入微软研究院,担任首席研究员,领导计算机视觉与多模态智能研究,并自2021年起在华盛顿大学担任兼职助理教授 [6][9] - 在Meta期间,其主导的SAM 3是一个统一框架,支持图像和视频中的目标检测、分割与跟踪,并实现零样本泛化 [10] - 其负责的Llama 3视觉grounding项目使该模型在视觉常识推理基准上达到人类水平,而Llama 4的视觉grounding能力被视为对标GPT-4o的关键差异化亮点 [13] - 其谷歌学术总被引次数高达35,646次,2021年至今的被引次数为34,659次,h指数为41 [13][15] 行业趋势与公司战略 - 自2025年底以来,已有多位业内知名人物加入OpenAI,形成人才汇聚趋势 [16] - 行业观点认为,OpenAI拥有的算力及Sora级别的世界建模基础设施,是吸引顶尖研究者的关键原因,被视为在2026年前做出高水平机器人系统的必要条件 [16] - 此次关键人才的加入,可能标志着OpenAI正在加大对“世界模型+物理智能”技术路线的投入 [17] 技术研究方向 - 张鹏川在OpenAI将专注于探索视觉感知、世界模型与机器人技术的融合,以构建“物理智能” [1] - OpenAI世界模拟方向的负责人、Sora项目资深领导Aditya Ramesh对其加入表示欢迎,暗示了从视觉理解到底层世界模型的技术转向 [2]
SMCI vs. META: Which AI Infrastructure Stock Has an Edge Now?
ZACKS· 2026-01-22 01:11
文章核心观点 - 超微电脑与Meta平台是人工智能基础设施供应链中两个重要的推动者,但扮演不同角色:超微电脑是高性能、高能效服务器的供应商,而Meta是人工智能算力的超大规模所有者和消费者,为其应用家族提供支持 [1] - 人工智能市场预计将从2025年至2032年以30.6%的复合年增长率增长,到2032年市场规模将达到24070亿美元,两家公司均可能从中受益 [2] - 尽管两家公司都面临股价下跌,但Meta平台因其长期人工智能超大规模投资、近期算力利用以及芯片、大语言模型和人工智能集群的深度布局,被认为比超微电脑更具综合优势 [16] 超微电脑基本面分析 - 公司提供集成计算、网络、存储和液冷的人工智能机架级端到端系统,采用英伟达和AMD最新、最强大且高能效的芯片,深受全球人工智能数据中心和高性能计算厂商青睐 [3] - 为满足客户快速扩展需求,推出了模块化的数据中心构建块解决方案,该方案在人工智能数据中心和人工智能工厂中需求旺盛 [4] - 正在美国、台湾、马来西亚、荷兰和中东建设专门用于机架级生产的新设施,并已通过推出Super AI Station、AI PC、边缘人工智能系统等产品,将业务多元化扩展至客户端、边缘和消费级人工智能市场 [5][6] - 公司预计2026财年收入将达到360亿美元,意味着同比大幅增长64% [6] - 为满足需求快速扩张导致库存积累,2026财年第一季度期末库存为57亿美元,高于上一季度的47亿美元,现金转换周期从96天延长至123天,第一季度自由现金流为负9.5亿美元 [7] - Zacks对超微电脑2026财年每股收益的一致预期显示增长2.43%,该预期在过去60天内被下调 [7][9] Meta平台基本面分析 - 公司通过大量资本支出、定制芯片和大型集群来加强人工智能基础设施,以支持其应用家族,其数据中心和技术基础设施支出主要服务于内部需求 [8][9] - 2024年,其应用家族投资占总支出的79%,包括用于开发应用和广告服务的数据中心和技术基础设施费用 [9] - 投资了专为Meta人工智能工作负载定制的Meta训练和推理加速器芯片,并于2024年底推出了集成电源、控制、计算和接口的Catalina开放式设计高性能人工智能机架 [10] - 在软件应用方面,正将较小的、特定任务的模型整合为更大的通用模型,以提高每单位计算的性能和效率,并在2025年发布了Llama 4、SAM 3等大语言模型 [10] - 公司完全专注于成为领先的前沿人工智能实验室,并在全球范围内提供个人超级智能,正通过积极前置建设能力为超级智能时代做准备 [11] - 预计2025年资本支出(包括融资租赁本金支付)在700亿至720亿美元之间,其中很大一部分投资于服务器、数据中心和网络基础设施 [11] - 将在2026年及以后通过大规模计算能力扩展人工智能,其1吉瓦的Prometheus集群正在开发中,而计划于2028年推出的Hyperion集群预计将达到5吉瓦 [12] - Zacks对Meta平台2026年收入和每股收益的一致预期分别显示同比增长18%和31%,每股收益预期在过去7天内被上调 [12][13] 股价表现与估值 - 过去六个月,超微电脑和Meta平台的股价分别下跌了37%和14.3% [13] - 超微电脑的远期12个月市销率为0.46倍,低于其中位数0.81倍 [15] - Meta平台的远期市销率为6.42倍,低于其中位数8.21倍 [15]
分割一切并不够,还要3D重建一切,SAM 3D来了
具身智能之心· 2025-11-21 08:04
Meta SAM系列技术更新核心观点 - Meta发布SAM 3D和SAM 3两项重大更新,将图像3D理解与概念分割能力提升至新水平[1] - 两项新技术均具备业界领先的SOTA性能,并同步开放模型权重与推理代码[2][7] - 公司推出Segment Anything Playground平台,方便用户体验新模型能力[8] SAM 3D技术细节 - SAM 3D包含两个模型:SAM 3D Objects支持物体与场景重建,SAM 3D Body专注于人体形状与姿态估计[4] - SAM 3D Objects能从单张自然图像实现稳健、真实感强的3D重建与物体姿态估计,生成带姿态信息的3D模型[11][15] - 技术核心创新在于构建可扩展的数据引擎,通过标注近100万张图像生成约314万个3D网格,突破真实世界3D数据获取瓶颈[20][26] - SAM 3D Body基于全新开源3D网格格式MHR,构建于Transformer架构,使用包含约800万张图像的数据集训练,能处理遮挡、罕见姿态等复杂情况[30][31][33] SAM 3技术细节 - SAM 3引入可提示概念分割能力,能根据文本或图像提示找到并分割某个概念的所有实例,克服现有模型在细致请求下的困难[38][40] - 模型架构建立在Meta Perception Encoder等多项AI进展之上,检测模块基于DETR,跟踪模块基于SAM 2的memory bank技术[42] - 性能取得跨越式提升,将cgF1分数提升两倍,优于Gemini 2.5 Pro等基础模型和专业模型[44] - 推理效率极高,在H200 GPU上对单张含超100个检测目标的图像仅需30毫秒,视频中多目标情况下仍可保持近实时表现[44]
AI视觉GPT时刻,Meta新模型一键“分割世界”,网友直呼太疯狂了
36氪· 2025-11-20 18:04
产品发布核心 - Meta公司宣布推出全新的SAM 3D模型家族,包含用于物体和场景重建的SAM 3D Objects以及用于人体和体型估计的SAM 3D Body [1] - 同日,此前引发热议的SAM 3图像分割模型也正式发布,其亮点是引入了“可提示概念分割”的新功能 [1] - 该系列模型能够使用户点击图像中的元素后,直接从2D图像中扣出一个可360度旋转且基本无破绽的3D模型 [1] SAM 3D Objects模型技术细节 - 通过强大的数据注释引擎,在大规模自然图像上实现了3D物体的精细标注,涉及近百万张图像,生成超过314万个网格模型 [7] - 结合了“众包+专家”的数据标注模式,并借鉴大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练” [9] - 在一对一的人类偏好测试中以5:1的优势战胜现有领先模型,并能结合扩散捷径和优化算法在几秒钟内完成全纹理3D重建 [10] - 模型当前输出分辨率有限,复杂物体细节可能出现缺失,且物体布局预测仍以单个物体为主 [11] SAM 3D Body模型技术细节 - 专注于从单张图像中精确估算人体的三维姿态和形状,支持通过分割掩码、二维关键点等提示输入引导模型预测 [12] - 核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式,将人体骨骼结构与软组织形状分离 [12] - 研究团队整合了数十亿张图像等数据,通过自动化数据引擎筛选出约800万张高质量训练样本 [13] - 当前模型主要针对单人处理,尚未支持多人或人与物体的交互预测,手部姿势估计精度也有待提升 [16] SAM 3模型技术细节 - 是一款统一模型,能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪 [18] - 通过“可提示概念分割”功能,可以识别复杂细微的概念,如“条纹红伞”或“手中未持礼盒的坐着的人” [19] - 在SA-Co基准上的概念分割性能实现了约100%的提升,在用户偏好测试中相较最强竞品OWLv2更受青睐,比例达到约3:1 [19] - 采用人类与AI协同的数据引擎,AI注释者能提升标注速度(负样本快约400%,正样本快约36%)并自动筛选简单样本 [20] 性能与基准测试 - SAM 3D Objects在3D形状指标F1 (0.01)上达到0.2339,显著高于对比模型(如Trellis + MegaPose的0.1436) [10] - SAM 3具有超快的推理速度,在单张英伟达H200 GPU上能在30毫秒左右识别一张包含超过100个可检测物体的图片 [3] - SAM 3D Body在多个三维人体基准测试中取得了显著优势,准确性和稳健性均领先于以往模型 [13] 商业化与开源 - Meta已开始将SAM 3D Objects和SAM 3用于商业应用,例如Facebook Market的“房间视图”功能,帮助用户购买家具前预览效果 [6] - SAM 3D系列模型和SAM 3的相关训练评估数据、基准、模型检查点、推理代码等均已开源 [6] - MHR参数化人体模型在商业许可下可供使用,使Meta的技术如Codec Avatars等得以落地应用 [16]
Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原
量子位· 2025-11-20 15:01
文章核心观点 - Meta AI发布SAM 3D模型,能够从单张2D图像直接生成精细的3D模型,代表了3D建模领域的新范式[1][4][7] - 同时发布的SAM 3模型在图像分割基础上增强了语义理解能力,支持通过文本或示例提示进行开放词汇的概念分割[5][6][23] - 两个模型系列在各自领域的多项基准测试中均取得了显著优于现有方法的性能,达到SOTA水平[13][17][36] SAM 3D模型技术特点与性能 - SAM 3D包含两个专用模型:SAM 3D Objects用于物体和场景重建,SAM 3D Body专注于人体建模[8] - SAM 3D Objects能够处理小物体、间接视角和遮挡等复杂情况,从单张自然图像实现3D重建和物体姿态估计[10][11] - 在人类用户对比测试中,SAM 3D Objects的胜率至少达到其他领先模型的5倍[14] - 具体性能指标显示显著优势:F1分数达0.2339,Chamfer距离为0.0408,3D IoU为0.4254,ADD-S@0.1为0.7232[15] - SAM 3D Body在复杂情况下表现优异,MPJPE指标为61.7,PVE为60.3,在多个数据集上的PCK指标分别为68.0和75.4[18] SAM 3模型技术突破 - 突破传统分割模型固定标签集的限制,引入可提示概念分割功能,支持通过文本或示例提示定义概念[21][23][24] - 能够处理细微概念如"红色条纹伞",并通过文本指令或选中示例物体来查找分割所有同类物体[22][26][31] - 在LVIS数据集的零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[37] - 在新的SA-Co基准测试中,表现至少比基线方法强2倍[38] - 在视频分割任务中性能优于SAM 2,在多个数据集上的J&F指标达到78.4至89.6[40] 模型架构与实现方法 - SAM 3基于共享的Perception Encoder视觉骨干网络,服务检测器和追踪器模块[41][43] - 创新设计Presence Head解决开放词汇检测中的幻觉问题,解耦识别与定位任务[45] - SAM 3D Objects采用两阶段生成模型:12亿参数流匹配Transformer构建几何,稀疏潜在流匹配细化纹理[48][49][51] - 通过model-in-the-loop数据引擎低成本获取图像-3D配对数据,人类从8个候选中选择最佳匹配[53][54] - SAM 3D Body采用Momentum Human Rig表示法,双路解码器设计分别处理全身和手部细节[55][57][61] 行业影响与数据集 - Meta与艺术家合作构建SAM 3D艺术家物体数据集SA-3DAO,用于评估物理世界图像三维重建能力[20] - 创建SA-Co基准测试评估大词汇量检测和分割性能,要求识别更大概念词汇量[33][34] - 模型能够很好泛化到多种类型图像,支持密集场景重建,标志着基础模型具身化的进展[13][60]
分割一切并不够,还要3D重建一切,SAM 3D来了
机器之心· 2025-11-20 10:07
文章核心观点 - Meta公司深夜发布其Segment Anything Model (SAM)系列的重大更新,包括SAM 3D和SAM 3 [1] - SAM 3D包含两个模型:专注于物体与场景重建的SAM 3D Objects和专注于人体形状与姿态估计的SAM 3D Body [2][5] - 公司同步开放了模型权重与推理代码,并推出全新平台Segment Anything Playground供用户体验 [7][8] SAM 3D Objects技术特点与性能 - 该模型提出全新技术路径,用于在单张自然图像中实现稳健、真实感强的3D重建与物体姿态估计,能从日常照片中重建物体的细致3D形状、纹理和场景布局 [11] - 核心创新在于通过强大的数据标注引擎突破真实世界3D数据难以大规模获取的瓶颈,并结合全新的多阶段3D训练流程 [15][22] - 借助数据引擎,公司在真实世界图像上总计标注近100万张图像,生成约314万个3D网格 [17] - 性能表现卓越:在3D形状指标F1 (0.01)上达到0.2339,显著高于对比模型(如Trellis + MegaPose的0.1436);在3D IoU指标上达到0.4254,优于Hunyuan3D1 + Foundation Pose的0.2937 [27] SAM 3D Body技术特点与性能 - 该模型旨在解决从单张图像中获得准确人体三维姿态与形体重建的长期挑战,即使图像中存在不寻常姿势、遮挡、多人同时出现等复杂情况也能保持高质量表现 [28] - 基于公司全新的开源3D网格格式Meta Momentum Human Rig (MHR),该格式通过将骨骼结构与软组织形体分离建模提供更强可解释性 [30] - 训练数据集包含约800万张图像,使其能够应对遮挡、罕见姿态和各种服装 [31] - 在多个3D基准测试中超越以往模型,例如在EMDB数据集上的MPJPE指标为61.7,优于4DHumans的98.0和NLF的68.4 [32] SAM 3技术特点与性能 - SAM 3引入可提示概念分割,模型能够根据文本提示或示例图像提示找到并分割某个概念的所有实例,克服了现有模型在面对细致、具体请求时的困难 [34][35] - 模型架构建立在公司以往AI进展之上,文本和图像编码器来自4月开源的Meta Perception Encoder,检测模块基于DETR [37] - 在概念分割性能上取得跨越式提升,将cgF1分数提升了两倍,优于基础模型和专业模型 [39] - 推理效率高:在H200 GPU上对单张包含超过100个检测目标的图像仅需30毫秒即可完成推理,在视频中约五个并发目标的情况下仍可保持近实时表现 [39]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
具身智能之心· 2025-10-14 08:02
SAM 3 技术发布与背景 - 一篇匿名论文“SAM 3: SEGMENT ANYTHING WITH CONCEPTS”登陆ICLR 2026,引发广泛关注,外界普遍猜测其为Meta公司“Segment Anything”系列的正式续作[3][5] - SAM系列发展节奏清晰,SAM 1于2023年4月发表并获得ICCV最佳论文提名,SAM 2于2024年7月发表,SAM 3的登场符合一年一度的更新节奏[6][7][8] - 该工作被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS),其核心是识别原子视觉概念[9] SAM 3 核心技术突破 - SAM 3实现了从“手动一个个点出来”到“告诉模型一个概念,它帮你全部找出来”的升级,用户可通过简短名词短语、图像范例或两者组合来指定视觉概念并分割所有实例[9][12][13] - 模型在论文提出的新基准SA-Co上性能比之前系统提升至少2倍,在LVIS数据集上零样本掩码平均精度达到47.0,超越之前最佳纪录38.5[13] - 模型处理效率高,在单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒[13] - 针对PCS任务的固有模糊性问题,公司在数据收集、指标设计和模型训练等多个阶段进行了系统化处理,并允许用户通过添加优化提示来消除歧义[19] 数据、架构与基准测试 - 研究构建了人机协同数据引擎,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集[20] - 模型采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块相结合可应用于视频领域[19] - 本文创建了用于PCS任务的Segment Anything with Concepts(SA-Co)基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上[24] 实验性能表现 - 在零样本设置下,SAM 3在LVIS掩码任务上表现显著更好,在开放词汇SA-Co/Gold数据集上的CGF分数是最强基线OWLv2的两倍[27][28] - 在ADE-847、PascalConcept-59和Cityscapes上进行的开放词汇语义分割实验显示,SAM 3的表现超越了强大的专家型基线APE[29] - 在小样本自适应方面,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型[30] - 在物体计数任务中,SAM 3不仅实现了良好的物体计数准确率(如CountBench上MAE为0.11,Acc为95.6),还提供了大多数MLLM无法提供的对象分割功能[32][33] - 在视频分割任务中,SAM 3的表现远超基线,在大多数基准测试中比SAM 2取得了显著改进,对于交互式图像分割任务,SAM 3在平均mIoU方面优于SAM 2[33][34][35]
ICLR神秘论文曝光,SAM3用「概念」看世界,重构视觉AI新范式
36氪· 2025-10-14 07:57
模型核心升级 - 模型从可提示视觉分割演进至可提示概念分割,能根据文字或图像提示识别并分割所有符合该概念的目标 [6][8][16] - 新功能PCS解决了前代模型仅能分割单个对象实例的局限,实现了对同一概念下所有对象的自动查找 [8][15] - 模型引入了专门处理概念模糊边界的歧义模块,并通过多专家标注和评估协议优化来应对概念歧义性 [14] 技术架构创新 - 采用双编码器-解码器Transformer架构,将检测器与跟踪器功能解耦,并引入新的存在性Token [16][18] - 在单张H200 GPU上仅需30毫秒即可在单张图片中识别上百个对象,视频场景下保持接近实时处理速度 [11] - 在LVIS数据集上的零样本分割准确度达到47.0,较此前最佳结果38.5有显著提升 [11] 数据引擎与训练集 - 构建了四阶段人机协同数据引擎,利用AI标注员将标注吞吐量翻倍,最终生成包含400万个唯一概念标签的高质量数据集 [11][19][22] - 形成了SA-Co数据集家族,包括520万张图像的SA-Co/HQ、全自动合成的SA-Co/SYN以及包含5.25万视频的SA-Co/VIDEO [26][27] - 训练数据集规模庞大,包含5200万掩码的高质量数据集和14亿掩码的合成数据集 [11][27] 性能基准与影响 - 在SA-Co基准测试中表现提升至少2倍,并在PVS基准上优于SAM 2 [11][28] - 新建立的SA-Co基准涵盖12.6万个样本、21.4万唯一短语及超过300万条标注,为模型评估提供全面标准 [28] - 该技术将图像分割从点选式操作提升到概念级理解,为下一代智能视觉和多模态系统奠定基础 [29]
腾讯研究院AI速递 20251014
腾讯研究院· 2025-10-14 01:53
OpenAI芯片战略合作 - OpenAI与博通达成战略合作,将部署100亿瓦OpenAI设计的定制AI芯片,计划于2026年下半年开始部署并于2029年底完成 [1] - 这是OpenAI一个月内与第三家芯片巨头的交易,此前已宣布获得英伟达1000亿美元投资以及与AMD达成的60亿瓦GPU部署协议 [1] - 双方过去18个月一直在设计新芯片,消息公布后博通股价一度涨超10% [1] 谷歌Gemini 3.0技术更新 - 谷歌Gemini 3.0预计10月22日发布,内测显示其前端开发能力强大,可一键生成网页、游戏、原创音乐等 [2] - 模型采用MoE架构,超万亿参数,每次查询激活150-200亿参数,上下文长度从100万跃升至数百万token,可处理整本书和代码库 [2] - 2025年9月Gemini环比增长率达46.24%,在特定测试中表现断档领先 [2] LiblibAI平台升级 - LiblibAI(哩布哩布)2.0升级接入海螺、通义万相、可灵、Pixverse、vidu等10多个热门视频模型和大量生图模型 [3] - 新增视频特效一键同款功能,接入Midjourney V7、Qwen-image、Seedream 4.0等常用生图模型,支持图生视频无缝切换 [3] - 增加资产管理菜单和AI工具箱入口,集合高清放大、抠图、产品精修等大量模型工作流,提供一站式AI体验 [3] Mamba-3架构创新 - Mamba-3已进入ICLR 2026盲审,采用梯形规则离散化、复数状态空间、多输入多输出设计三大创新 [4] - 通过引入复数隐状态实现"钟摆"记忆能够处理周期模式,MIMO设计显著提高算术强度使GPU满负荷运行 [5] - 在超长上下文信息检索测试中表现优异,推理延迟大幅降低,适合长文本处理、实时交互和边缘计算 [5] SAM 3分割技术突破 - SAM 3论文登陆ICLR 2026,实现可提示概念分割,用户通过简单名词短语或图像范例即可分割所有匹配实例 [6] - 在SA-Co基准上性能比之前系统提升至少2倍,在LVIS数据集零样本掩码平均精度达47.0,超越之前38.5的纪录 [6] - 采用双编码器-解码器Transformer架构,构建包含400万独特短语和5200万掩码的高质量训练数据,单H200 GPU处理100+物体图像仅需30毫秒 [6] 谷歌ReasoningBank记忆框架 - 谷歌提出ReasoningBank创新记忆框架,从智能体成功和失败经验中提炼记忆项形成闭环自我进化系统 [7] - 引入记忆感知的测试时扩展通过并行和顺序设置生成多样探索,使记忆合成更具普遍性 [7] - 在多项基准测试中,ReasoningBank有效性相对提高达34.2%,交互步骤减少16.0% [7] 大模型科学推理能力 - GPT-5和Gemini 2.5 Pro在国际天文学和天体物理学奥林匹克竞赛中均获金牌成绩,GPT-5在理论考试平均得分84.2% [8] - 两大模型在理论考试表现优于当届最佳学生,但在几何/空间问题上准确率(49-78%)明显低于物理/数学问题(67-91%) [8] - 标志着AI在天文、天体物理等多科学领域展现出接近顶尖人类水平的综合能力 [8] 人形机器人技术进展 - 宇树G1机器人展示空中翻转、连续后空翻、单手侧后翻等高难度动作,并演示功夫拳法和顶膝动作 [10] - 公司计划今年下半年推出身高1.8米的人形机器人,已申请近10项人形机器人相关专利 [10] - 今年上半年国内机器人行业平均增长率达50%-100%,算法升级后机器人理论上可完成各种舞蹈和武术动作 [10] 苹果智能眼镜产品规划 - 苹果智能眼镜可能与Mac配对时运行完整visionOS,与iPhone配对时切换至轻便移动界面,计划2026-2027年发布 [11] - 公司已放弃开发"Vision Air"头戴设备,将工程师精力集中转向智能眼镜开发,直接对标Meta的Ray-Ban Display [11] - 第一代产品将不配备显示功能,但包含音乐扬声器、摄像头、语音控制和可能的健康功能 [11] OpenAI发展现状与展望 - Sam Altman表示AI会改变工作性质但不会消灭真正的工作,未来工作形式可能更轻松 [12] - GPT-6开发重点是更智能的模型、更长上下文和更好记忆能力,Codex已能完成整天任务 [12] - OpenAI当前每周活跃用户达8亿,团队正在研发全新语音交互设备但短期内不会透露 [12]