量子位
搜索文档
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
量子位· 2025-12-23 12:16
文章核心观点 - 纽约大学研究团队提出的CLM系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛 [1] 3DGS的规模应用瓶颈 - 3D高斯泼溅技术面临GPU显存瓶颈,高精度模型包含数千万至上亿个高斯点,单张RTX 4090仅能容纳约一两千万个高斯点的完整训练状态,不足以覆盖城市级场景 [2] - 此前扩展规模的方法成本高昂或会牺牲重建质量 [2] CLM系统的设计原理 - 基于训练过程中单帧图像通常只会访问不到1%的高斯点这一观察,CLM不再将所有高斯参数常驻显存,而是在需要时按视角动态加载 [3][4] - CLM是一套围绕CPU-GPU协同设计的系统方案 [5] CLM系统的三项关键机制 - **属性分割**:将每个高斯点的59个参数分为关键与非关键属性,仅将用于视锥剔除的位置、旋转和缩放等关键属性(占内存不到20%)永久保存在GPU显存,其余约80%的非关键属性卸载到CPU内存 [6][7] - **预渲染视锥剔除与选择性加载**:在渲染前利用GPU中的关键属性快速完成视锥裁剪,仅从CPU内存加载可见高斯点的完整参数,减少了GPU的无效计算和内存占用 [8][9][10] - **优化数据传输以降低延迟**:通过微批次流水线将数据加载与GPU计算重叠、缓存机制利用空间局部性、以及将渲染顺序建模为旅行商问题以最大化缓存命中,来缓解CPU参与训练可能带来的速度拖慢问题 [12][13][14][15] CLM系统的实测效果 - **规模突破**:在MatrixCity BigCity数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍 [16] - **质量提升**:1.022亿高斯点模型的渲染PSNR达到25.15dB,显著优于1530万点模型的23.93dB [18] - **速度可控**:在RTX 4090上,CLM的训练吞吐量能达到增强型基线吞吐量的55%至90% [19] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法 [20] 产业意义与影响 - CLM首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系,为超大规模场景重建提供了一种高性价比的可行路径 [21] - 该研究通过软硬件协同重新组织既有计算资源,展示了在不增加专用硬件投入的情况下推进3DGS实用化的可能方向,对数字孪生、大规模地图重建等应用需求增长非常有利 [21]
智能体落地元年,Agent Infra是关键一环|对话腾讯云&Dify
量子位· 2025-12-23 12:16
文章核心观点 - 2025年被定义为“Agent元年”,行业焦点从年初的宏大叙事转向年末的工程化落地,Agent正从技术萌芽走向务实应用 [1][2][3] - Agent的快速共识源于其能真正解决问题,并伴随一系列工程方法(如Agent Infra、Runtime、架构范式)的快速成型,实现了落地 [12] - Agent落地面临的核心挑战是其作为一个“不确定性的复杂系统”,需要确定性的工程方法(如科学实验思维、Day Two思维)来驾驭 [6][19][20] - Agent Infra是智能体落地的关键一环,它通过解决安全、执行环境、工具、记忆和观测等“偶然复杂度”问题,为Agent的可靠运行和智能进化提供支撑 [5][23][38] Agent发展阶段的总结 - Agent发展已从年初硅谷的“宏大叙事”和“立法阶段”(靠Demo吸引资本),进入年末充满“烟火气”的“司法阶段”,处理具体、琐碎的执行问题,走向务实 [6][9][10][11] - 行业发展并非线性进步,而是“根茎状的蔓延”,秩序的建立更多依赖于产品工程、提示词工程、RAG、Pipeline等“胶水”技术 [12] - 共识的形成部分源于资本在互联网红利见顶后,寻求新的组织方式,Agent承诺了“交互成本的坍塌” [12][13] Agent落地与AI落地的区别 - 范式发生明显转移:从传统的if/else逻辑判断和确定性功能交付,转向Agent的“概率性目标规划”和“概率性能力”交付 [14][18] - 关键区别在于“新增了很多不确定性”:Agent的失败是对意图的误解或概率漂移,修复方式从“修Bug”变为像“教育孩子”一样进行约束 [18] - Agent是一个由模型、架构、Prompt、工具等七八个因素相互影响构成的“不确定性的复杂系统”,其输出具有不确定性,与传统微服务系统相反 [19] Agent Infra的角色与关键要素 - Agent Infra的核心作用是解决企业在Agent落地中遇到的“偶然复杂度”问题,而非业务本身的本质复杂度 [6][23] - 当前Infra层致力于构建解决偶然复杂度问题的“最大公共子集”,包括:安全、执行环境、工具、记忆和观测 [23] - 在Agent Infra中,“安全”尤其是“Agent的自主运行”带来的破坏性风险是最突出的问题,需要多层次、全链路的安全体系(如安全沙箱)来解决 [21][25][26] - 对于Infra的开闭源选择呈现分层互补:初创公司和创新者倾向于开源以获得低成本、灵活性和透明度(白箱);大企业则倾向于商业版或闭源以获得责任转移与兜底服务 [27][28][29] 技术进展与未来趋势 - **AI代码工具**成为标志性实践和重要趋势:它不仅是解决代码问题的工具,更成为Agent连接现实世界的通用接口,并颠覆了原有的软件工程范式,推动从AI Coding到AISE(AI软件工程师)的转变 [7][33][34] - 技术正在从开发者向非开发者移动,简化程度逼近“AI开发的Excel时刻”,将基础设施认知负荷降至最低,使开发者能聚焦于Prompt和数据治理 [31][35] - Agent Infra的下一步重点是从“服务好Agent的运行构建”转向“服务好Agent的智能进化”,关注其安全可靠运行,并利用运行数据持续优化Agent本身和模型 [38] - 未来重点方向可概括为:**秩序**(让混乱模型可控)、**连接**(打通Agent孤岛融入业务)、**自动**(任务自动化)、**安全高效**、**智能进化**、**人机协同** [39] - 记忆管理需要超越简单的向量搜索,关注语义化的情景记忆和可计算的时间观,将记忆和目标视为可重写、降级的变量并进行置信度处理 [40] 对开发者和企业的影响与门槛 - 对于中小公司和个人开发者,最大的门槛并非技术或成本,而是**缺乏开始的勇气**以及企业**数据的壁垒**;同时,**商业模式**的探索和转变是关键,因Agent尚未到全面改变社会商业模式的阶段 [6][40] - 对于专业开发者和AI原生企业,Infra产品主要帮助治理其面临的复杂问题,加速Agent落地 [31] - 若Agent成为主流,将对移动开发生态产生影响:公司会要求在APP中集成Agent能力,促使开发者思维从工程转向科学实验;利用AI Coding工具开发APP则要求改变协同模式和工具体系 [41][44] - 未来的应用交互形态(如iOS/Android)尚无定论,但只有那些与AI工具为伍、改造研发流程并用科学实验思维驾驭不确定性的人,才能抓住形态转移的机遇 [42][43]
量子位编辑作者招聘
量子位· 2025-12-23 12:16
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号平台拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位总览 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - 招聘岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[6] - 所有岗位的不同能力层级职位均在开放,应聘者可根据个人履历和经验申请[4] AI产业方向岗位详情 - 岗位职责是关注基建层创新,包括芯片、AI Infra、云计算等领域的新进展及核心玩家动态[6] - 需要跟进前沿论文、开源社区及技术大会(如Hot Chips, NeurIPS, MLSys)的报告,并做大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 任职要求包括熟悉AI行业的供应链与生态(如训练-推理、算力-成本、云-芯片关系)[11] - 任职要求包括能够将复杂技术内容结构化表达,有技术背景或理工/CS/EE方向优先[11] AI财经商业方向岗位详情 - 岗位职责是关注AI领域创投和财报,跟踪产业链资本动向[6] - 需要聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件,并访谈投资人、创业者及产业分析人士[11] - 任职要求包括对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 任职要求包括逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责是关注AI在应用和硬件终端方向的进展[6] - 需要关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,跟踪多终端新品发布(如手机、PC、XR、车机等),并对话AI应用创业者、产品专家及终端技术专家[11] - 任职要求包括对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 任职要求包括熟悉各大终端厂商业态和体验方法论,并具备强逻辑、体验表达和结构化能力[11] 加入公司的潜在收益 - 员工可以站在AI浪潮之巅,第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可以玩转AI新工具,将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 员工有机会打造个人影响力,通过撰写独家原创内容建立个人知名度,成为AI领域的意见领袖[6] - 员工可以拓展行业人脉,与AI领域大咖零距离接触,参与重要科技活动和发布会[6] - 应届新人可以获得专业指导,由主编级编辑出任mentor提供一对一指导[6] - 员工可以加入活力团队,享受扁平、简单、开放、多劳多得能者上位的团队氛围[6] - 员工可以获得丰厚回报,包括行业TOP薪资待遇,五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] 各岗位层级能力要求 - 主编职位需要具备选题和带队能力及经验[6] - 主笔职位需要具备原创深度稿件能力[6] - 编辑职位需要热爱表达,喜欢挖掘信息,能够用通俗语言让所有人看懂AI新进展[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱zhaopin@qbitai.com,邮件主题需注明应聘方向及姓名[11] - 随简历需附上科技行业代表作品,或能展现个人写作水平和风格的作品[11]
我们走访全国百强三甲医院,发现40%都选了同一家AI公司
量子位· 2025-12-23 11:01
行业背景与挑战 - 通用型大模型在医疗场景中存在高幻觉率问题,回答医疗相关问题时胡说八道的概率高达40%[4] - 患者使用通用Chatbot自查后与医生对线,打乱诊疗节奏,增加了医患沟通成本[1][2][3] - 医疗决策具有连续性且错误成本极高,医院对AI的幻觉和错误容忍度接近于零,这使得医疗AI落地门槛极高[13][14][15][18] 医疗AI的竞争焦点与分水岭 - 医疗AI竞争从能力展示转向真实运行,能否在三甲医院长期稳定运行并实现可复盘效果成为关键分水岭[10] - 成功的医疗AI公司需依靠长期场景积累、工程化交付能力及可复盘的落地效果[7] - 大量能力强的模型停留在评测榜单,难以在现实世界规模推广[19] 云知声的市场地位与部署规模 - 在全国百强三甲医院中,约40%选择了云知声的医疗AI解决方案[9] - 截至今年6月,云知声智慧医疗解决方案已在全国部署400家医院,另有700余家进入测试阶段[22] - 其门诊病历生成系统生成的病历,直接引用率接近90%,即每10份中约有9份医生可一字不改直接使用[23][24] - 系统已覆盖除外科外的医院全科室场景[59] 云知声的产品效能与客户反馈 - 病历生成系统为北京多位三甲医院医生节省了近九成的时间成本[25] - 系统在生成速度与准确率之间保持稳定平衡,能自然嵌入医生工作流[58] - 客户价值显著提升,每个医疗客户收入(客单价)从2024年同期的46.9万元大幅增长至101.3万元,增幅达116.2%[67] 云知声的技术与模型演进 - 公司自2016年起布局智慧医疗,演进与中国医疗信息化进程高度同步[30][31] - 基于自研医疗大模型“山海大模型”,能力覆盖病历语音输入、质控、医保支付管理及医学知识图谱等[27] - 最新发布的山海·知医 5.0采用“医学文本大模型+医学多模态大模型”双核心体系,能处理结构化信息、文本、影像等多源输入[34][35] - 创新提出“结构化图谱—半结构化文档—过程化轨迹”三层金字塔数据范式,以降低模型幻觉[37][41] - 通过后训练技术将特定医疗任务下的幻觉率压降至3%以内[42] 技术评测表现 - 在MedBench 4.0评测中,云知声UniGPT-Med系列模型在大语言模型、多模态大模型、智能体三个榜单均位列第一[46][47] - SuperCLUE报告显示,山海大模型在医疗领域评测表现超越了GPT-4[45] 商业化进展与财务表现 - 医疗业务表现突出,2025中期报告显示该业务收入达0.70亿人民币,同比增长22.3%,占总收入17.3%[66] - 业务增长具备可见性,公司对2026年的增速判断明显高于2025年[76] - 产品通过标准化形态交付,支持跨院复制,增长路径清晰可持续[62][63] 公司发展态势与外部环境 - 公司于今年6月30日在港股上市,上市公司身份为医院决策提供了重要信任背书[70][72] - 政策层面支持医疗AI应用场景创新,国务院办公厅发文要求加快高价值应用场景培育和开放[78][79][80] - 资本市场开始为“医疗AI进入临床工作流”定价,2025年美国新晋AI独角兽有55%来自医疗AI赛道[82] - 海外对标公司OpenEvidence(旨在打造医生专用ChatGPT)估值在短期内从10亿美元飙升至120亿美元[83]
易烊千玺的华为绿手机,真的AI了
量子位· 2025-12-23 08:15
产品系列与定价 - 华为nova 15系列推出三款机型,分层清晰,包括数字标准版、Pro版和Ultra版 [4] - Ultra版起售价为4199元,Pro版起售价为3499元,数字标准版起售价为2699元 [7][10] - 全系列搭载HarmonyOS 6操作系统 [4] 核心硬件与性能升级 - Pro版和Ultra版首次升级搭载麒麟9系芯片,性能定位向Mate、Pura系列看齐 [6] - 根据华为实验室测试,整机性能相比上一代提升62% [53] - Ultra版和Pro版配备6500mAh电池,并首次在nova系列引入50W无线超级快充 [42][51] - Ultra版机身重量约209g,厚度仅6.8mm,Pro版机身厚度为6.9mm [43][49] 外观设计与耐用性 - 系列延续“年轻与辨识度”的外观设计主基调 [39] - Ultra和Pro版本采用横向立体堆叠设计,搭载双星镜头模组 [5] - Ultra版推出带感绿、好搭紫、零度白、幻夜黑四种颜色,采用2.5D直屏设计 [40] - Pro版同样有零度白、带感绿、好搭紫、幻夜黑四种颜色可选 [49] - 数字标准版维持更经典的单环加闪光灯设计,外形延续上一代风格 [9] - 系列搭载昆仑玻璃和锦纤背板,支持IP68&IP69防尘防水,1TB版本配有抗反光玄武钢化昆仑玻璃 [47] 影像系统与AI能力 - Ultra和Pro版本首发搭载前、后双红枫影像系统,通过多光谱感知与像素级算法参与色彩计算 [14] - 红枫原色镜头提升色彩还原准确度,官方数据显示色彩还原准确度提升120%,空间分辨率提升10万倍 [15][17] - 后置摄像头首次搭载由三颗5000万像素RYYB镜头组成的全RYYB红枫影像系统,主摄支持10档可变光圈与光学防抖 [45] - AI在拍照过程中提供构图辅助 [19] - 系列首发AI沾色功能,可将参考图片的色彩与风格应用到用户照片中 [21][22] - 集成小艺修图等鸿蒙AI能力,支持从拍照到修图全链路出片,用户可用自然语言指令让AI修图 [25][26] - 具备AI一键成片功能,可将多张照片自动组合成带节奏、转场和动效的视频 [28] 通信与安全功能 - 通话摘要功能在通话结束后自动生成要点并同步到备忘录 [31] - 双向通话降噪针对地铁、商场等高噪环境进行了优化 [33] - 系列引入亲情防诈功能,家人间可共享风险信息,子女可远程协助老人挂断可疑来电 [35][36] 发售信息 - 华为nova 15系列将于本月25号正式发售 [55]
智谱IPO敲钟前,连夜把开源编程大模型SOTA了
量子位· 2025-12-23 08:15
模型发布与核心定位 - 智谱AI于2025年底前发布了新一代开源大模型GLM-4.7,该模型在编程能力上成为新的SOTA(State-of-the-Art)[1] - 此次模型更新主要聚焦于编码(Coding)能力的系统性提升[3] - 模型已通过官网Chatbot和API上线,可供用户立即使用[6] 核心性能表现与基准测试 - 在AIME 2025和人类最后考试(HLE)等基准测试中,GLM-4.7的分数超过了GPT-5.1[4] - 在SWE-Bench Verified基准测试中,GLM-4.7得分达到73.8%,较前代GLM-4.6提升5.8个百分点,创下开源模型新高[4] - 在复杂推理(REASONING)基准测试中,GLM-4.7在多项测试中表现优异,例如:HLE(含工具)得分42.8(较GLM-4.6提升12.4分),MMLU-Pro得分84.3,GPQA-Diamond得分85.7[23] - 在核心编码(CODE AGENT)基准测试中,GLM-4.7在多项测试中显著增强:SWE-bench Multilingual得分66.7(提升12.9分),Terminal Bench 2.0得分41.0(提升16.5分)[23] - 在通用智能体(GENERAL AGENT)工具使用能力基准测试中,GLM-4.7表现提升:BrowseComp得分52.0(提升6.9分),BrowseComp w/ Context Management得分67.5(提升10.0分),τ²-Bench得分87.4(提升12.2分)[23] 具体能力升级与应用展示 - 在前端代码生成质量上,GLM-4.7生成的页面结构更干净、组件层级更清晰,相比GLM-4.6更像现代的Web UI[7][9] - 在复杂几何结构与空间关系的表达上,模型能保持较好的结构一致性与细节稳定性[12] - 在PPT与视觉物料生成方面,模型生成的标题层级更明确、元素尺寸更合理[14] - 模型在对话、创意写作、角色扮演等场景中同样有提升[18] 关键技术特性 - 模型强化了**交错式思考(Interleaved Thinking)**,使其能在工具调用之间及收到工具结果后继续思考,进行更复杂的分布推理,提升指令遵从和生成质量[20][21][22] - 模型引入了**保留式思考(Preserved Thinking)**,在编码等多回合对话中自动保留所有思考快照,复用已有推理,减少信息丢失,更适用于长程、复杂任务,并能节省tokens[20][24][25] - 模型引入了**轮级思考(Turn-level Thinking)**,允许在同一会话的每一轮请求中独立选择开启或关闭思考,从而实现更灵活的成本/时延控制、更顺滑的多轮体验,并更适合智能体/工具调用场景[20][27][28] 定价与市场策略 - GLM-4.7的订阅服务每月最低价格为20元人民币,其提供的用量是Claude Pro套餐的3倍[29][31] 公司发展动态 - 发布GLM-4.7的智谱AI目前已经通过港交所上市聆讯,IPO进程仅剩最后阶段[32][33] - GLM-4.7的发布被视为智谱AI在冲刺IPO上市前最重要的技术证明之一[32][34]
为什么Agent总是Demo猛如龙实战一条虫?
量子位· 2025-12-22 17:30
智能体适应性研究综述 - 一篇由来自UIUC、斯坦福、普林斯顿、哈佛、UC伯克利等12所高校的三十多位研究者联合完成的51页论文,系统研究了自ChatGPT以来的主要智能体,并指出“适应性”是解决智能体在演示与实际场景中表现差距的关键[1][5][6] 智能体的定义与核心能力 - 智能体并非只会被动回答的AI,而是能够自主规划、使用工具(如搜索引擎、代码编译器、数据库)并记忆信息,以逐步完成复杂任务的系统[3] - 其核心优势在于面对新任务或新环境时,无需重新构建,可通过“微调自身”或“优化工具”来快速适应需求[3] 适应性分类框架(2x2范式) - 研究团队提出了一个2x2分类框架,从两个维度对现有适应方法进行划分[7] - 第一个维度是“优化谁”:优化智能体本身(Agent Adaptation)或优化其调用的工具(Tool Adaptation)[8] - 第二个维度是“信号来源”:来自工具执行的结果或来自智能体最终输出的评估[9] - 据此框架,现有方法被分为四大范式[10] 四大适应范式详解 - **A1范式**:智能体根据工具执行的反馈(如代码能否跑通、检索结果是否准确)来学习优化自身策略[10] - **A2范式**:以智能体的最终答案作为优化信号,典型代表是使用强化学习训练推理能力的工作,如DeepSeek-R1[11] - **T1范式**:采用即插即用方式,工具独立训练好后供智能体直接调用,例如SAM、CLIP等预训练模型[12] - **T2范式**:工具根据智能体的输出来优化自身,形成一种共生适应关系[13] 范式选择的指导意义与权衡 - 该分类框架为开发者提供了明确指导:若想提升AI使用工具的“细粒度”,选择A1;若想提升整体推理可靠性,选择A2;若追求工具通用性,选择T1;若想让工具适配特定AI,选择T2[15] - 同时明确了不同范式的权衡:修改智能体(A1/A2)灵活性高但成本也高,需要重新训练模型;修改工具(T1/T2)成本较低,但受限于智能体本身的能力[16] T2范式在数据效率与泛化能力上的优势 - 论文关键发现:T2范式的数据效率远超A2范式[18] - 以检索增强生成任务为例,采用A2范式端到端训练智能体(如Search-R1)需要约17万条训练样本[19] - 而采用T2范式,仅训练一个轻量级搜索子智能体来服务冻结的主模型,仅用2400条样本就达到了相当效果,数据量减少了约70倍,训练速度快了33倍[20] - 在泛化能力上,T2范式同样表现更优:在医学问答测试中,T2训练的智能体准确率达76.6%,而A2训练的Search-R1仅为71.8%[20] - 分析认为,A2范式要求模型同时学习领域知识、工具使用和任务推理,优化过于复杂;而T2范式下,冻结的大模型已具备知识和推理能力,小模型只需学习“如何搜索”这一程序性技能[20] 适应性研究的四大前沿方向 - **协同适应**:最具挑战性的方向,目标是让智能体与工具在同一个学习循环中相互优化,而非当前“冻一个、调一个”的模式,这涉及复杂的信用分配问题[21] - **持续适应**:针对真实世界任务分布、工具和用户需求随时间变化的非平稳性,解决如何让智能体持续学习新技能而不遗忘旧能力的部署难题[23] - **安全适应**:揭示了一个风险,即大模型在通过强化学习优化推理能力时,可能会侵蚀监督微调阶段建立的安全护栏,学会用复杂“思维链”为违规行为编造理由,从而更容易受到越狱攻击[25] - **高效适应**:关注资源受限场景,介绍了如LoRA在强化学习中的应用、FlashRL量化加速技术以及端侧设备的个性化适应方案[27] 资源与总结 - 该综述的GitHub仓库已开放,持续收录相关论文与资源,为搭建智能体系统的开发者提供了一份“适应性指南”[29] - 论文地址与GitHub链接已在文末提供[29]
硅谷停电干崩谷歌Robotaxi,马斯克贴脸热嘲:特斯拉就没事
量子位· 2025-12-22 17:30
文章核心观点 - 一次因大规模停电导致的交通信号灯失灵事件,暴露了Waymo自动驾驶系统在极端场景下的运营漏洞和技术短板,引发了对其所代表的L4终局式技术路线的质疑 [1][3][7] - 特斯拉及其代表的L2渐进式路线借此事件彰显了其优势,马斯克公开表示其Robotaxi未受影响,凸显了特斯拉通过海量真实数据训练和FSD系统应对复杂场景的能力 [1][12][13] - 自动驾驶行业竞争加剧,以特斯拉为代表的“渐进式”路线玩家正加速进入Robotaxi市场,与Waymo代表的“终局式”路线展开正面竞争,行业进入“战国时代” [1][19] 事件起因与Waymo的应对 - 旧金山变电站火灾导致大规模停电,影响约13万居民,交通信号灯停止工作 [2][3] - Waymo Robotaxi将不工作的红绿灯视为停车标志而停下,但由于停电范围大、无线信号差,远程安全员无法接管车辆,导致车辆成为路障,造成交通拥堵 [3][5][7] - Waymo公司连夜用拖车移走车辆,并宣布在当地暂停运营,恢复时间未定 [5] Waymo暴露的技术与运营问题 - 车队规模超过2500辆,在行业中排名第一,但分散于各城市,收集的真实场景数据有限,这是行业共性问题 [8] - 公司技术转向“世界模型”,通过模拟环境补充数据训练,但此前未对“交通灯失灵”这类极端场景进行针对性训练,导致AI司机缺乏应对能力 [9] - 此次事件暴露了其在极端情况下的运营依赖性和技术准备不足 [7][9] 特斯拉的对比与进展 - 马斯克迅速回应,称特斯拉Robotaxi在旧金山停电事件中未受影响,并获得了大量网友支持,其推文点赞量超过6万 [12][13][15] - 支持者认为特斯拉FSD系统经过了数十亿公里行驶数据的验证,能更好地处理异常情况 [15] - 特斯拉在加州的奥斯汀已开启无人驾驶运营,摩根士丹利预测其Robotaxi车队规模将在明年突破1000辆,2030年达3万辆,2035年达到惊人的100万辆 [17] - 特斯拉在加州还注册了1655辆车用于带司机的网约车服务,这些车辆激活FSD系统进行人机共驾,以收集数据反哺Robotaxi业务 [18] 行业竞争格局演变 - 以Waymo为代表的L4终局式路线正面临来自特斯拉L2渐进式路线的实质性挑战 [1][17] - 中国自动驾驶公司如Momenta、元戎启行、地平线等也纷纷重注Robotaxi,沿着“特斯拉路线”前进 [19] - 出行平台集体转向,推出Robotaxi打车服务,行业竞争在2026年将变得前所未有的激烈 [19]
全自研仿真GPU求解器x虚实对标物理测量工厂,打造具身合成数据SuperApp,加速具身仿真生态丨光轮智能@MEET2026
量子位· 2025-12-22 16:01
文章核心观点 - 具身智能的发展正从大模型的“语言世界”迈向“物理世界”,而仿真正成为连接两者并实现落地的底层基础设施[1] - 具身智能的市场规模和数据机会远大于文本、视觉模型及智能驾驶,其数据维度更真实、复杂,潜在规模是大语言模型的1000倍[2][10][14] - 具身智能时代的核心挑战在于数据,仿真是解决数据问题的唯一可行方案,其关键在于解决仿真真实性(Sim2Real)的行业痛点[3] - 光轮智能通过自研“测量、生成、求解”三位一体的全栈仿真基础设施,为具身智能提供数据、训练、评测的全流程解决方案,旨在成为支撑产业规模化发展的基础[3][6][12] 行业趋势与市场机会 - 具身智能的数据机会预计是大语言模型的1000倍,源于其需要处理力反馈、逻辑电路、阻尼等多维复杂物理交互,远超智能驾驶(主要是视觉和车辆动力学)的数据复杂度[10][14] - 具身智能的预训练数据需求巨大,因为缺乏“本体在跑”的真实数据,而真机数据采集面临成本高昂、易损坏、场景单一和“Real2Real”差距等挑战[17][18] - 传统仿真方法因物理不真实、资产视觉失真、交互行为不准确三大问题,导致仿真与真实世界差异巨大,部署成功率从理论100%降至5%[15][19][20] 光轮智能的仿真技术解决方案 - 公司自研了“测量、生成、求解”三位一体的仿真基础设施,以解决Sim2Real的可靠性问题[3][15] - **测量**:通过自研设备实现自动化物理测量,建造“虚实对标物理测量工厂”,不再依赖猜测和经验[21][24] - **生成**:核心是生成系统,确保资产、场景、力的反馈与真实世界100%对齐,覆盖钢体、铰链、流体、可形变物体等,并主导制定了行业规范LW-Ready[23][24][25] - **求解**:自研了全栈GPU Solver,支持百万级自由度的实时求解,实现多物理场耦合,物理精度达亚毫米级,更新频率达千赫兹[23][36][38] 仿真应用与生态构建 - 公司认为仿真平台的成功离不开生态支撑,因此聚焦打造“爆品应用”来验证和优化平台[15][39] - **仿真遥操数据采集工厂**:建立了全球最大的遥操数据采集工厂,运用6D鼠标、AR、VR等多种采集方式,并配备自动化质检与标注[6][40] - **大规模RL训练平台(LW-BenchHub)**:可在高仿真环境中运行成千上万的并行仿真实例,进行24小时不间断训练,并能自动生成极端、长尾场景以增强机器人鲁棒性[6][42][44] - **工业级机器人评测平台(RoboFinals)**:行业首个针对前沿机器人模型的工业级评测平台,包含一百项涵盖家居、工厂、零售等真实场景的任务,已成为全球使用频次最高的仿真应用之一[6][45] 公司业务与客户进展 - 公司成立于2023年,商业化进展迅速,已服务全球具身智能和世界模型领域的头部客户[12] - 客户包括英伟达、DeepMind、Figure AI等国际公司,以及国内字节、阿里等科技企业,还包括丰田、吉利等场景应用方[12] - 公司与学术界合作紧密,其自研仿真工作流已成为Hugging Face官方指定的仿真环境[13] - 公司通过仿真技术帮助客户将机器人本体真正地Sim2Real落地到实际工厂中[12]
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
量子位· 2025-12-22 16:01
文章核心观点 - Gemini 3 Flash 模型在多项关键性能基准测试中超越了其旗舰版本 Gemini 3 Pro 及上一代产品,同时具备显著的成本和速度优势,这挑战了“模型越大越好”的传统观念,并揭示了谷歌在模型开发战略上的重大转变,即通过旗舰模型“蒸馏”出更高效、更强大的轻量版模型 [1][4][6][19] 模型性能表现 - **编程能力反超**:在衡量软件工程能力的权威测试 SWE-Bench Verified 中,Gemini 3 Flash 获得 **78.0%** 的分数,超越了 Gemini 3 Pro 的 **76.2%** 以及上一代 Gemini 2.5 Pro 的 **59.6%** [1][2][6] - **数学能力顶尖**:在 AIME 2025 数学基准测试中,结合代码执行能力的 Gemini 3 Flash 得分高达 **99.7%**,已无限逼近满分,不使用工具时也达到 **95.2%**,略高于 Pro 版的 **95.0%** [2][7] - **多模态与推理能力强劲**:在 Humanity‘s Last Exam 学术推理测试中,Flash 在不使用工具的情况下获得 **33.7%** 的分数,与 Pro 版的 **37.5%** 处于同一梯队;在 MMMU-Pro 多模态理解测试中,Flash 以 **81.2%** 的成绩与 Pro 版的 **81.0%** 基本持平 [2][7] - **全面领先上一代**:Gemini 3 Flash 在几乎所有基准测试中的表现都全面超越了上一代的 Gemini 2.5 Pro 和 2.5 Flash [2][6] 成本与速度优势 - **定价极具竞争力**:Gemini 3 Flash 的输入成本为 **0.50美元/百万Token**,输出成本为 **3.00美元/百万Token**,显著低于 Gemini 3 Pro 的 **4.00美元/百万输入** 和 **12.00美元/百万输出** [2][8][9] - **速度与效率提升**:Gemini 3 Flash 的推理速度是 Gemini 2.5 Pro 的 **3倍**,同时 Token 消耗量减少了 **30%** [9] - **性价比突出**:相较于性能提升,其价格虽略高于 Gemini 2.5 Flash,但仍被认为极具吸引力 [9] 战略定位与技术路径 - **Pro 模型的新角色**:谷歌团队明确表示,旗舰 Pro 模型的主要作用之一是作为“蒸馏”轻量版 Flash 模型的来源,旨在不计成本地探索智能上限,而 Flash 则负责继承能力并极致优化延迟、成本和吞吐量 [10][12][13] - **技术实现路径**:Flash 的性能超越并非简单蒸馏的结果,而是集成了大量最新的代理强化学习研究成果,证明了通过先进的后训练算法,小模型可以实现对更大参数模型的“降维打击” [20][21][22] - **Scaling Law 的演变**:团队认为单纯依靠预训练阶段堆砌参数的路径正在逼近极限,未来的扩展重点将从预训练算力堆叠转移到推理侧的计算扩展和后训练优化 [15][16][17] 行业影响与竞争格局 - **挑战传统观念**:Flash 的表现直接打破了“参数至上”和“旗舰版迷信”,证明了更便宜、更快的模型可以同时是更聪明的模型,引发了关于“帕累托前沿”反转的讨论 [4][19][23] - **横向对比保持竞争力**:在与主要竞品的对比中,Gemini 3 Flash 在多项测试中表现优异,例如在 SWE-Bench Verified 测试中得分 **78.0%**,高于 Claude Sonnet 的 **77.2%**,接近 GPT-5.2 Extra high 的 **80.0%** [8] - **未来演进方向**:行业认为后训练是目前最大的“未开垦绿地”,在代码、推理等封闭任务被“击穿”后,提升模型在开放式任务上的能力将成为关键 [17][18]