Workflow
量子位
icon
搜索文档
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」
量子位· 2025-12-22 12:41
文章核心观点 - 香港中文大学、美团等机构的研究团队提出了一种名为“Thinking-while-Generating”的全新视觉生成范式,通过在生成过程中间歇性地插入文本推理,以解决现有模型在处理复杂空间关系、多物体交互和精准数量控制时的缺陷 [5][7][19] 现有技术瓶颈与解决方案 - 当前以FLUX.1、Emu3为代表的扩散模型与自回归模型在文生图和视频生成领域已能生成逼真画面,但在处理复杂空间关系、多物体交互或精准数量控制时仍会出错,例如将猫画到窗外或将三个苹果画成四个 [1] - 学术界此前主要解决方案有两条路径:一是“谋定而后动”,即生成前先规划详细布局,但缺乏灵活性;二是“亡羊补牢”,即生成后通过多轮对话修改,但推理开销大且耗时 [4] - TwiG范式旨在模仿人类画家,在作画过程中暂停以审视和规划,首次在单一生成轨迹中以局部区域为粒度,将文本推理与视觉生成深度交织 [5][7] Thinking-while-Generating框架详解 - TwiG框架将视觉生成从“黑盒”连续过程拆解为“生成-思考-再生成”的循环,受大语言模型中思维链启发,但反其道而行之,用推理来引导作画 [7] - 框架核心包含三个维度:1) “何时思考”:根据用户提示词规划思维时间表,将画面生成过程拆解为3个阶段效果最佳,对应图像“上部背景、主体内容、下部背景”的语义结构 [8];2) “思考什么”:在每个暂停点生成一段“思维链”,作为指导后续局部生成的微型路书 [9];3) “如何修正”:在画完局部后进行自我批判,若发现错误则触发局部“重画”机制,无需推倒重来 [10] 实证研究结果 - **Zero-Shot潜力**:仅通过精心设计的提示词,无需参数更新,TwiG-ZS在T2I-CompBench基准测试的属性绑定、空间关系等多个维度上已显著超越基准模型,表明现有多模态模型具备在生成过程中进行推理的潜力 [13][14][15] - **监督微调效果**:团队构建了包含50K数据的高质量数据集TwiG-50K进行监督微调,SFT有效减少了模型幻觉,使生成的思维链更加简练、可控 [16] - **强化学习突破**:采用针对TwiG优化的GRPO策略进行强化学习训练,TwiG-RL在T2I-CompBench++的多个关键组合与空间指标上,展现出与Emu3、FLUX.1等模型竞争力甚至更优的表现 [17] - **性能数据对比**:根据提供的性能对比表,TwiG-RL在多个关键指标上表现优异,例如在属性绑定的“2D-Spatial”指标上达到82.49,在“Color”指标上达到61.28,在“Shape”指标上达到73.19,在“Texture”指标上达到34.06,在对象关系的“3D-Spatial”指标上达到38.87,在“Numeracy”指标上达到61.93,在“Complext”指标上达到53.56 [18] 研究结论与未来展望 - 研究结论总结为三点:1) 生成需要逻辑,引入显式文本推理是处理复杂逻辑约束的必经之路;2) 修正优于重绘,在生成过程中进行局部即时修正比完成后大改更高效;3) 强化学习是关键,不仅能优化图像质量,更能教会模型如何思考,是挖掘多模态模型推理潜力的关键 [20] - 目前TwiG的实现与实验主要基于自回归ULM,但框架设计对扩散模型同样兼容,该“边生成边思考”的范式有望扩展到视频生成、3D建模等更复杂领域,为通用视觉智能提供新方向 [21]
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
量子位· 2025-12-22 12:41
文章核心观点 - MiniMax海螺视频团队开源了其视觉分词器预训练框架VTP,并揭示了当前图像/视频生成模型性能瓶颈的关键原因:传统视觉分词器过度追求像素级重建,忽视了高层语义理解,导致投入的算力无法有效转化为生成质量的提升 [1][2][3][4] - 团队提出的VTP框架通过联合优化理解、重建与生成目标,首次证明了视觉分词器也存在明确的Scaling Law,仅通过提升分词器的预训练规模,即可在不改变下游主模型的情况下,实现端到端生成性能的倍数级提升 [5][6][37][50] 传统视觉分词器的局限与问题 - 当前主流图像生成采用两阶段框架:第一阶段由视觉分词器将图像压缩至潜在空间,第二阶段由扩散模型在该空间内生成图像 [7][8] - 视觉分词器是关键组件,它大幅降低了计算复杂度,使模型能在消费级显卡上运行,其生成的潜在表征质量直接决定了生成模型的上限 [9][10] - 行业普遍通过要求模型精准复刻原始像素来提升质量,但传统分词器过度捕捉局部纹理和噪点等低层信息,忽视了生成任务所需的高层语义与整体结构 [10][11] - 这导致了“预训练缩放问题”:更好的像素级重建精度并不能带来更高质量的生成效果,随着算力投入增加,生成性能会趋于饱和甚至下降 [12][15] - 实验数据显示,仅基于重建目标训练时,重建指标rFID从2.0降至0.5(效果变好),但生成指标gFID从55.04升至58.56(效果变差)[39] VTP框架的设计理念与突破 - VTP的设计原则是融合所有已知有效的表征学习方法,构建一个自带理解能力、对生成模型友好的视觉分词器 [26][35] - 其核心是从“像素级重建”转向强调理解力的“通用表征学习”,实现了从只练“重建”到“理解、重建、生成”的联合优化 [25][29] - 具体通过三重目标联合优化: - **图文对比学习**:建立高层语义理解,要求图像压缩后的潜在编码保留与文本对齐的语义结构 [30] - **自监督学习**:结合掩码图像建模和自蒸馏,迫使模型理解图片的空间关系和物体结构 [31][32] - **重建目标**:定位转变为保留生成所需的纹理、颜色与边缘等必要底层视觉细节,而非追求越准越好 [33] - 团队选择从头预训练而非直接使用现有模型,是因为认为表征至关重要且需要做到极致,市面上没有能很好融汇这些方法的模型,且从头训练才能保证Scaling潜力 [36] VTP的实验结果与关键发现 - **理解力是驱动生成的关键**:一旦注入“理解力”,模型的生成质量会随着理解能力的提升同步变好,二者呈现明显正相关,且提升会随训练计算量增加持续推进 [40][41] - **联合训练效果最佳**:在同等算力下,“CLIP+SSL+AE”的联合训练方式上限最高,生成与理解指标均最优 [43] - **性能表现**:VTP-L-d64模型在ImageNet上的零样本分类准确率达到78.2%,超过原版CLIP的75.5%;重建指标rFID低至0.36,超过Stable Diffusion的VAE;生成指标gFID低至2.81,超过此前的改进方法VA-VAE [44][47] - **训练效率提升**:在达到相同生成质量的前提下,VTP的训练收敛速度比LDM快5.7倍、比VA-VAE快4.1倍,大幅降低了训练成本 [47] - **首次展示Tokenizer的Scaling Law**:生成性能可以随预训练中投入的计算量、参数量和數據规模有效增长 [50] - 仅通过放大Tokenizer的预训练计算量,就能为最终生成效果带来65.8%的性能提升,且提升曲线仍未触顶 [50] - 相比之下,传统自编码器的性能在仅投入约1/10计算量时便已饱和,继续增加算力收益微乎其微甚至可能导致质量倒退 [51] 对行业的意义与影响 - 研究结论表明,除了在主模型上投入更多资源,还可以通过Tokenizer的scaling来提升整个生成系统的性能,Tokenizer成为一个值得长期投入且具备明确scaling回报的核心环节 [52][58] - VTP改变了Tokenizer长期被视为“前置模块”、够用就行的观念,首次将其作为scaling的主角,展现出全面的scaling曲线和扩展方向 [53][54] - VTP在Tokenizer层面统一了语义对齐、结构认知和细节表达,其产出的视觉表征天然具备多任务协同潜力,适合用来构建“理解-生成统一模型” [55][56][57] - VTP的开源为行业提供了一条新的、被实验证明有效的路径,其价值不仅在于提供了一个组件,更在于指明了新的研究方向 [58]
量子位编辑作者招聘
量子位· 2025-12-22 12:41
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 参与核心采访,对话产业专家、技术大牛、撰写AI云落地案例。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作, ...
天下苦SaaS已久,企业级AI得靠「结果」说话
量子位· 2025-12-22 12:41
文章核心观点 - 传统SaaS模式在AI时代面临高推理成本、交付质量不稳定等问题,已不再是理想的商业模式 [1][2] - RaaS (Result as a Service,按结果付费) 被认为是AI商业化最有潜力的出路,旨在解决AI落地难题 [2] - 百融云创作为深耕企业级AI领域11年的公司,正全仓押注RaaS路径,并推出“结果云Results Cloud”平台 [3][16] 行业痛点与SaaS模式局限 - 企业部署AI面临“前置成本高企、试错代价高昂”的双重问题 [11] - 传统路径下,企业需承担“软件+硬件+培训”三重成本,本质上是将原有技术地基整体推翻重建,投入极高 [12][13] - AI技术迭代迅速,传统软件开发模式无法适应,技术架构落后两个月在AI领域是难以想象的 [15] - SaaS模式下,服务商与客户是甲乙方关系,存在道德风险,激励函数扭曲,服务商可能追求调用次数而非最佳效果 [36] - 按Token计费不合理,因为不同业务场景中Token的价值差异巨大 [39] 百融云创的解决方案:结果云Results Cloud - 结果云是一个帮助企业部署硅基员工的云平台,提供封装好的全栈解决方案 [18] - 平台架构分为三层:百基 (AI Infra)、百工 (Agent OS)、百汇 (Agent Store) [19] - **百基 (AI Infra)**:作为原材料采购市场,屏蔽基础设施复杂性,直接提供现成的基座模型与算力 [20] - 模型侧覆盖主流开源与商业模型,以及自研的行业专属模型 [20] - 算力侧涵盖英伟达GPU及华为昇腾、百度昆仑芯等国产算力平台 [21] - **百工 (Agent OS)**:作为中央厨房,在异构的“算力+模型+尺寸”组合中筛选最优方案,降低决策成本 [23][25] - 提供行业专属知识库,根据业务需求定制模型 [26] - 专业团队进驻客户现场,采集真实语料、完成数据标注,为客户量身定制模型 [27] - 负责硅基员工的后续部署、运行、调度、管理和监测 [28] - **百汇 (Agent Store)**:作为应用商店,提供开箱即用的成熟硅基员工,主要分为CX (客户体验) 和EX (员工体验) 两类 [29][37] - 这些是经过市场验证的“金牌员工”,即插即用,无需推翻既有系统 [31] RaaS模式的优势与运作机制 - RaaS是按“结果”付费,是底层产品哲学的变革,服务商与客户从甲乙方变为价值共创的“同事”关系 [39][40][44] - 结果云将硅基员工表现与人类员工对齐,构建ABCD四个考核等级,指标与业绩直接挂钩 [46] - 通过Agent Builder模块实时全链路监测硅基员工表现,打开智能体运行的“黑箱” [46] - 付费模式有三种:按任务计价、按价值创造分成、按岗位薪酬制,核心是“真干活,才有钱拿” [48][51] - 以硅基客服为例,其产出约为人类员工的三倍,成本仅为后者的一半,每月只需5000元,实现六倍的ROI [49] - 该模式消除了客户的前置成本担忧,并避免了因技术迭代产生的转换成本 [52] 实际应用效果 - 在一次大型招聘项目中,结果云的“硅基招聘专员”在三个月内带来显著成效 [32] - 到访率提升12–18个百分点 [37] - 平均处理时长下降40–60% [37] - 无效沟通占比降低25–35% [37] - 试岗匹配率从60%提升至90% [37] - 招聘全流程周期从28天缩短至2天 [37] 构建智能体生态的战略 - 现实业务场景高度碎片化,单个公司无法覆盖企业级AI的全部长尾需求 [55] - 结果云的百基、百工、百汇各层均向第三方开发者敞开,旨在打造类似移动互联网应用商店的智能体生态系统 [57] - 百融云创呼吁共建“硅基生产力联盟”,希望使智能体像App一样成为可流通的商品 [59][66] - 公司深耕金融等严苛行业11年,累计服务8000+家企业客户,沉淀了大量数据与Know-How,为构建生态提供底气 [60][62] - 自研技术表现:BR-Proactive LLM的ROI可达通用大模型的2倍;BR-Voice语音响应速度提升4倍;BR Vortex推理引擎将P99延迟降低一个数量级,芯片利用率提升30% [62] - 公司联合中国信息通信研究院等机构发布白皮书,旨在定义技术框架与标准,为生态健康发展奠定基础 [64]
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
量子位· 2025-12-22 09:40
文章核心观点 - AI基础设施正从“资源供给”向“系统能力”演进,关键在于解决算力如何高效、稳定、可规模化地支撑模型与产业,而不仅仅是提供算力 [1][3][4] - 商汤大装置作为原生AI基础设施,定位为“最懂大模型的AI Infra”,致力于提供从算力、平台到方案、服务的端到端全栈能力体系 [6][12][17] 公司战略与业务定位 - 公司采用“1+X”战略:“1”为核心业务,即大装置、大模型、AI应用三位一体;“X”为创新业务,包括智驾、医疗、零售、硬件及芯片等模块 [6][10][11] - 公司深度参与AI十年发展周期,从AI 1.0时代的感知智能演进至当前原生多模态模型、时空模型、具身智能和世界模型方向 [7][9][10] - 公司自研大模型坚持多模态优势,而不仅是纯语言模型 [10] AI基础设施能力与规模 - 商汤大装置算力总规模达32000P,是国内首个做千卡集群的厂商,于2018年启动千卡并行训练原型机,2019年建成上海临港AIDC [6][13] - 根据沙利文报告,商汤大装置综合竞争力在国内排名第一,全球排名第二(仅次于亚马逊);在2025年H1中国全栈AI云服务市场,公司整体份额位列第四,是原生AI云厂商首位 [15] - 基础设施具备“算力-平台-方案-服务”的端到端能力体系,不仅是算力平台,更提供模型框架、优化、训练推理体系及开发工具链等立体能力 [10][17] 关键技术突破与运营优化 - **算电协同实践**:在上海临港AIDC搭建覆盖“源—网—荷—储”全链路的算电协同平台,自研能源大模型,并联合宁德时代建设17.888MW/35.776MWh新型储能系统 [20][21] - 通过精准预测15分钟内算力对电力的需求,实现智能削峰填谷,达成年度碳减排超3000吨,年节电量突破1000万度,PUE达1.267,综合算效提升15%,年化降低7%电费 [6][21] - **国产化适配**:联合华为、海光、寒武纪、壁仞科技、摩尔线程等国内厂商发布“商汤大装置算力Mall”,客户可自由组合调配国产算力资源、平台工具和行业模型服务 [6][21] - 公司是首批完成与华为昇腾910C 384超节点全面适配的企业,并联合头部客户实现5000张国产异构算力芯片的调度纳管,算力利用率达80%,并持续稳定训练一个月 [24] - 与记忆张量落地业界首个国产GPGPU PD分离商用推理集群,综合推理性价比达到同代NVIDIA A100的150% [24] 产业落地与应用案例 - 商汤大装置服务客户广泛,涵盖互联网科技公司、AIGC企业、传统行业、顶级科研机构及具身智能赛道 [25] - 为互联网大厂提供算力以外的模型推理、优化、框架优化及专家数据服务,体现一体化AI能力优势 [25] - 在传统行业深度合作,例如与铁一院(中铁第一勘察设计院)合作打造交通行业首个国铁勘察设计多模态大模型,实现复杂传统行业的AI落地 [25][29] - 服务国家顶级科研机构,如创智学院、上海人工智能实验室、清华大学、上海交大等 [26] - 在具身智能领域提供市场唯一的完整端到端方案,服务众多初创公司 [27] - 连续三年为某头部电商公司提供端到端解决方案,覆盖算力层、模型推理与优化 [29]
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身
量子位· 2025-12-22 09:40
行业现状与痛点 - 当前智能体育系统大多停留在“打分+可视化”的初级阶段,无法回答“为什么不对”和“如何提高”的核心问题 [1] - 通用大模型(如GPT-5)在处理专业的体育生物力学分析时面临严峻挑战,缺乏细粒度视觉感知能力,易产生幻觉,生成的建议多为缺乏针对性甚至物理不可行的通用模板 [3] SportsGPT框架概述 - 这是一个由大语言模型驱动的可解释体育运动评估与训练指导框架,实现了从“动作评估”到“专业诊断”再到“训练处方”的完整智能闭环 [5] - 框架围绕动作评估与训练指导两大核心任务展开 [7] - 在专家双盲评估中,SportsGPT在准确性(3.80)、全面性(3.75)、专业性(3.73)和可行性(3.77)四个维度上全面超越GPT-5、Claude 4.5等通用大模型,证实了其在生成精确、可执行的专业级训练指导方面的独特优势 [8][9] 核心技术一:MotionDTW(精准动作解析) - MotionDTW是一种专为体育动作分析设计的两阶段时间序列对齐算法,旨在解决传统方法易受运动员体型、动作速度及背景噪声干扰的问题 [10] - 算法通过构建加权多模态特征空间,采用生物力学几何角度(如髋、膝、踝、肩的相对角度)作为核心特征,并引入角速度与角加速度作为动态特征,以捕捉高动态运动中的瞬时爆发力与节奏变化 [11][12] - 算法使用时域上下文平滑(滑动窗口机制)和空域注意力掩码(关节权重机制)来有效平滑噪声并精准锁定动作本质 [13][15] - 采用“由粗到细”的两阶段对齐策略:第一阶段通过滑动窗口快速定位核心动作区间;第二阶段在约束搜索半径内进行精细化路径规整,实现毫秒级精度的关键帧映射 [16][17] - 完整模型(Two-Stage)的平均误差为1.54帧,而单阶段策略误差高达66.00帧,证明两阶段策略是算法生效的基石 [18][19] - MotionDTW在准确性上全面优于Soft-DTW与标准DTW,同时凭借4.94ms的平均推理速度实现实时响应 [21] - 实验表明,MotionDTW生成的诊断规则与专家真值的交并比显著优于Fast-DTW基线,能精准保留关键语义 [24] 核心技术二:KISMAM(专业诊断模型) - KISMAM旨在弥合原始生物力学数据与可解释诊断之间的鸿沟 [25] - 模型首先基于100名16-18岁青少年短跑运动员(百米成绩10.31-14.00秒)的全流程数据,为每个运动学指标(如关节角度、腾空时间)定义了符合生物力学规律的正态分布标准范围 [26] - 模型计算用户数据与标准阈值之间的偏差,并量化动作变形的严重程度 [27] - 通过构建高维映射矩阵,解决“单一数据异常可能对应多种技术问题”的复杂性,例如“腾空时间过长”可能指向“后蹬角度不当”或“摆动腿折叠不够”等不同问题 [28][29] - 采用“确定性规则计算+概率性逻辑推理”的混合架构,通过加权求和聚合所有指标的偏差贡献,计算出每个潜在技术问题的发生概率,并筛选出概率最高的Top-6核心问题,从根本上杜绝了端到端大模型的幻觉问题 [30] - 实验显示,若移除KISMAM,模型准确性从3.9骤降至2.85,全面性从3.85跌至2.4,证明KISMAM是连接量化指标与定性专家推理之间不可或缺的“语义桥梁” [31][32] 核心技术三:SportsRAG(训练指导生成) - 针对KISMAM输出缺乏语境解释以及通用LLM存在领域知识缺失和幻觉的问题,提出了基于Qwen3-8B的SportsRAG训练指导模型 [33] - 不同于传统微调,SportsRAG利用一个构建的60亿Token大规模外部知识库来支撑生成过程,该知识库涵盖三个层级:理论基础(200本权威教科书与期刊)、实践经验(50,000条经人工标注的高质量专家问答对)、参考标准(1,000份专业历史分析报告) [33] - 实验结果显示,移除RAG模块后,虽然诊断准确性仍维持在3.65,但方案的可行性从3.9骤降至1.65 [33] - 定性分析揭示,缺乏专家知识库支持时,模型的输出会退化为理论正确但操作模糊的通用建议(如“加强腿部肌肉”),而无法生成包含具体负重、组数和次数(如“85%1RM负重4组8次”)的专业指令,确认了RAG模块是将诊断洞察转化为专业级、可执行训练处方不可或缺的核心组件 [33][34] 框架价值与前景 - SportsGPT通过MotionDTW解决“看得准”的问题,用KISMAM解决“懂诊断”的问题,更通过SportsRAG实现了“会教学”的闭环,提供了真正可执行、有依据的专家级指导 [36][37] - 该框架证明在体育训练这个硬核场景下,通用大模型并非万能药,“懂行”的垂直领域框架才是未来,为智能体育树立了从“看见问题”到“解决问题”的新标杆 [36][37]
火线解析MiniMax招股书!全球领先大模型成本只有OpenAI 1%,果然拳怕少壮
量子位· 2025-12-21 23:10
公司概况与市场定位 - 公司是一家全球化的通用人工智能(AGI)科技公司,致力于通过可扩展性探索AGI [5][7][8] - 公司服务覆盖全球200多个国家和地区,国际化业务收入占比高达70% [6] - 公司成立近四年,累计融资已超过15亿美元,吸引了米哈游、阿里巴巴、腾讯、高瓴、红杉等众多知名战略与财务投资人 [3][62] 技术路径与核心能力 - 公司自成立起即投入全模态模型研发,技术路线覆盖文本、语音、音乐、视频等多个模态 [10][12] - 在文本模型方面,公司发布的M2模型在Artificial Analysis榜单上位列全球前五、开源第一,推理速度是Claude 3.5 Sonnet的两倍,API价格仅为后者的8% [16][17] - 在语音模型方面,公司推出的Speech系列模型支持40多种语言,已累计生成超过2.2亿小时(约2.5万年)的语音,并为ChatGPT高级语音模式的LiveKit提供底层技术引擎 [20][21] - 在视频模型方面,公司的海螺AI(Hailuo)平台在全球用户中创作了超5.9亿视频,并在VBench等国际榜单中位列第一梯队,同时性价比刷新全球纪录 [25][26][27] - 公司采用“模型即产品”模式,面向C端和B端提供服务,建立了以订阅服务与云端API为核心的高质量可持续收入矩阵 [29][32] 商业化进展与财务表现 - 公司从2023年开始商业化,营收从2023年的346万美元飙升至2024年的3052万美元,同比暴涨782.2% [39] - 2025年前九个月,公司营收达到5344万美元,同比增长175%,已远超2024年全年水平 [40] - 公司超过70%的收入来自海外,使其成为国际化收入最高的中国大模型公司 [42] - 公司毛利率快速改善,从2023年的-24.7%转正至2024年的12.2%,并在2025年前九个月进一步提升至23.3% [45] - 分业务看,2025年前九个月,公司C端和B端业务的毛利率分别为4.7%和69.4%,若不计入星野(Talkie)平台的影响,整体毛利率已接近50% [46][48] - 公司训练相关的云计算服务开支占收入的比例显著优化,从2023年的超过1365%降至2025年前九个月的266.5% [54] - 尽管公司目前仍处于亏损状态,但营收增速远高于经调整净亏损的上涨幅度,净亏损率迅速下降,表明商业模式已跑通并进入规模化扩张轨道 [55][56][57] - 截至2025年9月30日,公司拥有现金储备合计11.02亿美元,以当前现金消耗率计算,足以支持正常运营53个月以上 [58][59] 团队构成与运营效率 - 公司创始团队拥有浓厚的“商汤基因”,创始人兼CEO闫俊杰曾任商汤科技副总裁,早期核心成员也多来自商汤,具备成熟的工程化落地能力和算法研究体系 [65][66][68] - 公司全员385人,平均年龄29岁,其中研发人员占比高达73.8% [70][71] - 公司组织架构高度扁平化,CEO之下设立的职级不超过三层,管理效率高 [74] - 公司深度应用自身AI技术,超过80%的代码由AI完成,内部将AI称为“实习生”,用于代码审查与修改等工作,实现了工作方式的重构与效率提升 [74] - 公司展现出极高的资本效率,累计花费约5亿美元便实现了全模态能力的全球领先布局,该花费不到OpenAI(花费400亿至550亿美元)的1% [4][76][77]
摩尔线程的野心,不藏了
量子位· 2025-12-21 22:13
核心观点 - 摩尔线程在上市后迅速召开首届全功能GPU开发者大会,围绕其自主研发的MUSA架构,发布了一系列从云到端、从算力到生态的新产品与技术,标志着国产GPU能力进入新阶段[1][2][4] MUSA全功能GPU架构 - MUSA是公司自主研发的元计算统一系统架构,定义了从芯片设计到软件生态的统一技术标准,支持AI计算、图形渲染、物理仿真、科学计算及视频编解码等全场景高性能计算[6][7][10] - 发布第五代全功能GPU架构“花港”,在同等芯片面积下算力密度提升50%,计算能效提升10倍,并新增对FP4/FP6低精度计算及混合低精度端到端加速技术的支持,专为AI低比特训练与推理优化[8][13][17] - 花港架构原生支持矩阵rowmax计算以提升混合精度SIMT吞吐量,内置在线量化/反量化、随机舍入等硬件加速能力,为下一代Transformer引擎提供底层支撑[13] - 架构支持通过MTLink高速互联构建十万卡集群,为超大规模模型训练铺平道路[17] 软件栈与开发生态 - 同步推出MUSA软件栈5.0,构建从编译器、算子库到AI框架的全栈工具链,并宣布将逐步开源MATE算子库、MUTLASS、MT DeepEP通信库、KUAE云原生工具包等核心组件[16] - 软件生态广泛适配主流AI框架,除PyTorch、PaddlePaddle外新增对JAX、TensorFlow的支持,并新增强化学习训练框架MT VeRL[18] - 推理引擎深度优化自研MTT推理引擎与TensorX,同时适配SGLang、vLLM、Ollama等新兴推理框架[18] - 核心库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍[18] - 推出面向AI+渲染融合的编程语言muLang,兼容TileLang、Triton,原生支持MUSA C,并发布GPU中间表示语言MTX 1.0以提升开发者调优自由度[18] - 公司打造“摩尔学院”作为开发者成长平台,截至2025年12月已汇聚20万名开发者,目标培育百万规模社群,并通过走进全国200所高校进行产教融合[59][61] 新产品发布:芯片 - 基于花港架构发布两款芯片路线:聚焦AI训推一体及高性能计算的GPU“华山”,以及专为图形计算而生的GPU“庐山”[21][22][28] - “华山”GPU全精度支持从FP4到FP64,具备MTFP4/MTFP6混合低精度加速能力,硬件级优化专为大模型训练定制,标志着公司正式具备支撑万亿参数大模型训练的能力[25][27] - “庐山”GPU引入AI生成式渲染架构和硬件光追引擎,支持DirectX 12 Ultimate,相比上一代产品AI计算性能提升64倍,3A游戏渲染性能提升15倍[30][31] - 首次推出面向端侧场景的智能SoC芯片“长江”,提供50 TOPS的异构AI算力,应用于具身智能、车载、AI计算终端等领域[32][34] 新产品发布:硬件与集群 - 基于长江芯片发布两款硬件:为AI学习与开发者打造的个人智算平台“MTT AIBOOK”,以及桌面高性能AI计算设备“AICube”[36][37][43] - MTT AIBOOK运行MT AIOS操作系统,预置完整AI开发环境,内置智能体“小麦”支持2K高清渲染、本地大模型及端侧ASR/TTS,并预装智源悟界Emu3.5多模态模型[37][40][42] - 发布“夸娥(KUAE 2.0)”万卡智算集群,在Dense大模型上的算力利用率达60%,在MOE大模型上达40%,有效训练时间占比超过90%[46][47] - 公司已完整复现DeepSeek V3的FP8训练,自研FP8 GEMM算力利用率高达90%[47] - 前瞻性披露下一代高密硬件基石“MTT C256超节点”,采用计算与交换一体化设计以提升万卡集群的能效比和训练效能[49][50] 性能验证与行业意义 - 公司与硅基流动合作,在MTT S5000 GPU上成功完成对DeepSeek V3 671B满血版大模型的深度适配与性能验证[53] - 在FP8低精度推理技术加持下,MTT S5000单卡实测Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,创下当前国产GPU在大模型推理场景下的新高[53] - 这一成果表明,在成熟软件工程体系协同优化下,国产算力硬件正从“能跑”迈向“跑得快、跑得稳、跑得值”,单位算力有效利用率成为关键落地指标[54][55] - MUSA架构的创新不仅是对下一代AI基础设施的系统性回答,更是对未来AI产业格局的一次主动定义,使其成为多模态智能、具身智能及物理AI时代的关键使能平台[16][19]
AI生成操作系统新突破!上海交大提出文件系统开发新范式:从此只需写规约
量子位· 2025-12-21 22:13
非羊 整理自 凹非寺 量子位 | 公众号 QbitAI 还记得《流浪地球2》里的那台 550W量子计算机 吗? 电影里,MOSS最让人印象深刻的点,除了其强大算力,还有它可以根据需求,实时生成底层操作系统的能力。 如果现在告诉你,我们已经在从"人类需求"生成"底层系统"这件事上迈出了关键一步呢? 来自上海交大IPADS实验室的研究团队,面对自动生成操作系统核心组件的难题,做出了全新的尝试。这项研究成果也即将亮相文件系统与 存储领域顶级学术会议 USENIX FAST'26 。 操作系统:与时俱进的沉重负担 操作系统 (OS) ,是整个数字世界的基石。 向下,它要管理和调度硬件资源 (CPU、内存、硬盘等) ;向上,它要为应用软件提供稳定可靠的运行环境。无论是你手机上的App,还 是云端强大的AI模型,都构建在这块基石之上。 然而,OS必须与时俱进,来满足硬件和应用的双重需求: 一方面,硬件的发展日新月异,例如存储设备,在短短数年内,就从机械硬盘演进到闪存甚至非易失性内存,OS必须快速迭代,才能榨干 这些新硬件的性能; 另一方面,新应用也层出不穷,例如大数据分析、AI训练等,每一个新型应用的出现,都可能对OS的 ...
量子位编辑作者招聘
量子位· 2025-12-21 22:13
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响力 :通过撰写独家原创内 ...