Step 3
搜索文档
阶跃星辰完成超50亿元融资,印奇出任董事长
搜狐财经· 2026-01-26 11:30
公司融资与资金用途 - 阶跃星辰完成超过50亿人民币的+轮融资,刷新了过去12个月中国大模型赛道单笔最高融资纪录 [2] - 本轮融资将用于基础模型研发,打造全球顶尖基座模型,并加速“AI+终端”战略落地 [2] 公司战略与商业化进展 - 公司长期战略聚焦于“基础大模型”与“AI+终端” [2] - 公司正围绕汽车、手机及穿戴式、具身机器人等场景,加快构建“AI+终端”商业化体系 [2] - 国内60%的头部手机品牌已与阶跃达成深度合作,模型装机量超过4200万台,日均服务近2000万人次 [3] - 公司与千里科技、吉利共同推出的搭载端到端语音模型的AgentOS智能座舱,量产车型吉利银河M9上市3个月销量接近4万辆,并已进军海外市场 [3] - 预计今年阶跃大模型将“上车”超百万辆 [3] 公司技术与产品实力 - 公司已对外发布Step系列通用大模型矩阵,覆盖从语言、多模态到推理的全面能力,并面向开发者连续开源多个业内领先的多模态大模型 [3] - 公司已发布3代基础大模型,其中Step 3推理效率创行业新高 [3] - 公司同时发力全模态(语音、图像等)和端云结合两大方向 [3] - 2025年12月,公司发布了行业内首款可部署GUI开源模型,以端云结合方案支持手机、车、电脑多端部署 [3] - 2026年1月,阶跃语音模型Step Audio R1.1在Artificial Analysis权威榜单登顶 [3] 核心管理团队构成 - 印奇正式出任公司董事长,负责整体战略节奏与技术方向的制定 [2] - 印奇将与CEO姜大昕、首席科学家张祥雨、CTO朱亦博组成核心管理团队 [2] - CEO姜大昕为前微软全球副总裁,是自然语言处理领域专家 [4] - 首席科学家张祥雨是顶尖AI算法科学家,为ResNet的作者之一 [4] - CTO朱亦博曾担任Google Cloud GPU产品技术负责人,直接支持Anthropic [4] 新任董事长背景与行业影响 - 新任董事长印奇现年38岁,是人工智能领域的知名创业者与领军人物,毕业于清华大学姚班和哥伦比亚大学 [4] - 印奇是“AI四小龙”之一旷视科技的联合创始人,积累了深厚的人工智能技术背景与商业经验 [4] - 印奇同时还担任千里科技董事长,在人工智能与汽车场景结合上有丰富实践 [3] - 阶跃星辰和千里科技将深化合作,共同推进“AI+终端”战略落地 [3] - 印奇此前入股并接手传统车企力帆科技(后更名为千里科技),推动公司向智能驾驶与智能座舱解决方案提供商转型 [5] - 印奇加盟阶跃星辰,标志着他从聚焦“AI+车”的实践者,迈向更底层、更通用的人工智能基础大模型战略制定者 [5]
50亿,新年最大融资诞生
36氪· 2026-01-26 10:29
融资事件与行业格局 - 阶跃星辰完成超50亿元人民币B+轮融资 刷新过去12个月中国大模型赛道单笔最高融资纪录 [1] - 2025年AI模型层公司融资总额为94.16亿元 较2024年下降 单轮融资超10亿元的公司仅3家 行业融资降温且呈现“马太效应” [2] - 资金正向头部企业聚集 阶跃星辰此轮融资证明“基模四强”竞争格局已定 投资人更倾向于押注具备自我造血能力的优质标的 [2][3] 投资方阵容分析 - 投资方阵容多元均衡 包括上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资人 以及腾讯、启明、五源等老股东 [1][3] - 国寿股权作为险资机构入场 显示对项目风险与质量的认可 厦门国贸首次投资大模型企业 反映地方国资对新兴产业的争夺 [3] - 华勤技术作为全球智能手机ODM龙头(市值近千亿元)参与投资 与公司“AI+终端”战略高度契合 [4] - 新老股东均将阶跃星辰视为大模型领域的重仓或唯一布局 股东结构健康且具备“深口袋”特点 未来可能持续加注 [4] 核心团队构成 - 公司组建“1+3黄金战队” 印奇出任董事长 与CEO姜大昕、首席科学家张祥雨、CTO朱亦博组成核心团队 [5] - 印奇为旷视科技联合创始人 现任千里科技董事长 其产业经验可为“AI+终端”路线提供支持 [7] - CEO姜大昕曾任微软全球副总裁 首席科学家张祥雨是ResNet论文作者之一 CTO朱亦博拥有字节跳动和Google的AI Infra及万卡集群管理经验 [7] 技术与产品布局 - 公司成立不到三年已发布超30款大模型 构建了国内最全的基模矩阵及“1+2”基模体系 [1][8] - “1”代表Step系列基座模型 “2”代表发力多模态和端云结合两大方向 [8] - 已发布三代大语言基座模型 Step 3为首个全尺寸、原生多模态推理模型 在国产芯片上的推理效率最高可达DeepSeek-R1的300% [9] - 在多模态领域广泛布局 已发布视觉、语音、3D图像、音乐等多种模型 坚持原生多模态和理解生成一体化 [9] - 大规模投入AI Infra(基础设施) 内部Infra团队与算法团队同等重要 [8] - 推出Step GUI系列模型 其中端侧4B模型是业内首个可部署在手机上的最强GUI模型 [11] 商业化战略与进展 - 行业进入下半场 商业化进展和自我造血能力成为关键 阶跃星辰战略聚焦“AI+终端” [13][15] - 公司认为AI+终端的终极形态是软硬结合、由跨端OS驱动的超级助理 其商业空间远大于移动互联网时代的APP [9][15] - 在手机领域 与国内60%头部手机品牌(如OPPO、荣耀、中兴)深度合作 模型装机量超4200万台 日均服务近2000万人次 [17] - 在汽车领域 联合吉利汽车集团、千里科技打造智能座舱AgentOS 搭载该技术的吉利银河M9上市3个月销量近4万辆 预计2026年大模型将“上车”超百万辆 [17] - 截至2025年底 公司终端Agent API调用量连续三个季度增长近170% 开放平台API调用量过去一年增长近20倍 活跃用户增长5倍 [17] 行业趋势与公司定位 - AI发展进入新阶段 商业化能力取代参数规模成为核心评判标准 [13] - 英伟达提出人工智能下一波浪潮是“物理AI” 即能够理解自然定律并与物理世界交互的AI [14] - IDC预计2026年中国智能终端市场出货量将超9亿台 智能终端成为新质生产力的重要载体 [14] - 阶跃星辰的“AI+终端”战略 以汽车和手机作为高频物理终端入口 构建技术与场景数据互补的“超级飞轮” 其模式可与xAI+Tesla(估值2500亿美元)类比 [15] - 公司凭借全模态模型矩阵、软硬件一体化工程能力及与终端厂商的深度共创 已在AI+终端赛道形成头部效应 [17]
阶跃星辰完成超50亿元B+轮融资,印奇出任公司董事长
搜狐财经· 2026-01-26 10:27
融资与资金用途 - 公司完成超50亿元人民币的B+轮融资 投资方包括上国投先导基金 国寿股权 浦东创投 徐汇资本 无锡梁溪基金 厦门国贸 华勤技术等产业投资人 腾讯 启明 五源等老股东进一步跟投 [2] - 本轮融资将用于基础模型研发 打造全球顶尖基座模型 加速AI+终端战略落地 [3] 公司治理与核心团队 - 印奇正式出任公司董事长 负责整体战略节奏与技术方向的制定 [3] - 印奇为第一代AI创业者 旷视科技创始人 清华姚班出身 现年38岁 2024年11月当选千里科技董事长 [3] - 公司由姜大昕博士创立并担任CEO 全面负责公司战略规划以及技术产品研发 [3] - 印奇将与CEO姜大昕 首席科学家张祥雨 CTO朱亦博组成核心管理团队 [3] 公司战略与业务方向 - 公司长期坚定的战略选择是“基础大模型”与“AI+终端” [3] - 公司正加快构建围绕汽车 手机及穿戴式 具身机器人等场景的“AI+终端”商业化体系 [3] - 智能终端Agent是公司的核心方向 公司已重点布局汽车 手机 具身智能及IoT等场景 [4] - 公司在金融财经 内容创作 消费零售等领域也与行业头部公司达成深度合作 [4] - 公司与千里科技将深化合作 共同推进“AI+终端”战略落地 [4] 技术进展与产品成果 - 公司依托独特的模型算法与系统能力 在语言基模 多模态模型及端云协同模型上已达到世界领先水平 [3] - 公司已发布3代基础大模型 其中Step 3推理效率创行业新高 [4] - 公司同时发力全模态(语音 图像等)和端云结合两大方向 [4] - 2025年12月 公司发布了行业内首款可部署GUI开源模型 以端云结合方案支持手机 车 电脑多端部署 [4] - 2026年1月 公司语音模型Step Audio R1.1在Artificial Analysis权威榜单登顶 [4] 商业化落地与合作 - 国内60%的头部手机品牌已与公司达成深度合作 模型装机量超过4200万台 日均服务近2000万人次 [4] - 公司与千里科技 吉利共同推出的搭载端到端语音模型的AgentOS智能座舱 量产车型吉利银河M9上市3个月销量接近4万辆 并已进军海外市场 [4] - 预计今年公司大模型将“上车”超百万辆 [4]
50亿,新年最大融资诞生
投资界· 2026-01-26 09:54
行业融资与竞争格局 - 阶跃星辰完成超50亿人民币B+轮融资,刷新过去12个月中国大模型赛道单笔最高融资纪录[2] - 2025年AI模型层公司共完成22笔投资,合计披露金额94.16亿元,与2024年相比出现下降,行业融资降温[3] - 2025年单轮融资规模在10亿元以上的大模型公司仅有3家,行业呈现明显的“马太效应”,资金向头部聚拢[3] - 随着DeepSeek迅速爆红,投资人意识到基础大模型尚未到达天花板上限,赛道进入慢性淘汰阶段,投资人更看重企业的自我造血能力和商业化路径[4] 投资方阵容分析 - 本轮融资投资阵容多元且均衡,囊括国资、产业资本、战略投资机构、险资及头部市场化财务VC,不同于以往主要依赖美元基金或地方国资的模式[6] - 新进投资方包括长线险资国寿股权、地方国资厦门国贸以及全球智能手机ODM龙头华勤技术,华勤技术与阶跃星辰“AI+终端”战略高度契合[6] - 包括启明创投、腾讯在内的多家老股东再度加注,阶跃星辰是许多投资机构在大模型领域的典型重仓甚至唯一布局[7] - 股东结构健康且呈现“深口袋”特点,股东大概率将在后续融资中持续加注支持[7] 公司核心团队 - 印奇正式出任阶跃星辰董事长,与CEO姜大昕、首席科学家张祥雨、CTO朱亦博共同组成“1+3黄金战队”[8] - 印奇是旷视科技创始人,具有从AI 1.0到AI 2.0的产业经验,其领导的千里科技深耕AI+汽车场景,与阶跃星辰战略协同[11] - CEO姜大昕曾任微软全球副总裁,首席科学家张祥雨是著名论文ResNet的四位作者之一,CTO朱亦博拥有多次单集群万卡以上的系统建设与管理实践经验[11] 技术与产品布局 - 公司成立不到三年已发布超30款大模型,构建了国内最全的基模矩阵,形成独特的“1+2”基模体系[12] - “1”代表包括Step 3在内的基座模型,“2”代表发力多模态和端云结合两大方向[12] - Step 3是公司首个全尺寸、原生多模态推理模型,在国产芯片上的推理效率最高可达DeepSeek-R1的300%[13] - 公司坚持原生多模态和理解生成一体化,已发布视觉、语音、3D图像、音乐等多种模型,是多模态领域的“卷王”[13] - 公司推出Step GUI系列模型,其中端侧4B模型是业内首个真正可部署在手机上的最强GUI模型[15] - 公司大规模投入AI Infra(人工智能基础设施),内部Infra团队与算法团队同等重要[12] 商业化战略与进展 - 公司战略布局是“AI+终端”,以基模为智能底座,以汽车和手机作为渗透率最高、最高频的物理终端入口,形成技术和场景数据互补的“超级飞轮”[18] - 在手机领域,国内60%头部手机品牌已与阶跃达成深度合作,覆盖OPPO、荣耀、中兴等品牌旗舰机型,模型装机量超过4200万台,日均服务近2000万人次[20] - 在汽车领域,公司与吉利汽车集团、千里科技共同打造下一代智能座舱AgentOS,搭载该技术的吉利银河M9上市3个月销量接近4万辆,预计2026年阶跃大模型将“上车”超百万辆[20] - 截至2025年年底,公司终端Agent API调用量连续三个季度增长近170%,过去一年开放平台API调用量增长近20倍,活跃用户增长5倍[21] 行业趋势与公司定位 - 行业讨论核心已从参数规模转向商业化进展,自我造血能力成为生死线[17] - 行业存在几种商业化路径:定制化2B项目、纯卖API、To C订阅制,但各有挑战[17] - 人工智能的下个浪潮是“物理AI”,即能够理解自然定律的AI[17] - 智能终端成为新质生产力的重要载体,IDC预计2026年中国智能终端市场出货量将超过9亿台[18] - 公司凭借全模态模型矩阵、软硬件一体化工程能力及与终端厂商深度共创的能力,在AI+终端赛道形成头部效应[20] - 公司的AGI路径参考了xAI+特斯拉的联动模式,xAI最新估值高达2500亿美元[18]
阿里通义千问再放大招
21世纪经济报道· 2025-08-20 09:45
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit模型,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型,行业多模态大模型在2025年迭代加速 [1] - 谷歌研究报告显示,预计2025年全球多模态AI市场规模将达24亿美元,2037年底将达989亿美元 [1] 国内厂商布局 - 阿里开源升级版视觉理解模型Qwen2 5-VL,72B版本在13项权威评测中视觉理解能力超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni,支持文本、图像、音频、视频实时交互,可部署于手机等终端 [3] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其Step系列基座模型矩阵中多模态模型占比达70% [5] - 商汤发布日日新V6 5大模型,多模态推理与交互性能大幅提升,从6 0版本开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4 5V,涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内发布六款多模态模型,覆盖数字人生成、世界模拟等核心场景 [5] 技术进展与挑战 - 多模态模型Qwen-Image-Edit基于20B参数模型训练,实现图片中文字精准编辑,兼具语义与外观双重编辑能力 [4] - 当前多模态领域仍处于发展初期,视觉数据表征空间达百万维度连续空间,远超文本数万维度的离散符号系统 [7] - 视觉数据缺乏天然语义信息,需建立跨模态映射关系,但缺乏标注数据支持 [8] - 当前多模态模型主要依赖语言推理,图形和空间结构推理能力薄弱,无法解决简单空间问题 [9] 行业趋势 - 业内普遍认为多模态融合是通向AGI的必经之路,2025年下半年或将迎来多模态模型全面普及 [1] - 中国企业在多模态领域集体崛起,改变由OpenAI、Google主导的AI创新叙事,在视觉推理、视频生成等细分领域领先 [7] - 2025年被视为AI应用商业化元年,多模态技术驱动数字人直播、医疗诊断、金融分析等场景落地 [7]
阿里通义千问再放大招 多模态大模型迭代加速改写AGI时间表
21世纪经济报道· 2025-08-19 20:57
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,专注于语义和外观编辑,支持双语文本修改、风格迁移及物体旋转 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型 [1] - 谷歌研究报告显示,预计至2025年全球多模态AI市场规模将飙升至24亿美元,2037年底预计将达到989亿美元 [1] - 商汤科技联合创始人林达华表示未来多模态模型甚至能在纯语言任务上超越单一语言模型 [1] 国内厂商布局 - 2023年12月谷歌原生多模态Gemini 1 0模型上线,将AI竞赛由文本领域带入多模态领域 [2] - 阿里推出Qwen2 5系列强化多模态能力,Qwen2 5-VL在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni,支持文本、图像、音频、视频的实时交互 [3] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其多模态模型占比达7成 [4] - 商汤发布日日新V6 5大模型,多模态推理与交互性能大幅提升 [4] - 智谱推出开源视觉推理模型GLM-4 5V,涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内连续发布六款多模态模型,覆盖数字人生成、世界模拟等场景 [5] 技术挑战与发展 - 多模态领域仍处于发展初期,诸多基础性问题尚未解决 [6] - 视觉数据表征空间达到百万维度的连续空间,与文本存在本质差异 [6] - 视觉数据本身不包含语义信息,需要建立跨模态映射关系 [7] - 当前多模态模型对于图形和空间结构的推理能力薄弱 [7] - 主流多模态模型后续思考推理过程仍主要依赖纯语言推理 [7] 行业趋势 - 2025年被业内人士普遍视为"AI应用商业化元年",多模态技术是核心驱动力 [6] - 多模态能力将成为AI系统的标配,如何转化为实际生产力是产业界下一步重点 [8]
阿里通义千问再放大招,多模态大模型迭代加速改写AGI时间表
21世纪经济报道· 2025-08-19 20:21
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型,Qwen2.5-VL 72B版本在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3.5 [3] - 阿里Qwen-Image-Edit登上AI开源社区Hugging Face模型榜单首位,成为全球热度最高的开源模型 [3] 行业竞争格局 - 谷歌原生多模态Gemini 1.0模型上线,将AI竞赛由文本领域带入多模态领域 [2] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其基座模型矩阵中多模态模型占比达7成 [4] - 商汤发布日日新V6.5大模型,从6.0开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4.5V,昆仑万维一周内发布六款多模态模型 [5] 市场规模与趋势 - 预计2025年全球多模态AI市场规模将达24亿美元,2037年底预计达到989亿美元 [1] - 2025年被业内人士视为"AI应用商业化元年",多模态技术是核心驱动力 [7] - 中国企业在视觉推理、视频生成等多个细分领域已排在权威榜单前列 [7] 技术挑战 - 多模态领域仍处于发展初期,诸多基础性问题尚未解决 [8] - 视觉数据表征空间达到百万维度的连续空间,与文本的数万维度存在本质差异 [8] - 当前多模态模型对于图形和空间结构的推理能力薄弱,无法解决简单空间问题 [10] - 多模态模型思维方式主要依赖逻辑推理,缺乏空间感知能力 [10] 发展方向 - 多模态能力将成为AI系统标配,如何转化为实际生产力和社会价值是下一步重点 [10] - 未来多模态模型可能在纯语言任务上超越单一语言模型 [1] - 2025年下半年或将迎来多模态模型的全面普及 [1]
关于 AI Infra 的一切
虎嗅· 2025-08-11 18:50
AI Infra 行业定义与架构 - AI Infra 包括硬件和软件两部分 硬件指 AI 芯片 GPU 交换机等设备 软件可分为三层 最底层类似 IaaS 解决基础计算 通信和存储问题 中间层类似 PaaS 包含资源调度 资源管理等平台 MaaS 归属这一层 最上层近似 SaaS 应用层 但在 AI Infra 领域更倾向于理解为训练及推理框架的优化层 [2][3][4][5] AI Infra 发展历程与人才 - 第一批 AI Infra 人是有算法背景的人 如贾扬清 李沐 陈天奇 他们为充分利用 GPU 而做 AI Infra 第二批人更多是上规模 让 AI Infra 在工业界得到应用 [6][7] - 大模型兴起对 Infra 从业者是特别好的机会 AI Infra 进入主舞台 类似搜索引擎兴起时的 Google 需要世界一流 Infra 处理规模空前的互联网数据 大模型对算力和数据提出前所未有的要求 这样的窗口可能十年 二十年才会出现一次 [8][9][10][11][12] - AI Infra 和移动互联网 Infra 底层目标一致 都要高效稳定整合计算 通信和存储资源 但实操层面对硬件 网络互联 存储方式要求完全不同 AI Infra 绝对核心是 GPU 传统 Infra 核心是 CPU AI Infra 更极致 更贴合 AI 特殊需求 [13][14][15] - 未来做 AI Infra 的人 既有新成长起来的工程师 也有传统 Infra 人转型而来 Infra 更强调积累 与算法不同 算法非常依赖年轻人 有做算法的朋友说过算法人只有两年保质期 两年后陷入思维定势 跟不上新东西 [16][17][18] AI Infra 核心指标与价值 - 线上服务侧关注模型响应首字延迟 吐字稳定顺畅 整体成本降低 训练侧关注每张 GPU 处理的数据量和训练效率 [19] - 所有产品都依赖 Infra 区别在于是否投入成本做自己的 Infra 以及投入是否值得 假设有 1 万张 GPU 每月租金 1 亿 雇 Infra 工程师把 GPU 利用率提升 10% 每月能节省 1000 万 或多赚 1000 万 优化 Infra 后省下的钱可轻松 cover 人力成本 投入 Infra 可帮公司挣钱 确定性很高 [20][21][22][23] - 较小公司可用同样逻辑计算 值不值得雇 10 人优化性能 对比云厂商标准化方案成本 如果自己做不到更低成本 用 MaaS 或公有云服务更划算 服务商价值锚点是帮助规模较小公司节省 Infra 优化成本 [24][25] 第三方 AI Infra 公司机会与挑战 - 短期第三方价值是为客户提供 API 集贸市场 自由选择不同 API 因为模型厂商 Infra 主要服务自家模型或 API 公有云也提供类似服务 但仍有第三方空间 长远如果第三方没有独特价值 易被云厂商或模型公司吃掉 [26][27] - AI Infra 底层是硬件 上层是模型 当硬件和模型都逐渐开放和普及时 只做中间 Infra 层价值有限 且非常卷 难拉开技术差距 难形成长期壁垒 今天领先一点 几个月后可能被赶上 第三方想做出壁垒 需和硬件或模型做垂直整合 [28][29] - 以 MaaS 生意为例 MaaS 可看作 API 分发平台 真正能留住用户的是别人没有的东西 如与特定硬件厂商深度合作 以更低成本获得算力资源 有对硬件独到见解 这些是差异化优势 建议不要做夹在模型和硬件中间的人 可选择站在模型侧或硬件端 [30][31][32][33] - 当前是硬件和模型都在追求极致的时刻 需要既懂硬件又懂模型 这种两头通能力是 Infra 人特长 往上和模型做深度整合 或往下与硬件做 co-design 就有很多机会 如果固步自封 只在中间做优化 就把路走窄 [34][35] - 关键必须是主动参与者 而不是被动搭便车的人 如果比硬件厂商更懂模型 可影响硬件设计方向 如果比模型团队更懂硬件 可反向影响模型架构设计 具备这种影响力 成功是共赢 失败也是主动做出的判断和选择 [36][37][38] Infra 对模型效果影响与性能指标 - Infra 水平会影响模型效果 Infra 对大模型公司非常重要 各家公司参与同一场比赛 给定算力 怎么训出最好模型 假设都拿 5000 张卡 其他条件相同 如果 Infra 优化更好 效率高出 20% 同样时间能多学 20% 数据 训练出的模型效果更好 [40][41][42] - Infra 有标准化性能指标 如 MFU 衡量硬件利用率 分子是实际完成的浮点运算次数 分母是理论最大算力 MFU 越高 硬件用得越充分 但衡量 Infra 性能很复杂 仅靠单一指标难判断优劣 Infra 性能和硬件 模型 优化目标都密切相关 [43][45] - DeepSeek 能冲出来 一大原因是选对了优化目标 当时优化目标是给定推理成本 怎么训出最好模型 而其他所有人目标是给定训练算力 怎么训出最好模型 2024 年 9 月 o1 发布后 让大家看到推理阶段让模型多思考一会 最终输出效果更好 这种训练方式符合强化学习机制 DeepSeek 优化目标更符合强化学习需求 能以更低推理成本 更快速度输出结果和训练模型 率先完成 R1 甩开其他团队 [46][47][48][49][50] - Infra 有各种性能指标 但想取得好结果 最重要的是想清楚哪一个指标优先级最高 指标要符合产品需求 也要顺应行业发展方向和未来技术趋势 不同团队技术水平有高低 但真正拉开差距的是有没有选对努力方向 [51][52] - 从 o1 R1 验证强化学习路径后 当前最重要指标是 decoding 速度 推理分输入和输出两部分 输入关键指标是模型处理长文本速度 输出关键指标是模型吐字速度 后者最重要 决定线上业务成本 也直接决定强化学习效率 如果输出很慢 获得 reward 速度就比其他模型慢 但现在还有人很看重 MFU 等老指标 特别关注这类指标的人对当下技术认知有问题 [54][55] Infra 与算法团队协作与组织架构 - 最理想合作方式是大家像一个团队 为共同目标协作 很多事情有 trade-off 如损伤系统性能换算法提升 或反过来 最好两边一起讨论该谁让步 这是小团队优势 在大厂很难实现 [56][57][58] - 在大厂 Infra 总被视为支持性角色 算法人给 Infra 人提需求 Infra 人没有反向影响力 在很多人眼里 Infra 核心是降本 但降本通常不是最优先目标 需要纠正观念 Infra 实际上可对模型效果有正向影响 不仅仅是降本 [59][60][61] - 很多问题到最后是组织架构问题 模型由算法 Infra 和数据铁三角决定 三者缺一不可 必须协同 但很多人对模型理解存在偏差 模型算法效果往往取决于数据 而不是算法 模型效率成本主要由 Infra 决定 也不是算法 [62][63] - 比较合理组织架构是让 Infra 人设计模型结构 因为 Infra 人最知道怎么提高效率 节省成本 让数据的人负责刷模型点数和 benchmark 分数 因为他们最懂怎么喂模型 而算法人应该主要负责训练范式革新 但现在很多团队中 基本都是算法人在设计模型结构 刷模型点数 算法人不一定最适合做这些事 [64][65] 行业踩坑案例与经验 - 阶跃一开始对自己算力和能力过于自信 干了一个比 Llama 还大的模型 虽然训出来 但这个巨大模型有问题 过程中犯了一些错误 赌的事情可能会错 踩坑后再爬起来往前走 [66][67] - 最近有家公司开源模型 声称参数量不大 但算法做得好 效果可越级媲美更大模型 但模型因为架构设计问题 实际运行效率非常低 还不如大模型快 反映很多做算法的人并不真正懂硬件 也不了解模型在 Infra 层怎么运行 [68][69][70] - 算法人员做模型架构研究时 可能画图横轴模型尺寸或激活量 纵轴算法效果指标 试图找到 sweet point 让模型尺寸不大情况下算法效果不错 然后丢给 Infra 人优化 即便 Infra 人满足需求 模型实际运行也会出问题 如果真要画图 横轴应该是模型实际运行成本或运行效率 纵轴是模型效果 跑大量实验 找到真正可落地最优点 这件事只有在拉通所有团队后才可能完成 [71][72][73] 模型发展前景与多模态 - 模型范式革新不会那么快 但多模态还是有突破可能性 尤其是多模态生成和理解统一 现在多模态状态像 20 年 bert 模型 具备理解能力 但还没真正做通理解和生成 做通标志是同一个模型在理解任务上超越专门做理解模型 在生成任务上击败专门做生成模型 像 GPT-3.5 出来让很多做翻译等专用模型退休 [75][76][77] - Google Veo 3 效果很不错 但偏上一代模型 核心是做生成 工程做得比较好 把配乐等功能很好融合起来 技术突破和产品效果不是线性相关 Veo 3 把上一代技术发挥到非常强水平 但本身没带来太多范式上创新 [78][79][80] 初创或第三方 AI Infra 公司机会 - 训练侧商业模式不太成立 因为训模型的人非常懂行 难挣到这些人钱 他们也不愿把训练过程中研发细节交给第三方 否则泄露核心竞争力 排除训练后 推理侧还有一些机会 如推理加速 推理优化 [81][82] - 开源模型对 AI Infra 发展有促进作用 开源模型火起来 大家研究怎么把它跑得更好 促进 AI Infra 进步 但所有事情都有两面性 如果某个开源模型太火 大家花很多精力优化它 可能反而影响创新 如 DeepSeek 出来前 很多人优化 Llama DeepSeek 新范式一出 之前在 Llama 上很多积累就废掉 [83][84] 国产芯片与开源策略 - 现在 Infra 基本围绕英伟达卡做优化 虽然有团队尝试用国产芯片替代英伟达 但很多时候国产卡不是跑不动 而是性价比不如英伟达 当 DeepSeek 这样好用开源模型出现后 做一体机公司发现用英伟达卡跑 DeepSeek 比用国产卡更有性价比 更愿选择英伟达卡 [85][86] - 希望国产卡在技术层面具备竞争力 根据国产卡特性专门设计模型结构 让它在国产卡上高效运行 达到 SOTA 水平 阶跃开源 Step 3 是国内首个支持第三方商用 数百 B 规模视觉推理模型 能跑出 SOTA 水平 [87] - 视觉推理是模型根据图片 视频抽帧等视觉信息 直接完成推理任务 如让机器人去柜子拿东西 目标物品被杂物遮挡 机器人要进行视觉推理 进行任务拆解和决策 对于机器人或手机 汽车等智能设备 天然有视觉模态 根据周边环境 看到的东西决定怎么完成复杂任务 是典型视觉推理模型做的事情 视觉推理模型更常见应用场景是拍照解题 [88][89][90][91] - 之前有模型可做到拍照解题 但是把图片转成文字 再做文字推理 这种方式不是真正视觉推理 现在不需要中间转文字过程 让模型直接看图推理 如让机器人拿东西 目标物品周围有很多遮挡 难用文字描述清楚物理世界中位置关系 会丢掉很多信息 但模型直接看图 能直观知道该先拿开这个东西 再拿开那个东西 最后拿到目标物品 [92][93][94][95] - 选择开源是希望全国上下产业都获益 给所有国产芯片免费商用授权 开放模型权重 尽量帮他们做好模型适配 把 Step 3 在国产卡上推理成本压到很低水平 提高国产卡在性价比上竞争力 通过开源帮助国产芯片构建商业竞争力 也希望他们能推广模型 最后实现共赢 [96][97][98] 多模态成本与 Infra 人价值 - 多模态理解现在不算贵 但生成还是挺贵 尤其是视频生成 对成本降低蛮乐观 一年后应该能下降很多 能不能到十分之一不好说 但几分之一没问题 [99][100][101] - 在大模型时代 Infra 人容易被低估情况好很多 Infra 已是模型能力核心组成部分之一 DeepSeek 做得好是因为梁文锋是 Infra 人 梁文锋做量化出身 量化强调低延迟 需要对 Infra 有研究 在算法 数据和 Infra 之间 最擅长 Infra 这在业界是共识 DeepSeek 的 Infra 工程师数量比算法工程师多 但在很多大公司里 情况反过来 这可能是在过去一段时间里 一些大厂比较挣扎的原因之一 [102][103][104][105][106] - 在大模型快速发展阶段 需要有大量 Infra 人 把硬件设计和模型优化做到极致 并且做好垂直整合 但在大厂里 人才结构错配 不符合做好 AI 本质需求 [107] 给 AI Infra 从业者建议 - 建议靠近模型 或者靠近硬件 希望打心底对 Infra 感兴趣 有足够主观能动性去做各种各样 co-design [108][109] - Richard Sutton 的《The Bitter Lesson》核心观点是从长期来看 胜出永远是那些能最大程度利用计算资源方法 短期内各种奇技淫巧可能有效 但不能本质解决问题 虽然文章从算法视角写 但对 Infra 人同样有重大指导意义 因为最根本任务是设计出能发挥硬件全部性能模型和系统软件 让模型能充分利用这些资源 最希望是有朝一日 还能反过来影响硬件 换取摩尔定律不断延续 [109][110][111]
关于 AI Infra 的一切 | 42章经
42章经· 2025-08-10 22:04
AI Infra的定义与架构 - AI Infra包括硬件和软件两部分 硬件指AI芯片 GPU 交换机等设备 软件层面类比云计算分为三层 [3][4] - 最底层类似IaaS 解决基础计算 通信和存储问题 中间层类似PaaS 包含资源调度 资源管理等平台 MaaS归属这一层 [4][5] - 最上层近似SaaS应用层 但在AI Infra领域更倾向于理解为训练及推理框架的优化层 [5] AI Infra的发展历程 - 第一批AI Infra人如贾扬清 李沐 陈天奇等有算法背景 他们为充分利用GPU而开发AI Infra [6] - 第二批AI Infra人主要推动AI Infra在工业界的规模化应用 [6] - 大模型兴起使AI Infra进入主舞台 类似搜索引擎兴起时的机会窗口 可能十年二十年才出现一次 [7][9][10] AI Infra与传统Infra的差异 - AI Infra绝对核心是GPU 传统Infra核心是CPU [11] - AI Infra需要更极致 更贴合AI特殊需求 太阳底下没有太多新鲜事但要做到更极致 [12] - Infra人才相比算法更强调积累 算法依赖年轻人而Infra需要长期经验 [14] AI Infra的核心指标与价值 - 线上服务侧关注首字延迟 吐字稳定性 整体成本 训练侧关注每张GPU处理数据量和训练效率 [15] - 优化Infra可显著降低成本 例如1万张GPU每月租金1亿 利用率提升10%可节省1000万 [18][19] - 小公司可通过对比云厂商方案决定是否自建Infra 云服务商价值在于帮助小公司节省优化成本 [20][21] AI Infra的商业模式 - 第三方公司短期价值在于提供API集贸市场 让客户自由选择不同API [22] - 长期来看 第三方需与硬件或模型垂直整合才能建立壁垒 避免被云厂商或模型公司取代 [24][25] - MaaS服务商可通过与硬件厂商深度合作获得差异化优势 类似游戏机独占游戏 [26][27][28] AI Infra与模型效果 - Infra水平影响模型效果 优化更好的Infra可在相同算力下多学20%数据 提升模型效果 [36][37] - MFU是常见指标但单一指标难判断优劣 DeepSeek的MFU偏低但Infra并不差 [37][38] - DeepSeek成功关键在于选对优化目标 即给定推理成本训出最好模型 而非传统训练算力优化 [39][40][41] AI Infra的未来趋势 - 当前最重要指标是decoding速度 直接影响线上业务成本和强化学习效率 [44] - 多模态仍有突破可能性 需实现理解和生成的统一 类似GPT-3.5让专用模型退休 [63][64] - 开源模型促进AI Infra发展但也可能阻碍创新 如过度优化Llama影响新范式探索 [69] AI Infra的组织架构 - 理想协作是Infra 算法 数据团队共同决策 大厂中Infra常被视为支持角色缺乏影响力 [46][47][49] - 合理架构应是Infra人设计模型结构 数据人负责刷分 算法人主攻训练范式革新 [54] - 大厂人才结构错配 如DeepSeek Infra工程师多于算法工程师 而多数大厂相反 [81][82] AI Infra的创业机会 - 训练侧商业模式难成立 因训练方不愿泄露核心竞争力 推理侧如加速优化仍有机会 [67][68] - 国产芯片需专门设计模型结构提升性价比 Step 3开源模型支持国产卡商用并达到SOTA [69][73][74] - 多模态成本有望大幅下降 理解已不贵但生成仍贵 视频生成一年后可能降至几分之一 [75][76][77]
2025年7月中国AI大模型平台排行榜
36氪· 2025-08-07 18:12
行业趋势与热点 - WAIC 2025线下观展人次突破35万 汇聚800余家参展企业 展示3000多项前沿科技成果[15] - 具身智能成为焦点 AI从数字世界走向物理世界 宇树、云深处、优必选、银河通用等公司成为核心玩家[15] - 大模型改变具身智能定义 从规则编程演进为语言和感知联合驱动的类人决策模式[16] - 多智能体协作成为新趋势 解决单一智能体在复杂任务中的局限性[17] - 厂商密集开源模型 阿里、月之暗面、智谱、阶跃星辰等头部企业推动开源生态发展[19] - 开源促进技术传播和创新 吸引人才和资源涌入 形成国产模型生态根系[20] 主要企业动态 阿里巴巴 - 7月27日在WAIC上开源三款大模型:千问3基础模型、千问3推理模型和AI编程模型Qwen3-Coder[21] - Qwen3-Coder在SWE-Bench评测中比肩Claude4 使初级程序员一天完成资深程序员一周工作量[22] - 发布自研AI智能眼镜"哇哦Quark Glasses" 融合通义千问大模型和夸克AI能力[21] - 7月23日开源多模态推理模型HumanOmniV2 实现对多模态信息的全面理解[22] 字节跳动 - 7月30日发布豆包・图像编辑模型3.0、同声传译模型2.0和豆包大模型1.6系列升级版[23] - 7月24日发布端到端同声传译模型Seed LiveInterpret 2.0 延迟和准确率接近人类水平[24] - 7月22日推出通用机器人操作大模型GR-3 配套机器人ByteMini有22个自由度[24] - 7月21日推出AI编程助手TRAE 2.0的SOLO模式 开发效率提升40%[24] 华为 - 7月25日在WAIC发布昇腾384超节点 由384颗NPU互联组成 算力达300 PFLOPS[26] - 昇腾已适配和开发超过80个大模型 联合2700+行业合作伙伴孵化6000+行业解决方案[26] - 华为云新一代昇腾AI云服务在芜湖、贵安、乌兰察布和林格尔数据中心上线[27] 百度 - 7月26日在WAIC展示飞桨、文心大模型、昆仑芯等核心技术[28] - 7月17日上线无广告AI搜索App "TizzyAI" 接入文心大模型4.0[28] - 7月2日进行搜索十年来最大改版 搜索框升级为"智能框" 支持超千字文本输入[29] - 接入自研视频生成模型MuseSteamer 实现画面与音效协同创作[30] 腾讯 - 发布四款开源小尺寸模型 参数分别为0.5B、1.8B、4B、7B 消费级显卡即可运行[31] - 7月27日发布并开源业界首个3D世界生成模型——混元3D世界模型1.0[31] - 发布全栈AI IDE产品CodeBuddy IDE 提升软件开发效率[32] - 7月11日发布混元大模型最新版本hunyuan-t1-20250711 采用Hybrid-Transformer-Mamba架构[33][34] 科大讯飞 - 7月16日升级"讯飞星火X1" 多语言支持扩展至130+语种 中英同传首字响应时间缩短至2秒[35] - 星火法律大模型在政法场景应用 审查效率提升50%以上[35] - 在WAIC为40万场次会议提供实时翻译服务 覆盖50多个国家和地区[36] - 发布5款AI录音笔新品 在韩国众筹平台Wadiz实现单品销售冠军[37] 360集团 - 纳米AI升级为"多智能体蜂群" 全球首个迈入L4级别的智能体系统[38] - 已有超过5万个L3级推理智能体 上线10余类多智能体蜂群[38] - 宣布将推出AI录音笔与智能眼镜两款硬件产品[39] 智谱AI - 7月28日发布GLM-4.5系列 采用MoE架构 动态激活参数仅为总参数的1/10-1/3[40] - 在12项评测基准综合平均分中位列全球第三、国产第一、开源第一[40] - API调用价格低至输入0.8元/百万tokens、输出2元/百万tokens 仅为Claude 4的1/10[40] - 获得浦东创投集团和张江集团总额10亿元战略投资[40] 昆仑万维 - 7月30日开源多模态统一预训练模型Skywork UniPic[42] - 7月23日发布音乐模型Mureka V7 同步上线音频模型Mureka TTS V1[42] 商汤科技 - 发布日日新V6.5大模型 多模态推理能力超越Gemini 2.5 Pro、Claude 4-Sonnet[43] - 推理成本降低60% 在教育领域帮助学生提升学习效率15-30%[43] - 联合十余家国产生态伙伴发布"商汤大装置算力Mall"[43] - 发布具身智能平台「悟能」 支持机器人实现自主决策与物理世界交互[43] 快手 - 可灵AI在全球拥有超过4500万创作者 累计生成超2亿个视频和4亿张图片[45] - 服务超过2万家企业客户 覆盖广告营销、影视动画、游戏制作等行业[45] - 发布创意工作台"灵动画布" 提升创作效率及体验[45] 月之暗面 - 7月11日发布Kimi K2大模型 总参数规模达1万亿 采用MoE架构[48] - 在LM Arena排行榜登顶全球开源模型榜首 总榜排名第五[47] - SWE-bench Verified通过率达71.6% API调用价格仅为闭源模型的1/5[48] MiniMax - 在WAIC展示首款全栈通用智能体MiniMax Agent 30分钟开发完成演唱会选座系统[49] - 7月18日发布Agent全栈开发功能 支持零代码开发复杂应用[50] - 即将完成近3亿美元新融资 估值将超过40亿美元[50] 阶跃星辰 - 7月31日开源新一代基础大模型Step 3 总参数量达3210亿 激活参数量为380亿[51][52] - 与吉利汽车联合展示智能座舱Agent OS 具备多模态融合交互功能[51] - 推出Step 3o Vision和Step-Audio 2多模态模型[51] 技术突破与创新 - 多智能体蜂群架构实现智能体从单兵作战到群体协同的进化[17][38] - MoE架构广泛应用 显著降低推理成本[40][48][52] - 3D世界生成技术突破 几分钟内生成可360°漫游的虚拟世界[31] - 端到端同声传译模型达到人类水平 首字响应时间缩短至2秒[24][35] - 多模态融合技术成熟 支持图像、视频、文本联合理解与生成[41][43] 商业化进展 - 智能体在金融、医疗等行业规模化应用 审查效率提升50%以上[25][35] - API调用价格大幅降低 智谱GLM-4.5价格仅为Claude 4的1/10[40] - 硬件产品密集发布 包括AI眼镜、智能录音笔、机器人等[21][39][24] - 企业级应用快速发展 可灵AI服务超过2万家企业客户[45]