多模态
搜索文档
前亚研院谭旭离职月之暗面,加入腾讯混元,AI人才正加速回流大厂
搜狐财经· 2025-08-23 20:10
核心人事变动 - 微软亚洲研究院前首席研究经理谭旭近期正式加入腾讯混元团队 负责多模态方向前沿研究 [2] - 谭旭在微软任职期间研究聚焦生成式人工智能及语音、音频与视频内容生成 论文引用量超过10000次 研究成果应用于Azure、Bing等核心产品 [2] - 该研究者去年8月才加入大模型创业公司月之暗面 负责研发端到端语音模型 其多模态研究在其入职前已展开数月 [2] 行业资源格局变化 - 多模态探索对算力与资金消耗极其庞大 创业公司难以承受 [3] - 对比当下风头正盛的DeepSeek仍以文字与推理能力为主 未在多模态方向实现大规模突破 [3] - 腾讯、字节等大厂在资源、生态与算力上优势明显 能为多模态研究提供长期稳定支持 [3] 产业发展阶段特征 - 中国大模型赛道正经历由野蛮生长到资源集中的转折 [3] - 早期创业公司依靠故事、融资与速度抢占叙事高地 但先发优势在竞争进入数据、算力、落地生态比拼阶段后迅速消退 [3] - 大厂凭借资本实力、算力基础设施和应用场景 正逐步收拢最顶尖人才与技术方向 [3] 人才流动象征意义 - 谭旭从创业公司转向腾讯混元 是中国大模型版图中具象征意义的信号 [3] - 当赛道进入淘汰赛阶段 个人要在多模态领域持续产出成果需依附大厂以确保研究持续性与产业化可能 [3]
拾象 AGI 观察:LLM 路线分化,AI 产品的非技术壁垒,Agent“保鲜窗口期”
海外独角兽· 2025-08-22 12:06
大模型行业分化趋势 - 大模型公司正从通用模型向垂直领域分化 Google Gemini和OpenAI继续专注通用模型 Anthropic聚焦Coding和Agentic领域 Thinking Machines Lab探索多模态和下一代交互[6][7] - 行业呈现横向全家桶与纵向垂直整合两大路线 ChatGPT代表横向全家桶模式 Gemini代表纵向垂直整合模式[6][37] - 模型能力趋同导致前三名格局稳定 OpenAI、Gemini和Anthropic形成第一梯队 其他公司难以突破前三名壁垒[24][26] 头部公司战略与表现 - Anthropic通过聚焦Coding实现爆发式增长 2024年底ARR达9.5亿美元 预计2025年收入超120亿美元 月复合增速达20-30%[8][11] - OpenAI在C端建立强大壁垒 ChatGPT成为10亿用户最快增长产品 ARR达120亿美元 与Anthropic合计占AI产品营收70-80%[29][30] - Thinking Machines Lab获史上最贵天使轮融资 估值100亿美元融资20亿美元 团队来自OpenAI核心infra部门[13][18] - xAI面临战略定位困境 超大算力投入未带来相应回报 可能在未来半年并入Tesla[22] 产品与技术创新 - L4级别体验产品已出现 ChatGPT Deep Research和Claude Code分别实现信息搜索和软件开发的端到端体验[49] - Coding领域成为当前最大红利 Claude Code仅用3-4个月ARR反超Cursor 预计年底达15-20亿美元[33][50] - 模型保鲜窗口持续缩短 Perplexity窗口期近2年 Cursor窗口期9个月 Manus窗口期仅3个月[45] - Context能力成为关键差异点 Claude在long context领域具有独特优势 最新实现百万context能力[52] 市场竞争格局 - 头部效应加剧 OpenAI和Anthropic增速持续陡峭 其他公司出现明显断层[30] - 成本优势成为核心竞争力 不做模型的Coding公司将失去优势 未来竞争重点转向成本优化[3][53] - 谷歌规模效应开始显现 端到端整合TPU芯片、Gemini模型和安卓系统 后劲可能最强[37][60] - 产品形态趋向融合 ChatGPT计划推出广告平台 谷歌整合Gemini功能推出AI mode[55][58] 投资与创业环境 - 投资策略需要高度集中 头部公司拿走最大价值 错过头部项目意味着错过整个周期[65][66] - 创业窗口期缩小 科技巨头既看得懂又跟得动 留给创业公司的空间有限[37][39] - 华人团队全球影响力提升 在AGI领域扮演重要角色 需要积极开拓北美高价值市场[62][63] - 优秀AI产品经理画像变化 下一代PM需要算法或模型背景 才能更好利用模型红利[47] 技术发展前景 - 语言和代码仍是当前最大红利 多模态和机器人发展还需突破多个GPT-4级别技术[49][64] - 产品形态持续演进 可能打破APP端到端优势 介于手机屏幕和APP之间的新形态[60] - 世界模型与Coding可能本质相同 都是实现AGI的"虚拟子宫" 只是路径不同[12] - 智能与产品需要平衡 OpenAI在智能探索和产品转化方面做得最好[40][43]
字节突然开源Seed-OSS,512K上下文碾压主流4倍长度!推理能力刷新纪录
量子位· 2025-08-21 10:36
模型发布概况 - 字节跳动开源360亿参数大模型Seed-OSS-36B 采用Apache-2.0协议 支持免费学术研究与商业部署 [1][4] - 模型命名呼应OpenAI的GPT-OSS系列 基于内部技术专为开源社区打造 未直接开源商业模型豆包(Doubao) [3][4] 核心技术特性 - 原生支持512K上下文窗口 是主流开源模型DeepSeek V3.1(128K)的4倍 预训练阶段直接构建非后期插值实现 [5][6][7] - 引入思考预算(Thinking Budget)机制 通过设定token数量(建议512整数倍)控制模型思考深度 适应简单任务快速响应或复杂任务深度推理 [9][10][12] - 采用成熟架构设计:360亿参数稠密模型(非MoE) 64层网络 隐藏层维度5120 词汇表155K 集成RoPE/GQA/RMSNorm/SwiGLU技术 [13] 性能表现 - 知识理解:MMLU-Pro达65.1分(超越Qwen2.5-32B-Base的58.5分) TriviaQA获82.1分 [16] - 推理能力:BBH基准87.7分刷新开源记录 数学能力GSM8K达90.8分 MATH达81.7分 [17] - 代码能力:HumanEval得分76.8 MBPP达80.6 指令微调版在AIME24数学竞赛获91.7分仅次于OpenAI OSS-20B [18][19] - 训练效率:仅用12T token达成性能 低于同规模模型15T+数据量 [20] 团队技术布局 - Seed团队成立于2023年 定位"打造最先进AI基础模型" 覆盖大语言模型/多模态/AI基础设施领域 [21] - 已开源项目包括:8B代码生成模型Seed-Coder(自主管理训练数据) 多模态模型BAGEL(处理文本/图像/视频) 实验性语言模型Seed Diffusion(离散状态扩散技术) 训练框架VeOmni(PyTorch原生全模态分布式) 同声传译模型Seed LiveInterpret(低延迟音色复刻) [22][23][24][25] 生态影响 - 模型发布于Hugging Face与GitHub平台 强化国产开源基座模型阵营 [4][26] - 提供含合成指令数据(高性能)与无合成数据(高纯净度)双版本 满足研究社区差异化需求 [14]
GPT-5首次会推理,OpenAI联创曝AGI秘诀,超临界学习吞噬算力,2045金钱无用?
36氪· 2025-08-18 07:50
GPT-5技术突破 - GPT-5是OpenAI首个混合模型,通过路由器在推理模型与非推理模型间自动切换,降低使用复杂度[3] - 模型在数学、编程、物理等高智力任务上表现质变,能写出与国际奥林匹克竞赛(IMO/IOI)优秀人类相当的证明[3][5] - 物理学家反馈GPT-5的推理过程可重现数月研究成果,表明其已成为科研合作者而非单纯辅助工具[7] 技术范式转变 - 从GPT-4的"预训练+推理"转向"推理-反馈-强化学习"动态模式,这是实现可靠AGI的唯一途径[3][7] - 模型从静态训练迈向动态推理,通过"测试想法-获得反馈-强化学习"循环缩小与AGI差距[7] - 未来模型不再是"一次训练+无限推理",而是边用边学的"推理+基于推理数据的再训练"模式[3][8] 超临界学习与算力需求 - 算力增加10倍至10000倍时将触发超临界学习,模型不仅能掌握任务还能推导二阶、三阶效应[8][10] - 算力是唯一稀缺资源,OpenAI正在建造"星际之门"超级集群以扩张基础设施[19][20][21] - 算力被比作能量:预训练将算力转化为潜在智力,推理将智力释放为动能[20] 工程实践与开发策略 - 开发者需构建AI友好型代码库(模块清晰、单元测试完整、文档详尽)并拆解任务由多智能体并行完成[13] - 需积累Prompt库探索模型边界,但Prompt非唯一正确答案而是发挥创造性的测试[13][14] - 模型应视为开发团队而非单一工具,可远程异步工作或实时协作,且能无限复制[14][15] 行业应用与未来展望 - AI在生物领域已实现DNA建模达到GPT-2水平,人类语言与生物语言对神经网络无本质区别[10] - 2045年可能进入物质丰饶时代,AI生成一切或使金钱失去意义,算力将成为新稀缺资源[24][26] - 医疗、教育等行业存在大量"未被采摘的果实",AI应用空间无比广阔[24]
融资数千万美元,前B站副总裁创业:走出ICU,用户已超800万
搜狐财经· 2025-08-18 05:36
公司概况 - 心影随形由互联网资深人士Binson(刘斌新)于2023年4月创立,专注于AI陪伴型产品开发,创始人曾任职百度、360、B站等企业高管 [1] - 核心产品"逗逗游戏伙伴"定位为AI游戏陪玩桌宠,融合AI技术与二次元文化,测试阶段已获800万用户,入选2024年"全球50家最具潜力初创公司榜单" [1][3] - 公司累计完成四轮融资,总额达数千万美元 [1] 产品特性 - 产品实现跨场景智能陪伴,支持游戏攻略、情绪互动、工作学习等场景,采用VLM视觉大语言模型提升交互真实感 [9][31][33] - 游戏场景深度适配《英雄联盟》《原神》等热门游戏,提供BP建议、gank提醒、战后复盘等专业功能 [3][5][20] - 与老番茄、永雏塔菲等UP主合作开发虚拟角色,通过人格化设计增强用户情感连接,拒绝唤醒词以强化陪伴感 [7][25] 技术架构 - 基于开源模型进行多模态微调,针对游戏画面开发专用VLM模型,半年训练周期实现画面语义理解 [34][35] - 采用云端+本地混合数据处理架构,严格规避敏感信息,用户隐私数据仅以ID形式存储 [40][41] - 当前技术成熟度自评70分,目标实现AGI级陪伴体验,需突破长视频推理与环境感知能力 [30][37][38] 市场策略 - 优先垂直切入游戏场景,避免与通用AI产品直接竞争,通过"先做小再做深"构建壁垒 [47][71] - 日本市场表现突出,用户时长留存优于国内,归因于当地宅文化及社交压力差异 [42][43] - 商业化初期以角色皮肤、通话时长收费为主,未来规划B端广告分成占比超50% [44][45] 行业认知 - 判断AI陪伴需求将随社会孤独感加剧持续扩大,最终覆盖数亿用户规模 [39][67][68] - 行业竞争关键在于数据积累与情感连接,现有游戏内置AI助手难以实现跨场景支持 [47][49][50] - 多模态技术发展速度低于预期,但长期看好AI重构生产关系的变革潜力 [53][73] 创始人理念 - 坚持"工具是引子,情感是本质"的产品哲学,通过共同回忆建立用户与AI的情感纽带 [12][23][25] - 创业需把握技术信号提前布局,如2023年预判VLM价值并投入研发形成先发优势 [56][58][59] - 商业目标拒绝"小而美",认为优质产品必然走向规模化,参考中国游戏玩家6亿基数制定增长策略 [69][70][72]
GPT-5之后,奥特曼向左,梁文锋向右
36氪· 2025-08-15 15:23
GPT-5发布与市场反馈 - GPT-5在测试集上登顶但用户反馈褒贬不一 部分用户希望保留GPT-4o [1] - 模型未出现显著能力突破或技术范式更新 主要改进为减少幻觉和提升易用性 [1][3] - 多模态性能进步有限 仅优化了描述性任务 理解能力仍存边界 [5] - 核心智能层面未展现革命性进步 仍存在编造事实和多步逻辑推理错误问题 [3] - 通过模型路由功能合理化算力分配 以不同成本满足用户需求 [1][5] 大模型技术发展现状 - GPT-5发布暗示Transformer技术发展曲线暂缓 大模型能力上限疑似撞墙 [1][6] - OpenAI选择对现有框架修补优化 将现有能力产品化到极致 [1][3] - 未来模型能力突破依赖底层技术创新 需研究人员重新定义技术方向 [6] DeepSeek技术进展与战略 - DeepSeek-V2系列首创多头潜注意力机制 支持128K token处理 API定价为每百万token 2元人民币 [8] - DeepSeek-V3以671B参数MoE架构实现每秒60token生成速度 性能达GPT-4o水平 [8] - DeepSeek-R1在AIME和MATH任务上匹敌或超越OpenAI o1模型 成本远低于同期模型 [9] - 团队论文《Native Sparse Attention》获ACL 2025最佳论文奖 实现11倍推理加速 [11][13] - 正将最先进大模型训练迁移至国产芯片 需解决硬件性能差距和软件栈重构难题 [9][10] 行业竞争格局演变 - OpenAI聚焦超级APP叙事 营收和估值一路飙升 [2] - DeepSeek探索AI能力上限并推进开源生态技术普惠 [2] - 大模型行业发展线路相交于DeepSeek R1和GPT-4o发布 分化于GPT-5之后 [2] - 国产化需克服国产GPU单卡性能代际差距和10万卡集群工程难题 [10]
我们距离真正的具身智能大模型还有多远?
2025-08-13 22:56
行业与公司 - 行业涉及**人形机器人产业链**,重点关注**大模型端**和**硬件端**的发展[1] - 公司提及**特斯拉**作为硬件定型的核心推动者[3][4],以及国内企业如**银河通用**、**心动剂元**、**青铜视觉**、**凌云光**、**天奇**等[22][23][24] --- 核心观点与论据 **1 大模型是行业发展的关键卡点** - 当前行业瓶颈在于**模型端**,尤其是多模态大模型的智能水平,而非硬件控制成熟度[1][2] - 大模型为人形机器人提供“智能大脑”,是推动本轮发展的底层逻辑[2] **2 大模型发展的三条主线** - **多模态输入**:从C-CAN(仅语音)到RT1(动作+视频)、RT2(动作整合),再到Helix(200Hz频率)[5][6][11] - **频率提升**:RT2(1-5Hz)→ 派林(50Hz)→ Helix(200Hz,超过人类反应速度)[6][10][11] - **泛化能力**:通过增强推理能力(如PALM-E引入大模型分析)实现任务迁移[6][9] **3 数据飞轮与硬件定型的关系** - **数据不足**是模型停滞的主因,需真机数据形成闭环,但当前硬件未定型导致数据采集风险高[3][15] - **特斯拉的核心作用**:硬件定型后,行业才能规模化采集真机数据,推动模型迭代[3][4][16] **4 模型架构演进** - 从**分层模型**(大脑与小脑分开训练)到**端到端模型**(联合训练,效果更优但难度大)[7][8] - **快慢脑架构**(如Helix):快脑(80兆Transformer)+慢脑(7B BLM),数据回传实现200Hz高频动作[11][12] **5 数据采集的现状与挑战** - **数据类型**:低质量互联网数据(预训练)、仿真数据(成本低但真实性不足)、真机数据(质量高但效率低)[13][14][15] - **动捕设备**: - **光学动捕**(亚毫米精度,成本高,如青铜视觉、凌云光)[19][23] - **惯性动捕**(IMU,灵活低成本,如诺伊腾,特斯拉采购Xs为观察指标)[18][19] - 当前真机数据采集效率极低(每小时3-4条,单条成本超10元)[16] --- 其他重要内容 **1 未来大模型方向** - 融入更多模态(语言、视觉、传感器等)[20] - **世界模型**:用数学符号模拟物理规律,实现仿真数据≈真机数据(英伟达Cosmos目前效果不佳)[21] **2 国内企业布局** - **银河通用**:全仿真数据路线,发布Grasp VLA模型(无序抓取高成功率)[22] - **心动剂元**:ERA大模型采用双系统架构(快慢脑),早于Figure提出[22] - **天奇**:工业数据采集代工+仿真数据训练[24] **3 投资标的建议** - **动捕设备**:凌云光(光学动捕)、青铜视觉[23] - **摄像头**:阿比[26] - **遥操作**:当红科技、景业智能(工厂及协作场景刚需)[25][26] --- 关键数据引用 - 动作频率:RT2(1-5Hz)、派林(50Hz)、Helix(200Hz)[6][11] - 动捕成本:真机数据单条采集成本超10元,100台机器人日采8-10万条[16] - 光学动捕精度:亚毫米级[19]
硬件只是入场券:AI可穿戴的百万销量背后,软件与场景才是终极战场
AI前线· 2025-08-12 15:22
大模型与AI硬件融合趋势 - 大模型全面进入协作与工具化时代,软硬件结合的价值被重新定义,硬件成为大模型交互的重要入口[1] - 未来AI硬件将在传统硬件无法胜任的场景中脱颖而出,软硬件一体化是实现这一点的关键[4] - AI硬件需在场景中高效获取上下文并将智能做到极致,形成核心竞争力[4][11] 行业实践与产品案例 - Plaud通过早期众筹产品实现盈利并积累生产能力,抓住大模型技术红利推出NOTE产品实现用户增长[6] - Rokid专注多模态核心应用十年,在空间计算领域投入获得海内外市场反馈[7] - Plaud在Kickstarter众筹达百万美元,成功关键在于真实需求洞察与出色设计结合[7] - Rokid眼镜实现"Always On"语音输入,结合AI快速输出结果节省人力成本[8] - 360 AI眼镜验证了智能硬件60分易得但80分需市场反复筛选的行业规律[10] 技术突破与挑战 - 多模态交互需解决实时性挑战,涉及端云协同、芯片功耗优化等复杂技术问题[17][18] - Rokid眼镜采用多指向性麦克风硬件设计,实现声源分离提升多模态处理基础[18] - 跨模态检索技术需融合视频、图像、文本等信息提升搜索精度[20] - 声纹识别+视觉的支付方案展示多模态在安全场景的应用价值[20] 市场竞争与生态构建 - 创业公司优势在于专注细分场景,避免与大厂在通用平台直接竞争[12][16] - 硬件行业需构建完整开发链路,包括数据飞轮、体验飞轮等环节[12] - 行业生态需要多样化参与者促进产品在价格、体验等方面优化[14] - Plaud通过隐私认证和端到端加密技术建立数据安全壁垒[23] 产品演进与用户需求 - AI硬件需平衡感知能力、算力与续航,通过NPU等专用芯片优化性能[24] - Rokid采取轻量化策略覆盖儿童、女性等更广泛用户群体[9] - 智能眼镜未来将分化发展,并非全部转向AR方向[25] - 用户高频使用依赖明确场景解决刚需,如翻译、语音识别等功能[26][31] 商业模式与全球化 - AI硬件+SaaS订阅形成可持续商业模式,用户为持续优化体验付费[31][33] - Plaud定位全球市场,通过本地化能力构建与大厂的差异化竞争[35] - 产品市场契合度(PMF)决定用户支付意愿,优化技术可承受更高成本[37] 行业发展趋势 - 智能穿戴设备将多元化发展,不存在单一终极形态[29] - XR行业经过十年沉淀,用户认知提升为AI硬件奠定基础[9] - 合成数据等技术降低AI应用开发门槛,减少对用户数据依赖[30]
深聊GPT-5发布:过度营销的反噬与AI技术困局
钛媒体APP· 2025-08-12 11:18
GPT-5发布与市场反响 - GPT-5上线次日因用户批评恢复向付费用户提供GPT-4o [1] - 发布会展示存在数据图表错误、代码演示漏洞及科学原理解释误导问题 [3] - 核心技术更新"Router"被硅谷AI从业者指出为已存在数年的技术 [3] 技术架构与性能表现 - GPT-5采用实时路由器(Real-time Model Router)整合子模型而非端到端单一模型 [6][7] - 路由器技术原用于设备端成本平衡、多模型聚合及高频简单查询处理场景 [8] - 编程基准测试(SWE-bench)图表显示GPT-5准确率52.8% 但柱状图错误高于o3模型69.1% [27] - 多模态整合面临计算需求差异挑战 语音模块需低延时而研究模块可容忍数分钟延迟 [9] 垂直领域商业化战略 - 重点布局教育、健康医疗和编程三大垂直领域 [13] - 教育场景展示多模态语言学习功能 可自动生成法语学习网页及游戏应用 [14] - 健康医疗领域瞄准占美国GDP 18%的市场规模 [20] - 全球AI医疗市场规模预计从2024年26.69亿美元增至2030年188.38亿美元 年复合增长率38.62% [20] - 编程领域与Anthropic展开竞争 Cursor公司站队OpenAI对抗Claude Code产品 [22] 模型开发困境与瓶颈 - 内部项目Q-Star最终转化为o系列模型 侧重思维链推理但未达GPT-5命名标准 [37] - Orion项目(后称GPT-4.5)因高质量数据匮乏延期 依赖合成数据训练效果未达预期 [41] - 模型训练出现灾难性遗忘(Catastrophic Forgetting)现象 导致原有知识体系崩溃 [44] - Scaling Law面临瓶颈 预训练阶段性能增长放缓 [41][45] 未来技术发展路径 - 强化学习(RL)路线专注于目标驱动型任务 依赖通用验证器(Universal Verifier)提升答案质量 [46][49] - 多模态能力被视为关键突破方向 视频与世界模型(World Model)可拓展信息承载量 [55] - 联合嵌入预测架构(JEPA)成为替代Transformer的潜在方案 在潜层空间完成预测任务 [59] - 谷歌发布世界模型Genie 3 被部分业内人士认为重要性超过GPT-5 [56] 行业竞争与市场影响 - 语言学习公司多邻国股价在GPT-5发布会期间出现大幅震荡 [16] - OpenAI投资医疗AI公司Ambience Healthcare完成C轮2.43亿美元融资 [20] - 头部大模型公司开启价格战 争夺企业订单与市场份额 [3] - 基准测试(Benchmark)重要性下降 竞争前沿转向用户体验优化 [30]
关于 AI Infra 的一切
虎嗅· 2025-08-11 18:50
AI Infra 行业定义与架构 - AI Infra 包括硬件和软件两部分 硬件指 AI 芯片 GPU 交换机等设备 软件可分为三层 最底层类似 IaaS 解决基础计算 通信和存储问题 中间层类似 PaaS 包含资源调度 资源管理等平台 MaaS 归属这一层 最上层近似 SaaS 应用层 但在 AI Infra 领域更倾向于理解为训练及推理框架的优化层 [2][3][4][5] AI Infra 发展历程与人才 - 第一批 AI Infra 人是有算法背景的人 如贾扬清 李沐 陈天奇 他们为充分利用 GPU 而做 AI Infra 第二批人更多是上规模 让 AI Infra 在工业界得到应用 [6][7] - 大模型兴起对 Infra 从业者是特别好的机会 AI Infra 进入主舞台 类似搜索引擎兴起时的 Google 需要世界一流 Infra 处理规模空前的互联网数据 大模型对算力和数据提出前所未有的要求 这样的窗口可能十年 二十年才会出现一次 [8][9][10][11][12] - AI Infra 和移动互联网 Infra 底层目标一致 都要高效稳定整合计算 通信和存储资源 但实操层面对硬件 网络互联 存储方式要求完全不同 AI Infra 绝对核心是 GPU 传统 Infra 核心是 CPU AI Infra 更极致 更贴合 AI 特殊需求 [13][14][15] - 未来做 AI Infra 的人 既有新成长起来的工程师 也有传统 Infra 人转型而来 Infra 更强调积累 与算法不同 算法非常依赖年轻人 有做算法的朋友说过算法人只有两年保质期 两年后陷入思维定势 跟不上新东西 [16][17][18] AI Infra 核心指标与价值 - 线上服务侧关注模型响应首字延迟 吐字稳定顺畅 整体成本降低 训练侧关注每张 GPU 处理的数据量和训练效率 [19] - 所有产品都依赖 Infra 区别在于是否投入成本做自己的 Infra 以及投入是否值得 假设有 1 万张 GPU 每月租金 1 亿 雇 Infra 工程师把 GPU 利用率提升 10% 每月能节省 1000 万 或多赚 1000 万 优化 Infra 后省下的钱可轻松 cover 人力成本 投入 Infra 可帮公司挣钱 确定性很高 [20][21][22][23] - 较小公司可用同样逻辑计算 值不值得雇 10 人优化性能 对比云厂商标准化方案成本 如果自己做不到更低成本 用 MaaS 或公有云服务更划算 服务商价值锚点是帮助规模较小公司节省 Infra 优化成本 [24][25] 第三方 AI Infra 公司机会与挑战 - 短期第三方价值是为客户提供 API 集贸市场 自由选择不同 API 因为模型厂商 Infra 主要服务自家模型或 API 公有云也提供类似服务 但仍有第三方空间 长远如果第三方没有独特价值 易被云厂商或模型公司吃掉 [26][27] - AI Infra 底层是硬件 上层是模型 当硬件和模型都逐渐开放和普及时 只做中间 Infra 层价值有限 且非常卷 难拉开技术差距 难形成长期壁垒 今天领先一点 几个月后可能被赶上 第三方想做出壁垒 需和硬件或模型做垂直整合 [28][29] - 以 MaaS 生意为例 MaaS 可看作 API 分发平台 真正能留住用户的是别人没有的东西 如与特定硬件厂商深度合作 以更低成本获得算力资源 有对硬件独到见解 这些是差异化优势 建议不要做夹在模型和硬件中间的人 可选择站在模型侧或硬件端 [30][31][32][33] - 当前是硬件和模型都在追求极致的时刻 需要既懂硬件又懂模型 这种两头通能力是 Infra 人特长 往上和模型做深度整合 或往下与硬件做 co-design 就有很多机会 如果固步自封 只在中间做优化 就把路走窄 [34][35] - 关键必须是主动参与者 而不是被动搭便车的人 如果比硬件厂商更懂模型 可影响硬件设计方向 如果比模型团队更懂硬件 可反向影响模型架构设计 具备这种影响力 成功是共赢 失败也是主动做出的判断和选择 [36][37][38] Infra 对模型效果影响与性能指标 - Infra 水平会影响模型效果 Infra 对大模型公司非常重要 各家公司参与同一场比赛 给定算力 怎么训出最好模型 假设都拿 5000 张卡 其他条件相同 如果 Infra 优化更好 效率高出 20% 同样时间能多学 20% 数据 训练出的模型效果更好 [40][41][42] - Infra 有标准化性能指标 如 MFU 衡量硬件利用率 分子是实际完成的浮点运算次数 分母是理论最大算力 MFU 越高 硬件用得越充分 但衡量 Infra 性能很复杂 仅靠单一指标难判断优劣 Infra 性能和硬件 模型 优化目标都密切相关 [43][45] - DeepSeek 能冲出来 一大原因是选对了优化目标 当时优化目标是给定推理成本 怎么训出最好模型 而其他所有人目标是给定训练算力 怎么训出最好模型 2024 年 9 月 o1 发布后 让大家看到推理阶段让模型多思考一会 最终输出效果更好 这种训练方式符合强化学习机制 DeepSeek 优化目标更符合强化学习需求 能以更低推理成本 更快速度输出结果和训练模型 率先完成 R1 甩开其他团队 [46][47][48][49][50] - Infra 有各种性能指标 但想取得好结果 最重要的是想清楚哪一个指标优先级最高 指标要符合产品需求 也要顺应行业发展方向和未来技术趋势 不同团队技术水平有高低 但真正拉开差距的是有没有选对努力方向 [51][52] - 从 o1 R1 验证强化学习路径后 当前最重要指标是 decoding 速度 推理分输入和输出两部分 输入关键指标是模型处理长文本速度 输出关键指标是模型吐字速度 后者最重要 决定线上业务成本 也直接决定强化学习效率 如果输出很慢 获得 reward 速度就比其他模型慢 但现在还有人很看重 MFU 等老指标 特别关注这类指标的人对当下技术认知有问题 [54][55] Infra 与算法团队协作与组织架构 - 最理想合作方式是大家像一个团队 为共同目标协作 很多事情有 trade-off 如损伤系统性能换算法提升 或反过来 最好两边一起讨论该谁让步 这是小团队优势 在大厂很难实现 [56][57][58] - 在大厂 Infra 总被视为支持性角色 算法人给 Infra 人提需求 Infra 人没有反向影响力 在很多人眼里 Infra 核心是降本 但降本通常不是最优先目标 需要纠正观念 Infra 实际上可对模型效果有正向影响 不仅仅是降本 [59][60][61] - 很多问题到最后是组织架构问题 模型由算法 Infra 和数据铁三角决定 三者缺一不可 必须协同 但很多人对模型理解存在偏差 模型算法效果往往取决于数据 而不是算法 模型效率成本主要由 Infra 决定 也不是算法 [62][63] - 比较合理组织架构是让 Infra 人设计模型结构 因为 Infra 人最知道怎么提高效率 节省成本 让数据的人负责刷模型点数和 benchmark 分数 因为他们最懂怎么喂模型 而算法人应该主要负责训练范式革新 但现在很多团队中 基本都是算法人在设计模型结构 刷模型点数 算法人不一定最适合做这些事 [64][65] 行业踩坑案例与经验 - 阶跃一开始对自己算力和能力过于自信 干了一个比 Llama 还大的模型 虽然训出来 但这个巨大模型有问题 过程中犯了一些错误 赌的事情可能会错 踩坑后再爬起来往前走 [66][67] - 最近有家公司开源模型 声称参数量不大 但算法做得好 效果可越级媲美更大模型 但模型因为架构设计问题 实际运行效率非常低 还不如大模型快 反映很多做算法的人并不真正懂硬件 也不了解模型在 Infra 层怎么运行 [68][69][70] - 算法人员做模型架构研究时 可能画图横轴模型尺寸或激活量 纵轴算法效果指标 试图找到 sweet point 让模型尺寸不大情况下算法效果不错 然后丢给 Infra 人优化 即便 Infra 人满足需求 模型实际运行也会出问题 如果真要画图 横轴应该是模型实际运行成本或运行效率 纵轴是模型效果 跑大量实验 找到真正可落地最优点 这件事只有在拉通所有团队后才可能完成 [71][72][73] 模型发展前景与多模态 - 模型范式革新不会那么快 但多模态还是有突破可能性 尤其是多模态生成和理解统一 现在多模态状态像 20 年 bert 模型 具备理解能力 但还没真正做通理解和生成 做通标志是同一个模型在理解任务上超越专门做理解模型 在生成任务上击败专门做生成模型 像 GPT-3.5 出来让很多做翻译等专用模型退休 [75][76][77] - Google Veo 3 效果很不错 但偏上一代模型 核心是做生成 工程做得比较好 把配乐等功能很好融合起来 技术突破和产品效果不是线性相关 Veo 3 把上一代技术发挥到非常强水平 但本身没带来太多范式上创新 [78][79][80] 初创或第三方 AI Infra 公司机会 - 训练侧商业模式不太成立 因为训模型的人非常懂行 难挣到这些人钱 他们也不愿把训练过程中研发细节交给第三方 否则泄露核心竞争力 排除训练后 推理侧还有一些机会 如推理加速 推理优化 [81][82] - 开源模型对 AI Infra 发展有促进作用 开源模型火起来 大家研究怎么把它跑得更好 促进 AI Infra 进步 但所有事情都有两面性 如果某个开源模型太火 大家花很多精力优化它 可能反而影响创新 如 DeepSeek 出来前 很多人优化 Llama DeepSeek 新范式一出 之前在 Llama 上很多积累就废掉 [83][84] 国产芯片与开源策略 - 现在 Infra 基本围绕英伟达卡做优化 虽然有团队尝试用国产芯片替代英伟达 但很多时候国产卡不是跑不动 而是性价比不如英伟达 当 DeepSeek 这样好用开源模型出现后 做一体机公司发现用英伟达卡跑 DeepSeek 比用国产卡更有性价比 更愿选择英伟达卡 [85][86] - 希望国产卡在技术层面具备竞争力 根据国产卡特性专门设计模型结构 让它在国产卡上高效运行 达到 SOTA 水平 阶跃开源 Step 3 是国内首个支持第三方商用 数百 B 规模视觉推理模型 能跑出 SOTA 水平 [87] - 视觉推理是模型根据图片 视频抽帧等视觉信息 直接完成推理任务 如让机器人去柜子拿东西 目标物品被杂物遮挡 机器人要进行视觉推理 进行任务拆解和决策 对于机器人或手机 汽车等智能设备 天然有视觉模态 根据周边环境 看到的东西决定怎么完成复杂任务 是典型视觉推理模型做的事情 视觉推理模型更常见应用场景是拍照解题 [88][89][90][91] - 之前有模型可做到拍照解题 但是把图片转成文字 再做文字推理 这种方式不是真正视觉推理 现在不需要中间转文字过程 让模型直接看图推理 如让机器人拿东西 目标物品周围有很多遮挡 难用文字描述清楚物理世界中位置关系 会丢掉很多信息 但模型直接看图 能直观知道该先拿开这个东西 再拿开那个东西 最后拿到目标物品 [92][93][94][95] - 选择开源是希望全国上下产业都获益 给所有国产芯片免费商用授权 开放模型权重 尽量帮他们做好模型适配 把 Step 3 在国产卡上推理成本压到很低水平 提高国产卡在性价比上竞争力 通过开源帮助国产芯片构建商业竞争力 也希望他们能推广模型 最后实现共赢 [96][97][98] 多模态成本与 Infra 人价值 - 多模态理解现在不算贵 但生成还是挺贵 尤其是视频生成 对成本降低蛮乐观 一年后应该能下降很多 能不能到十分之一不好说 但几分之一没问题 [99][100][101] - 在大模型时代 Infra 人容易被低估情况好很多 Infra 已是模型能力核心组成部分之一 DeepSeek 做得好是因为梁文锋是 Infra 人 梁文锋做量化出身 量化强调低延迟 需要对 Infra 有研究 在算法 数据和 Infra 之间 最擅长 Infra 这在业界是共识 DeepSeek 的 Infra 工程师数量比算法工程师多 但在很多大公司里 情况反过来 这可能是在过去一段时间里 一些大厂比较挣扎的原因之一 [102][103][104][105][106] - 在大模型快速发展阶段 需要有大量 Infra 人 把硬件设计和模型优化做到极致 并且做好垂直整合 但在大厂里 人才结构错配 不符合做好 AI 本质需求 [107] 给 AI Infra 从业者建议 - 建议靠近模型 或者靠近硬件 希望打心底对 Infra 感兴趣 有足够主观能动性去做各种各样 co-design [108][109] - Richard Sutton 的《The Bitter Lesson》核心观点是从长期来看 胜出永远是那些能最大程度利用计算资源方法 短期内各种奇技淫巧可能有效 但不能本质解决问题 虽然文章从算法视角写 但对 Infra 人同样有重大指导意义 因为最根本任务是设计出能发挥硬件全部性能模型和系统软件 让模型能充分利用这些资源 最希望是有朝一日 还能反过来影响硬件 换取摩尔定律不断延续 [109][110][111]