多模态 - 财报，业绩电话会，研报，新闻 - Reportify

多模态

搜索文档

融资数千万美元，前B站副总裁创业：走出ICU，用户已超800万

搜狐财经· 2025-08-18 05:36

公司概况 - 心影随形由互联网资深人士Binson（刘斌新）于2023年4月创立，专注于AI陪伴型产品开发，创始人曾任职百度、360、B站等企业高管 [1] - 核心产品"逗逗游戏伙伴"定位为AI游戏陪玩桌宠，融合AI技术与二次元文化，测试阶段已获800万用户，入选2024年"全球50家最具潜力初创公司榜单" [1][3] - 公司累计完成四轮融资，总额达数千万美元 [1] 产品特性 - 产品实现跨场景智能陪伴，支持游戏攻略、情绪互动、工作学习等场景，采用VLM视觉大语言模型提升交互真实感 [9][31][33] - 游戏场景深度适配《英雄联盟》《原神》等热门游戏，提供BP建议、gank提醒、战后复盘等专业功能 [3][5][20] - 与老番茄、永雏塔菲等UP主合作开发虚拟角色，通过人格化设计增强用户情感连接，拒绝唤醒词以强化陪伴感 [7][25] 技术架构 - 基于开源模型进行多模态微调，针对游戏画面开发专用VLM模型，半年训练周期实现画面语义理解 [34][35] - 采用云端+本地混合数据处理架构，严格规避敏感信息，用户隐私数据仅以ID形式存储 [40][41] - 当前技术成熟度自评70分，目标实现AGI级陪伴体验，需突破长视频推理与环境感知能力 [30][37][38] 市场策略 - 优先垂直切入游戏场景，避免与通用AI产品直接竞争，通过"先做小再做深"构建壁垒 [47][71] - 日本市场表现突出，用户时长留存优于国内，归因于当地宅文化及社交压力差异 [42][43] - 商业化初期以角色皮肤、通话时长收费为主，未来规划B端广告分成占比超50% [44][45] 行业认知 - 判断AI陪伴需求将随社会孤独感加剧持续扩大，最终覆盖数亿用户规模 [39][67][68] - 行业竞争关键在于数据积累与情感连接，现有游戏内置AI助手难以实现跨场景支持 [47][49][50] - 多模态技术发展速度低于预期，但长期看好AI重构生产关系的变革潜力 [53][73] 创始人理念 - 坚持"工具是引子，情感是本质"的产品哲学，通过共同回忆建立用户与AI的情感纽带 [12][23][25] - 创业需把握技术信号提前布局，如2023年预判VLM价值并投入研发形成先发优势 [56][58][59] - 商业目标拒绝"小而美"，认为优质产品必然走向规模化，参考中国游戏玩家6亿基数制定增长策略 [69][70][72]

创业(US:VEMLY)

通用人工智能（AGI）

逗逗游戏伙伴

通用人工智能（AGI）

逗逗游戏伙伴

GPT-5之后，奥特曼向左，梁文锋向右

36氪· 2025-08-15 15:23

GPT-5发布与市场反馈 - GPT-5在测试集上登顶但用户反馈褒贬不一部分用户希望保留GPT-4o [1] - 模型未出现显著能力突破或技术范式更新主要改进为减少幻觉和提升易用性 [1][3] - 多模态性能进步有限仅优化了描述性任务理解能力仍存边界 [5] - 核心智能层面未展现革命性进步仍存在编造事实和多步逻辑推理错误问题 [3] - 通过模型路由功能合理化算力分配以不同成本满足用户需求 [1][5] 大模型技术发展现状 - GPT-5发布暗示Transformer技术发展曲线暂缓大模型能力上限疑似撞墙 [1][6] - OpenAI选择对现有框架修补优化将现有能力产品化到极致 [1][3] - 未来模型能力突破依赖底层技术创新需研究人员重新定义技术方向 [6] DeepSeek技术进展与战略 - DeepSeek-V2系列首创多头潜注意力机制支持128K token处理 API定价为每百万token 2元人民币 [8] - DeepSeek-V3以671B参数MoE架构实现每秒60token生成速度性能达GPT-4o水平 [8] - DeepSeek-R1在AIME和MATH任务上匹敌或超越OpenAI o1模型成本远低于同期模型 [9] - 团队论文《Native Sparse Attention》获ACL 2025最佳论文奖实现11倍推理加速 [11][13] - 正将最先进大模型训练迁移至国产芯片需解决硬件性能差距和软件栈重构难题 [9][10] 行业竞争格局演变 - OpenAI聚焦超级APP叙事营收和估值一路飙升 [2] - DeepSeek探索AI能力上限并推进开源生态技术普惠 [2] - 大模型行业发展线路相交于DeepSeek R1和GPT-4o发布分化于GPT-5之后 [2] - 国产化需克服国产GPU单卡性能代际差距和10万卡集群工程难题 [10]

大模型技术

Artificial Intelligence

大模型技术

Artificial Intelligence

我们距离真正的具身智能大模型还有多远？

2025-08-13 22:56

行业与公司 - 行业涉及**人形机器人产业链**，重点关注**大模型端**和**硬件端**的发展[1] - 公司提及**特斯拉**作为硬件定型的核心推动者[3][4]，以及国内企业如**银河通用**、**心动剂元**、**青铜视觉**、**凌云光**、**天奇**等[22][23][24] --- 核心观点与论据 **1 大模型是行业发展的关键卡点** - 当前行业瓶颈在于**模型端**，尤其是多模态大模型的智能水平，而非硬件控制成熟度[1][2] - 大模型为人形机器人提供“智能大脑”，是推动本轮发展的底层逻辑[2] **2 大模型发展的三条主线** - **多模态输入**：从C-CAN（仅语音）到RT1（动作+视频）、RT2（动作整合），再到Helix（200Hz频率）[5][6][11] - **频率提升**：RT2（1-5Hz）→ 派林（50Hz）→ Helix（200Hz，超过人类反应速度）[6][10][11] - **泛化能力**：通过增强推理能力（如PALM-E引入大模型分析）实现任务迁移[6][9] **3 数据飞轮与硬件定型的关系** - **数据不足**是模型停滞的主因，需真机数据形成闭环，但当前硬件未定型导致数据采集风险高[3][15] - **特斯拉的核心作用**：硬件定型后，行业才能规模化采集真机数据，推动模型迭代[3][4][16] **4 模型架构演进** - 从**分层模型**（大脑与小脑分开训练）到**端到端模型**（联合训练，效果更优但难度大）[7][8] - **快慢脑架构**（如Helix）：快脑（80兆Transformer）+慢脑（7B BLM），数据回传实现200Hz高频动作[11][12] **5 数据采集的现状与挑战** - **数据类型**：低质量互联网数据（预训练）、仿真数据（成本低但真实性不足）、真机数据（质量高但效率低）[13][14][15] - **动捕设备**： - **光学动捕**（亚毫米精度，成本高，如青铜视觉、凌云光）[19][23] - **惯性动捕**（IMU，灵活低成本，如诺伊腾，特斯拉采购Xs为观察指标）[18][19] - 当前真机数据采集效率极低（每小时3-4条，单条成本超10元）[16] --- 其他重要内容 **1 未来大模型方向** - 融入更多模态（语言、视觉、传感器等）[20] - **世界模型**：用数学符号模拟物理规律，实现仿真数据≈真机数据（英伟达Cosmos目前效果不佳）[21] **2 国内企业布局** - **银河通用**：全仿真数据路线，发布Grasp VLA模型（无序抓取高成功率）[22] - **心动剂元**：ERA大模型采用双系统架构（快慢脑），早于Figure提出[22] - **天奇**：工业数据采集代工+仿真数据训练[24] **3 投资标的建议** - **动捕设备**：凌云光（光学动捕）、青铜视觉[23] - **摄像头**：阿比[26] - **遥操作**：当红科技、景业智能（工厂及协作场景刚需）[25][26] --- 关键数据引用 - 动作频率：RT2（1-5Hz）、派林（50Hz）、Helix（200Hz）[6][11] - 动捕成本：真机数据单条采集成本超10元，100台机器人日采8-10万条[16] - 光学动捕精度：亚毫米级[19]

特斯拉(US:TSLA)

具身智能大模型

具身智能大模型

硬件只是入场券：AI可穿戴的百万销量背后，软件与场景才是终极战场

AI前线· 2025-08-12 15:22

大模型与AI硬件融合趋势 - 大模型全面进入协作与工具化时代，软硬件结合的价值被重新定义，硬件成为大模型交互的重要入口[1] - 未来AI硬件将在传统硬件无法胜任的场景中脱颖而出，软硬件一体化是实现这一点的关键[4] - AI硬件需在场景中高效获取上下文并将智能做到极致，形成核心竞争力[4][11] 行业实践与产品案例 - Plaud通过早期众筹产品实现盈利并积累生产能力，抓住大模型技术红利推出NOTE产品实现用户增长[6] - Rokid专注多模态核心应用十年，在空间计算领域投入获得海内外市场反馈[7] - Plaud在Kickstarter众筹达百万美元，成功关键在于真实需求洞察与出色设计结合[7] - Rokid眼镜实现"Always On"语音输入，结合AI快速输出结果节省人力成本[8] - 360 AI眼镜验证了智能硬件60分易得但80分需市场反复筛选的行业规律[10] 技术突破与挑战 - 多模态交互需解决实时性挑战，涉及端云协同、芯片功耗优化等复杂技术问题[17][18] - Rokid眼镜采用多指向性麦克风硬件设计，实现声源分离提升多模态处理基础[18] - 跨模态检索技术需融合视频、图像、文本等信息提升搜索精度[20] - 声纹识别+视觉的支付方案展示多模态在安全场景的应用价值[20] 市场竞争与生态构建 - 创业公司优势在于专注细分场景，避免与大厂在通用平台直接竞争[12][16] - 硬件行业需构建完整开发链路，包括数据飞轮、体验飞轮等环节[12] - 行业生态需要多样化参与者促进产品在价格、体验等方面优化[14] - Plaud通过隐私认证和端到端加密技术建立数据安全壁垒[23] 产品演进与用户需求 - AI硬件需平衡感知能力、算力与续航，通过NPU等专用芯片优化性能[24] - Rokid采取轻量化策略覆盖儿童、女性等更广泛用户群体[9] - 智能眼镜未来将分化发展，并非全部转向AR方向[25] - 用户高频使用依赖明确场景解决刚需，如翻译、语音识别等功能[26][31] 商业模式与全球化 - AI硬件+SaaS订阅形成可持续商业模式，用户为持续优化体验付费[31][33] - Plaud定位全球市场，通过本地化能力构建与大厂的差异化竞争[35] - 产品市场契合度(PMF)决定用户支付意愿，优化技术可承受更高成本[37] 行业发展趋势 - 智能穿戴设备将多元化发展，不存在单一终极形态[29] - XR行业经过十年沉淀，用户认知提升为AI硬件奠定基础[9] - 合成数据等技术降低AI应用开发门槛，减少对用户数据依赖[30]

Plaud录音产品

Plaud录音产品

深聊GPT-5发布：过度营销的反噬与AI技术困局

钛媒体APP· 2025-08-12 11:18

GPT-5发布与市场反响 - GPT-5上线次日因用户批评恢复向付费用户提供GPT-4o [1] - 发布会展示存在数据图表错误、代码演示漏洞及科学原理解释误导问题 [3] - 核心技术更新"Router"被硅谷AI从业者指出为已存在数年的技术 [3] 技术架构与性能表现 - GPT-5采用实时路由器（Real-time Model Router）整合子模型而非端到端单一模型 [6][7] - 路由器技术原用于设备端成本平衡、多模型聚合及高频简单查询处理场景 [8] - 编程基准测试（SWE-bench）图表显示GPT-5准确率52.8% 但柱状图错误高于o3模型69.1% [27] - 多模态整合面临计算需求差异挑战语音模块需低延时而研究模块可容忍数分钟延迟 [9] 垂直领域商业化战略 - 重点布局教育、健康医疗和编程三大垂直领域 [13] - 教育场景展示多模态语言学习功能可自动生成法语学习网页及游戏应用 [14] - 健康医疗领域瞄准占美国GDP 18%的市场规模 [20] - 全球AI医疗市场规模预计从2024年26.69亿美元增至2030年188.38亿美元年复合增长率38.62% [20] - 编程领域与Anthropic展开竞争 Cursor公司站队OpenAI对抗Claude Code产品 [22] 模型开发困境与瓶颈 - 内部项目Q-Star最终转化为o系列模型侧重思维链推理但未达GPT-5命名标准 [37] - Orion项目（后称GPT-4.5）因高质量数据匮乏延期依赖合成数据训练效果未达预期 [41] - 模型训练出现灾难性遗忘（Catastrophic Forgetting）现象导致原有知识体系崩溃 [44] - Scaling Law面临瓶颈预训练阶段性能增长放缓 [41][45] 未来技术发展路径 - 强化学习（RL）路线专注于目标驱动型任务依赖通用验证器（Universal Verifier）提升答案质量 [46][49] - 多模态能力被视为关键突破方向视频与世界模型（World Model）可拓展信息承载量 [55] - 联合嵌入预测架构（JEPA）成为替代Transformer的潜在方案在潜层空间完成预测任务 [59] - 谷歌发布世界模型Genie 3 被部分业内人士认为重要性超过GPT-5 [56] 行业竞争与市场影响 - 语言学习公司多邻国股价在GPT-5发布会期间出现大幅震荡 [16] - OpenAI投资医疗AI公司Ambience Healthcare完成C轮2.43亿美元融资 [20] - 头部大模型公司开启价格战争夺企业订单与市场份额 [3] - 基准测试（Benchmark）重要性下降竞争前沿转向用户体验优化 [30]

关于 AI Infra 的一切

虎嗅· 2025-08-11 18:50

AI Infra 行业定义与架构 - AI Infra 包括硬件和软件两部分硬件指 AI 芯片 GPU 交换机等设备软件可分为三层最底层类似 IaaS 解决基础计算通信和存储问题中间层类似 PaaS 包含资源调度资源管理等平台 MaaS 归属这一层最上层近似 SaaS 应用层但在 AI Infra 领域更倾向于理解为训练及推理框架的优化层 [2][3][4][5] AI Infra 发展历程与人才 - 第一批 AI Infra 人是有算法背景的人如贾扬清李沐陈天奇他们为充分利用 GPU 而做 AI Infra 第二批人更多是上规模让 AI Infra 在工业界得到应用 [6][7] - 大模型兴起对 Infra 从业者是特别好的机会 AI Infra 进入主舞台类似搜索引擎兴起时的 Google 需要世界一流 Infra 处理规模空前的互联网数据大模型对算力和数据提出前所未有的要求这样的窗口可能十年二十年才会出现一次 [8][9][10][11][12] - AI Infra 和移动互联网 Infra 底层目标一致都要高效稳定整合计算通信和存储资源但实操层面对硬件网络互联存储方式要求完全不同 AI Infra 绝对核心是 GPU 传统 Infra 核心是 CPU AI Infra 更极致更贴合 AI 特殊需求 [13][14][15] - 未来做 AI Infra 的人既有新成长起来的工程师也有传统 Infra 人转型而来 Infra 更强调积累与算法不同算法非常依赖年轻人有做算法的朋友说过算法人只有两年保质期两年后陷入思维定势跟不上新东西 [16][17][18] AI Infra 核心指标与价值 - 线上服务侧关注模型响应首字延迟吐字稳定顺畅整体成本降低训练侧关注每张 GPU 处理的数据量和训练效率 [19] - 所有产品都依赖 Infra 区别在于是否投入成本做自己的 Infra 以及投入是否值得假设有 1 万张 GPU 每月租金 1 亿雇 Infra 工程师把 GPU 利用率提升 10% 每月能节省 1000 万或多赚 1000 万优化 Infra 后省下的钱可轻松 cover 人力成本投入 Infra 可帮公司挣钱确定性很高 [20][21][22][23] - 较小公司可用同样逻辑计算值不值得雇 10 人优化性能对比云厂商标准化方案成本如果自己做不到更低成本用 MaaS 或公有云服务更划算服务商价值锚点是帮助规模较小公司节省 Infra 优化成本 [24][25] 第三方 AI Infra 公司机会与挑战 - 短期第三方价值是为客户提供 API 集贸市场自由选择不同 API 因为模型厂商 Infra 主要服务自家模型或 API 公有云也提供类似服务但仍有第三方空间长远如果第三方没有独特价值易被云厂商或模型公司吃掉 [26][27] - AI Infra 底层是硬件上层是模型当硬件和模型都逐渐开放和普及时只做中间 Infra 层价值有限且非常卷难拉开技术差距难形成长期壁垒今天领先一点几个月后可能被赶上第三方想做出壁垒需和硬件或模型做垂直整合 [28][29] - 以 MaaS 生意为例 MaaS 可看作 API 分发平台真正能留住用户的是别人没有的东西如与特定硬件厂商深度合作以更低成本获得算力资源有对硬件独到见解这些是差异化优势建议不要做夹在模型和硬件中间的人可选择站在模型侧或硬件端 [30][31][32][33] - 当前是硬件和模型都在追求极致的时刻需要既懂硬件又懂模型这种两头通能力是 Infra 人特长往上和模型做深度整合或往下与硬件做 co-design 就有很多机会如果固步自封只在中间做优化就把路走窄 [34][35] - 关键必须是主动参与者而不是被动搭便车的人如果比硬件厂商更懂模型可影响硬件设计方向如果比模型团队更懂硬件可反向影响模型架构设计具备这种影响力成功是共赢失败也是主动做出的判断和选择 [36][37][38] Infra 对模型效果影响与性能指标 - Infra 水平会影响模型效果 Infra 对大模型公司非常重要各家公司参与同一场比赛给定算力怎么训出最好模型假设都拿 5000 张卡其他条件相同如果 Infra 优化更好效率高出 20% 同样时间能多学 20% 数据训练出的模型效果更好 [40][41][42] - Infra 有标准化性能指标如 MFU 衡量硬件利用率分子是实际完成的浮点运算次数分母是理论最大算力 MFU 越高硬件用得越充分但衡量 Infra 性能很复杂仅靠单一指标难判断优劣 Infra 性能和硬件模型优化目标都密切相关 [43][45] - DeepSeek 能冲出来一大原因是选对了优化目标当时优化目标是给定推理成本怎么训出最好模型而其他所有人目标是给定训练算力怎么训出最好模型 2024 年 9 月 o1 发布后让大家看到推理阶段让模型多思考一会最终输出效果更好这种训练方式符合强化学习机制 DeepSeek 优化目标更符合强化学习需求能以更低推理成本更快速度输出结果和训练模型率先完成 R1 甩开其他团队 [46][47][48][49][50] - Infra 有各种性能指标但想取得好结果最重要的是想清楚哪一个指标优先级最高指标要符合产品需求也要顺应行业发展方向和未来技术趋势不同团队技术水平有高低但真正拉开差距的是有没有选对努力方向 [51][52] - 从 o1 R1 验证强化学习路径后当前最重要指标是 decoding 速度推理分输入和输出两部分输入关键指标是模型处理长文本速度输出关键指标是模型吐字速度后者最重要决定线上业务成本也直接决定强化学习效率如果输出很慢获得 reward 速度就比其他模型慢但现在还有人很看重 MFU 等老指标特别关注这类指标的人对当下技术认知有问题 [54][55] Infra 与算法团队协作与组织架构 - 最理想合作方式是大家像一个团队为共同目标协作很多事情有 trade-off 如损伤系统性能换算法提升或反过来最好两边一起讨论该谁让步这是小团队优势在大厂很难实现 [56][57][58] - 在大厂 Infra 总被视为支持性角色算法人给 Infra 人提需求 Infra 人没有反向影响力在很多人眼里 Infra 核心是降本但降本通常不是最优先目标需要纠正观念 Infra 实际上可对模型效果有正向影响不仅仅是降本 [59][60][61] - 很多问题到最后是组织架构问题模型由算法 Infra 和数据铁三角决定三者缺一不可必须协同但很多人对模型理解存在偏差模型算法效果往往取决于数据而不是算法模型效率成本主要由 Infra 决定也不是算法 [62][63] - 比较合理组织架构是让 Infra 人设计模型结构因为 Infra 人最知道怎么提高效率节省成本让数据的人负责刷模型点数和 benchmark 分数因为他们最懂怎么喂模型而算法人应该主要负责训练范式革新但现在很多团队中基本都是算法人在设计模型结构刷模型点数算法人不一定最适合做这些事 [64][65] 行业踩坑案例与经验 - 阶跃一开始对自己算力和能力过于自信干了一个比 Llama 还大的模型虽然训出来但这个巨大模型有问题过程中犯了一些错误赌的事情可能会错踩坑后再爬起来往前走 [66][67] - 最近有家公司开源模型声称参数量不大但算法做得好效果可越级媲美更大模型但模型因为架构设计问题实际运行效率非常低还不如大模型快反映很多做算法的人并不真正懂硬件也不了解模型在 Infra 层怎么运行 [68][69][70] - 算法人员做模型架构研究时可能画图横轴模型尺寸或激活量纵轴算法效果指标试图找到 sweet point 让模型尺寸不大情况下算法效果不错然后丢给 Infra 人优化即便 Infra 人满足需求模型实际运行也会出问题如果真要画图横轴应该是模型实际运行成本或运行效率纵轴是模型效果跑大量实验找到真正可落地最优点这件事只有在拉通所有团队后才可能完成 [71][72][73] 模型发展前景与多模态 - 模型范式革新不会那么快但多模态还是有突破可能性尤其是多模态生成和理解统一现在多模态状态像 20 年 bert 模型具备理解能力但还没真正做通理解和生成做通标志是同一个模型在理解任务上超越专门做理解模型在生成任务上击败专门做生成模型像 GPT-3.5 出来让很多做翻译等专用模型退休 [75][76][77] - Google Veo 3 效果很不错但偏上一代模型核心是做生成工程做得比较好把配乐等功能很好融合起来技术突破和产品效果不是线性相关 Veo 3 把上一代技术发挥到非常强水平但本身没带来太多范式上创新 [78][79][80] 初创或第三方 AI Infra 公司机会 - 训练侧商业模式不太成立因为训模型的人非常懂行难挣到这些人钱他们也不愿把训练过程中研发细节交给第三方否则泄露核心竞争力排除训练后推理侧还有一些机会如推理加速推理优化 [81][82] - 开源模型对 AI Infra 发展有促进作用开源模型火起来大家研究怎么把它跑得更好促进 AI Infra 进步但所有事情都有两面性如果某个开源模型太火大家花很多精力优化它可能反而影响创新如 DeepSeek 出来前很多人优化 Llama DeepSeek 新范式一出之前在 Llama 上很多积累就废掉 [83][84] 国产芯片与开源策略 - 现在 Infra 基本围绕英伟达卡做优化虽然有团队尝试用国产芯片替代英伟达但很多时候国产卡不是跑不动而是性价比不如英伟达当 DeepSeek 这样好用开源模型出现后做一体机公司发现用英伟达卡跑 DeepSeek 比用国产卡更有性价比更愿选择英伟达卡 [85][86] - 希望国产卡在技术层面具备竞争力根据国产卡特性专门设计模型结构让它在国产卡上高效运行达到 SOTA 水平阶跃开源 Step 3 是国内首个支持第三方商用数百 B 规模视觉推理模型能跑出 SOTA 水平 [87] - 视觉推理是模型根据图片视频抽帧等视觉信息直接完成推理任务如让机器人去柜子拿东西目标物品被杂物遮挡机器人要进行视觉推理进行任务拆解和决策对于机器人或手机汽车等智能设备天然有视觉模态根据周边环境看到的东西决定怎么完成复杂任务是典型视觉推理模型做的事情视觉推理模型更常见应用场景是拍照解题 [88][89][90][91] - 之前有模型可做到拍照解题但是把图片转成文字再做文字推理这种方式不是真正视觉推理现在不需要中间转文字过程让模型直接看图推理如让机器人拿东西目标物品周围有很多遮挡难用文字描述清楚物理世界中位置关系会丢掉很多信息但模型直接看图能直观知道该先拿开这个东西再拿开那个东西最后拿到目标物品 [92][93][94][95] - 选择开源是希望全国上下产业都获益给所有国产芯片免费商用授权开放模型权重尽量帮他们做好模型适配把 Step 3 在国产卡上推理成本压到很低水平提高国产卡在性价比上竞争力通过开源帮助国产芯片构建商业竞争力也希望他们能推广模型最后实现共赢 [96][97][98] 多模态成本与 Infra 人价值 - 多模态理解现在不算贵但生成还是挺贵尤其是视频生成对成本降低蛮乐观一年后应该能下降很多能不能到十分之一不好说但几分之一没问题 [99][100][101] - 在大模型时代 Infra 人容易被低估情况好很多 Infra 已是模型能力核心组成部分之一 DeepSeek 做得好是因为梁文锋是 Infra 人梁文锋做量化出身量化强调低延迟需要对 Infra 有研究在算法数据和 Infra 之间最擅长 Infra 这在业界是共识 DeepSeek 的 Infra 工程师数量比算法工程师多但在很多大公司里情况反过来这可能是在过去一段时间里一些大厂比较挣扎的原因之一 [102][103][104][105][106] - 在大模型快速发展阶段需要有大量 Infra 人把硬件设计和模型优化做到极致并且做好垂直整合但在大厂里人才结构错配不符合做好 AI 本质需求 [107] 给 AI Infra 从业者建议 - 建议靠近模型或者靠近硬件希望打心底对 Infra 感兴趣有足够主观能动性去做各种各样 co-design [108][109] - Richard Sutton 的《The Bitter Lesson》核心观点是从长期来看胜出永远是那些能最大程度利用计算资源方法短期内各种奇技淫巧可能有效但不能本质解决问题虽然文章从算法视角写但对 Infra 人同样有重大指导意义因为最根本任务是设计出能发挥硬件全部性能模型和系统软件让模型能充分利用这些资源最希望是有朝一日还能反过来影响硬件换取摩尔定律不断延续 [109][110][111]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

活动报名：AI 视频的模型、产品与增长实战｜42章经

42章经· 2025-08-10 22:04

AI视频模型技术路径与能力展望 - Luma AI模型产品Lead戴高乐分享视频模型与世界模型的技术路径及未来能力展望 [2] - 探讨视觉模型从diffusion到DiT再到autoregressive的技术演进历程 [3] - 分析更智能的视觉模型能力发展前景 [3] Pixverse用户增长与商业化策略 - 爱诗科技联合创始人谢旭璋分享Pixverse两年内实现6000万用户的关键决策 [3] - 外部模型、自研模型与应用产品的选择与迭代策略 [4] - 从模型到特效类产品的转化逻辑及0-6000万用户的增长点与商业化路径 [4] 视频工具产品增长方法论 - 前OpusClip增长产品负责人谢君陶提出视频工具获客需聚焦创作者长期合作模式 [5] - 转化阶段强调灵活精准的定价策略与分阶段价格实验设计 [5] - 留存策略以用户为中心，通过客服团队与运营保持长期连接 [5] - 早期数据基建的取舍与数据驱动决策在增长中的关键作用 [5] 行业交流活动信息 - 活动聚焦AI视频领域模型、产品、增长三大维度实战经验分享 [10] - 线上会议时间为8月16日10:30-12:30，限额100人（非投资行业优先） [7][10]

关于 AI Infra 的一切 | 42章经

42章经· 2025-08-10 22:04

AI Infra的定义与架构 - AI Infra包括硬件和软件两部分硬件指AI芯片 GPU 交换机等设备软件层面类比云计算分为三层 [3][4] - 最底层类似IaaS 解决基础计算通信和存储问题中间层类似PaaS 包含资源调度资源管理等平台 MaaS归属这一层 [4][5] - 最上层近似SaaS应用层但在AI Infra领域更倾向于理解为训练及推理框架的优化层 [5] AI Infra的发展历程 - 第一批AI Infra人如贾扬清李沐陈天奇等有算法背景他们为充分利用GPU而开发AI Infra [6] - 第二批AI Infra人主要推动AI Infra在工业界的规模化应用 [6] - 大模型兴起使AI Infra进入主舞台类似搜索引擎兴起时的机会窗口可能十年二十年才出现一次 [7][9][10] AI Infra与传统Infra的差异 - AI Infra绝对核心是GPU 传统Infra核心是CPU [11] - AI Infra需要更极致更贴合AI特殊需求太阳底下没有太多新鲜事但要做到更极致 [12] - Infra人才相比算法更强调积累算法依赖年轻人而Infra需要长期经验 [14] AI Infra的核心指标与价值 - 线上服务侧关注首字延迟吐字稳定性整体成本训练侧关注每张GPU处理数据量和训练效率 [15] - 优化Infra可显著降低成本例如1万张GPU每月租金1亿利用率提升10%可节省1000万 [18][19] - 小公司可通过对比云厂商方案决定是否自建Infra 云服务商价值在于帮助小公司节省优化成本 [20][21] AI Infra的商业模式 - 第三方公司短期价值在于提供API集贸市场让客户自由选择不同API [22] - 长期来看第三方需与硬件或模型垂直整合才能建立壁垒避免被云厂商或模型公司取代 [24][25] - MaaS服务商可通过与硬件厂商深度合作获得差异化优势类似游戏机独占游戏 [26][27][28] AI Infra与模型效果 - Infra水平影响模型效果优化更好的Infra可在相同算力下多学20%数据提升模型效果 [36][37] - MFU是常见指标但单一指标难判断优劣 DeepSeek的MFU偏低但Infra并不差 [37][38] - DeepSeek成功关键在于选对优化目标即给定推理成本训出最好模型而非传统训练算力优化 [39][40][41] AI Infra的未来趋势 - 当前最重要指标是decoding速度直接影响线上业务成本和强化学习效率 [44] - 多模态仍有突破可能性需实现理解和生成的统一类似GPT-3.5让专用模型退休 [63][64] - 开源模型促进AI Infra发展但也可能阻碍创新如过度优化Llama影响新范式探索 [69] AI Infra的组织架构 - 理想协作是Infra 算法数据团队共同决策大厂中Infra常被视为支持角色缺乏影响力 [46][47][49] - 合理架构应是Infra人设计模型结构数据人负责刷分算法人主攻训练范式革新 [54] - 大厂人才结构错配如DeepSeek Infra工程师多于算法工程师而多数大厂相反 [81][82] AI Infra的创业机会 - 训练侧商业模式难成立因训练方不愿泄露核心竞争力推理侧如加速优化仍有机会 [67][68] - 国产芯片需专门设计模型结构提升性价比 Step 3开源模型支持国产卡商用并达到SOTA [69][73][74] - 多模态成本有望大幅下降理解已不贵但生成仍贵视频生成一年后可能降至几分之一 [75][76][77]

Artificial Intelligence

Artificial Intelligence

逐鹿人工智能下半场，AI应用商业化起量！基金经理最新观点

券商中国· 2025-08-10 18:21

AI产业进入商业化闭环阶段 - AI正进入从算力投入到云服务消耗、再到商业化收入，最终回到算力再投入的良性循环，AI应用的起量是推动这一飞轮效应的关键 [1] - 国务院提出深入实施"人工智能+"行动，推动AI在经济社会发展各领域加快普及、深度融合，形成以创新带应用、以应用促创新的良性循环 [2] - 多位基金经理认为AI将进入商业化闭环新阶段，海内外AI应用加速起量，带动token调用量爆发增长，核心产品ARR斜率走陡，AI正逐渐进入下半场的应用爆发阶段 [2] AI应用商业化起量起规模 - 今年是AI应用商业化开始起量、起规模的关键一年 [3] - 海外方面：Cursor成为历史上最快达到5亿美元ARR的公司，Anthropic的ARR在半年内从10亿美元飙升至近40亿美元，OpenAI年化收入突破100亿美元（同比增长80%），Google的token日均调用量达16万亿（同比增长50倍） [3] - 国内方面：快手可灵推出10个月后ARR突破1亿美元，字节豆包大模型日均token使用量超16.4万亿（环比增长3.7万亿，较发布时增长137倍） [3] - AI功能正渗透进日常工作生活，token数量爆发式增长代表实际使用量飞速增长，Deepseek降低单位算力成本推动应用落地 [4] AI应用商业化进展与方向 - AI应用行情不再由事件催化主导，而是聚焦商业化实际进展，美股AI应用公司不断上修AI驱动业绩预期 [4] - AI应用聚焦B端和C端双轨赋能：B端以AI智能体为核心实现降本增效，2025年全球AI工具在代码生成等领域的应用率超25%；C端通过硬件集成和多模态体验重塑用户体验，但变现较弱 [5] - 短期可关注B端AI智能体方向和C端多模态相关方向，GPT5和国内政策支持为催化因素 [5] AI智能体成为核心入口 - AI Agent是人机交互的重要入口，OpenAI发布的GPT-5强化了Agent功能，可自动完成复杂任务 [6] - 2025年被称为"智能体元年"，智能体将演变为蜂群、集群，改变企业组织运营模式 [6] - AI智能体从2023年代理型工具阶段演进至2025年产业渗透阶段，实现垂直深耕和规模化落地 [7] - AI Agent有望成为新的互联网核心，催生手机厂商和互联网厂商的入口争夺，荣耀与智谱、苹果与阿里等合作抢滩AI Agent [7] 端侧创新为下一轮增长引擎 - AI端侧（手机、PC、眼镜等）进展相对缓慢，市场期待C端爆款产品和硬件突破 [10] - iPhone17系列的AI升级有望带动芯片、主板等产业链环节升级，AR/MR设备或成为多模态AI终端更优选 [10] - 智能眼镜、智能玩具和智能家居是端侧AI重要载体，智能眼镜行业2024年销量300万台，预计2027年达1亿台（对应1000亿元市场空间） [11] - 端侧创新是新一轮科技周期重要催化剂，硬件迭代速度快，明后年或见明显改善 [11]

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

中信证券：GPT-5发布美股科技领域建议布局AI计算芯片等领域

证券时报网· 2025-08-10 17:13

GPT-5发布与资本市场影响 - OpenAI发布GPT-5模型，推理能力显著进步，定价与Gemini2.5Pro等主流模型持平，性价比提升[1] - GPT-5在垂类场景如编程和医疗测评表现优异，展现场景拓展潜力[1] AI行业技术迭代趋势 - 模型厂商快速更新迭代推动科技巨头在前沿模型领域军备竞赛[1] - 推理能力提升、scaling law及多模态技术推动算力需求爆炸式增长[1] - 推理能力进步解锁复杂应用场景可能性[1] 美股科技领域投资建议 - 建议围绕AI基础设施和应用环节布局，重点领域包括AI计算芯片、HBM、AI网络设备[1] - IDC、基础&应用软件、互联网服务等领域为推荐投资方向[1]