42章经

搜索文档
活动报名:AI 视频的模型、产品与增长实战|42章经
42章经· 2025-08-10 22:04
AI视频模型技术路径与能力展望 - Luma AI模型产品Lead戴高乐分享视频模型与世界模型的技术路径及未来能力展望 [2] - 探讨视觉模型从diffusion到DiT再到autoregressive的技术演进历程 [3] - 分析更智能的视觉模型能力发展前景 [3] Pixverse用户增长与商业化策略 - 爱诗科技联合创始人谢旭璋分享Pixverse两年内实现6000万用户的关键决策 [3] - 外部模型、自研模型与应用产品的选择与迭代策略 [4] - 从模型到特效类产品的转化逻辑及0-6000万用户的增长点与商业化路径 [4] 视频工具产品增长方法论 - 前OpusClip增长产品负责人谢君陶提出视频工具获客需聚焦创作者长期合作模式 [5] - 转化阶段强调灵活精准的定价策略与分阶段价格实验设计 [5] - 留存策略以用户为中心,通过客服团队与运营保持长期连接 [5] - 早期数据基建的取舍与数据驱动决策在增长中的关键作用 [5] 行业交流活动信息 - 活动聚焦AI视频领域模型、产品、增长三大维度实战经验分享 [10] - 线上会议时间为8月16日10:30-12:30,限额100人(非投资行业优先) [7][10]
关于 AI Infra 的一切 | 42章经
42章经· 2025-08-10 22:04
AI Infra的定义与架构 - AI Infra包括硬件和软件两部分 硬件指AI芯片 GPU 交换机等设备 软件层面类比云计算分为三层 [3][4] - 最底层类似IaaS 解决基础计算 通信和存储问题 中间层类似PaaS 包含资源调度 资源管理等平台 MaaS归属这一层 [4][5] - 最上层近似SaaS应用层 但在AI Infra领域更倾向于理解为训练及推理框架的优化层 [5] AI Infra的发展历程 - 第一批AI Infra人如贾扬清 李沐 陈天奇等有算法背景 他们为充分利用GPU而开发AI Infra [6] - 第二批AI Infra人主要推动AI Infra在工业界的规模化应用 [6] - 大模型兴起使AI Infra进入主舞台 类似搜索引擎兴起时的机会窗口 可能十年二十年才出现一次 [7][9][10] AI Infra与传统Infra的差异 - AI Infra绝对核心是GPU 传统Infra核心是CPU [11] - AI Infra需要更极致 更贴合AI特殊需求 太阳底下没有太多新鲜事但要做到更极致 [12] - Infra人才相比算法更强调积累 算法依赖年轻人而Infra需要长期经验 [14] AI Infra的核心指标与价值 - 线上服务侧关注首字延迟 吐字稳定性 整体成本 训练侧关注每张GPU处理数据量和训练效率 [15] - 优化Infra可显著降低成本 例如1万张GPU每月租金1亿 利用率提升10%可节省1000万 [18][19] - 小公司可通过对比云厂商方案决定是否自建Infra 云服务商价值在于帮助小公司节省优化成本 [20][21] AI Infra的商业模式 - 第三方公司短期价值在于提供API集贸市场 让客户自由选择不同API [22] - 长期来看 第三方需与硬件或模型垂直整合才能建立壁垒 避免被云厂商或模型公司取代 [24][25] - MaaS服务商可通过与硬件厂商深度合作获得差异化优势 类似游戏机独占游戏 [26][27][28] AI Infra与模型效果 - Infra水平影响模型效果 优化更好的Infra可在相同算力下多学20%数据 提升模型效果 [36][37] - MFU是常见指标但单一指标难判断优劣 DeepSeek的MFU偏低但Infra并不差 [37][38] - DeepSeek成功关键在于选对优化目标 即给定推理成本训出最好模型 而非传统训练算力优化 [39][40][41] AI Infra的未来趋势 - 当前最重要指标是decoding速度 直接影响线上业务成本和强化学习效率 [44] - 多模态仍有突破可能性 需实现理解和生成的统一 类似GPT-3.5让专用模型退休 [63][64] - 开源模型促进AI Infra发展但也可能阻碍创新 如过度优化Llama影响新范式探索 [69] AI Infra的组织架构 - 理想协作是Infra 算法 数据团队共同决策 大厂中Infra常被视为支持角色缺乏影响力 [46][47][49] - 合理架构应是Infra人设计模型结构 数据人负责刷分 算法人主攻训练范式革新 [54] - 大厂人才结构错配 如DeepSeek Infra工程师多于算法工程师 而多数大厂相反 [81][82] AI Infra的创业机会 - 训练侧商业模式难成立 因训练方不愿泄露核心竞争力 推理侧如加速优化仍有机会 [67][68] - 国产芯片需专门设计模型结构提升性价比 Step 3开源模型支持国产卡商用并达到SOTA [69][73][74] - 多模态成本有望大幅下降 理解已不贵但生成仍贵 视频生成一年后可能降至几分之一 [75][76][77]
我不给人做产品,给 Agent 做 | 42章经
42章经· 2025-06-29 22:48
Agent Infra市场机会 - Agent Infra被视为下一个投资热点 未来Agent数量将达到SaaS的几千倍[1][2] - 现有互联网基础设施不适合AI使用 需要为Agent重构[2] - Agent Infra市场规模巨大 类比AWS级别的机会[17] - 互联网上40%流量来自机器人 但大模型流量仅占0.1% 未来可能有10万倍增长空间[23][56] Agent与人类差异 - 交互方式:Agent通过文本和多模态后端交互 人类依赖前端界面[5] - 学习方式:Agent可同时执行任务和学习 人类无法并行[5] - 工作模式:Agent多线程并行 人类单线程按流程执行[6][7] - 责任界定:人类可负责自身行为 Agent需要安全边界[8][10] - 执行状态:Agent需保持多任务状态 人类天然不需要[8] Agent浏览器特性 - 云端化运行 持续工作不需休息[24] - 无前端界面 直接后端交互[25] - 设计反馈循环 支持自主迭代[26] - 安全机制:本地处理账号密码 不泄露给大模型[28][29] - 支持多线程任务连续性 避免资源浪费[31] Agent Infra技术架构 - 三层架构:Runtime层(浏览器内核) Agentic层(交互控制) Knowledge层(领域knowhow)[32] - Runtime层解决网页拉取和渲染 Agentic层控制AI与网页交互[33] - 必须同时构建Runtime和Agentic层才能实现完整功能[35] - Browserbase估值3亿美元 专注Runtime层[22][34] Agent Infra细分领域 - 主要环境:Coding环境(逻辑执行) Browser环境(网页交互)[37] - 工具类:身份认证 支付能力 通讯工具等可重做[38] - 场景切入:旅游Agent需CRM 搜索 支付等工具[40] - 数学环境:公式执行器 定理检索等工具[42] - 物理环境:传感器 具身智能 空间智能等[38] 市场发展阶段 - 类比22年AI Coding 当前Browser Use处于早期[44] - 全球软件开发市值3-4万亿美元 AI Coding仅100亿 增长空间大[47] - 互联网活动通过AI提升5%效率将创造巨大市场[48] - 差异化关键:深耕细分场景 抢占99.9%未开发市场[56] Agent产品设计核心 - 反馈循环设计比上下文或数据更重要[50] - 人类知识可能非必要 Agent可通过强化学习自主迭代[51][52] - AlphaProof案例:仅用+1/-1奖励机制 不参考人类解法即获奥数银牌[52] - 未来范式:Agent通过环境体验获取真实反馈 自主进化[53]
活动报名:Agent Infra 领域里的下一个大机会 | 42章经
42章经· 2025-06-15 21:53
Agent赛道热度与机会 - Agent赛道热度持续数月 多个方向项目已获融资 行业关注下一波机会 [1] - Agent Infra被视为新兴机会 涉及基础设施层创新 [1] - 硅谷热门项目E2B和Browserbase引发行业讨论 [1] Agent Infra发展路径 - 产品设计从"面向人类"向"面向Agent"演化 需重构交互逻辑 [2] - Agent专属浏览器成为关键基础设施 需解决差异化需求 [2] - 行业探索长期记忆解决方案 技术进展受关注 [2] 行业实践动态 - Grasp创始人提出Agent Infra方法论 强调实践观察 [1][2] - 线下活动聚焦一线创业者经验 覆盖浏览器实践等主题 [2] - 行业交流趋向垂直化 限定非投资领域从业者参与 [2]
抱着“不做就会死”的决心,才能真正做好全球化 | 42章经
42章经· 2025-06-15 21:53
全球化战略与心态 - 全球化必须被视为"不做就会死"的战略而非第二曲线尝试 否则难以真正投入资源与决心 [2][4] - "出海"与"全球化"存在本质差异 前者缺乏明确市场聚焦 后者需从day 1就选定具体地区突破 [6][8] - 美国市场具有最高辐射价值 其成功案例能带动其他地区 而日本/东南亚市场无法反向影响美国 [11][12] - 美国企业软件客户支付意愿强 系统宕机5分钟造成的股价损失远超服务费用 百万美金级测试预算很常见 [13] 市场选择与执行策略 - 日本市场业务极度可预测 但增长节奏不受供应商push影响 客户具有强烈契约精神 [15][17][18] - 必须摒弃"出差心态" 需要团队常驻海外才能建立深度客户关系 临时拜访难以形成长期合作 [19] - 团队组建应岗位差异化 销售/解决方案需本地化 研发初期可从国内派遣但需逐步过渡 [20][22] - 中国团队三大竞争优势:技术工程能力、供应链管理、7×24小时贴身服务响应速度 [24][25][26] 产品与商业化关键 - 安全合规优先级高于产品性能 需提前1-2年准备SOC/HIPAA等认证 否则将错失金融医疗客户 [32][33] - 海内外产品本质不同 国内侧重私有化部署 海外主推云服务 开源内核是最大公约数 [34] - UI/UE设计ROI极高 直接影响客户第一印象 美国市场特别重视Storytelling能力 [35] - 客户选择应聚焦LTV 北美客户实际价值可能是预估值的3-5倍 年贡献100w美金才算大客户 [39][41][42] 组织与资源配置 - 创始人需预留300w美金学费 做好3年零产出准备 PingCAP曾犯过5000w美金级错误 [29] - 早期应招聘本地销售并共同拜访客户 销售背景负责人更易衡量产出 最终各地区一号位多为销售出身 [29] - 全英文办公和使用国际化工具是检验团队国际化水平的重要里程碑 [48] - 国内业务增长反而可能拖累全球化进度 其他地区已盈利情况下中国区仍在亏损 [49] 行业认知与建议 - 无需过度关注竞争对手 美国市场足够大 主要威胁来自传统云厂商而非同规模公司 [27][28] - PLG/SLG选择取决于产品DNA 本质应追求Value-LG LTV长短决定商业模式 [46] - Marketing应后置于客户口碑 早期重点获取能主动传播产品的标杆客户 [47] - 企业服务行业在海外利润率显著高于中国 全球化需要坚决all-in的决策 [49][50]
张津剑:投资中的频率与频谱 | 42章经
42章经· 2025-06-08 16:11
注意力机制与人类信息处理 - Transformer架构首次赋予机器注意力机制 推动AI技术飞跃 并促使人类重新审视自身信息感知方式 [1] - 人类感知-处理-行动系统存在巨大鸿沟:视网膜每秒接收10^9比特信息 大脑处理仅10^6比特 输出带宽仅10^1比特 [6][7] - 注意力机制作为主动过滤器 帮助人类在信息洪流中聚焦关键信号 但当前普遍面临机制崩溃导致独立判断能力丧失 [8][10] 社会分化与注意力失控 - 注意力失控导致世界分化加剧 体现为地缘政治冲突 贫富差距扩大及微观人际关系割裂 [1][3] - "拉尔森效应"普遍存在:信息输入输出端口过近导致信号循环啸叫 引发赛道投资极端化(过热或过冷) [12][13][14] - 创始人案例显示 专注冷门领域7年最终获得全球仅4张的国家牌照 验证注意力博弈价值 [19][20] AI与人类能力对比 - AI通过注意力机制实现能力飞跃 未来将具备全频谱感知能力(包括X光 伽马射线等人类不可感知频段) [34][35] - 人类局限性体现为:感知频谱仅占已知电磁波频谱1/10^9 依赖核磁共振等工具间接获取信息 [33] - 未来AI系统将是"传感器+Agent+具身智能"三位一体 需以AI为中心重构工作流而非简单赋能人类 [35][37][38] 人类在AI时代的核心价值 - 创造需求成为关键价值 需明确自身要解决的问题 而非依赖市场反馈贴标签 [40][42] - 审美作为超越多模态的处理结果 是人类独有的核心能力 能预判技术路径或感知潜在风险 [41][42][43] - 心力取代智力成为核心竞争力 优秀创始人特质体现为逆境坚持与克制 [44] 创业与投资启示 - 冷门领域存在未被充分估值的机会 需通过专注发现根本性变化(如2023年具身智能案例) [15][16][17] - 传感器技术将迎来爆发 创业者应探索人类未利用的数据频段(如α波 伽马射线) [34][35] - 区块链或成为Agent互联网的基础设施 当前多数项目仍错误围绕人类需求设计 [35][36]
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经· 2025-04-27 22:10
Agent定义与核心特征 - Agent是基于环境反馈使用工具的程序 采用Anthropic的定义[2] - 核心三要素包括状态(Context)、行动(Tool Use)、激励信号(RL反馈机制)[32][33] - 与RL强关联 需理解强化学习才能设计优质Agent产品[31] Agent技术演进 - 2023年4月AutoGPT为代表的早期Agent更像玩具 实际应用价值有限[4] - 当前Agent已能在工作生活场景中真正解决问题 实现价值跃迁[5] - 进步源于:1)底层模型能力提升(如RL结合、长思维) 2)工程产品突破(Context构建)[6][7] Context工程创新 - Context是大模型执行任务所需信息总和 不同产品Context构成不同[8] - 相比传统RAG Agent能自动化提炼Context 减少人工干预[10][11] - 优质Context需包含用户历史行为路径 如APP打开瞬间即提供海量意图线索[48][49] Tool Use技术方案 - Function Call/MCP/A2A属于代码驱动派 Computer Use/Browser Use属于视觉模拟派[13] - MCP核心价值在于统一Tool Use标准 降低工具调用门槛[12] - Browser Use存在纯视觉方案(如已倒闭的Adept)和API包装方案 后者更成熟稳定[15] 产品设计方法论 - Chat是最佳交互入口 保障用户自由度优于追求准确度[41] - 需解决双重信任问题:开发者信任模型能力 用户信任执行过程[52][54] - 垂直领域Agent将长期主导 通用Agent面临收敛困难[25][46] 行业竞争格局 - 当前Agent可分为:1)Coding Agent(交付代码) 2)调研Agent(交付报告) 3)表格Agent(定量分析)[61][64] - Sheet0实现100%准确率 核心在于模块化工具复用与AI Coding验证[57][67] - AI Coding与Agent存在协同效应 但直接编码执行任务成本过高[29][30] 发展关键变量 - 模型能力突破与Context工程进步是两大核心驱动因素[69][70] - 需构建完整评估体系(激励信号) 确保系统可收敛[35][71] - 产品需平衡通用性与准确性 不同场景选择不同技术路径[59][60]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:02
技术原理 - 强化学习(RL)是用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案但有反馈机制评判结果[3][7] - 大语言模型(LLM)本质是预测下一个词,存在不遵从指令的缺陷,通过与 RL 结合解决该问题[8][9][10] 行业应用 - RL+LLM 应用广泛,海外 OpenAI 的 RL 已从纯推理进化到 Agent 范式,实现多轮交互和上网互动[21] - 国内豆包和 DeepSeek 等团队在探索 RL+LLM 的新可能性,不同公司在该路径上出现编程、Agent、通用泛化能力等分支[21][26][27][28] 发展趋势 - 预训练的规模法则收益变小,但仍有数据和模型小型化两个发展方向;RL 的规模法则处于初始阶段,决策能力将持续提升[26] 人才与基建 - RL 人才稀缺,因门槛高、工业界应用少、对工程要求高;开源工作可降低使用门槛,如 AReaL - boba 框架[33][34][35][36] 训练与评估 - RL 训练中基建最重要,其次是数据和算法;评估可看准确率和多轮交互体验[29] 组织架构 - 大模型团队最好将 LLM 和 RL 两条线融合,至少设预训练和后训练团队,再按目标细分[31]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 20:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]
世界怎么就「东升西落」了?聊聊二级市场与 DeepSeek+Manus 的热潮 | 42章经
42章经· 2025-03-31 06:25
「东升西落」叙事 - 市场近期开始讨论「东升西落」叙事 指中国资产预期回升而美国资产因宏观不确定性承压 [1][2] - 美国市场因Trump政策调整(关税 财政去杠杆)转向宏观担忧 AI叙事弱化 股市波动加剧 [3] - 中国市场此前预期过低 DeepSeek等事件推动价值重估 形成与美国镜像的走势 [4][5][6] 中美AI发展路径差异 - 美国AI聚焦scaling law和AGI 依赖高成本算力堆砌 但模型能力提升不及预期 [8][9] - 中国AI侧重应用与PMF DeepSeek通过工程优化大幅降低成本 快速商业化落地 [7][8] - 美国OpenAI延迟交付GPT-5 中国DeepSeek超预期表现打破低预期 [9] 标志性公司分析 - **DeepSeek**:开源模型降低行业门槛 腾讯等大厂直接基于其开发应用 跳过模型军备竞赛阶段 [27][28] - **Manus**:聚焦AI普惠化 目标覆盖未接触AI的用户群体 与硅谷AGI叙事形成鲜明对比 [11][12][13] - **互联网大厂**:阿里宣布加大AI Capex后股价上涨 市场预期从价值股转向创新驱动 [25][26] 二级市场趋势 - **预期变化**:美国AI预期已透支 中国正经历从0到1的填平过程 本土科技股对标美国2023年ChatGPT时刻 [20][22][23] - **产业趋势**:中国专精特新企业(如宁德时代)通过技术突破或出海确立领先地位 呈现顺周期特征 [37] - **宏观趋势**:中国消费信心改善 房价回升 DeepSeek点燃市场情绪 但需关注长期经济结构转型 [35][36] 投资机会与风险 - **AI领域**:模型价值分配 原生应用(如Agent)及垂直行业(医疗 金融)应用是三大关注方向 [47][48] - **非AI领域**:美国生物医药 航空航天及中国政策支持行业(如民营企业家座谈会提及公司)存在机会 [48] - **市场行为**:信息处理加速导致板块轮动加快 企业蹭热点讲故事现象可能增多 [40][41] 中美技术分工与卡脖子问题 - 中国主导AI商业化探索 推理卡(如寒武纪)性能提升缓解算力瓶颈 预训练仍依赖英伟达 [31][32][33] - 美国在互联通信技术垄断 但中国推理场景对高性能卡需求较低 形成差异化竞争 [31][32]