模型训练 - 财报，业绩电话会，研报，新闻

公司财务状况与融资需求 - 公司预计2026年将烧掉170亿美元现金，高于2025年的90亿美元，且未来三年亏损将持续累积[3] - 公司已从投资者处筹集超过600亿美元资金，几乎所有资金都在ChatGPT于2022年底成名后筹集[3] - 公司“几乎肯定”会在2026年再次筹集大量资金，据报道正寻求高达1000亿美元融资，估值可能达8300亿美元，高于去年10月的5000亿美元[5] - 亚马逊正单独洽谈向公司投资至多100亿美元，英伟达也可能分批投资至多1000亿美元以帮助其采购芯片[5] - 公司已摆脱与微软的独家合作关系[5] 营收增长与成本压力 - 公司2023年营收突破10亿美元，据报道2025年营收将达到130亿美元，到年底年化营收将达到200亿美元[6] - 谷歌和Facebook分别用了五年和六年时间才实现年营收200亿美元的成就[6] - 公司计算需求从2023年的200兆瓦增长到2025年的1.9吉瓦，并已签署意向书计划未来几年新增30吉瓦计算能力，总成本约为1.4万亿美元[6] - 公司最大的成本是计算能力，且需求与收入紧密挂钩[6] - 有泄露的微软数据显示，公司2025年上半年的推理成本超过了其收入[8] 市场竞争与产品表现 - 过去一年来，最先进模型之间的性能差距已显著缩小[7] - 谷歌于去年11月发布的Gemini 3模型在许多指标上都优于公司的GPT-5.1，公司随后推出的GPT-5.2远未取得决定性胜利[7] - 开放模型（可免费获取）正在不断缩小与封闭模型之间的性能差距[7] - 截至12月中旬，ChatGPT的月活跃用户数为9.1亿，而Gemini为3.45亿，但Gemini正在迎头赶上[8] - 德意志银行研究发现，消费者对ChatGPT服务的订阅量在夏季“几乎停滞”，此后几乎没有增长[8] - 公司面临来自Anthropic等竞争对手的激烈竞争，其Claude聊天机器人尤其受程序员欢迎[9] 业务多元化与商业化战略 - 公司业务范围不断扩展，目标包括定制芯片、电子商务、商业咨询和消费设备[3] - 公司战略的一部分是开发新的技术盈利途径，计划在2026年将广告整合到ChatGPT中[9] - 公司已允许包括Etsy和沃尔玛在内的美国公司通过聊天机器人销售产品并收取费用[9] - 公司希望拓展来自企业客户的收入，建立了咨询部门帮助大型企业部署技术，并开发了如AgentKit等企业级工具[9] - 公司与芯片设计公司博通签署协议共同开发定制芯片，并聘请了乔纳森·艾维爵士开发消费级设备[10] - 公司战略包含垂直整合，灵感来源于谷歌[10] 发展势头与内部挑战 - 公司老板在12月初启动了临时“红色警报”，要求员工暂停其他项目，优先改进ChatGPT[8] - 为了减少亏损，公司可以提高价格或限制访问权限，但这将面临拖累增长的风险[8] - 公司老板曾认为随着公司发展壮大其经济效益会改善，但由于面临激烈竞争，训练成本持续攀升[7] - 一些投资者开始担忧，有风险投资家指出公司的亏损额堪比许多国家政府的财政赤字[11] - 有投资者问及公司将如何支付2025年相当于其收入100倍左右的支出承诺时，公司老板恼火地回怼[11] - 批评者将公司比作“打了兴奋剂的WeWork故事”[11]

人工智能

模型训练

人工智能

英伟达史上最大的一次收购，也可能是最招骂的一次

36氪· 2025-12-30 09:45

收购事件概述 - 英伟达计划进行一项价值200亿美元的收购，目标是芯片制造商Groq，这可能是英伟达史上最大收购案 [1] - 该交易在科技圈引发广泛讨论，包括对垄断的担忧以及对Groq技术优势的分析 [3] - 英伟达并未公开承认收购，而是与Groq签署了一份非独家许可协议，授权使用其推理技术，但实质上通过“剥壳式收购”获得了其核心技术与关键人才 [22][23] 被收购方Groq公司背景 - Groq是一家成立于2016年的芯片公司，2024年估值已超过70亿美元 [3] - 公司创始人是Jonathan Ross，他是谷歌第一代TPU（张量处理单元）的设计师 [3] - 公司的核心产品是LPU（语言处理单元），这是一种专为加速AI计算、特别是语言模型推理而设计的新型专用芯片 [5][7] LPU技术路线与特点 - LPU技术路线独特，完全放弃了GPU的通用性，专门针对AI计算，特别是语言模型推理进行优化 [5][7] - LPU的一个显著特点是其架构中没有使用HBM（高带宽内存，即常说的“显存”）[7] - 为解决无显存带来的参数存储问题，LPU采用了SRAM（静态随机存取存储器）作为离计算核心更近的存储单元，但单卡SRAM容量极小，仅几十到几百MB [12] - Groq通过暴力组装成千上万张LPU卡组成集群，每张卡只存储和计算模型的一小部分参数，最后汇总输出，以此实现高速推理 [12] - 凭借此架构，LPU的数据存取速度据称能达到GPU的20倍以上，推理速度极快 [12] 市场表现与竞争对比 - 在模型推理业务的市场统计中，Groq已超过亚马逊，仅次于微软 [12] - 在英伟达GPU占据主导地位时，Groq的LPU曾展现出比行业龙头推理速度快10倍的潜力 [14] - 然而，也有看衰观点，如前阿里副总裁贾扬清的测算指出，使用LPU运营三年的采购成本是英伟达H100的38倍，运营成本是其10倍，认为LPU替代GPU为时尚早 [17] 行业趋势与战略意义 - 此次收购行为预示了AI行业的一大趋势：模型推理部署的需求将逐渐超过模型训练 [24] - 目前，训练成本占大型云计算公司数据中心支出的60%，但分析师预计到2032年，这一比例将降至20%左右 [25] - 行业需求正从不计成本训练模型，转向追求“又快又省”的推理芯片 [25] - 对英伟达而言，此次行动被视为补齐了其在非HBM架构上的短板，是对谷歌TPU技术路线的一种认可，也表明其意图通吃AI模型训练与推理整个算力市场 [25]

LPU（Language Processing Unit

LPU（Language Processing Unit

语言处理单元）

协创数据(300857.SZ)：国内企业可通过公司的海外算力平台进行模型训练

格隆汇· 2025-11-12 19:14

公司业务动态 - 协创数据在投资者互动平台表示国内企业可通过其海外算力平台进行模型训练 [1]

阿里巴巴-W(09988.HK)2QFY26前瞻：云继续加速增长闪购亏损达到单季度峰值

格隆汇· 2025-10-12 11:14

整体财务表现 - 预计2026财年第二季度总营收为2456亿元，同比增长4% [2][4] - 预计经调整EBITA为85亿元，同比下降79% [2][4] - 预计经调整EBITA利润率为3.5%，同比下降13.6个百分点 [2][4] - 利润下降主要由于第三季度为闪购业务投入高峰，以及AI相关算力投入增加 [2][4] 云智能业务 - 预计2026财年第二季度云智能收入同比增长30%，继续保持加速增长 [2][4] - EBITA利润率预计保持稳定 [2] - 公司积极推进3800亿元AI基础设施建设，并计划追加更大投入 [2] - 本季度发布7款AI模型，其中Qwen3-Max位列全球第三 [2] - AI基础设施全面升级，推出磐久128超节点AI服务器等新产品 [2] 中国电商业务 - 预计2026财年第二季度中国电商集团收入环比下降13%，主要受季节性因素及闪购业务投入影响 [2][4] - 预计GMV同比增长5%，增速接近行业大盘 [2] - 预计客户管理收入同比增长10%，即时零售贡献约2%-3%的增长 [2] - Take rate继续实现同比提升 [2] 国际数字商业与即时零售 - 预计2026财年第二季度国际数字商业集团收入同比增长17% [2][4] - 预计即时零售业务整体经调整EBITA亏损365亿元 [2] - 8月达到单量和单均亏损峰值后，9月开始进入扭亏节奏 [2] - 公司当前以市场份额为主要目标，专注于履约能力和用户心智建设 [2] 其他业务 - 预计AIDC收入增速将继续放缓，本季度维持接近盈亏平衡 [2] - 预计所有其他业务亏损较上季度扩大至50亿元左右 [2] - 亏损扩大主要由于AI模型训练、应用算力投入及盒马、高德等业务投入增加 [2] 未来展望与预测 - 小幅调整公司2026至2028财年收入预测至10503亿元、11879亿元、13050亿元，调整幅度分别为-1.5%、-0.1%、0.3% [3] - 调整公司2026至2028财年经调整净利预测至1084亿元、1502亿元、1772亿元，调整幅度分别为-14%、-10%、-10% [3] - 预测调整主要由于闪购业务及AI相关投入高于预期 [3]

Alarum Technologies .(ALAR) - 2025 Q2 - Earnings Call Transcript

2025-08-28 21:30

财务数据和关键指标变化 - 第二季度收入880万美元略低于去年同期的890万美元 [6][16] - 净利润30万美元去年同期净亏损40万美元 [6][19] - 调整后EBITDA 100万美元去年同期为340万美元 [6][19] - 非IFRS毛利率63% 去年同期为78% [17] - 运营费用540万美元去年同期420万美元主要因研发人员成本增加 [17] - 金融收入40万美元去年同期金融费用250万美元主要因认股权证公允价值变动 [18] - 股东权益增至2910万美元去年底为2640万美元 [20] - 现金及长期投资余额2500万美元与去年持平 [14][20] - 基本每股收益0.04美元去年同期亏损0.05美元 [19][20] 各条业务线数据和关键指标变化 - AI客户群体显著增长主要替代其他细分市场的客户 [16] - 新推出大规模AI数据收集和标注项目涉及数据收集、标注和微调用例 [7][8] - 旗舰产品数据收集器和网站解锁器需求强劲代理网络快速扩张 [8] - 客户结构变化导致净留存率NRR为0.98 [16] 各个市场数据和关键指标变化 - AI市场成为主要驱动力客户包括大型科技公司和电商平台 [6][7] - 与亚洲最大在线市场之一达成合作开展大规模数据收集项目 [7] - 客户范围从科技巨头到初创企业数据价值显著提升 [7] 公司战略和发展方向和行业竞争 - 战略决策增加投资利用盈利业务再投资于公司发展 [13] - 投资重点包括创新、基础设施、客户群扩张和与大公司合作 [13] - 代理网络基础设施投资增加销售成本但优化长期网络基础设施 [10] - 研发投入增加以扩展产品组合和能力 [11][17] - 目标成为AI数据收集的核心企业满足各类公司需求 [12][13] - 行业处于早期阶段高度动态和不可预测 [12] - 竞争激烈公司利用盈利运营和专业知识扩大网络和服务器能力 [60] 管理层对经营环境和未来前景的评论 - 业绩超预期且符合6月上调的指引 [6] - 数据成为最有价值的商品带来一代人一次的机会 [9] - 短期利润率下降是设计选择为满足主要AI玩家需求 [10][13] - 市场仍处于婴儿期客户需求难以预测超过几个月 [12] - 建议投资者以多季度而非单季度评判发展 [12] - 第三季度起与战略客户合作预计增加季度收入约300万美元 [17] - 新项目初期利润率较低影响整体盈利能力 [17][22] 其他重要信息 - 认股权证将在一个月内到期消除未来影响 [18] - 2025年1月支付170万美元税款影响现金流 [21] - 2025年收入指引1280万美元同比增长78% [22] - 调整后EBITDA指引约110万美元范围±5万美元 [22] - 指引包含新大型AI数据项目的初步影响 [22] 问答环节所有提问和回答问题: 大客户利润率低的原因和恢复条件 [25] - 因新产品的技术基础设施成本高特别是服务器和网络相关成本 [27][28][30] - 需要改善成本结构或增加标准毛利率项目来恢复利润率 [32] 问题: 新产品特点 [34] - 数据量、体积和带宽需求巨大与以往项目有重大区别 [35] 问题: 更广泛客户群使用情况和新客户渠道 [36] - AI和数据需求趋势强劲新客户不断涌入渠道良好 [37] - 需求巨大正投资网络基础设施和功能以满足需求 [38] 问题: 客户结构变化对客户终身价值的影响 [42][43] - NRR计算方法可能暂时误导但季度间增长显著 [45][47] - AI客户需求可能持续未来NRR将反映这种变化 [47] 问题: 大客户历史和对Q2的影响 [49] - 客户合作约1.5季度 Q2已有可观收入现在显著增长 [50][51] 问题: Q3收入300万美元的可见性 [52] - 三分之二季度已过对9月预测有信心 [55] - 项目持续时间不可预测与其他项目相同 [56] 问题: 未来毛利率走势 [59] - 若增长来自当前业务模式毛利率可能改善 - 若有新项目可能再次影响毛利率 - 行业需求增长但竞争激烈公司正投资扩大能力 [60]

Alarum Technologies .(US:ALAR)

热议！DeepSeek V3.1 惊现神秘 Bug，模型故障了？

程序员的那些事· 2025-08-26 20:35

DeepSeek V3.1 技术升级 - 采用混合推理架构，同时支持"思考模式"与"非思考模式"，推理效率提升20%-50% [1] - 兼容128K长上下文处理，引入UE8M0 FP8参数精度格式，内存占用降低75% [1] - 适配国产下一代芯片，降低对进口GPU的依赖 [1] 模型输出异常现象 - 生成文本时随机出现「极」、「極」、「极速」或「extreme」等token，概率完全随机 [2][12][13] - 问题在火山引擎、chutes等第三方API平台出现频率较高 [4][6][7] - 腾讯Codebuddy AI编程工具在UI界面中自动添加"极速赛车开奖"、"极速电竞"等异常token [9] - DeepSeek官网同样存在该问题，但第三方平台出现概率更高 [12] 异常案例具体表现 - 火山引擎API输出数据中包含"极"字符，例如数组数据中插入"[0极,3,0.5]"等异常格式 [5] - 用户调用VolcEngine DeepSeek V3.1整理物理试卷时，输入包含"极板"等无关词汇 [6] - Reddit用户测试发现模型在编程场景下输出异常，如将"time.Second"错误生成"time.Se极"或"time.Se extreme" [15][17][21] - 异常token的ID分别为：简体中文"极"(ID:2577)、繁体中文"極"(ID:16411)、英文"extreme"(ID:15075) [15] 问题影响范围与历史关联 - 异常现象不仅存在于DeepSeek V3.1，早期版本DeepSeek V3 0324同样存在类似问题 [22] - Qwen3系列模型（包括235B A22B Instruct 2507和30B A3B Instruct）也出现相同症状，推测可能使用了相同被污染的数据 [22] - GLM 4.5模型未受该问题影响 [22] 技术分析与潜在原因 - 异常token"极"(ID:2577)紧邻省略号token(ID:2576)，可能因训练数据清洗不彻底导致特殊字符残留 [25][26] - 推测训练数据中存在"极长的列表"等模式化表达，模型将"极"误学为语义边界符或终止符 [25][27] - 问题可能通过RL或自蒸馏阶段被放大，模型将统计规律误判为语言逻辑 [26][27] - 异常输出在编程、结构化数据生成等需高精度场景下会导致结果不稳定 [28]

GPT-oss太离谱：无提示自行想象编程问题，还重复求解5000次

量子位· 2025-08-11 16:32

GPT-oss模型行为分析 - 模型在没有提示词的情况下消耗超过30000个token凭空生成多米诺骨牌编程问题并反复求解5000多次 [2][17][18] - 模型训练数据覆盖几乎所有常见编程语言，其中Perl占比尤其高，但Java和Kotlin的实际占比可能被低估 [7][9] - 模型生成内容高度集中于数学和代码领域，主动进行推理且多用英语表达，不同于自然网页文本或普通聊天机器人交互内容 [11][13] 模型训练与语言特性 - 模型在推理过程中频繁进行语言转换，从英语演变为"Neuralese"并在多种语言间切换 [20][21][22] - 模型输出中出现特殊伪影如"OCRV ROOT"，推测源于训练数据使用OCR技术扫描书籍时的识别偏差 [24][25][26] - 模型对unicode使用熟练但物理领域表现不佳，偶尔会创造不存在的物理学理论 [10][29] 模型性能与问题 - GPT-oss-20b在SimpleQA任务中准确率仅0.067，幻觉率高达0.914 [34] - 模型会花费2小时推理无解问题如"生成3x3字母矩阵"，或创造不存在的理论名称如"量子重力波动理论" [36] - 模型在处理日常琐事时表现不稳定，可能拒绝谈论或完全崩溃 [37] 数据与建议 - 分析数据已公开在Hugging Face平台供研究使用 [31] - 建议对模型高度冗余输出进行去重，并对比不同规模模型的输出以深入理解机制 [32]

腾讯申请模型训练及信息投放相关专利，提高投放预测模型的准确性

金融界· 2025-08-07 11:21

腾讯科技专利技术 - 公司申请了一项名为"模型训练方法、信息投放方法、装置、设备及介质"的专利，公开号CN120430833A，申请日期为2024年02月，属于计算机技术领域 [1] - 专利方法包括获取正样本、负样本和无标签样本，训练标签预测模型，预测无标签样本的伪标签，并最终训练投放预测模型用于预测对象的投放分数 [1] 腾讯科技公司概况 - 公司成立于2000年，位于深圳市，主要从事软件和信息技术服务业，注册资本200万美元 [1] - 公司对外投资了15家企业，参与招投标项目263次，拥有商标信息5000条，专利信息5000条，行政许可527个 [1]

腾讯申请模型训练方法、装置、电子设备及存储介质专利，提升模型推理准确性

金融界· 2025-08-05 21:22

公司专利技术动态 - 腾讯科技申请模型训练方法专利公开号CN120431962A 申请日期2025年6月 [1] - 专利采用分阶段训练机制按样本数据难度由易到难排序训练 [1] - 通过多轮推理生成正负样本优化模型结合强化学习提升推理准确性 [1] 公司基本信息 - 腾讯科技成立于2000年注册资本200万美元位于深圳市 [2] - 公司属软件和信息技术服务业对外投资15家企业 [2] - 参与招投标263次拥有商标信息5000条专利信息5000条行政许可527个 [2]