长上下文
搜索文档
前百川智能联创的AI音频赌局:我要造“人”,造AI主播
36氪· 2026-02-09 14:44
公司概况与战略定位 - 公司“来福电台”由前百川智能联合创始人焦可于2025年初创立,是一家专注于AI音频的创业公司 [1][3] - 公司核心战略不是打造AI播客平台或工具,而是“造人”,即创造具有个性和记忆的AI主播,这是其认为的AI时代独有的产品形态 [10][11][29] - 公司已完成两轮融资,总金额超过1000万美元,投资方包括红杉中国和达晨财智 [10] 市场机会与行业痛点 - 音频赛道存在巨大市场机会:全球范围内音频听众(除音乐外)约有16亿,且音频是高频刚需 [26] - 行业核心痛点是供给严重不足:人类生产音频的成本极高,导致内容供给有限,例如头部播客平台“小宇宙”一年节目量约50万集,日均仅1000多集,远低于视频的日均数千万产量 [25] - 用户存在大量未被满足的“耳朵时间”,如通勤、健身、做家务等场景 [25] 产品逻辑与核心功能 - 产品拥有15位风格各异的中文AI主播和2位英文AI主播,旨在与用户建立情感连接和陪伴感 [13][22] - 产品核心功能是主动为用户生成个性化音频内容,用户无需主动交互即可获得根据其兴趣制作好的节目,同时支持用户随时打断节目并与AI主播进行语音对话和提问 [19][34][35] - 产品设计强调“人”的属性,例如通过一个随语音节奏跃动的球体来强化AI主播的存在感 [13][19] - 产品日均用户使用时长已达到30分钟 [43] 技术架构与竞争壁垒 - 公司自建了一套完整的工程体系,包括:AI主播与内容生成管线、AI音频指令交互界面、以及用于长记忆的基础设施层 [52] - 竞争壁垒在于提供完整的“内容服务”,而非单点工具,整合了内容生成、推荐分发和长记忆交互,目前国内尚无同类完整服务提供商 [50][53] - AI音频推荐技术具有门槛,因为音频的筛选效率低于视频,需要用户收听更长时间才能判断喜好 [51] - 公司的核心壁垒建立在“长上下文”和“长记忆”上,语音交互能产生比文字更丰富、更快速的用户上下文,这是实现真正个性化服务的基础 [4][66][67] 商业模式与发展规划 - 商业模式短期内可能尝试广告,由AI主播进行口播,但长期更看好用户付费模式,认为AI的发展会消除信息不对称,从而动摇广告模式的基础 [57][59] - 增长策略首先聚焦于中国一二线城市上班族的通勤场景,并已与部分汽车厂商合作开发车载个性化AI电台 [48][49] - 公司选择从中国市场起步,是因为国内音频需求大但优质供给弱,属于“边缘地区”,更容易跑通产品;而海外市场供给成熟,需求已被较好满足 [60][61] - 公司更关注DTU(每日对话用户数)而非DAU(日活跃用户数),认为只有通过对话产生的长上下文才能形成稳固的用户关系 [44][45] 行业观点与创业理念 - AI时代是生产力革命,其产品形态应是“人”(如AI医生、AI主播),而非互联网时代以解决连接效率为核心的平台或工具 [24][27][38] - 网络效应在AI时代可能不适用,AI创造的是单边市场,依赖烧钱投流难以建立壁垒,产品力是关键 [38][39] - 与传统播客平台(如小宇宙)是差异化竞争:传统平台提供稀缺的精品深度内容,而来福电台提供高度个性化的海量音频服务,满足更广泛的需求 [54][56] - 创业节奏比先发优势更重要,应追求推出扎实的解决方案而非单纯求快,避免因产品不成熟导致用户流失 [57]
一切为了Agent:千问、阶跃、Gemini打响“3.5模型大战”,春节将成关键节点?
36氪· 2026-02-06 18:15
行业动态:2026年初大模型集中发布潮 - 2026年开年,大模型行业迎来密集发布,Kimi 2.5、Qwen3-Max-Thinking、Step 3.5 Flash接连推出 [1] - OpenAI和Anthropic几乎同时推出小版本迭代GPT-5.3-Codex和Claude Opus 4.6 [2] - 多家中国公司计划在春节前后发布新一代模型,包括智谱的GLM-5、MiniMax的M2.2、字节跳动的Doubao 2.0等模型矩阵,以及可能更新的DeepSeek V3系列 [4][5] - 中美头部玩家几乎同时推进大版本迭代,竞争焦点从参数规模转向定义2026年的AI [7] 技术升级方向:新一代模型的三大重点 - **推理能力普及化**:推理正成为下一代基础模型的默认能力,例如GLM-5强调复杂任务的一致性完成能力,Step 3.5 Flash在196B参数规模下实现秒回应并采用MTP-3技术,Gemini 3.5也强化了深度推理模式 [9][10][13] - **长上下文系统化**:长上下文从“指标”变为“系统能力”,更注重真实工作场景应用,如腾讯混元推出CL-bench基准测试,DeepSeek V4论文提出“Engram条件记忆”机制,在计算量较MoE减少18%的情况下于32768个token任务中反超同参数量MoE模型 [14][16] - **Agent核心化**:Agent正在重新定义基础模型,成为AI系统的核心,强调在较少人工干预下完成完整任务的能力,例如Step 3.5 Flash“为Agent而生”,Claude 5被曝强化多Agent协作的“蜂群模式” [17][19] 竞争格局与市场影响 - 2026年春节前后成为模型集中发布“同步窗口”,原因包括DeepSeek去年春节的成功示范、技术周期成熟以及上市融资等竞争节奏 [20] - 行业可能进入“连续发布”阶段,从春节前持续到3月初,但单一模型难以长期吸引注意力,对模型和营销是巨大考验 [21] - 模型发布后将迅速经历真实场景横向对比,差距会在极短时间内形成共识,胜负关键取决于发布后能否被快速广泛使用并形成入口与调用习惯 [22][25][26] - 本轮更新可能带来代际跃迁,涉及训练方式、推理模式与模型定位的同步变化,使模型从“功能组件”变为“系统底座”,影响未来一年的全球大模型格局 [23][24]
美股存储板块 SNDK 为何疯涨28%?道指冲刺“5万点”
36氪· 2026-01-07 11:54
美股市场整体表现 - 美东时间1月6日周二,美股在新年首个完整交易周延续强劲势头,标普500指数收涨0.62%至6944.82点,道琼斯工业平均指数收涨0.99%至49462.08点,双双刷新收盘历史新高,其中道指历史性地跨越了49000点重要心理关口 [1] - 盘面释放出资金正加速从极度拥挤的头部AI巨头向产业链纵深领域扩散的信号,这种“去中心化”的轮动优化了市场广度,并激活了整个半导体供应链的价值重估 [1] 存储板块市场表现 - 当日美股存储板块表现极为强劲,开盘不到半小时即在追踪系统上排名第一,板块内公司股价普遍录得两位数涨幅 [3] - 具体公司表现:闪迪(SNDK)股价狂飙27.56%,美光(MU)上涨10.02%,西部数据(WDC)大涨16.77%,希捷(STX)攀升14% [3] 行业趋势与催化因素 - 市场趋势的兑现源于AI算力需求从“单纯拼算力”转向“系统级存算平衡”,这一趋势在去年10月已被预判 [4] - 今日情绪的最直接诱因是英伟达在拉斯维加斯CES 2026盛会上推出的革命性存储架构 [4] - 随着大模型进入“长上下文”与“智能体”时代,系统瓶颈发生根本位移,处理上亿级别Token产生的KV Cache规模已达TB量级 [5] 英伟达的新存储架构 - 英伟达正式推出“Inference Context Memory Storage Platform(推理上下文内存存储平台)”,宣告AI进入“Rubin时代”,推理成为一个复杂的系统工程 [5] - 其解决方案是通过BlueField-4 DPU配合Dynamo KV系统,将企业级NAND闪存直接集成进机架,创造出一个介于显存与传统硬盘之间的“G3.5 闪存层” [7] - 这意味着原本用于后台存放数据的SSD,现在直接“贴着GPU”参与实时计算,完成了从“后勤仓库”到“战斗前线”的角色转换,这是存储巨头股价爆发的底层逻辑 [9] 行业估值逻辑重构 - 长期以来,存储板块因需求难以测算被视为“周期股”并背负估值折价 [10] - 英伟达的新平台提供了清晰的量化锚点,存储设备以“机柜组件”形式标准化后,需求成为与GPU机架部署数量挂钩的常数,可通过线性外推模型精确计算 [10] - 需求可见度的跃升促使华尔街弃用传统的P/B(市净率)估值,转而给予存储厂商类似于核心硬件的PE(市盈率)溢价 [10] 供应链与市场前景 - 结构性增长压力传导至供应链顶端,由于HBM产能对通用DRAM产线的挤出效应,预计到2026年DRAM价格持续增长 [11] - 2026年DRAM的收入增长预计将达到51%,NAND的收入增长预计为45%,同时DRAM的平均售价(ASP)增长预计为33%,NAND的ASP增长预计为26% [13] - 这种格局直接利好了产业链上的设备与代工厂商:ASML(阿斯麦)因光刻机需求强度显著提升,目标价被大幅上调至1300欧元,台积电受益于存储控制器与高速接口芯片需求爆发,新年以来已录得近10%的涨幅 [15] 投行共识与市场预期 - 华尔街对此已达成高度共识,野村证券指出这一轮“存储超级周期”至少将延续至2027年 [16] - 摩根大通预测,头部存储厂商总市值有望在2027年逼近1.5万亿美元,较当前仍有超过50%的上行空间 [16] - 谷歌、亚马逊、微软等巨头已向美光等厂商下达了“不限价、不限量”的开放式订单 [19] - 存储板块的爆发标志着市场意识到,在AI长跑中,谁能解决“数据墙”问题,谁就能掌握推理成本的定价权 [19]
Gemini 3预训练负责人警告:模型战已从算法转向工程化,合成数据成代际跃迁核心,谷歌碾压OpenAI、Meta的秘密武器曝光
36氪· 2025-12-26 20:21
Gemini 3 的发布与市场地位 - 2025年底,Gemini 3以“世界最强多模态理解”、“交互最深智能体”、“推理怪兽”的姿态,在多项权威基准测试中“横扫”并“碾压”全球所有同类模型,强势突围 [2] - 谷歌CEO桑达尔·皮查伊亲自为Gemini 3站台,称其为“迄今为止最智能的模型” [2] Gemini 3 性能表现(基于基准测试数据) - 在“Harlord's Lott Each”测试中,Gemini 3得分为57.68,而GPT-5.8为26.6% [3] - 在“ARC 404-2”测试中,Gemini 3得分为51.18,而GPT-5.8为17.0% [3] - 在“OPGA Distribution”测试中,Gemini 3得分为91.98,而GPT-5.8为8.7% [3] - 在“Albat 2026”测试中,Gemini 3达到95.05 (100%),而GPT-5.8为94.7% [3] - 在“Ventleye Stench 2”测试中,Gemini 3得分为$5,478.16,而GPT-5.8为$1,473.43 [3] 模型强大的核心原因 - Google DeepMind副总裁Oriol Vinyals指出,Gemini 3强大的核心秘诀在于“更好的预训练”和“更好的后训练” [2][10] - 预训练负责人Sebastian Borgeaud强调,Gemini 3的飞跃是无数细节持续优化的结果,而非单一环节的突破 [3] - 谷歌的研发模式已从单纯“做模型”转向“做系统”,其强大根源在于“研究、工程和基础设施”的深度融合 [3][16] - Gemini 3是在谷歌自研的TPU上进行训练的,体现了端到端的垂直整合优势 [16] 行业趋势与范式转变 - AI行业正从“无限数据”的规模化时代,迈入“数据有限”的新阶段 [4] - 在数据受限的背景下,合成数据、推理轨迹、长上下文、持续学习、端到端检索训练以及可靠的评估体系,共同构成行业未来的进化路径 [4] - 经典的Chinchilla项目结论在当下依然具有现实意义:在训练计算量固定的前提下,更快地扩展数据规模比盲目扩大模型规模更能训练出更优的模型,这直接影响模型推理的服务效率和使用成本 [4][22] 预训练的发展方向与创新重点 - 预训练的Scaling Law(规模定律)并未失效,规模依然重要,但架构创新和数据创新的权重已显著提升,甚至变得更为关键 [5][32] - 未来预训练的重点将转向架构创新,而非单纯追求“更大、更长、更贵” [7] - 长上下文和注意力机制是关键的创新变量,更长的上下文能让模型携带更多信息,拓宽能力边界 [7][37] - 更长期的方向是将检索与搜索以端到端、可微的方式深度融入训练,让“会检索”成为模型的内生能力 [7][39] - 公司内部有团队正在研究“后Transformer架构” [6][15] 对合成数据与数据策略的看法 - 对合成数据的使用持审慎态度,核心风险在于数据分布偏移可能导致模型陷入“自嗨”闭环 [5] - 建议的稳妥方案是:用强模型生成合成数据后,必须通过小规模可控消融实验验证其收益和潜在副作用 [5] - 一个核心研究问题是:用合成数据训练出的模型,能否超越生成数据的“老师”模型 [6][34] - Gemini 3的训练数据从一开始就是原生多模态的,融合了多种来源,为其多模态优势打下基础 [6][33] 持续学习与知识更新 - 基础模型一旦预训练结束,知识便基本定格,无法自动更新 [7] - 当前行业更可行的办法是在产品推理侧接入检索,将最新信息实时拉入上下文进行推理,从而避免频繁重训底座 [7] - 这与RETRO项目的思路一致,即将知识放在外部库,模型负责推理 [8] - 未来的目标是改变训练方式,让模型能在真实世界的数据流上持续训练,实现真正的“持续更新” [8][51] 评估体系的重要性 - 评估是预训练阶段的核心难题,如果评估体系跟不上,容易陷入“看似提升”的假象内耗 [8] - 公司内部搭建了专属的评估体系,因为外部基准很容易被污染,保留内部评估阵地是关键 [8][41] - 评估需要跨越两道鸿沟:一是小模型上的有效改进能否迁移到大模型;二是预训练阶段的优势能否在后训练后转化为真实可用的能力 [8][40] 成本与商业化考量 - 随着用户规模扩大,推理预算变得敏感,预训练环节必须为“上线落地”负责,在提升模型能力的同时,还要降低成本、节省资源 [8][52] - 原生多模态模型在处理图像等输入时,计算成本可能更高,但通过研究提升效率,其收益总体上远大于成本 [31] 模型架构细节 - Gemini 3是基于Transformer的混合专家(MoE)架构,其高层架构与上一代相比变化不大,性能飞跃是多个因素叠加的结果 [28][29] - MoE的核心思想是将“使用的计算量”和“参数规模”解耦,通过动态路由将计算分配到某些“专家”上执行 [30] 团队协作与研发文化 - Gemini 3的预训练团队规模庞大,日常参与人数可能在150到200人之间,成功是大团队共同协作的结果 [10][17] - 在谷歌/DeepMind,来自与其他实验室竞赛、强推基准目标的压力很少,领导层更重视研究进展与把研究做成 [26] 未来展望与行业影响 - 模型的能力进步不仅体现在基准测试上,更反映在内部人员使用模型提升生产力的真实工作场景中 [11] - 预测未来模型将更好地服务于科学研究,甚至可能助力获得诺贝尔奖,同时也会更深入地融入普通人生活,解决实际问题 [9][13] - 基础模型越来越强,对于不需要极度专门化的任务,使用通用模型更为合理,这改变了创业公司与研究者的关注点,如何更好地利用(harness)模型变得愈发重要 [55][56]
Scaling Law没死,Gemini核心大佬爆料,谷歌已有颠覆性密钥
36氪· 2025-12-22 09:05
公司技术路线与战略 - Google DeepMind的Gemini预训练负责人Sebastian Borgeaud预测,未来一年内,大模型预训练领域将在提升长上下文处理效率以及扩展上下文长度方面迎来重大技术创新 [1][2] - 公司内部认知发生根本性转变,工作重心从“训练模型”转向构建一个完整的、可长期运行和迭代的“系统”,这是Gemini 3实现颠覆性进步的关键 [6][7][8][31][32] - 公司高层(Jeff Dean, Oriol Vinyals, Noam Shazeer)在描述Gemini时,刻意强调其是一个“系统”而非“模型”,这反映了公司追求构建一套能反复使用、不断进化的智能工业体系,而非昙花一现的成品 [31][32][34] 行业技术发展趋势 - AI发展范式正在经历潜在转移,从过去依赖“无限数据”扩大数据集的粗放模式,转向在“数据有限”体制下,更高效利用数据资源、精雕细琢的精细模式 [10][12] - Scaling Law(缩放定律)并未消亡,而是正在演变 [6] - 未来的行业竞争焦点将从“谁的数据中心更大”转向“谁的学习算法更高效”、“谁的模型架构更优雅”、“谁能从有限数据中提取更多智慧” [12] 关键技术前沿方向 - **长上下文处理**:超长上下文能力将持续创新,未来一年左右将在使长上下文更高效、并进一步扩展上下文长度方面看到更多创新,这将把模型变成真正的数字工作台,为复杂多步任务和深度研究提供可能,是迈向更强大“智能体”的关键基础设施 [1][14][16] - **注意力机制进化**:在注意力机制上已有一些真正有趣的发现,这将塑造未来几个月的大量研究,可能从底层显著提升模型的理解、推理和计算效率 [4][18] - **检索技术整合**:长期的答案是以可微分的方式让模型在训练和推理时学习检索外部知识库,实现检索与推理更原生的结合,动态从海量知识源获取信息,从而突破参数规模的知识容量限制 [19] - **效率与成本革命**:随着用户激增,模型部署和服务成本变得至关重要,未来研究将不再只追求性能峰值,还必须关注如何让强大模型变得“便宜又好用” [21][22] 模型能力发展重点 - 当前模型并不缺“聪明”,缺的是持续思考并在复杂任务中反复修正的能力,即“慢思考”(Slow Thinking)能力 [29][30] - 模型评估标准正在变化,榜单衡量的瞬时表现重要性下降,而模型的可靠性、迁移能力以及在复杂任务中持续自我修正的能力变得更为关键 [30] - 大模型的规模依然重要,但它不再是决定一切的唯一变量,单纯靠堆参数就能不断前进的道路已接近边界 [29] 研发理念与信心 - 进步源于无数细微改进的聚合,是庞大团队中日复一日发现的那些“旋钮”和优化 [10] - 尽管面临数据瓶颈、成本挑战等现实问题,但一线研究者对AI进步的总体判断依然充满信心,认为有大量细微但确定的改进空间,整个领域尚未枯竭的创造活力,至少在未来几年,这种进步势头不会放缓 [23][25]
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
量子位· 2025-10-22 23:27
行业技术动态 - 智谱AI在DeepSeek发布DeepSeek-OCR后不到一天即开源了自家的视觉Token方案Glyph,显示出行业在视觉压缩技术领域的激烈竞争[1][2] - 视觉Token技术正成为AI领域的新趋势,截至10月22日,抱抱脸上最受欢迎的前四个模型全部支持OCR功能[70] 长上下文处理的技术挑战 - 随着大语言模型能力提升,用户和厂商对长上下文的需求日益迫切,但扩充上下文会导致算力消耗呈指数级增长,例如从50K扩展到100K,算力消耗约为原来的四倍[8][9] - 单纯增加Token数量并不能保证模型表现线性提升,输入过长可能导致模型受到噪声干扰和信息过载[12][13][14] - 当前主流解决方案包括扩展位置编码、改造注意力机制和检索增强RAG,但各自存在推理成本高、效率提升有限或响应速度慢等局限性[15][18][21][23] Glyph技术方案的核心创新 - Glyph采用将文本渲染成图像的新范式,利用图像更高的信息密度实现Token压缩,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容[25][26][30] - 该方案使固定上下文的视觉语言模型能够处理超长文本,例如将240K文本Token的《简·爱》压缩至约80K视觉Token,让128K上下文的模型可以处理完整内容[32][34][36] - 训练流程分为持续预训练、LLM驱动的渲染搜索和后训练三个阶段,通过遗传算法优化渲染参数,并在SFT和RL阶段加入辅助OCR对齐任务[37][39][43][44] 技术性能表现 - Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率,同时保持与主流模型相当的准确度[49] - 该技术带来约4倍的prefill与解码速度提升,以及约2倍的SFT训练加速,显著减轻算力负担[51] - 在极端压缩情况下,128K上下文的视觉语言模型能够应对相当于百万Token级的文本任务[60] 视觉Token的行业影响 - 视觉Token技术大幅提升处理效率,DeepSeek-OCR仅用100个视觉Token就能在原本需要800个文本Token的文档上取得97.3%的准确率[72] - 效率提升显著降低AI应用门槛,单张NVIDIA A100-40G GPU每天可处理超过20万页文档,仅需一百多张卡即可完成一次完整的模型预训练[74][75] - 视觉Token可能从底层重塑大语言模型的信息处理方式,未来像素可能取代文本成为下一代AI的基本信息单元[76][77]
DeepSeek-V3.1版本更新,双模式开放体验
凤凰网· 2025-09-23 15:29
产品升级 - 公司推出全新版本DeepSeek-V3.1-Terminus 同步上线思考模式与非思考模式双版本 均支持128K长上下文[1] - 模型统一升级为DeepSeek-V3.1-Terminus 其中deepseek-chat对应非思考模式 deepseek-reasoner对应思考模式[1] - 非思考模式默认支持4K输出 最高可达8K 思考模式默认32K输出 最大可扩展至64K[1] 技术优化 - 重点优化语言一致性 显著缓解中英文混杂及异常字符问题 输出更规范[1] - 强化Agent能力 进一步提升Code Agent与Search Agent的执行表现[1] 定价策略 - 新模型百万tokens输入费用为缓存命中0.5元 未命中4元[1] - 百万tokens输出定价12元 为开发者提供高性价比服务[1]
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 10:32
大模型技术突破 - MiniMax开源其首个推理模型M1,原生支持百万级上下文长度,在推理效率、计算成本和复杂任务能力上展现出与DeepSeek R1、Qwen3-235B等模型不同的技术路径与性能表现[1][2] - M1是全球首个开放权重的大规模混合注意力推理模型,凭借混合门控专家架构(Mixture-of-Experts,MoE)与Lightning Attention的结合,在性能表现和推理效率方面实现显著突破[4] - M1具备4560亿参数规模,其中每个token激活约459亿参数,原生支持最长100万tokens的上下文输入,是DeepSeek R1所支持长度的8倍[7] 性能与效率优势 - 在生成长度为10万tokens的场景下,MiniMax-M1的计算量(FLOPs)仅为DeepSeek R1的25%,在长文本处理任务中具备显著优势[7] - 完整强化学习训练在512块H800 GPU上仅耗时三周,成本控制在53.47万美元,展现极高效率与性价比[11] - 在标准基准测试中,MiniMax-M1在复杂软件工程、工具使用与长上下文任务等方面表现突出,整体表现已达到甚至超越DeepSeek-R1与Qwen3-235B等代表性开源模型[12] 技术创新 - 采用大规模强化学习(RL)方式,在数学推理、沙盒环境下的软件工程等多样任务中进行了全面优化[9] - 提出名为CISPO的创新型强化学习算法,针对重要性采样权重而非token更新进行裁剪,有效提升学习稳定性与性能表现,在对比实验中优于现有主流RL变体[10] - 训练两个版本分别设定40K与80K的思维预算(thinking budget),其中40K版本为中间训练阶段的成果[12] 应用与部署 - MiniMax-M1是开源即上线,可直接进入官网体验[13][15] - 模型在不到30秒的时间可完成技术报告里的公式、表格翻译[17] - 模型现已支持GitHub和Hugging Face平台,并兼容vILN和Transformers框架[19]