强化学习
搜索文档
 梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
 机器之心· 2025-10-02 09:30
 文章核心观点 - 谷歌DeepMind提出的世界模型Dreamer 4,是一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务 [5] - Dreamer 4是首个仅从标准离线数据集(无需与环境交互)就在具有挑战性的电子游戏《我的世界》中获得钻石的智能体 [7] - 该模型利用新颖的shortcut forcing目标和高效的Transformer架构,准确学习复杂的物体交互,同时实现实时人机交互和高效的想象训练 [11]   模型设计概览 - Dreamer 4智能体由一个tokenizer和一个动力学模型组成,两者均使用相同的高效Transformer架构 [17] - tokenizer通过掩码自动编码进行训练,将视频帧压缩为连续表示 [17] - 动力学模型通过shortcut forcing目标进行训练,以实现少量前向传递的交互式生成,并防止随时间累积误差 [17] - 训练流程包括在视频和动作上预训练tokenizer和世界模型,然后将策略和奖励模型微调至世界模型中,最后通过想象训练对策略进行后训练 [19]   实验结果  离线钻石挑战 - 在《我的世界》钻石任务中,Dreamer 4在使用的数据量少100倍的情况下,大幅超越了OpenAI的离线智能体VPT [22] - Dreamer 4超越了利用Gemma 3视觉语言模型通用知识的VLA智能体,在制作铁镐的成功率上几乎是VLA智能体的三倍 [22] - 与基于行为克隆的方法相比,Dreamer 4在四个关键物品的成功率以及获取物品所需时间这两个指标上均表现更优 [24]   人类交互评估 - 在涵盖挖坑、建造墙壁、砍伐树木等16项多样化任务的评估中,Dreamer 4成功完成了14项任务,成功率为14/16 [29] - 相比之下,Lucid-v1模型成功率为0/16,Oasis(small)模型成功率为0/16,Oasis(large)模型成功率为5/16 [29] - Dreamer 4模型参数量为2B,支持640×360分辨率,上下文长度为9.6秒,帧率为21 FPS [29]   动作生成效率 - 仅使用10小时的动作训练时,Dreamer 4的PSNR达到53%,SSIM达到75% [32] - 使用100小时的动作训练时,性能进一步提升,PSNR达到85%,SSIM达到100% [32] - 结果表明世界模型从无标签视频中吸收了大部分知识,仅需要少量的动作标签 [32]
 SemiAnalysis创始人Dylan最新访谈--AI、半导体和中美
 傅里叶的猫· 2025-10-01 22:43
 OpenAI与Nvidia合作情况 - OpenAI需要大量计算资源来训练和运行模型 面临规模太小的风险 尽管有8亿用户 但营收只有15-20亿美元的跑率 而竞争对手是万亿级公司[4] - Nvidia向OpenAI投资100亿美元股权 用于建设10GW计算集群 但实际资本支出高达500亿美元 Nvidia从中捕获大部分GPU订单 毛利率达75%[5] - OpenAI签署了300亿美元的五年合同 如果成功纯利润可达上百亿美元 如果失败则需要举债 这反映了公司在资本实力上相对于Meta等巨头的劣势[6] - 此类合作显示计算资源是AI行业发展的先决条件 短期看Nvidia稳赚 长期取决于OpenAI能否将计算优势转化为实际营收[7]   模型缩放定律和回报机制 - 模型缩放不是线性递减回报 而是log-log规模 10倍计算投入可带来下一阶性能的跃升 例如从低水平到更高水平的能力转变[8] - 大模型服务面临成本高 速度慢等挑战 导致像Anthropic Claude 3 Opus虽然更智能但用户更倾向于使用更快的Sonnet版本[8] - 文本预训练数据接近枯竭 但多模态数据如图像和视频仍有扩展空间 模型大小受限于服务能力而非单纯的计算资源[9] - AI在软件开发领域最为有效 Anthropic营收从1亿美元增长到7-8亿美元 主要来自代码工具 这些工具可作为力乘器 让开发者产出增加2-5倍甚至10倍[9]   Token经济学和推理需求 - Token经济学核心是计算投入与智能产出的价值关系 Nvidia将其称为"AI工厂" 1GW容量可服务不同规模的模型[10] - OpenAI的推理需求每两个月翻一倍 公司需要优先服务更多用户并爬升采用曲线 而非急于放大模型规模[10] - 成本已大幅下降 GPT-3现在比最初便宜2000倍 GPT-4o和DeepSeek成本更低 GPT-4到4 Turbo模型大小缩小一半但质量相当或更好[10] - 推理需求无限但硬件能力无法每两个月翻倍 因此需要算法降本 容量比延迟更重要 现有延迟已足够使用[11] - AI代理未来可像Visa一样抽成1-2% 例如Etsy已有10%流量来自GPT的购物建议查询 显示推理可成为营收引擎[11]   强化学习与环境训练 - 强化学习通过环境迭代学习 湾区有40家初创公司构建训练环境 如模拟购物 数据清洗 数学谜题等场景[12] - 人类通过试错学习 AI也需要类似过程 包括生成数据 测试和反馈 这被称为"后训练"的第二阶段[12] - 长上下文记忆需要优化 Transformer擅长短上下文 但长记忆需借助RAG等技术 类似人类记忆要点而非细节[12] - AI将从问答工具发展为行动代理 能够执行购物 决策等任务 这需要平衡即时反应与深度思考的能力[13]   硬件与电力供应链 - AI数据中心占美国电力消耗3-4% 其中一半为传统数据中心 一半为AI专用 整体数据中心行业占美国电力2-3%[14] - OpenAI规划的2GW数据中心电力消耗相当于费城全市用电量 建设资本支出约25亿美元 包括GPU等设备[14] - 行业面临供应链和劳动力短缺 移动电工薪水已翻倍 特别是在西德州数据中心建设热点地区[15] - 电网稳定性是挑战 AI工作负载导致功率波动 可能引起电网频率从60Hz偏离至59Hz 影响附近家电寿命[15] - Texas的ERCOT和东北部PJM电网要求大用户提前通知 可切掉一半电力保证居民用电 数据中心需启动现场发电机[16] - Nvidia Blackwell芯片制造遇到问题 导致供应链公司资产负债表膨胀 AI服务器部署延后[16]   美中AI竞争差异 - 如果没有AI 美国可能在十年内失去全球霸权 中国通过长期投资已在钢铁 稀土 太阳能等多个领域领先[18] - 中国在半导体领域投资达4000-5000亿美元 比美国CHIPS法案规模更大 重点构建自给自足的产业链生态[18] - 美国需要AI加速GDP增长来应对债务负担和社会分裂 而中国则通过补贴和生态构建玩长线游戏[18]   主要公司评价 - OpenAI整体被看好但焦点分散 尽管有8亿用户和快速增长营收 但执行相比Anthropic有所不足[20] - Anthropic更受乐观评价 营收从不到1亿跳至7-8亿美元 专注软件开发这一2万亿美元市场[21] - AMD评价为"中规中矩" 在AI领域更多是跟跑者 适合中端市场但高端集群仍由Nvidia主导[22] - xAI团队专注但面临资本风险 需要持续融资来支持全球最大单体数据中心建设[23] - Oracle是低风险玩家 通过垫付资本支出收取稳定租金 如果OpenAI成功支付300亿合同将获得高收益[24] - Meta拥有全栈优势 包括硬件 模型和推荐系统 下个人机界面可能是语音直达现实[25] - Google从两年前被看空转为被看好 垂直整合栈使其token成本最低 在多模态领域具有优势[25] - 初创公司Periodic Labs用强化学习研究电池化学 效率提升25%可解锁面部AI设备等新应用[26]
 全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
 量子位· 2025-10-01 11:03
AntResearchNLP 团队 投稿 量子位 | 公众号 QbitAI 下一步,大模型应该押注什么方向? PromptCoT 2.0:PromptCoT框架的一次全面升级 在一年前的这个时候,在整个AI社区都在思考大模型应该押注什么方向的时候,OpenAI公布了o1的预览版,通过深度思考的新范式以及在竞 赛数学代码任务上远远甩开gpt4o的性能,让整个大模型社区进入了"深度思考"时代。 如今,又是一年9月,蚂蚁与港大联合在大模型下半场押注 任务合成 。 为什么是任务合成? 蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组(后简称"团队")推出 PromptCoT 2.0 ,要在大模型下半场押注 任务合成 。 实验表明,通过"强起点、强反馈"的自博弈式训练,PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的 SOTA 结 果,达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。 事实上,按照OpenAI规划的AGI蓝图,大模型社区正在从Reasoners向Agents急速推进,各种关于Agent的工作,包括搜索、软件 ...
 复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述
 机器之心· 2025-10-01 07:49
 文章核心观点 - 一篇由多所顶尖大学研究者完成的综述系统性回顾了强化学习在大语言模型全生命周期中的最新进展、挑战及未来方向 [2][3] - 强化学习技术显著提升了大语言模型的推理能力与对齐性能 尤其在理解人类意图、遵循指令和增强推理方面效果突出 [2] - 该综述提出了首个强化学习在LLMs全生命周期的分类总览图 涵盖了预训练、对齐、RLVR、数据集与基准测试、开源框架五大分支 [5][6]   强化学习在LLM生命周期中的应用 - 强化学习参与大语言模型的预训练、对齐及推理增强训练全过程 并通过测试基准进行验证 [5] - 预训练阶段应用包括Reinforcement Pre-Training、OctoThinker、Visual Pre-Training等方法 [6] - 对齐阶段涵盖RLHF和奖励建模、经典算法、新奖励模型设计等多种技术路线 [6] - 基于可验证奖励的强化学习是综述关注重点 系统梳理了自OpenAI-o1与DeepSeek-R1发布以来的应用研究 [7]   RLVR技术架构与进展 - RLVR通过引入可自动验证的奖励机制 优化推理过程并增强模型对复杂任务的适应能力 [7] - 技术架构包含奖励模型、离线策略辅助、奖励过滤、采样与推理策略、智能体强化学习以及奖励更新层级 [8] - 算法进展包括混合学习策略、对抗/多智能体、树结构、视觉语言推理等多种先进方法 [6] - 多模态推理涵盖视频空间推理、具身推理、生成与纯视觉、专业领域任务等应用方向 [6]   数据集与评估基准 - 整理了大量现有用于强化学习微调的数据集与评估基准 为研究提供实践参考 [3][6] - 数学推理基准包括GSM8K、MATH、OlympiadBench等 [6] - 代码能力评估涵盖APPS、LiveCodeBench、SWE-bench等基准 [6] - 通用知识与STEM评估包含MMLU系列、GPQA、TheoremQA等多个权威测试集 [6]   开源工具与训练框架 - 总结了当前主流开源工具与训练框架 为研究人员提供清晰实践参考 [3][6] - 通用端到端框架包括VeRL、ColossalChat、DeepSpeed-Chat、TRL等 [6] - 专门训练库包含Nemo RL、FlashRL、ROLL等多个工具包 [6] - 这些资源整合对LLMs场景下探索RL的研究人员具有重要参考价值 [11]   技术挑战与未来发展 - 大规模RL训练对LLM来说仍是计算密集型且往往不稳定 系统可扩展性和训练稳定性存在挑战 [12] - 奖励设计和信用分配是应用难点 长时间推理过程中的奖励延迟问题给模型学习带来困难 [12] - 缺乏清晰理论框架分析RL在LLM训练中的泛化能力和稳定性 对有效性和风险理解不充分 [12] - 数据集和评估基准建设不足 缺乏统一标准化基准为强化学习微调方法比较验证带来困难 [12]
 ChatGPT架构师,刚发布了最新研究成果
 量子位· 2025-09-30 20:22
 研究核心观点 - Thinking Machines发布第三篇研究博客,核心作者为OpenAI联创John Schulman,OpenAI前CTO Mira Murati为其转发站台[1] - 研究证实LoRA参数高效微调方法在抓准关键细节后,不仅能与全量微调拥有相同的样本效率,还能达到一样的最终性能[7] - 研究给出了大幅降低LoRA调参难度的简化方案[3][22]   研究背景与问题 - 当前主流大模型参数达万亿级别,预训练数据达数十万亿token,但下游任务通常只需小数据集且聚焦特定领域[6] - 全量微调更新所有参数会导致资源浪费严重,而LoRA作为参数高效微调方法,通过低秩矩阵捕捉微调信息,但始终面临能否追上全量微调性能的争议[7]   核心研究发现 - 在中小数据集微调场景下,高秩LoRA(如秩512)的学习曲线与全量微调几乎完全重合,损失值均随训练步数呈对数线性下降[9][11] - 仅在数据集规模远超LoRA自身容量的极端情况下,其训练效率才会出现下滑,但这种情况在多数后训练场景中极少出现[11] - 在数学推理类强化学习任务中,即便将LoRA的秩降低至1,其性能依旧能与全量微调持平,因为强化学习每轮训练仅需依靠scalar优势函数吸收O(1)比特信息,秩1 LoRA的参数容量已满足需求[13][14]   LoRA应用优化策略 - LoRA应用需实现全层覆盖而非仅聚焦注意力层,因为模型梯度的主导权掌握在参数数量更多的层手中[15][21] - 仅作用于注意力层的LoRA表现明显落后,即便提升秩来匹配参数量,性能差距依然显著[16][17] - 当LoRA应用于模型所有层(尤其是参数占比最高的MLP层与MoE层)时,性能得到极大提升,仅在MLP层单独应用LoRA效果就与组合应用相差无几[19]   调参简化方案 - LoRA的最优学习率存在明确规律,始终约为全量微调的10倍,这一比例在14个不同模型的测试中几乎保持恒定[12][22] - 得益于1/r缩放因子的作用,不同秩LoRA的最优学习率差异极小,在秩4至秩512范围内变化幅度不足2倍,短期训练任务中甚至可忽略秩对最优学习率的影响[22] - LoRA的4个潜在超参数中有2个属于冗余参数,实际调试只需重点关注"初始更新规模"与"A矩阵偏离初始状态的步数"两个维度,这将调参难度降低了一半[25][26]   作者背景 - 研究核心作者John Schulman为OpenAI联创,在OpenAI工作9年期间领导了从GPT-3.5到GPT-4o的一系列对齐/后训练工作,被誉为ChatGPT架构师[27][28] - John Schulman学术引用近14万,其代表作PPO算法是ChatGPT核心技术RLHF中选用的强化学习算法[29] - John Schulman现以首席科学家身份加入Thinking Machines,旨在回归核心技术领域[30]
 印奇的智驾千里路:浪漫可以,但别浪
 观察者网· 2025-09-30 17:49
 公司战略与愿景 - 公司提出“千里计划”,核心愿景为“One Brain, One OS, One Agent”,旨在构建由大模型驱动的AI大脑、统一操作系统及超级智能助手,实现跨终端、跨场景服务 [7] - 公司宏大愿景是成为“AI+车+机器人”的平台级AI企业,全面布局家庭和工业AI场景 [3][7] - 公司短期聚焦汽车场景,沿商业确定性最强方向渐进发展,优先服务好基石客户以快速构建交付能力 [12]   业务布局与产品规划 - 智能驾驶业务规划覆盖L2到L4:L2+ 1.0版已上车,L3 2.0版预计2025年底发布,L4 3.0版计划2026年下半年推出 [9] - 智能座舱业务打造新一代Agent OS,实现超自然交互、融合记忆、全融合地图和第三生活空间等功能 [9] - 智能出行业务目标在未来18个月完成Robotaxi全链路产业布局,与吉利合作研发专用车型,目标在全球10座城市实现规模化运营,单一城市部署超1000辆Robotaxi [9]   技术路径与创新 - 公司技术路径强调高“含模量”,目标在未来6个月内将智能驾驶方案的含模量从行业普遍不足50%提升至80%-90% [14] - 公司采用“三层汉堡包”式技术架构,以模型为基,但不排斥人工规则安全兜底,并优化长短时序时空模式以实现更类人决策 [18] - 传感器策略上,坚持以大模型驱动、纯视觉为核心,同时融合激光雷达、4D毫米波雷达等复合传感器,构建6D多维透视感知系统 [20] - 公司强调以强化学习为核心,降低传统模仿式学习对数据分布的强依赖,并认为大模型给智驾带来的红利才刚刚开始 [16][17]   市场机遇与竞争定位 - 公司重要战略方向是出海,近期获得梅赛德斯-奔驰13亿人民币入股,标志着中国智能辅助驾驶海外抢滩战正式打响 [6][23] - 海外传统车企在软件自研上的困境为国内供应商创造机会,国内L2+级别智驾渗透率已超50%,但近半市场及合资车企部分仍有待开拓 [24][27] - 公司认为成功需要兼具强AI模型原生基因与强大工程化体系团队,对在短时间内形成战斗力充满信心 [27]
 著名机器人专家:人型机器人的未来是不像人
 36氪· 2025-09-30 16:43
 人形机器人发展现状与核心理念 - 人形机器人的设计理念是采用与人类相同的身体结构,在人类环境中像人类一样工作,旨在打造一种通用机器人以替代数百万种执行特定任务的不同类型机器人 [5] - 行业参与者对人形机器人的经济潜力抱有极高预期,例如特斯拉首席执行官预测其Optimus机器人可能创造30万亿美元的收入,并将其称为"或许是全球最大的产品" [6] - 尽管存在狂热宣传,但人形机器人目前仍处于发展初期,远未达到宣传热度的峰值,其核心价值主张的实现依赖于达到人类水平的灵巧操控能力 [3][6][7]   灵巧性挑战与技术瓶颈 - 机器人灵巧操控的研究已持续65年以上,但至今尚无任何一款多关节手指机器人手部能达到足够的耐用性、力度和使用寿命以满足实际工业应用需求 [2][13][16] - 工业环境中主流的机器人末端执行器仍是平行夹爪抓取器和吸盘式抓取器,而非模仿人类手部的复杂设计 [13][16] - 当前主流的研究方法是通过让机器人"观看"人类完成任务的第一视角视频来进行端到端学习,但这种方法完全忽略了触觉和力反馈等对人类灵巧性至关重要的数据 [22][25][26]   端到端学习的成功案例与局限性 - 端到端学习在语音转文字、图像标注和大型语言模型三个领域取得革命性突破的关键,不仅依赖于大规模数据集,更依赖于针对特定领域精心设计的前端数据预处理工程 [27][31][34][39] - 这些成功案例的前端预处理技术最初都是为了实现人类感官信息的远程或异步传输而研发的,例如语音压缩技术是为了电话通信,图像序列化是为了图像传输 [32][34][38] - 在触觉领域,目前尚无类似的技术积累来捕捉、存储和回放触觉信号,这使得单纯依靠视觉数据来训练灵巧性面临根本性挑战 [43]   实现灵巧性的关键要素 - 人类的灵巧性极度依赖于丰富复杂的触觉感知系统,例如人类手部无毛皮肤中约有1.7万个低阈值机械感受器,仅每个指尖就有约1000个,目前已发现15种不同类型的神经元参与人类手部的触觉感知 [45][48][49] - 学术界的探索性研究显示,更先进的数据收集方法需将人类的手指动作与人类在控制机器人手时所感知的触觉信号关联起来,这超越了仅收集视觉数据的局限 [52][55] - 实现真正的灵巧性不仅需要学习动作策略,更需要学习如何根据触觉层面的感知来调整任务目标规划,这仍需要大量研究 [56]   人形机器人行走的安全性问题 - 当前与人类等大的双足行走人形机器人对人类而言并不安全,其行走主要依靠基于零力矩点算法和大功率电机来维持平衡,一旦摔倒,其刚性结构和高能量腿部会对附近人类造成严重伤害 [57][59][61] - 物理系统的缩放定律使得安全性问题随尺寸放大而急剧恶化,将机器人放大到人类尺寸(比例系数2)时,其能量需求会变为8倍,潜在伤害级别完全不同 [62][63] - 要实现与人类安全共享空间的大规模部署,必须研发出更安全、可近距离接触的双足行走机器人,但目前尚未解决此问题 [57][63]   人形机器人未来形态演变 - "人形机器人"的定义将随时间演变,未来其"脚"可能被轮子取代,出现"单臂、双臂、三臂"等不同版本,并配备非被动摄像头传感器,但仍会被称为"人形机器人" [64][65] - 未来将出现大量为特定人类任务设计的专用机器人,形态各异,但都会被称为"人形机器人",而当前为榨取现有设计性能投入的巨额资金可能付诸东流 [66] - 行业预测在未来15年,虽然会拥有大量人形机器人,但它们的外观既不会像如今的人形机器人,也不会像人类 [2][66]
 著名机器人专家:人型机器人的未来是不像人
 阿尔法工场研究院· 2025-09-30 15:18
 人形机器人行业现状与宣传热度 - 人形机器人行业正处于技术成熟度曲线的起点,远未达到宣传热度的峰值,而生成式人工智能已过峰值[4] - 行业核心理念是研发能完成人类所有工作的通用人形机器人,无需制造不同类型的专用机器人[7] - 部分公司预测人形机器人将在两年内产生显著经济影响,更保守的预测则认为需要五年时间[9] - 特斯拉首席执行官预测其Optimus人形机器人可能创造30万亿美元收入,并称之为"或许是全球最大的产品"[9]   人形机器人发展历史 - 人形机器人研发历史可追溯至20世纪60年代中期日本早稻田大学的研究,该校于70年代初研制出首台人形机器人WABOT-1[11] - 本田公司在80年代末开始研发双足行走机器人,最终于2000年推出ASIMO人形机器人[11] - 波士顿动力公司在2013年推出了人形机器人ATLAS,该公司35年前从麻省理工学院拆分出来[11] - 麻省理工学院研究团队于1992年开始研发人形机器人Cog,先后开发了七个不同版本的平台[12]   灵巧性挑战与技术瓶颈 - 实现类人操控能力是人形机器人存在的根本原因,但目前尚无多关节手指机器人手部能满足实际工业应用需求[16] - 工业机器人主要使用平行夹爪抓取器和吸盘式末端执行器,德国公司雄克生产销售1000多种平行夹爪抓取器[18] - 人类手部无毛皮肤中约有1.7万个低阈值机械感受器,仅每个指尖就有约1000个,目前已发现15种不同类型神经元参与触觉感知[56][58] - 人类灵巧性依赖于丰富的触觉感知系统,包括默克尔小体、迈斯纳小体、帕西尼小体和鲁菲尼小体等特殊结构[58]   当前训练方法的局限性 - Figure和特斯拉等公司采用"从演示中学习"方法,通过人类完成任务的第一视角视频训练机器人[28][29] - 当前数据收集方法存在局限性,包括无手腕力反馈、手指控制精度有限、无触觉感知以及精度仅为1-3厘米[27] - 麻省理工学院研究团队开发的新型数据收集方法能将人类手指动作与触觉信号关联起来,超越了仅收集视觉数据的局限[62] - 人类在进行灵巧动作时往往会先制定任务目标规划,而非直接将传感器信息映射为动作[64]   行走安全性问题 - 当前人形机器人主要依靠大功率电机维持平衡,使用基于零力矩点算法的改进版,该算法已有约56年历史[70] - 双足行走人形机器人对人类而言存在安全隐患,其腿部会携带大量自由动能,在空间中快速加速,可能造成严重伤害[71] - 根据物理缩放定律,将机器人尺寸放大到人类尺寸(比例系数2)时,能量需求会变为8倍,潜在伤害级别完全不同[72] - 研发行走机器人的公司在其发布的视频中不会出现人类靠近行走中人形机器人的场景,除非有隔离物[73]   行业未来发展趋势 - 未来人形机器人的定义将发生变化,"脚"可能被轮子取代,腿部形态不再与人类相似[75] - 将出现单臂、双臂、三臂等不同版本,部分配备五指手,但更多会采用两指平行夹爪抓取器或吸盘[75] - 未来会出现大量为特定人类任务设计的专用机器人,形态各异,但都会被称为"人形机器人"[76] - 目前为提升当前人形机器人性能投入的巨额资金可能付诸东流,这些机器人将被淘汰[76]
 DeepSeek新模型降价:优化推理效率,API价格降超50%
 YOUNG财经 漾财经· 2025-09-30 14:25
 新模型发布与技术升级 - DeepSeek正式发布实验性版本DeepSeek-V3.2-Exp模型 [3] - 新模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [3] - 新模型针对长文本训练和推理效率进行探索性优化和验证 [3] - DeepSeek Sparse Attention首次实现细粒度稀疏注意力机制 [4] - 新机制在几乎不影响模型输出效果前提下实现长文本训练和推理效率大幅提升 [4] - 新模型研究过程中使用高级语言TileLang进行快速原型开发 [4] - 开源算子包含TileLang与CUDA两种版本 [4]   API价格调整与成本优化 - DeepSeek API价格降低50%以上 [2][4] - 输入缓存命中价格从0.5元降至0.2元/百万tokens [4] - 输入缓存未命中价格从4元降至2元/百万tokens [4] - 输出价格由12元降至3元/百万tokens [4] - 价格下调得益于新模型服务成本大幅降低 [4] - 官方App、网页端、小程序均已同步更新为新模型 [3]   模型性能与评估 - DeepSeek-V3.2-Exp训练设置与V3.1-Terminus严格对齐 [4] - 在各领域公开评测集上新模型表现与V3.1-Terminus基本持平 [4] - 新模型作为迈向新一代架构的中间步骤 [3]   行业竞争动态 - 国内大模型厂商智谱新一代旗舰模型GLM-4.6即将发布 [6] - 智谱Z.ai官网显示GLM-4.5标识为上一代旗舰模型 [6]   学术研究突破 - DeepSeek-R1研究成果登上《自然》期刊封面 [7] - 研究揭示如何在极少人工输入下训练模型进行推理 [7] - DeepSeek-R1模型采用强化学习进行训练 [7] - 模型正确解答数学问题获高分奖励答错受惩罚 [7] - 训练出能够规划解决问题步骤的大模型能更好解决问题 [7]
 理想可能发i6战报,可能不发
 理想TOP2· 2025-09-30 13:01
 理想汽车I6战报发布可能性分析 - 综合消息面与推理面 公司倾向于I6可能发布战报 且发布概率较大 [1][3] - 公司判断理想汽车可能发I6战报也可能不发 可能发的点是L6已发战报 可能不发的点是理想总体不倾向发战报 [1]   理想汽车经营策略与核心理念 - 公司分析认为理想汽车实际经营的核心锚点是其创始人李想以挑战成长极限为最终驱动力 其他经营策略可能变化 [4] - 理想汽车更长时间周期未必坚持移动的家或家用车理念 此次I6宣发已无小孩带娃元素 家用车定义从局限于12岁以下小孩变为更宽泛 [4] - 理想汽车经营策略被描述为以挑战成长极限为奖励函数的强化学习 会依据环境反馈进行调整 [4]   理想汽车战报发布行为模式 - 理想汽车倾向于不发布锁单或大定战报 原因包括全直营模式导致只能发布真实数据 以及早期大定数据不亮眼 发布效果不佳 [4] - 如果战报数据非常亮眼 公司认为理想汽车有可能发布 以带来相应好处 [4]   I6与L6车型数据预期对比 - I6数据预期纸面上比L6好很多 L6为72小时1万台七天可退大定 但不能等比例类比 [5] - I6有很强的晚锁单和晚提车可能错过置换补贴及国补的预期 而L6没有此预期 [5]