Model 1 - 财报，业绩电话会，研报，新闻

Model 1

搜索文档

第一财经· 2026-01-25 09:31

大模型技术进展与发布 - DeepSeek官方代码更新中多次提及未公开的“MODEL1”大模型标识符该标识符与已知的DeepSeek-V3.2并列行业推测其可能代表一个不同于现有架构的新模型可能是V4、推理模型R2或V3系列终极版根据模型文件结构判断该模型很可能已接近训练完成或推理部署阶段 [1] - 英伟达CEO黄仁勋总结过去一年AI大模型的三大突破第一是模型能在未受训领域进行推理、计划并回答问题出现了代理式AI 第二是开源模型取得重大突破首个开源推理模型DeepSeek的推出对大多数行业和公司而言是重大事件第三是物理AI取得巨大进展其不仅能理解语言还能理解物理世界 [7] - Meta新设立的超级智能实验室团队已在本月向公司内部交付了首批AI模型该团队成立约六个月交付的模型表现“非常好”并展现出“很多潜力” 但技术尚未完成距离交付给内部业务和普通消费者仍有大量工作要做 [9] 行业竞争与商业化动态 - OpenAI仅靠API业务在上个月就新增了超过10亿美元的年度经常性收入公司首席财务官披露2025年公司年化收入突破200亿美元同比增长超230% 公司近期加快了商业化进程并将在美国测试ChatGPT广告以带来额外收入 [4] - 美国AI公司Anthropic正在进行一轮总额超过250亿美元的融资预计估值将提升至约3500亿美元较去年9月的1700亿美元估值实现翻倍此轮融资重要部分来自微软与英伟达已宣布的投资红杉资本计划首次投资并可能领投公司年化营收自去年夏天以来已翻倍截至2025年底已超过90亿美元 [8] - 百度新设个人超级智能事业群组合并文库和网盘事业部百度文库目前AI月活用户超9700万百度网盘AI月活用户超8000万此次调整旨在整合人才与技术强化公司在AI应用方面的整体协同创新能力 [5][6] AI安全、伦理与社会责任争议 - 特斯拉CEO埃隆·马斯克在X平台转发帖子称ChatGPT与9起死亡事件有关其中5起据称是由于其互动导致自杀身亡受害者包括青少年和成年人 OpenAI CEO山姆·奥尔特曼回应承认运营近十亿用户AI平台的挑战并提及已有超过50人死于与自动驾驶相关的事故争论将AI安全伦理、致幻风险及科技巨头社会责任等话题推向风口浪尖 [2] - 针对医生担忧年轻医生过度依赖AI并被误导的观点百川智能创始人王小川回应称“AI加医生”组合优于单个医生解决担忧的关键在于转换使用思路让AI对医生的临床思维进行提醒、对诊疗结果进行校验实现“AI给医生保驾护航”的模式 [3] - 《启明计划：构建人工智能护栏的全球共识》课题项目在北京大学启动旨在制定政策蓝图系统梳理全球AI安全护栏识别关键趋同与分歧领域提出建立全球共识的机制研究涵盖国家政策、跨国组织准则、企业自律规范及学术倡议等多个层面 [15] 硬件、芯片与机器人领域动态 - 国产AI芯片公司燧原科技科创板IPO招股书显示去年前三季度该公司有71.84%的销售收入来自腾讯及其指定的服务器厂商腾讯及关联方持有该公司20.26%的股份 2022年至2024年公司营收分别为0.9亿元、3.01亿元、7.22亿元亏损分别为11.16亿元、16.65亿元、15.1亿元三年合计亏损42.9亿元 [12] - 摩尔线程公告预计2025年年度实现营业收入14.5亿元到15.2亿元同比增长230.70%到246.67% 预计净利润亏损9.5亿元到10.6亿元亏损同比收窄34.50%到41.30% 公司预计最早可于2027年实现合并报表盈利 [13] - 宇树科技表示2025年公司人形机器人实际出货量超5500台 2025年本体量产下线超6500台该数据为纯人形机器人数量不含其他产品其出货量超过了智元机器人此前透露的截至2025年底整体超5100台的出货量 [14] 开源与算法透明度 - 马斯克旗下社交媒体平台X正式将平台推荐算法开源该算法由与xAI的Grok模型相同的Transformer架构驱动系统彻底移除了所有人工设计的特征及绝大多数人为设定规则几乎完全依赖基于Grok模型承担核心工作通过预测用户行为对帖子进行排序 [10][11]

Artificial Intelligence

Artificial Intelligence

Model 1

腾讯研究院AI速递 20260122

腾讯研究院· 2026-01-22 00:01

DeepSeek新模型进展 - DeepSeek在R1发布一周年之际，其GitHub代码库更新中出现代号为Model 1的新模型，推测为DeepSeek-V4的内部开发代号或工程版本 [1] - 代码分析显示Model 1采用512维标准架构，全面支持英伟达Blackwell架构，并引入Token-level Sparse MLA稀疏注意力机制 [1] - 新模型引入VVPA数值向量位置感知和Engram机制等新特性 [1] 新兴AI架构与模型 - Liquid AI开源基于液态神经网络架构的推理模型LFM2.5-1.2B-Thinking，该模型在手机端仅需900MB内存即可运行 [2] - LFM2.5-1.2B-Thinking在MATH-500上达到88分，参数量比Qwen3-1.7B少40%却表现更优，推理速度和内存效率均超越Transformer模型 [2] - 训练采用分层强化学习策略，通过n-gram重复惩罚将死循环生成比例从15.74%降至0.36%，证明Transformer并非唯一解 [2] - 中佛罗里达大学等机构发布Medical SAM3，这是首个仅凭文本指令即可在CT、MRI等10种模态实现专家级分割的医学模型 [5] - Medical SAM3采用全参数微调和分层学习率衰减策略，在33个医学数据集上将零样本场景平均准确率从11.9%提升至73.9% [5] - 在内镜息肉分割等极端案例中，其准确率从0.0%跃升至87.9% [5] AI自主性与人机协作演进 - Midjourney工程师展示Claude反向指挥人类工作的视频，AI可布置任务让人类去TestFlight发包、写文案、跑测试 [2] - Claude Code具备自主执行能力，可运行Bash命令、创建文件、自动修Bug形成闭环，Cowork等工具让用户下达模糊指令后AI自主规划执行 [2] - Node.js之父Ryan Dahl宣称人类编写代码的时代已结束，Linux之父也开始Vibe Coding，程序员角色正从编写代码转向审查代码 [2] - 谷歌等机构研究发现DeepSeek-R1等推理模型会在内部自发形成多角色辩论机制，通过提问、质疑、冲突和和解推导答案 [3] - 模型内部存在稳定的虚拟人格分工，高神经质人格负责纠错，高开放性人格提供新视角，这种“思维社会”机制让准确率翻倍 [4] - 通过干预模型内部的“觉察特征”，在倒计时数学游戏中准确率从27.1%飙升至54.8% [4] 行业趋势与公司动态 - xAI工程师在播客上透露MacroHard项目核心机密，包括内部已将AI包装成“同事”进行测试，有人去工位找同事发现是空桌 [3] - xAI押注小模型路线追求极致速度，MacroHard已达人类8倍速度，并考虑租用北美约400万辆特斯拉闲置算力进行部署 [3] - xAI的Colossus 1利用“临时用地租约”在122天内建成，展现了公司扁平化文化和极致执行力 [3] - Anthropic CEO在达沃斯论坛预测AI端到端接管软件工程师工作仅剩6-12个月，公司内部工程师已基本不手写代码 [6] - Anthropic CEO预言2026-2027年将诞生“诺奖级”AI模型，未来1-5年内50%初级白领工作将消失 [6] - DeepMind CEO预测2030年前有50%概率实现AGI，行业领袖认为“AI建AI”闭环一旦跑通将迎来指数级加速 [6] Agent能力评估与商业化 - 红杉中国xbench团队发布AgentIF-OneDay评测，测试Agent处理真实日常任务能力，头部Agent得分约62-65% [7] - 评测覆盖104道任务、15种以上文件格式、767个评分点，发现不同框架难以拉开差距，基础Agent能力已商品化 [7] - 隐式条件推断是Agent普遍最薄弱能力，xbench正着手构建OneWeek评测集，认为优先转起数据飞轮的公司将率先实现Agent的FSD时刻 [7] AI产业经济与未来展望 - OpenAI CFO与投资人指出2026年多智能体系统将成熟，AI泡沫应以API调用量而非股价衡量 [8] - OpenAI算力投资与收入强相关，三年收入从1亿美元增至100亿美元，目前需求受算力限制，采用AI的前沿企业生产力提升27-33% [8] - 双方预测机器人产业规模将超越汽车产业，未来十年末将出现大规模通缩经济，劳动力和专业知识边际成本趋近于零 [9]

生成式AI

AGI

多智能体系统

Artificial Intelligence

Artificial Intelligence

Model 1

LFM2.5-1.2B-Thinking

DeepSeek新模型“Model 1”曝光，疑似“高效推理模型”

新浪财经· 2026-01-21 14:58

公司动态与产品发布 - DeepSeek于1月21日在官方GitHub仓库更新了FlashMLA代码，其中出现了一个名为“Model 1”的新模型，引起了广泛关注 [1][2] - 在代码仓库中，“Model 1”拥有与现有主力模型DeepSeek-V3.2并驾齐驱的文件，这引发了市场猜测，认为它很可能是公司计划在春节前后发布的新模型的代号 [1][2] 产品架构与技术定位 - “Model 1”被确认为DeepSeek FlashMLA中支持的两个主要模型架构之一，另一个是DeepSeek-V3.2 [1][2] - 该模型很可能是一个高效推理模型，其特点是相比V3.2内存占用更低，因此适合部署在边缘设备或成本敏感的应用场景 [1][2] - 此外，“Model 1”也可能被定位为一个长序列专家模型，针对超过16K的序列长度进行了优化，使其特别适合处理文档理解、代码分析等需要长上下文的复杂任务 [1][2]

Seek .(US:SKLTY)

高效推理模型

长序列专家

Artificial Intelligence

Artificial Intelligence

Model 1

DeepSeek-V3.2

DeepSeek FlashMLA