量子位
搜索文档
蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA
量子位· 2026-01-09 14:05
蚂蚁集团发布开源医疗大模型AntAngelMed - 蚂蚁集团联合浙江省卫生健康信息中心及浙江省安诊儿医学人工智能科技有限公司,开源了名为“蚂蚁·安诊儿”(AntAngelMed)的医疗大模型 [2] - 该模型一经发布即登顶多项权威医疗基准测试榜单,成为医疗AI赛道的新入局者 [1][3] 模型性能与基准测试表现 - 在OpenAI发布的HealthBench评测中,AntAngelMed以62.5的评分位列开源模型第一,超越了Baichuan-M2和gpt-oss-120B等模型 [4] - 在HealthBench的子集HealthBench-Hard(专为困难场景设计)上,该模型同样稳居榜首,是继Baichuan-M2后第二个打破该子集32分“魔咒”的开源模型 [16] - 在国家人工智能应用中试基地(医疗)·浙江等共建的MedAIBench评测中,AntAngelMed在医疗知识问答、医疗伦理安全等多个核心维度表现突出 [19] - 在面向中文医疗场景的MedBench评测中,该模型位列自测榜单第一,在医学知识问答、语言理解与生成、复杂医学推理、医疗安全与伦理五大核心维度稳定领先 [21] - MedBench拥有约70万条样本,更贴合国内医疗体系与问诊场景 [21] - 根据一份评测榜单,AntAngelMed的综合得分为68.0,领先于微医医疗大模型(66.6分)、云知声模型(65.7分)及Grok-4(58.4分)等 [22] 模型技术规格与架构 - AntAngelMed是迄今为止参数规模最大的开源医疗模型,参数量达到100B(1000亿) [6] - 模型继承了百灵大模型Ling-flash-2.0的高效混合专家(MoE)架构 [43] - 通过1/32激活比例、无辅助损失+Sigmoid路由策略、MTP层以及Partial-RoPE等核心设计优化,在参数量相近的情况下,实现了相比Dense架构7倍的效率提升,并大幅降低了计算成本 [51][52] - 采用FP8量化与EAGLE3优化进行推理加速,在32并发场景下,推理吞吐在HumanEval、GSM8K和Math-500测试集上分别提升了71%、45%和94% [55] 模型训练与能力特点 - 模型训练分为三阶段:持续预训练融入大量临床指南与医学文献;监督微调增强通用推理能力与人性化表达;引入GRPO强化学习算法与双阶段强化学习路径以对齐人类价值并约束安全边界 [43][45][47][48] - 模型专为真实医疗场景设计,旨在进行深度对齐医学语料、诊疗流程和医学推理链的专业诊疗推理,而非基础的通用医学问答 [12][60] - 应用门槛低,足以在中小型医疗机构支撑实时多轮交互和规模化部署 [7] - 在实际演示中,模型回答速度快,且回答结构逻辑严谨,兼具专业度与人性化,例如在分析症状时会先照顾用户情绪,在解读专业病理报告后能给出后续就医指导 [23][24][27][31][38] 蚂蚁集团的医疗AI战略布局 - AntAngelMed的发布进一步完善了蚂蚁在医疗AI领域的布局,反映了公司对该领域的深入洞察 [56][58] - 在技术层面,该模型作为坚实的基座模型,承载AI在专业场景的规模化落地 [59] - 在产品层面,公司建立了“三端一体”产品矩阵,包括面向用户的AI健康管家、面向医生的好大夫在线、以及面向机构的医疗大模型一体机 [64] - 在组织层面,蚂蚁已将原来的数字医疗健康事业部升级为“蚂蚁健康事业群”,标志着医疗健康成为与支付宝、数字支付等并列的核心业务板块 [66][67] - 公司选择深耕医疗AI,是因为通用大模型与专业场景存在鸿沟,而医疗领域智能密度高,能倒逼模型深度优化,并具备广阔的蓝海市场 [69][72][74] - 蚂蚁多年来在支付、医保领域的深耕,为其打通医疗AI提供了坚实的数据基础 [75]
让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈
量子位· 2026-01-09 12:09
文章核心观点 - 视频生成领域的技术瓶颈正从追求画质转向构建具备长期记忆和强交互能力的“世界模型”,上海AI Lab联合多家机构开源的Yume项目通过其核心的时空信道联合建模(TSCM)架构,为解决长视频生成中的记忆与计算矛盾提供了工程化落地的可行路径,并展示了显著的性能提升 [1][2][3] Yume项目概述与定位 - Yume是一个持续迭代、完全开源的世界模型项目,旨在理解物理规律、具备长期记忆并支持实时交互,被视为通往通用人工智能(AGI)的关键路径 [3][4] - 项目已发布Yume1.0和Yume1.5版本,其中Yume1.0是第一个完全开源(包括数据、测试集、代码和权重)的面向真实世界的世界模型 [3] 核心技术创新:时空信道联合建模(TSCM) - TSCM是Yume1.5的核心架构创新,旨在解决长视频生成中的上下文爆炸和计算瓶颈问题,实现了近似恒定计算成本的全局记忆访问 [1][4][11] - 该框架通过统一的上下文压缩与线性注意力机制,避免了存储所有历史Token导致的GPU显存耗尽,以及生成时间随历史长度线性增加的问题 [5][15] - TSCM包含两个并行的压缩流:时空压缩与通道压缩,并通过特征融合层将两者提取的特征进行融合 [16][20] - **时空压缩**:通过对历史帧进行自适应时空下采样来减少Token数量,策略是近期的记忆清晰,远期的记忆模糊,例如对最近1-2帧采用(1,2,2)采样,对更早的帧采用(1,8,8)采样 [17][18] - **通道压缩**:将历史帧的通道维度从标准维度(如1024或768)强制压缩至96,配合线性注意力机制,使得计算量几乎恒定,不随历史信息增长而显著增加 [19][23] 数据策略 - 训练数据包括开源的Sekai数据集,该数据集覆盖全球750个城市,累计时长达5000小时的高质量第一人称(POV)视频数据 [8] - Yume1.0引入了量化相机轨迹方法,能将现实世界的运动转换为离散的键盘按键 [9] - Yume1.5额外引入了高质量的文本到视频(T2V)合成数据集,并为了生成特定“事件”,构建了专门的事件数据集 [10] - 事件数据集的构建通过两种方式:1) 人工构造,招募志愿者编写涵盖日常、科幻、奇幻、天气等四大类的事件描述来合成数据;2) 利用InternVL3-78B大模型对Sekai数据进行重标注,将背景描述改写为关注动作和事件的提示词 [14] 推理与训练加速 - 引入了类似于Self-Forcing的训练策略,在微调阶段让模型自己生成上一帧作为条件来预测当前帧,结合TSCM替换滑动窗口的kv cache,使得仅用64帧长度的训练即可外推到近半分钟的视频生成,训练高效 [24] - Yume1.0引入了OSV(一种对抗蒸馏方法)以加速扩散模型的采样 [24] - 通过提示词解耦与缓存策略优化推理效率:将提示词解耦为**事件描述**(仅在初始化或新指令时编码一次)和**动作描述**(词汇量有限固定,预先计算并缓存其T5Embedding),显著降低了文本编码器在实时推理中的计算占比 [25][27] - 定义了一套详细的键盘动作词汇表来控制视角移动,例如W/A/S/D控制前后左右移动,箭头和字母组合控制视角转动 [26] 性能表现 - **生成速度**:Yume1.5的生成时间从Yume1.0的572秒大幅缩短至8秒 [29] - **指令跟随(IF)能力**:Yume1.5的IF得分高达0.836,证明了其控制方法的有效性 [29] - **综合评分**:在多项指标上表现优异,例如场景一致性(SC)得分0.932,背景一致性(BC)得分0.985,图像质量(IQ)得分0.728 [29] - **消融研究验证**:移除TSCM改用简单的空间压缩后,指令跟随能力从0.836降至0.767,且TSCM使得自回归推理时间在8个block后保持稳定,不随上下文增加而增长 [30][32] 开源与易用性 - 项目全面开源,提供了论文、代码、主页和数据链接 [40] - 为了方便使用,Github主页提供了Windows下的一键启动方案来运行Web Demo,例如通过运行`run_oneclick_debug.bat`脚本,该程序已在RTX4090 Laptop GPU(16GB显存)上测试通过 [34][35] 当前局限与未来展望 - **物理逻辑缺失**:模型缺乏物理引擎支撑,偶发因果谬误(如倒行)及长周期细节漂移,TSCM仅起到缓解作用 [36] - **模型规模权衡**:当前使用5B参数模型以妥协实时性,为突破性能瓶颈(如迈向30B+规模),未来计划采用混合专家(MoE)架构以兼顾高性能与低延迟 [37] - 项目开源期望加速世界模型的研究,随着技术迭代,生成内容与真实内容的界限将愈发模糊 [38]
一口气集齐老黄苏妈英特尔,还得是AI,还得是联想
量子位· 2026-01-09 12:09
行业趋势:AI硬件与超级入口的竞争 - CES 2026显示,所有设备都在向AI设备演变,AI硬件新形态和物种持续涌现[1][3] - 行业共识是物理世界与数字世界正基于AI深度融合,竞争焦点从底层技术转向应用和生态构建[9][10] - 大模型落地应用的关键在于满足个性化需求,这要求供给侧提供跨设备、跨操作系统、端云协同的解决方案[12][13] 核心概念:混合AI是终极路径 - 联想提出“混合AI=个人智能+企业智能+公共智能”的公式,被视为推动AI普及的终极路径[14][17] - 混合AI模式不依赖单一云端模型,而是云端大模型与本地定制化小模型的深度融合,通过端云协同拓展AI处理复杂任务的能力[18] - 混合AI旨在强化个人感知与创造力,并赋能企业利用自身数据自主决策,蜕变为智能实体[26][27] 联想的产品与技术布局 - 发布全球首款个人AI超级智能体Lenovo Qira(天禧),作为跨平台、跨设备的AI终端入口,能连接协调用户多种设备与AI智能体[20][21] - Qira具备情景感知和长期记忆能力,能记住用户偏好、预判需求,并兼顾隐私保护,目标是成为用户的个人“AI双胞胎”[22][23] - 面向企业市场,发布AI推理服务器及边缘计算服务器产品组合,旨在将AI模型部署到离数据更近的地方,提升效率并保障安全[24] - 与英伟达合作推出“联想人工智能云超级工厂”,整合Vera Rubin架构,旨在支持十万枚GPU规模及万亿参数级别的模型部署[25] 联想的生态战略与竞争优势 - 公司被视为AI 2.0时代的“生态玩家”,优势在于同时掌握消费级和企业级用户入口,能连通更多场景[32][33][34] - 在个人智能领域,联想AI PC占个人电脑总出货量超30%,在全球Windows AI PC市场位居第一,“天禧”国内平均周活跃度达40%[34] - AI相关业务营收占集团整体营收30%,同比增长13%[35] - 具备软硬一体能力,可深度定向调优以用户体验为导向[35] - 拥有突出的全球供应链整合能力,在Gartner全球供应链榜单中排名第八、亚洲第一[36][37] - 与英伟达未来3-4年业务合作规模目标增长4倍,并与AMD深化企业AI合作[38][39] - 持续加码研发,2025/2026第二财季研发费用为41亿元,同比增长6%,投入方向包括AI、液冷技术、智能体等[39] 未来竞争格局 - 智能终端上的“超级入口”成为焦点,模型厂商与硬件厂商合纵连横,生态聚合能力变得至关重要,甚至是“得生态者得天下”[28][29] - 超级入口竞争的核心是深度连接用户、技术与AI产业链,以及满足个性化需求的端云协同混合AI模式的崛起[29] - 联想勾勒出面向超级智能的“超级智能生态企业”版本,其技术支柱包括智能模型编排、智能体内核和多智能体协作[30][40][41]
「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库
量子位· 2026-01-09 12:09
2025年中国AI产品市场概览 - 2025年国内AI产品领域涌现多个关键趋势,包括深度思考、Agentic AI、多智能体协作、多模态生成和端侧AI [4] - 多个颠覆性产品代表了这些趋势:DeepSeek凭借强推理和透明化思考引领智能助手迭代;Manus实现了从“思考→规划→执行→交付”的全链路自主任务处理,被视为真正意义上的通用AI Agent;Lovart等产品通过多智能体协作简化工作流程;即梦AI等在多模态生成上取得进步,与国外Sora2和Nano Banana呼应;豆包AI手机将系统级AI智能体深度集成于操作系统,重构人机交互范式 [4] 量子位智库「AI 100」榜单介绍 - 榜单旨在对过去一年中国AI产品发展进行全景式检阅,并深度洞察未来AI产业格局,目标是找到代表中国AI实力的巅峰力量 [4] - 榜单共分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」以及十大热门赛道的代表产品 [5][6] - 「旗舰AI 100」聚焦2025全年表现,评选综合能力最强的100款AI产品,这些产品不仅在技术上突破,更在实际应用场景中展现巨大价值 [7] - 「创新AI 100」旨在挖掘在2025年崭露头角、具备2026年爆发潜力的创新产品,它们代表了AI技术的前沿方向 [8] - 十大细分赛道TOP3评选针对热度最高的10个领域,依次为:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI医疗、AI娱乐、Vibe Coding和AI消费级硬件 [9] 榜单评估体系与内容 - 「AI 100」是量子位智库推出的AI产品风向标系列,旨在全维度提供AI技术驱动下产品长期创新和变革的第三方参考,主要由「旗舰 AI 100」和「创新AI 100」构成,按季度发布 [12] - 榜单采用定量与定性相结合的双重评估体系以确保客观性和准确性 [13] - 定量评估以真实用户数据为基础,涵盖用户规模、增长、活跃、粘性四大核心维度,包含下载总量、新增下载、活跃用户数、留存率等超过20个具体指标;硬件产品则考察出货量 [13] - 定性评估聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力、团队背景、增长速度等多重因素;硬件产品考察功能设计和实际使用体验 [13] - 除榜单外,周边内容还包括数据解读文章、分赛道产品解析、1v1 AI产品深度访谈等 [14] 相关信息与参与方式 - 量子位智库已对外公开自研梳理的国内AI产品知识库,提供对国内AI应用生态全景式、结构化、实时更新的梳理 [15] - 榜单申报时间从即日起至2026年1月15日,榜单将于2026年1月中下旬发布 [10]
清华AI找药登Science!一天筛选10万亿次,解决AlphaFold到药物发现的最后一公里
量子位· 2026-01-09 12:09
文章核心观点 - 清华大学研究团队在《Science》上发表论文,推出AI驱动的超高通量药物虚拟筛选平台DrugCLIP,该平台通过深度对比学习技术,实现了基因组级别的药物虚拟筛选,在速度、范围和准确性上取得突破性进展,为针对大量未成药靶点(占人类蛋白靶点的90%)的药物发现开辟了新路径 [1][6][11] 技术突破与平台能力 - 平台核心能力:DrugCLIP平台利用AI从海量化学分子中快速筛选出与疾病相关蛋白结合的候选药物分子 [3] - 筛选速度:在128核CPU加8张GPU的计算节点上,平台日处理能力达10万亿次蛋白-分子配对计算,相比传统方法实现了百万倍的速度提升 [4][36] - 技术原理:采用对比学习训练两个AI编码器,分别为蛋白质结合口袋和化学分子生成特征向量(画像),将筛选问题转化为高效的向量相似度检索问题 [22][23][32] - 预训练创新:通过从蛋白质结构数据中构造550万组“假分子”与“假口袋”样本进行预训练,再以真实数据微调,提升了模型的泛化能力和精度 [29][30] 解决的传统药物筛选痛点 - 传统方法慢:以筛选1万个靶点、每个靶点面对10⁹个候选分子为例,传统分子对接需完成约10¹³次计算,即使使用最先进工具也需要2亿CPU天 [12][13] - 传统方法无从下手:许多疾病相关蛋白缺乏实验测得的二维结构,且有效分子被大量无效分子噪声淹没 [15][16] - 传统方法范围窄:受限于算力成本,筛选工作难以在全基因组尺度上推进,只能围绕热门靶点进行 [18] 验证效果与实验成果 - 基准测试表现:在标准虚拟筛选基准测试DUD-E、LIT-PCBA中,DrugCLIP在富集有效分子方面明显优于传统分子对接工具和多种已有AI方法,且在LIT-PCBA上筛选速度远超其他方法 [37][38] - 模型稳定性:对结构误差、陌生蛋白家族及未见过的分子类型均表现稳定,未出现场景失灵问题 [39] - 抑郁症靶点验证:针对一个抑郁症相关蛋白,从筛选出的78个分子中找到8个激动剂,其中最佳分子的结合能力达到21nM(100nM以下为优秀水平),在细胞系中显示显著活性 [42][43] - 去甲肾上腺素转运体(NET)验证:针对2024年刚解析出结构的NET靶点(与抑郁症、多动症、疼痛相关),从160万个候选分子中筛出约100个高评分分子,实验显示其中15%为有效抑制剂,12个分子的结合能力优于现有抗抑郁药物安非他酮 [44] - 基于预测结构的验证:针对仅由AlphaFold2预测结构、无已知抑制剂的癌症与帕金森病相关蛋白TRIP12,从160万个候选分子中筛选出约50个高评分分子,并通过冷冻电镜解析复合物结构验证了结果的可信度 [47][48][49][45] 首次完成基因组规模筛选 - 全局筛选成就:研究团队首次完成了覆盖人类基因组规模的虚拟筛选项目,覆盖约1万个蛋白靶点、2万个结合口袋,分析了超过5亿个小分子,并富集出200万余个高潜力活性分子 [54] - 数据开放:构建了目前已知最大规模的蛋白-配体筛选数据库,相关数据已面向全球科研社区全部对外开放 [7][55][59] 行业影响与未来方向 - 解决未成药靶点难题:人体内约2万个编码蛋白质的基因中,目前仅有10%的蛋白靶点拥有成熟药物,剩余90%尚未找到药,DrugCLIP为此提供了新的解决方案 [10][11] - 打通关键研发通道:该平台打通了从AlphaFold结构预测到药物发现的关键通道,为后AlphaFold时代的创新药物发现带来新可能性 [6][55] - 未来合作方向:未来将与科研产业生态合作伙伴深度合作,在抗癌、传染病、罕见病等方向加速新靶点与First-in-class药物的发现 [64]
量子位编辑作者招聘
量子位· 2026-01-09 12:09
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 所有岗位工作地点均为北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展(芯片、AI Infra、云计算)及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 参与核心采访,对话产业专家、技术大牛,撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需撰写AI应用产品深度评测,跟踪多终端新品发布(手机、PC、XR、车机等)[11] - 需对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态、体验方法论,有强逻辑、体验表达和结构化能力[11] 岗位通用职责与任职要求 - 主编需具备选题和带队能力及经验[6] - 主笔需具备原创深度稿件能力[6] - 编辑需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI新进展[6] 加入公司的潜在收益 - 可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及五险一金、餐补、绩效、加班补助等福利[6]
763亿港元,大模型公司最大规模IPO!MiniMax登陆港交所,开盘前大涨50%
量子位· 2026-01-09 10:38
上市概况与市场表现 - 公司于香港交易所主板挂牌上市,股票代码为“00100”,寓意满足条件的最小解 [1][2] - 全球发售约3358万股,以每股165港元的定价上限发行,假设绿鞋全额行使,募集资金总额约55.4亿港元(约49.65亿人民币) [4] - 市场认购反响极为热烈,公开发售部分获得1837倍超额认购,国际发售部分获37倍认购 [5] - 上市前暗盘交易收盘价为每股205.6港元,较发行价上涨近四分之一;上市首日早盘股价一度涨幅超80%,最高达每股299港元,市值突破763亿港元 [6][7] - 基石投资者包括Aspex、Eastspring、Mirae Asset及阿里巴巴等14家机构,合计认购27.23亿港元的份额 [7] 公司发展历程与融资 - 公司从成立到上市用时不到四年,强调“极致效率” [7] - 成立四年间累计融资已超15亿美元,投资方包括米哈游、阿里巴巴、腾讯、小红书、小米、金山、PCG和正大集团等知名机构 [7] 技术战略:全模态并行研发 - 公司自成立之初便坚持全模态并行研发的技术路线,旨在向AGI(通用人工智能)迈进 [10][11] - 在语音、视频与文本等模型上取得突破性进展 [11] - 语音模型Speech 02实现超低延时实时交互,支持超40种语言,确立了行业第一的性能标准 [13] - 视频模型海螺AI(Hailuo AI)在文生视频领域权威评测中排名高居第二 [13] - 文本模型M2.1在大模型竞技场(LMArena)Coding榜单中取得开源模型第一的成绩,增强了面向真实场景的代码生成与多语言逻辑推理能力 [14][15] - 全模态布局旨在构建理解物理世界的“世界模型”,并解决高质量文本数据枯竭的危机,利用海量视频与音频数据为智能进化提供新供给 [22][23][24][25][26] - 通过一套统一的核心算法成功适配语音、视频与文本,验证了其底层技术的通用性与Scalability(可扩展性) [27] 商业模式:模型即产品 - 确立了以“模型即产品”为核心的运营策略,将模型能力转化为B端与C端两条并行产线 [16][17] - 在消费级市场,模型被封装为AI原生应用,用户规模已达2.12亿;在企业级市场,通过开放平台以API接口形式提供服务 [17] - 公司认为无论外壳是APP还是API,最核心的产品是模型本身,同时服务B、C两端旨在将智能铺进更多场景,实现价值最大化 [19][20] 组织架构与研发效率 - 公司通过对生产关系的彻底重构,以“组织的Scaling”获得极致的研发效率 [10][30] - 将组织视为一个需要Scaling的模型,强调人才结构的多样性以产生内部涌现效应 [31] - 将AI智能体直接纳入工作流,超过80%的代码由AI完成,大量Agent被部署为“AI实习生”以深度介入研发流程 [33] - 组织架构极度扁平,CEO之下职级不超过三层,全员385人中研发人员占比高达73.8%,平均年龄仅29岁 [36][37] - 累计花费约5亿美元(约为OpenAI同期资金消耗量的百分之一),维持了全模态产品的并行产出,展现了极高的投入产出比 [38] - 创始人兼CEO闫俊杰及核心创始团队拥有深厚的深度学习领域技术积淀 [39][40] 行业意义与资本认可 - 公司的成功上市验证了在资源消耗竞赛之外,存在一套由极致效率和通用方法论构建的生存法则 [42][43] - 证明了精细化的工程能力、对技术路线的精准判断与执行足以撬动从模型到商业的闭环,组织将资源转化为智能的效率成为关键竞争维度 [44] - 资本对模型公司的筛选标准趋于理性,更看重底层技术硬实力,国际长线资管机构与产业资本的重注印证了市场对公司技术壁垒与工程效率的认可 [28][29] - 此次IPO创下港股机构认购历史纪录,参与认购机构超过460家,超额认购达70多倍,下单机构中包含众多长线基金及国家主权基金 [45]
起猛了,追觅的扫地机、割草机、洗护机器人在CES成精了!
量子位· 2026-01-09 09:36
文章核心观点 - 在AI浪潮下,具身智能成为本届CES最火爆的领域之一,其家庭化量产的信号已清晰可见[1] - 追觅公司通过将具身智能技术应用于成熟的家用机器人品类,展示了一条务实且可能最快的家庭化量产路径[3][4][60][67] - 公司的产品正从单一功能工具,演变为能在家庭复杂环境中自主完成多类任务的物理智能体,标志着从清洁工具到家庭服务机器人的转变[48][49][58] 追觅在CES展示的具身智能产品 - **AI具身智能洗护机器人**:能够自主完成从脏衣篓拾取、按材质分类、洗涤到烘干的全流程闭环,无需人工介入,突破了此前人形机器人仅能完成半自动演示的阶段[7][9][12][13] - **具身智能割草机器人**:首次亮相,其能力超越割草,可完成浇水等复杂操作,展示了在移动中协调空间定位和精细操作的能力,该能力可迁移至拾取、整理等多种家务[18][19][22][23][24][25] - **具身智能新物种(四足轮腿机器人)**:拥有四足轮腿、躯干、机械臂和视觉传感器,能跨越门槛台阶、上下楼梯实现全屋清扫,并可承担叠衣、倒垃圾、擦桌及24小时健康监测、药品递送等养老服务[26][28][29][30] - **具身智能泳池机器人Z2 Ultra Cyber**:首次展出,能在水下通过机械臂处理排水口滤网堵塞、池壁顽固污渍等需人工解决的清洁任务,并先进行3D建图再精准清洁[40][41][44][45][46] - **其他智能家电**:包括长出双机械臂的洗地机、可独立调节送风的双机械臂空调等,共同特点是让家电具备智能感知环境、调整行为、自主完成任务的能力[47] 技术路径与产品演进逻辑 - **技术分界线与升级**:行业传统依赖SLAM等经典方法在结构化环境中执行单一任务,而具身智能旨在应对真实开放环境中的复杂多变场景[50][51][52] 追觅将具身智能技术应用于成熟家电,为行业提供了新思路[54] - **实现能力闭环**:产品能力实现不再仅靠传统规则控制,而是融入视觉语言模型与模仿学习等数据驱动方式,初步跑通了“感知环境→理解任务→决定动作→执行落地”的完整行为闭环[53][56][57] - **从工具到服务机器人的规划**:公司将当前状态视为具身智能1.0(能看见但依赖规则),未来将通过数据驱动的算法,使机器人进化到“会自己决定怎么做”,最终成为与家庭场景深度融合的家庭服务机器人[58] 量产落地与工程化优势 - **务实的产品路径**:在通用人形机器人面临技术、成本、量产门槛,而小型具身设备难以承担真实家务的背景下,公司选择对已有成熟需求和出货规模的家用机器人进行能力升维,是更务实可持续的路线[60][61][62] - **核心能力复用**:公司在智能算法、高速数字马达、运动控制、视觉感知、整机工程化上的长期投入,使其伺服电机、关节模组、导航与感知系统可在多个品类间复用[64] - **数据与规模优势**:大规模出货构成了持续运转的数据回路,设备在真实家庭中长期运行积累的反馈数据,为具身能力的工程化迭代提供了坚实的现实基础[65] - **快速的工程化与量产能力**:公司以速度见长,从2024年2月发布全球首创双机械臂X40,到2026年CES展出能爬楼梯的Cyber X,仅用2年时间完成了行业平均3-4年的技术量产闭环[69] 其过往在消费级机器人领域验证的工程化经验、成本控制与量产体系,是推动家用具身设备快速落地的关键[68]
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享
量子位· 2026-01-08 20:08
文章核心观点 - 具身智能行业已进入下半场,数据质量成为制约模型训练的关键瓶颈,许多团队模型训练失败的根本原因在于数据生成的起点,而非后续的模型或算力问题[1][7] - 通用操作接口是解决具身智能数据采集问题的新兴前沿方向,其核心在于以与机器人本体解耦的方式记录人类操作,形成通用、可复现的数据[5] - 鹿明机器人作为UMI领域的代表性公司,通过其自研的FastUMI Pro硬件及配套的数据治理体系,致力于提供高质量、100%可复现的轨迹数据,以解决行业数据成本高、效率低、存在孤岛等痛点[9][15][23] 具身智能数据采集的现状与困境 - **数据成本异常高昂**:在美国,采集一小时的训练数据成本约为100-200美元,而训练一个相当于GPT-3规模的具身模型需要约7.9亿小时数据,按当前市价需耗费数百亿美元[19] - **采集效率低下**:2023-2024年间主流的遥操作方式,每小时仅能采集约35条数据,效率极低[21] - **存在严重的数据孤岛问题**:遥操作采集的数据与特定机器人本体强绑定,导致A机器人采集的数据很难应用于B机器人,造成重复建设和资源浪费[21][22] - **行业数据解法多样**:目前行业解决数据难题主要有四种路径,包括遥操作数据、仿真数据、人类视频数据和UMI[8] UMI技术解析与行业现状 - **UMI技术定义**:UMI旨在通过解耦的方式,统一记录“操作意图+运动轨迹+多模态感知”,供不同形态的机器人学习复现[5] - **行业起步较晚**:UMI在2024年2月由斯坦福提出,在2024年9月之前仍属冷门方向[5][6] - **成功案例稀少**:尽管涉足UMI的团队增多,但能成功训练出模型的团队极少,国内外仅有个别公司及高校团队取得成果[26][28][29] - **多数尝试失败**:许多团队即使能跑出演示,其效果也仅能维持3-4秒,且不流畅[30] UMI数据训练失败的根本原因 - **核心问题在于数据源头**:训练失败的主因并非算法或模型规模,而是大量UMI数据从生成之初就不具备进入训练管线的条件,属于“不合格”数据[31][32] - **硬件能力不足是首要瓶颈**:许多UMI设备的核心组件性能差,导致画面覆盖有限、画质差、帧率抖动,破坏了动作与视觉的因果关系,使模型无法学习[43][44] - **系统设计存在缺陷**:部分产品由现成模块拼凑,带宽架构脆弱,易出现掉帧等问题,导致数据质量糟糕且无法稳定复现[46] - **数据质量存在“脏数据”与“废数据”**:“脏数据”指包含大量抖动、漂移和时间错位的低信息密度数据;“废数据”指完全复制人类自然行为、未经任何任务技巧设计的原始数据,两者均难以用于训练出有效的交互策略[51][55][59][62] 高质量UMI数据的核心要求 - **多模态严格对齐**:要求画面与动作、空间位置严格对齐,且不同传感器之间需达到毫秒级同步[39] - **具备物理空间可复现性**:采集的数据必须是高一致性、高密度且可复现的时序数据结构[41] - **需要注入任务技巧**:有效的数据并非简单记录人类行为,而需要根据具体任务注入采集技巧和设计,例如叠衣服任务中的抖动方向与速度控制[60][62] UMI工程范式的特殊性 - **强耦合系统**:UMI场景下,硬件、数据和算法环环相扣,硬件决定数据质量,数据决定算法性能,算法又反向约束硬件与数据设计,传统先硬件后软件的开发范式在此失效[64][65] - **需系统化自洽设计**:成功的UMI工程需要系统性的自洽设计,而非简单的功能拼接[63] 鹿明机器人的解决方案与成果 - **推出核心硬件产品FastUMI Pro**:该产品为无本体数采硬件,重量约600多克,可夹起2-3公斤物品,支持触觉、听觉、六维力等多模态输入,并宣称其空间精度达到全球最高的1毫米[9][10][11][12] - **建立工业级数据质量评估体系**:以“可复现”为第一性原理,建立了8道数据质量评估流程,承诺只交付100%可复现的轨迹数据[15] - **完成多项前沿学术与工程工作**: - **FastUMI**:全球首个将学术界UMI工作升级为工业级系统的工作,于2024年7-8月完成,同年9月被CoRL 2025收录,旨在提升采集效率与数据质量[71][72] - **FastUMI 100K**:团队带领11人在3个月内采集了10万条真机数据,构建了全球首个大型UMI数据集,并积累了大规模数据治理经验[73][74][75] - **Fastumi-MLM**:实现了将UMI技术应用于“狗+机械臂”的新型机器人构型,属大陆地区首创[76][77] - **其他研究**:包括在空间理解模型、大规模数据集构建及异步流匹配框架等方面的创新工作[70][78]
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开
量子位· 2026-01-08 20:08
论文更新概览 - DeepSeek在《Nature》封面论文发布近一年后,对DeepSeek-R1的论文进行了大规模更新,新增了64页技术细节,使论文总页数从22页增至86页[1][2][3][5][6] - 新版论文信息量巨大,不仅补充了附录,正文也进行了大幅度翻修,几乎相当于重写[7] - 此次更新在论文即将满一周年之际发布,且未提前透露,由网友自行发现,其时机与详细程度引发市场对DeepSeek后续产品(如R2或V4)的期待[57][59][60][61] 技术细节披露:R1训练路径 - 公司系统性披露了R1完整的四步训练路径,细节详尽如同教科书[11][17] - **第一步:冷启动**。使用数千条体现思考过程的思维链数据对模型进行监督微调[13] - **第二步:推理导向强化学习**。在保持对话思考风格的同时提升模型能力,并引入语言一致性奖励以解决语种混用问题[14] - **第三步:拒绝采样和再微调**。同时加入推理数据和通用数据,旨在让模型兼具推理与写作能力[15] - **第四步:对齐导向强化学习**。专注于打磨模型的有用性和安全性,使其行为更贴近人类偏好[16] 技术细节披露:R1-Zero与“反思”涌现 - 公司对R1-Zero模型中“反思”能力的涌现现象进行了补充分析[18][19] - 分析显示,随着训练推进,反思性词汇的出现次数相比训练初期增长了大约5到7倍[21] - 模型在不同训练阶段的反思习惯不同,例如“wait”一词在训练早期几乎不出现,但在训练步数达到8000步后出现明显的峰值曲线[22][23] 技术细节披露:安全架构与评估 - 为提升开源模型的安全性,公司详细披露了安全强化学习细节及评估方式[25][26] - 团队构建了一个包含10.6万条提示的数据集,并依据安全准则标注模型回复,用于训练安全奖励模型[27] - 风险控制系统包含两个流程:1) 通过关键词匹配过滤潜在风险对话;2) 将不安全对话与预设提示拼接,发送给DeepSeek-V3进行审查评估[29][30] - 引入风险控制系统后,模型安全性显著提升,在多个基准测试中表现与前沿模型水平相近[32] 安全性表现对比 - 根据提供的安全评分表,DeepSeek-R1在SST、BBQ、ART、XSTest、DNA*等多个安全基准上的平均得分与Claude-3.7-Sonnet、GPT-4o等主流模型相当[33] - 唯一的例外是在HarmBench测试集的知识产权相关问题上表现不佳[33] - 公司还构建了内部安全评测数据集,包含4大类、28个子类,总计1120道题目,并采用LLM-as-a-Judge范式(使用GPT-4o)进行评估[34][38] 团队稳定性 - 论文作者栏信息显示,DeepSeek核心团队极其稳定[41] - 在论文发表近一年后,18位核心贡献者全员仍在公司团队中[41] - 总计100多位作者中,仅有5位被标记为已离开团队,而去年的版本中有6位被标记,其中一位作者(Ruiqi Ge)已回归团队[42][43][44][45] - 在AI行业人才竞争激烈的背景下,公司团队不仅未出现明显流失,甚至出现了人才“回流”[47]