量子位
搜索文档
行啊AI PC!现在都能隔空测血压、检测皮肤了
量子位· 2025-12-18 17:26
文章核心观点 - AI PC通过集成专用硬件(如NPU)和创新的AI算法,实现了无需联网、无需接触的实时健康与皮肤检测功能,这代表了端侧AI应用的重大突破,正在重新定义个人计算设备的边界和价值 [39][44] AI PC的创新应用案例 - 科思创动公司推出了基于AI PC的“个人健康助手”应用,仅需一个外接USB摄像头,即可实现非接触式健康检测,能测出心率、血氧、收缩压、舒张压、血管硬化风险、血糖浓度、心率不齐、房颤、心肌缺血及呼吸波动等多项指标 [5][7] - 该公司还推出了“隔空皮肤检测”应用,可快速生成皮肤报告,分析敏感肌、油分、缺水等问题,并精准标出如痤疮等问题的具体位置,甚至能准确评估皮肤年龄与实际年龄相符 [8][11][12][14] - 除了检测,配套的“AI美妆顾问”能基于肤质分析,提供一对一的个性化护肤方案和美妆方案,推荐具体到品牌和化妆步骤的产品 [15][16] - 上述所有检测和分析功能均可在AI PC上断网运行,无需连接互联网 [17] 核心技术原理 - 隔空健康检测的核心算法是远程光电容积描记术(rPPG),通过摄像头捕捉面部或手部视频流,分析由血流引起的皮肤表面微小亮度波动,从中提取生理信号并推算各项健康指标 [20][23][24] - 该技术还能通过分析血流动力学特征来评估血管硬化风险和潜在心脏问题 [25] - 隔空皮肤检测依赖于光学成像、光谱分析及偏振光成像技术,结合AI算法,通过分析皮肤对不同波长光的反射信号来量化评估肤质、深层血管及色素等问题 [27][29] AI PC的硬件支撑与优势 - 复杂算法的实时运行依赖于英特尔酷睿Ultra处理器内置的神经处理单元(NPU),这是一个专为AI推理设计的硬件引擎 [31] - 与CPU和GPU相比,NPU在处理AI模型时具有超低功耗、超高效率和极低延迟的优势,能高效处理海量视频帧数据和复杂运算 [33][34] - NPU的端侧计算能力使得整个检测过程完全在本地设备完成,无需上传数据至云端,保障了用户隐私安全 [38] - AI PC的“xPU+”异构计算架构(CPU+GPU+NPU)提供了强悍算力,保障了响应速度与能效比,是许多高效能、高隐私要求的AI应用得以运行的基础 [43] 行业趋势与影响 - 随着英特尔酷睿Ultra处理器与AI PC的深度结合,越来越多的独立软件开发商(ISV)正围绕端侧AI能力,开发只有在AI PC上才能高效运行的专属应用 [41] - AI PC的端侧智能正从健康管理、创意生产、办公提效到个性娱乐等多个方面,重新定义人机交互的边界 [44]
经验记忆黑科技!LightSearcher让AI工具调用减39.6%、推理快48.6%
量子位· 2025-12-18 17:26
文章核心观点 - 深度思考大模型在利用外部搜索工具(DeepSearch)提升推理准确性时,面临准确率与效率难以兼顾的“跷跷板”困境 [1] - 北京邮电大学百家AI团队提出的LightSearcher框架,通过基于经验记忆的强化学习优化技术,有效解决了这一困境,在保持顶尖准确率的同时,显著提升了工具调用效率 [1][14] 深度思考大模型的困境与挑战 - **困境本质**:频繁调用外部搜索工具能补充实时与领域知识、提升推理准确性与事实可靠性,但会导致计算开销激增、推理延迟大幅升高,等待时间可达几十秒至几分钟 [1][4][5] - **用户体验风险**:信息加载时间超过10秒会导致50%的移动用户放弃访问,长时推理等待存在类似的用户流失风险 [6][7] - **效率妥协的代价**:反之,若为提升效率而减少工具调用,则会因大语言模型内部知识局限,导致推理结果的准确性与完整性不足 [8] - **现有方法的缺陷**:提示工程或监督学习方法依赖人工标注,成本高且泛化差;而强化学习驱动的方法奖励偏重准确性,易导致模型为确保正确而过度调用工具,造成冗余开销和效率低下 [10][11][12][13] LightSearcher框架的解决方案 - **核心思路**:在强化学习推理过程中,通过“对比经验学习”将隐性推理轨迹转化为显性指导经验,并结合自适应奖励来优化工具调用策略 [14][15] - **关键组件一:对比经验推理机制**:收集高质量与低质量的推理轨迹,通过大语言模型生成成功模式的自然语言总结,构建动态经验记忆库 [16] - **关键组件二:自适应奖励塑造机制**:引入最小工具调用基准,仅在答案正确时惩罚冗余调用,并使用指数衰减函数动态平衡准确性和效率,避免盲目优化 [16] - **关键组件三:基于经验的强化学习训练机制**:采用GRPO算法,将积累的经验和少样本示例融入提示模板,指导模型生成高效推理轨迹,确保探索与利用的均衡 [16] - **优化目标**:最终优化目标为多目标奖励函数的加权和,旨在协同提升工具调用精简度与答案质量 [18] 实验性能与效果 - **准确性保持顶尖**:在四个多跳QA基准数据集上的实验显示,LightSearcher在F1分数和大语言模型评判得分上与当前最优的ReSearch基线相当,部分数据集上甚至更优 [19][22] - **效率显著提升**:与基线相比,搜索工具调用次数减少39.6%,推理时间缩短48.6%,Token消耗降低21.2% [2] - **泛化能力强**:在不同难度的查询上表现稳定,在域外测试集上也超越了依赖固定检索的迭代方法 [23] - **消融实验验证核心作用**:移除经验记忆组件导致F1分数下降7.2%,证明其核心作用;同时移除经验与少样本示例则导致F1分数下降8.8% [24][25] 技术意义与应用前景 - **技术路径创新**:该框架通过“对比经验”的设计思想,将隐性推理轨迹转化为可解释的指导,为构建高效、可靠的深度思考系统提供了新的技术路径 [27] - **成功解决关键痛点**:实现了从隐性到显性的经验转化、通过自适应奖励精准平衡调用、优先保证效率、以及对推理质量和执行效率的双重优化 [27] - **领域扩展性**:目前研究限于多跳问答领域,未来有潜力扩展到代码合成、策略规划等其他复杂推理任务领域 [26]
具身智能的数据难题,终于有了可规模化的解法
量子位· 2025-12-18 12:40
公司概况与市场表现 - 公司简智机器人是一家专注于具身智能赛道数据治理与产线设计的企业,其战略定位是成为行业的“数据与能力底座”[3][40] - 公司成立仅4个月就完成了3轮融资,累计融资金额超2亿元,投资方包括Momenta、百度风投、顺为资本等头部机构[4][36] - 公司已服务30余家具身智能头部公司,业务覆盖全球市场,超过70%的收入来自海外[4][37] 行业核心瓶颈:数据困境 - 具身智能发展的核心瓶颈在于数据,其所需数据需完成“人类技能的数字化”,对精度要求极高,且难以从互联网直接获取[7][8] - 行业面临五大核心数据痛点:1) 采集成本高;2) 效率低下;3) 数据鲜度不足;4) 真实性缺失;5) 规模难以突破[9][10][11] - 更深层的问题是“全链路闭环缺失”与“数据基建空白”的系统性困境,导致数据无法有效转化为驱动模型升级的燃料[12][14] 公司核心战略与解决方案 - 公司战略聚焦于解决数据全链路难题,而非卷模型或堆硬件,其核心是打通“人类技能数据化-云端AI数据治理-机器人应用”全链条[15][16] - 公司构建了“平台+产线”双引擎数据治理体系,旨在提供标准化、自动化的数据流解决方案[16][29] - 公司为数据产品立下“铁律”,追求真实、高质量、高精度、高鲜度、低成本、原子化标注与切片[17] 硬件创新:无感采集设备 - 公司推出核心硬件Gen DAS无感可穿戴采集设备,采用轻量化设计,确保用户长时间佩戴无负担,避免“动作变形”[19] - 设备布置了行业首个且数量最多的三目摄像头,结合车轨级IMU及自研VIO、SLAM技术,将轨迹恢复精度提升至小于1厘米[21] - 设备支持无线同步传输、长续航,无需复杂场地部署,开机即用,并能将数据体积压缩至原大小的2%,实现分钟级上传[27] 数据治理平台:Gen Matrix - Gen Matrix数据智能平台是保障数据质量的核心基石,旨在实现“高质量数据供给”[26] - 平台具备五大核心能力:1) 高精准轨迹还原(误差小于1厘米);2) 智能标注切片;3) 高鲜度低成本并行;4) 超强吞吐能力;5) 智能治理生长[30][31] - 平台每日数据时长增长超1万小时,高质量数据产出超10万clips,且持续加速[31] 行业首创:规模化数据产线 - 公司行业首创Gen ADP智能数据产线,打破了“真实场景数据采集难规模化”的僵局,是其核心壁垒[30] - 公司提出“数据当作产品来制造”的理念,融合众包模式,构建了规模化、自动化的真实场景数据闭环生产系统[33] - 该产线已在超1000个真实家庭完成部署,累计积累超百万小时真实场景数据,覆盖500余种高频技能场景[35] - 产线交付效率领先,采集完成后2小时内,加工数据就能送达模型,为迭代提供“即时燃料”[35] 核心竞争优势 - 团队优势:核心成员来自Momenta、华为、蔚来、字节、理想汽车、DeepMind、斯坦福等顶尖机构,兼具模型与智驾数据工程经验,仅用4个月就完成从产品设计到软硬件交付的全流程[16][36] - 战略优势:在行业聚焦硬件制造时,公司精准押注数据治理与产线设计,构建了“硬件为基础、治理为核心、产线为支撑”的完整差异化体系[36] - 商业化进展:技术实力已快速转化为商业成果,与30余家行业头部企业深度合作,并推动具身智能在家庭服务、工业制造、医疗健康等领域的规模化应用[37][38]
医生版ChatGPT,估值120亿美元
量子位· 2025-12-18 12:40
OpenEvidence融资与市场地位 - 美国医疗AI公司OpenEvidence正筹集2.5亿美元股权融资,若完成,其估值将翻倍至120亿美元[1][4][5] - 公司成立仅三年,融资历程迅速:2025年2月A轮融资7500万美元估值10亿美元,7月B轮融资2.1亿美元估值35亿美元,10月C轮融资2亿美元估值60亿美元[6] - 公司股东包括Google Ventures、红杉资本、凯鹏华盈、黑石集团等知名风投机构[7] - 公司已几乎垄断美国ToC医疗AI市场,日均处理临床查询超6万次,45%的美国医生是其用户[2][24] - 公司月均为医生解答约2000万个问题,用户活跃度高,已呈现医疗领域流量入口的雏形[25] OpenEvidence产品核心与竞争优势 - 产品定位为“医生专用ChatGPT”,旨在消除医生诊疗过程中的决策成本,解决罕见复杂边缘案例缺乏标准答案的临床困境[9][13][19] - 数据源独特:调用经过筛选的医疗知识库,包括PubMed、Cochrane等公共数据库及《新英格兰医学杂志》等顶尖期刊的独家授权资料,完全摒弃互联网公开数据以减少幻觉[20] - 模型专门化:采用专为医学任务训练的7B小模型,在垂直任务上表现更精准,在美国医师执照考试中满分夺冠,325道题全部正确且参考文献准确[21][22] - 产品设计严谨:给出的每条结论均基于至少两篇以上高等级文献的具体段落,医生可随时溯源[22] OpenEvidence商业模式与财务表现 - 主要变现路径为向制药公司出售广告位,目前年广告收入约为1.5亿美元,折合每天近300万元人民币[26] - 公司透露目前实际出售的广告位只占总量的十分之一,暗示其巨大的商业化潜力[28] - 公司毛利率接近90%,在AI初创公司中表现突出[29] - 高毛利率得益于:1)采用7B小模型,训练与推理成本远低于通用大模型;2)其产品为医学期刊引流,从而对内容供应方拥有极强议价权,核心数据资产由各大医学期刊主动提供[30][31] 国内医疗AI市场主要参与者 - 国内有多家产品理念类似的公司,但尚未有估值达到OpenEvidence级别的选手[32] - **医联**:旗下“未来医生”发布医疗垂直大模型MedGPT,为国内首个获批可用于提供疾病诊断与治疗建议的生成式AI,在2025年一项测评中获临床“安全性”与“有效性”全球第一,服务超2000万注册用户、150余万注册医生,估值约40亿美元(约282亿元)[34][36][48] - **百川智能**:发布循证增强医疗大模型Baichuan-M2 Plus,其医疗幻觉率优于OpenEvidence,公司A轮融资50亿元,估值达200亿元[38][40][48] - **零假设**:专注于医学智能化产品,旗下虚拟医学助手“KnowS”提供文献与临床数据分析服务,2025年10月获近亿元A轮融资,估值未披露[41][42][48] - **壹生检康**:与钉钉联合发布“豆蔻医生超级助理”,可快速整合全球超4000万篇医疗文献辅助妇产科医生决策,已完成两轮融资,估值未披露[43][44][48] - **灵犀医疗**:自研EviMed循证平台整合全球医学文献与临床数据,已应用于全国300余家大型三甲医院及20余家头部医药企业,尚未披露融资信息[45][46][48]
小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统
量子位· 2025-12-18 12:40
产品定位与核心优势 - 谷歌新推出的Gemini 3 Flash模型定位为“Pro级智能+Flash级速度+更低价格”,旨在实现性能与效率的兼顾[2] - 该模型是谷歌迄今为止在智能体工作流程方面最出色的模型,继承了Gemini 3 Pro的复杂推理、多模态视觉理解、Vibe编程及处理智能体任务的能力,但响应速度更快[15][16] 性能表现与基准测试 - 在速度方面,Gemini 3 Flash几乎是Gemini 2.5 Pro的3倍,且平均使用的token数量少30%[3][33] - 在多项专业基准测试中,其性能显著超越前代模型,并在部分测试中略胜Gemini 3 Pro:在MMMU Pro(多模态理解与推理)测试中得分为81.2%,高于Gemini 3 Pro的81.0%;在ARC-AGI-2(视觉推理谜题)测试中得分为33.6%,高于Gemini 3 Pro的31.1%[31][32] - 在复杂图表信息合成(CharXiv Reasoning)测试中得分为80.3%,接近Gemini 3 Pro的81.4%[32] - 在代理编码任务(SWE-bench Verified)测试中得分为78.0%,高于Gemini 3 Pro的76.2%[32] - 在长上下文性能(MRCR v2)测试的12Bk平均任务中得分为67.2%[32] 多模态与视觉能力展示 - 在具体测试中展现出优秀的视觉理解与细节识别能力,例如能成功识破“数手指”图片陷阱并给出正确答案“6根”,而GPT-5.2则错误回答“5根”[4] - 在图像生成任务中,例如生成“骑车的鹈鹕”,其表现被评估为优于Gemini 2.5 Pro和Gemini 3 Pro[6] - 在人物识别测试中,能正确识别“谷歌宣传委员”Logan Kilpatrick,而Gemini 3 Pro则将其误认为前负责人Jack Krawczyk[8][9] 实际应用与功能演示 - 能够快速创建功能完整、美观的Windows操作系统核心环节,用时不到一分钟[17] - 能够根据提示词生成游戏代码,例如尝试创建《侠盗猎车手6》游戏,并能生成具有交互效果的天气卡片[20][24][25] - 能够为自己生成一个功能性的介绍网站,其中“立即体验”按钮可有效跳转至官网[26][28] 定价策略与市场定位 - 定价具有竞争力,输入价格为每百万token 0.5美元,输出价格为每百万token 3美元[35] - 虽然输入价格略高于Gemini 2.5 Flash的0.3美元/百万token,但凭借其显著提升的性能和速度,性价比依然突出[36] - 其价格远低于Gemini 2.5 Pro(输入1.25美元/百万token,输出10美元/百万token)和Gemini 3 Pro(输入2.00美元/百万token,输出18.00美元/百万token)[32][37] 技术特性与发布情况 - 模型提供四档思考模式:minimal、low、medium、high,以适应不同任务对计算资源与响应深度的需求[38] - 该模型已面向全球所有用户推出,普通用户可通过Gemini应用及谷歌搜索的AI模式使用,专业开发者可通过Google AI Studio、Gemini CLI及Google Antigravity平台调用API,企业客户可通过Vertex AI和Gemini Enterprise平台获取服务[12][13]
紧急吃瓜!英伟达GPU供应要缩水了,第一刀砍向RTX 50系列
量子位· 2025-12-18 10:34
英伟达GeForce RTX 50系列显卡产能调整 - 公司计划在2026年上半年对GeForce RTX 50系列显卡进行大幅减产,削减幅度预计为30%-40% [1] 减产的具体产品与市场影响 - 减产将首先影响两款热门中端显卡型号:RTX 5060 Ti 16GB和RTX 5070 Ti 16GB [2][6] - 这两款显卡与更高端的RTX 5080显存容量相同但售价更亲民,原本是市场热门选择 [7] - 产能削减可能导致16GB显存版本供应减少,消费者可能被迫选择8GB“阉割版”或加价购买更昂贵型号 [2][9] 减产背后的原因分析 - 直接原因是面临“内存荒”,包括GDDR7在内的多种类型内存供应紧张,限制了满负荷生产的能力 [4] - 公司预判2026年NAND和DRAM内存成本将上涨,推高整机价格,可能导致需求疲软和库存积压,因此主动削减产能以控制风险 [5] - 从商业策略看,公司倾向于将有限的内存资源优先分配给利润更高的RTX PRO系列和高端消费级显卡,牺牲中端卡产能以保障整体利润 [8] 对行业与消费者的潜在影响 - 显卡供应减少叠加内存成本上升,可能导致2026年GPU市场出现缺货与涨价的双重压力 [10] - 当前3A游戏对显存要求日益提高,8GB显存可能无法满足需求,导致游戏体验下降,而16GB显卡供应短缺将加剧此矛盾 [9] - 这一策略引发了消费者不满,并可能为竞争对手(如AMD、Intel)提供市场机会 [3][11]
国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026
量子位· 2025-12-18 10:34
文章核心观点 - 评判AI芯片实力的标准已从单纯算力转向能否稳定支撑从百亿到万亿参数、从稠密到MoE架构、从单模态到多模态的完整模型谱系训练,并在万卡乃至更大规模集群上实现高效扩展[1] - 国产AI芯片在大规模训练场景中真正落地难度极大,替代是一个渐进式过程,推理场景已基本解决,但大规模训练是真正的挑战[5][6] - 即便对于参数激增的MoE模型,“小芯片搭大集群”的路径依然可行,关键在于极致的通信优化与系统级协同设计[2] 大规模训练的核心挑战与攻坚路径 第一大挑战:集群稳定性 - 大规模训练是上万卡的同步系统,任何一张卡中断都可能导致任务重启,例如在100张卡时有效训练时间为99%,但当线性扩展到一万张卡时,1%的中断时间就可能导致整个集群不可用[7] - GPU天生是高故障率器件,晶体管数量多、算力高、功耗大,且监控能力弱,整体故障率比CPU高出多个量级[7] - 解决集群稳定性需从两方面入手:一是事前精细化监控与验证,通过系统级手段提前定位可能的故障(如运行变慢、精度异常、数据不一致),尤其是在静默错误场景中需精准定位故障节点[8];二是构建故障后的透明Checkpoint和快速恢复机制,避免大规模重算[9] 第二大挑战:让集群真正扩展起来 - 一个万卡集群必须实现线性扩展,否则只有千卡、两千卡的规模意义不大[10] - 扩展过程大致经历三个阶段:在百卡集群上验证技术可行性,关键在于RDMA通信技术的适配与优化[11];在千卡集群上,由于网络不再对等,需要做好网络亲和性调度等复杂优化[11] - 实现大规模扩展的核心逻辑是“XPU驱动的any to any的通信”,即以XPU为核心,在通信过程中绕过CPU影响,直接用XPU驱动网络,并针对不同流量设置不同优先级以优化任务[14] 第三大挑战:模型生态与精度体系 - 英伟达最强的护城河是其过去十多年沉淀的模型生态,包括成千上万种模型变体、算子体系、框架适配,这使其在训练精度上保持绝对稳定性[15] - 在大模型时代,由于Transformer架构相对统一,国产芯片迎来了机会[16] - 当前的Scale维度已转变为模型参数的Scale(如十亿、百亿、千亿)和任务训练规模的Scale(如百卡、千卡、万卡),这两个维度的Scale带来了整个系统层面的Scale,映射到硬件上会有不同的size、形状、切分策略和并行策略[5][17] - 算子映射到不同硬件平台时,在精度和性能上都会存在挑战,精度上的微小差异可能导致长时间的训练白跑[19] - 为此,公司构建了高度泛化的算子体系,针对不同算子的size做了高强度泛化,并在泛化基础上进行小规模验证精度,避免每次都使用万卡对比,从而保证大规模训练的可靠性[19] MoE模型与多模态模型的新挑战 - MoE模型能在不提升激活参数规模的情况下扩展模型参数,延续Scaling Law,但给系统架构带来新挑战:模型参数变大、输入序列变长,导致通信占比显著提升,从而需要改变整个模型架构[12][20][21] - 适配MoE系统需要极致的通信优化,以及显存的协同与计算overlap[22] - 结论是,即便是MoE模型,“小芯片搭大集群”的方式依然可行[24] - 多模态模型带来另一类挑战,不同模态具有不同的训练强度和计算需求,若沿用原来的同构拆分方法会导致训练效率极低,典型情况下MFU(模型浮点运算利用率)可能都不到10%[24] - 针对多模态模型,需要进行异构数据均衡的调度,适配异构并行策略,使系统能够根据workload动态调整并行策略,为不同模型找到最优的运行策略[26] 国产芯片的实践与衡量标准 昆仑芯的大规模实践案例 - 公司已在百度Qianfan VL、百度蒸汽机等自研模型上取得较领先的效果,并实现了全栈基于昆仑芯的训练[12][31] - 具体实践案例包括: - **Qianfan-VL-70B模型**:多模态模型,在5千卡集群上训练,在通用基准测试中表现出色,并在OCR、文档理解和数学推理等特定领域任务中达到了SOTA性能,支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景,主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异[28] - **Qianfan-VL-8B模型**:多模态模型,在2千卡集群上训练[28] - **百度蒸汽机模型**:多模态模型,在6千卡集群上训练,是全球首个中文音视频一体化生成模型,在VBench-I2V榜单上位列全球第一,支持“无限时长”生成,突破了传统AI视频生成10秒左右的时长限制,行业首次实现AI长视频实时交互生成(即边生成边调整),目前生成速度超越国内主流视频模型[28] 衡量国产芯片“能否真正用起来”的关键维度 - **模型覆盖能力**:需覆盖大语言模型、多模态、文生视频等完整模型体系[30] - **集群规模能力**:需实现从百卡到千卡再到万卡的全覆盖[30] - 公司目前在模型覆盖上基本达到主流大模型体系,在规模上已能跑万卡任务,未来还会向数万卡推进[27] - 如同Google用Gemini证明TPU的训练能力一样,硬件需要绑定优秀的自研模型才能真正被市场接受[28][29]
小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线
量子位· 2025-12-18 08:30
模型发布与市场定位 - 小米公司新近官宣的开源大语言模型MiMo-V2-Flash,已成功跻身开源模型第一梯队[1][2] - 该模型以309B的总参数量实现了“以小博大”,在多项权威评测中取得优异成绩,展现出极高的效能密度[4][11] - 模型在实现高达2.6倍推理加速的同时,兼顾了顶尖的模型效果与极致的部署成本[6] - 模型在海外平台受到广泛好评,用户认为其能让智能体变得更加实用,并期待推出更多适配格式[9][10] 核心技术架构与创新 - 模型采用MoE架构,总参数量309B,包含256个专家,但通过动态激活机制,每次仅激活8个专家,对应参数量15B[11][12] - 采用5:1混合的滑动窗口注意力与全局注意力机制,以平衡效率与长文理解能力[13][14] - 引入“可学习的注意力汇聚偏置”技术,解决了滑动窗口注意力可能导致的语义断层问题,在将KV Cache显存占用降低到1/6的情况下,长文理解能力不降反升[15][16][17] - 其滑动窗口大小虽仅为128,但效果优于512的大窗口[19] - 采用多层Token预测技术,该模块在推理时被复用为投机解码的草稿模型,加载3层MTP模块后可实现2至2.6倍的实际推理加速比[20][21] - 训练流程采用多教师在线策略蒸馏新范式,使学生模型仅需消耗传统SFT+RL流程约1/50的精力就能迅速追平教师模型能力[23] 性能表现与基准测试 - 在衡量通用能力的Arena-Hard基准测试中得分86.2,在复杂推理任务MMLU-Pro中得分84.9[27] - 代码能力是其突出长板,在SWE-Bench Verified评测中斩获73.4%的高分,超越了DeepSeek-V3.2的73.1%和Kimi-K2 Thinking的71.3%[28] - 在Agent能力方面表现卓越,在SWE-Bench Multilingual测试中解决了71.7%的问题,在衡量工具使用能力的Tau2-Bench中得分达到80.3,均位列全球开源模型前茅[28] - 在官方“价格vs速度”坐标系中占据高能效生态位,其API定价极具竞争力,为每百万输入0.7元、输出2.1元[25] 实际应用场景演示 - 在具体工程化场景中展现出极高的编程完成度,例如能一次性生成完整的前端代码来构建一个网页版macOS操作系统,功能完备性优于闭源模型Gemini 3 Pro[30][31][36][38] - 不仅能够生成复杂交互网页,还能调用各种HTML接口,实现如基于摄像头的手势控制等高级功能[40][41][42] - 在人文交互与语义理解方面展现出清晰的逻辑与拟人化的温度,能够探讨开放性话题并提供情感建议[50][51][52][53][54] 公司战略与行业影响 - 小米的大模型发展轨迹清晰,从MiMo一代的7B模型积累经验,到MiMo二代直接达到世界先进水平,体现了其持续性的技术投入[56] - 公司的核心逻辑是死磕“高效+智能”,旨在让模型跑得快、用起来便宜且足够智能[57] - 按照规划,Flash纯语言模型只是“开路先锋”,后续将有多模态模型等更多产品登场[57] - 这标志着小米正加速从一家硬件大厂,向一家拥有独立底层核心的“大模型公司”转型[58] - 公司的战略是基于其独特的“人车家全生态”硬件布局,旨在为这个硬件帝国打造一个统一的“大脑”,使AI能精准指挥各类硬件,打通数字世界与物理世界[60][62][63] - 这种向“物理世界AGI”迈进的尝试,揭示了公司为下一代智能硬件交互提供动力、并实现更宏大野心的战略意图[65]
“特斯拉延期交付机器人是卡在灵巧手上,中国灵巧手遥遥领先”| 灵心巧手@MEET2026
量子位· 2025-12-17 18:00
文章核心观点 - 灵巧手是具身智能的核心执行平台,而非人形机器人的附属部件,可独立于机器人本体率先在工业与家庭场景应用 [2][3] - 灵巧手是一个高门槛的软硬一体平台,其硬件性能与算法生态共同决定了机器人是否具备真正的泛化操作能力 [3][7] - 一只好的灵巧手需具备高自由度、高耐用性、高性价比、多模态感知能力,并能通过软硬结合为不同场景提供稳定的定制化解决方案 [5][7] 灵巧手的行业定位与重要性 - 特斯拉原计划今年交付5000只人形机器人,但因灵巧手问题而整体延期交付,突显了灵巧手在具身智能行业中的关键性 [8][9] - 灵巧手不仅是具身机器人的核心部件,也可直接与协作机械臂、除草机器人、扫地机器人等结合,应用于工厂和家庭场景,因此能先于完整的人形机器人得到应用 [12][13] - 该部件从未来生态应用的广度到技术门槛壁垒都很高,是行业中的关键部件之一 [3][15] 优秀灵巧手的核心特征 - **高自由度**:需像人手一样具备多个关节自由度,以实现比传统两指夹爪更广泛的泛化操作能力,例如抓取火柴盒、箱子等不同物体时无需更换硬件 [18][20][21] - **高性价比**:行业竞争激烈,五指灵巧手价格已“卷到万元以内”,与工业两指夹爪处于同一价格区间,为其进入各类场景创造了条件 [22][23] - **软硬结合与算法生态**:仅有硬件不够,需配套算法以决定如何抓取和使用不同工具(如螺丝刀、移液枪),并支撑工业自动化及研究等生态链 [14][24][26] - **多模态交互能力**:需集成视觉、触觉等感知能力,作为与物理世界交互的接口,目前触觉传感器行业发展迅速 [27][28] - **耐用性与稳定性**:需达到工业级效率与稳定性,其应用成本需换算至低于雇佣工人2-3年的成本水平,才能获得大规模应用 [29][30][31] 灵巧手的主流技术路线 - 全球灵巧手主要有三种技术路线:腱绳传动、刚性连杆传动、电机直驱传动 [32] - **腱绳传动**:以特斯拉(采用英国Shadow方案)为代表,将驱动电机置于小臂,通过腱绳远程拉动手指,理论上在负载与自由度方面上限高,但存在腱绳蠕变问题,影响寿命、可靠性和控制精度,这是特斯拉机器人延期的主要原因 [33][35][36] - **刚性连杆传动**:国内大多数人形机器人公司采用此方案,刚度大、负载能力强、可靠性好、性价比高,但自由度相对有限,且难以平衡灵巧手的“不可能三角” [33][37][38][39] - **电机直驱传动**:将微型电机置于每个手指关节内直接驱动,随着电机小型化而兴起,透明度高、易于稳定控制,但结构复杂、对零部件加工要求极高 [33][40] - 灵心巧手公司作为行业领军者,同时布局并拥有这三种技术路线的全套解决方案,以适配不同应用场景 [16][41] 灵巧手行业的竞争格局与中国优势 - 在具身智能硬件,尤其是机器人与灵巧手领域,中国优势相当明显,处于“遥遥领先”的地位 [16][43] - 国产核心部件(如电机、减速机、丝杠)的性能和迭代速度高于全球其他国家 [44] - 灵心巧手公司拥有从6个自由度到20个自由度以上的全系列产品,是行业解决方案最全的公司之一,员工超过300人 [44] 灵心巧手公司的产品与市场表现 - **Linker Hand O6**:重量仅370克,为全球最轻灵巧手,单手指捏力3公斤,整手负载30公斤,已成为爆款产品,月交付量超过1000只,帮助公司在行业中占据第一位置 [44][46] - **Linker Hand L6**:以速度见长,完成手指弯折动作仅需0.3秒,可每天工作8小时无需散热休息,已应用于弹钢琴机器人等场景 [46][49] - **Linker Hand L20**:高自由度灵巧手(16个电机),是全球销量冠军,其销量超过全球其他公司高自由度灵巧手的总和,被全球知名科研机构和互联网巨头广泛采购 [49][51] - **Linker Hand L30**:采用腱绳传动结构,于2024年11月已实现商业化,开合速度达0.1秒一次,在自由度和灵活性上更拟人 [52][53] 公司的核心发展战略 - **软件算法方向**:致力于开发基于灵巧手的“原子技能”算法,使其能识别并适配抓取物理世界中的各种物体(如螺丝刀、镊子),并进行简单组装,这是未来具身智能应用的基础 [53][55] - **硬件底座方向**:坚持自研三大核心部件——触觉传感器、电机和减速器,并通过双团队赛马机制持续提升微型化与耐用性,以构建长期工程壁垒 [16][55]
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
量子位· 2025-12-17 18:00
腾讯AI组织架构与人才引进 - 腾讯内部官宣大模型研发组织架构调整,新成立AI Infra部、AI Data部、数据计算平台部,以全面强化大模型研发体系与核心能力 [6] - 姚顺雨加盟腾讯,出任“CEO/总裁办公室”首席AI科学家,向总裁刘炽平汇报,同时兼任AI Infra部、大语言模型部负责人,向技术工程事业群总裁卢山汇报 [4][7] - AI Infra部将负责大模型训练和推理平台技术能力建设,聚焦分布式训练、高性能推理等核心技术 [8] - AI Data部负责大模型数据及评测体系建设,数据计算平台部负责大数据和机器学习的数据智能融合平台建设 [8] - 此次架构升级旨在强化工程化优势,提升AI大模型研究能力,聚焦公司AI战略布局,提升研发效率 [8] 姚顺雨背景与成就 - 姚顺雨是前OpenAI研究员,拥有清华大学姚班背景和普林斯顿大学计算机博士学位,是NOI奥赛银牌得主和安徽省高考探花 [2][16] - 他是Tree of Thoughts(思维树)、ReAct等知名研究的作者,也是SWE-bench、SWE-agent等一系列研究的核心贡献者 [3][27] - 博士期间师从GPT-1第二作者Karthik Narasimhan,从事智能体方向研究,毕业后加入OpenAI [18] - 其研究工作贯穿Agent研究关键节点,包括提出CALM、WebShop等 [19] 姚顺雨的AI发展观点 - 姚顺雨在2024年8月发表博文《The Second Half》,提出AI正处在“中场休息”阶段 [21] - 他认为AI上半场以模型和方法为中心,核心是“把模型训出来”;下半场重心将转向任务定义、系统构建与评估体系 [22] - 关键问题从“能否训练模型解决XX”转向“什么问题值得被解决”以及“如何判断AI是否真的进步”,评估成为决定方向的前置条件 [23] - 真正重要的不是继续堆模型规模,而是让模型在真实任务和系统中经得起检验 [24] - 他认为Agent的本质不是“会用工具”,而是“能推理并泛化” [26] - 创业公司的最大机会不在模型,而在交互方式 [28] 腾讯AI产品与业务进展 - 过去一年,腾讯混元大模型发布了超过30个新模型 [9] - 2024年12月5日发布的混元2.0显著改进了预训练数据和强化学习策略,在复杂推理与文本生成场景表现国内领先 [9] - 混元3D模型保持全球领先水准,开源社区下载量超过300万 [9] - 腾讯元宝AI应用用户规模稳居国内前三,成为最受新中产欢迎的AI原生应用,上线初期保持每天一个版本的迭代频率 [10] - 腾讯将元宝的AI能力融入微信、QQ、音乐、会议等国民级产品中 [10] - 腾讯混元大模型已在内部超过900款应用和场景中落地,包括腾讯会议、微信、广告、游戏等 [10] - 公司内部超90%的工程师使用腾讯云代码助手CodeBuddy,50%新增代码由AI辅助生成,代码评审环节AI参与度达94% [10] 腾讯AI战略与行业地位 - 腾讯被认为拥有完备的AI要素:丰富场景、海量数据、生态资源,以及谋定后动的战略风格 [14] - 公司通过组织变阵、人才引进、产品(如元宝)和开源(如混元3D)等多方面举措,明显开启了AI进程上的提速 [12][13] - 引进姚顺雨这样的顶尖人才,被视为腾讯开启AI攻坚的证明 [11]