Workflow
大语言模型
icon
搜索文档
从上春晚到进客厅,期待人形机器人下一步
21世纪经济报道· 2026-02-25 07:39
行业技术成就与展示 - 国产人形机器人在央视及地方春晚舞台上进行了大规模、高难度的表演,并与人类演员进行精准武术对练,标志着其在硬件工程、全身运动控制及多机协同技术上已达到世界领先水平[1] - 春晚表演的视觉震撼源于数十台机器人整齐划一地完成空翻、侧踢、变阵等动作,展示了高度的协调性和灵活性[1] - 春晚的繁荣景象展示了中国人形机器人产业链的完整度与技术迭代的惊人速度[4] 技术应用面临的现实挑战 - 春晚舞台是高度结构化、预设化的环境,而真实功能性需求面对的是完全“非结构化”的世界,要求机器人具备极强的泛化能力和具身智能[2] - 从封闭实验室到开放社会的跨越是人形机器人当前面临的最高门槛,在松软地毯、杂乱玩具、狭窄厨房等现实场景中,舞台上的“大动作”将面临巨大考验[2] - 实际应用中的核心难点在于精细动作控制,例如拿起鸡蛋而不捏碎、撕开零食而不洒落,这涉及高密度的感知反馈与微小位移控制,目前机器人的触觉传感器和灵巧手技术在精细度、耐用性与实时反馈上仍远不及人类[3] 核心技术发展现状与瓶颈 - 舞台上的翻跟头、踢腿、快跑等“粗线条”动作考验的是大功率关节执行器、动态平衡算法及结构强度[2] - 实现精细操作需要底层材料、精密传感器、大模型算法以及应用场景的深度耦合,技术亟待突破[3] - 尽管借大语言模型东风,具身智能在理解模糊指令方面取得长足进步,但如何将感知、逻辑与物理世界的微观操作完美融合,仍处于从实验室迈向半商业化的探索阶段[3] 产业化阶段判断与未来展望 - 若将“春天”定义为技术爆发期与社会认知觉醒期,那么它已经扑面而来[4] - 若将“春天”定义为大规模的商业闭环与社会化应用,则行业可能还正处于“早春二月”,距离真正走进日常生活、低成本完成琐碎繁重任务仍有距离[4][5] - 人形机器人的真正价值在于能在不标准、不规则、不可预测的现实生活中精准、安全且低成本地完成任务,而非仅是舞台表演[1]
中金::人工智能十年展望):越过“遗忘”的边界,模型记忆的三层架构与产业机遇
中金· 2026-02-24 22:20
报告行业投资评级 * 报告维持相关公司的盈利预测、目标价及评级不变 [6] 报告的核心观点 * 报告提出,大模型的演进史是与“遗忘”抗争的历史,当前以高昂算力对抗遗忘的粗放模式正面临物理极限 [3] * 报告认为,2026年及之后的AI基础设施主战场将增加“模型记忆”这一极,AI正从单次推理的“计算器”进化为拥有连贯认知的“动态智能系统” [3][14] * 报告原创性地将模型记忆解构为短期、中期、长期三个垂直层级,并系统剖析了各层级对应的软件技术、硬件需求及产业机遇 [14] 根据相关目录分别进行总结 模型记忆重构下的存储范式与软硬件红利 * 报告提出,模型记忆正经历从静态数据存储向动态基础设施的质变 [14] * 报告从功能维度将记忆解构为短期、中期、长期三个层级,并分析了各层级在软件技术与底层硬件需求上的逻辑映射 [14] * 短期记忆对应高频读写的“热数据”,其软件技术包括KV Cache压缩与管理、PD分离调度及无限注意力等前沿探索,硬件需求锚定HBM与片上SRAM [4][16] * 中期记忆是Agent的基石,对应“温数据”,软件技术包括GraphRAG与MemoryOS等,硬件需求为大容量DRAM与企业级SSD [4][16] * 长期记忆支撑模型持续进化,报告归纳了内隐参数、外显语义、参数化查表三条实现路径,将催生多类数据库与存算硬件设备需求 [5][16] AI不同场景对应的记忆分层系统:训练、推理、Agent * 在AI基础设施体系中,数据流转围绕训练、推理与Agent运行三个核心阶段,构建起由短、中、长期记忆协同的多级存储架构 [20] * 训练阶段以长期记忆写入为核心,本质是将海量语料固化为模型参数,工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [21] * 推理阶段以短期记忆为主导,核心瓶颈在于KV Cache对HBM容量的挤占,若启用检索增强或Agent能力,还会访问存储在NVMe SSD/DRAM中的中期记忆 [23] * Agent运行阶段标志着AI向长期运行状态机跨越,中期记忆跃升为系统智能的连续性载体,其活跃度直接决定了Agent在复杂生产环境中的交付上限 [24] 短期记忆:即时交互下的吞吐与延迟的博弈 * 短期记忆构成大模型单次推理的“当前视野”,其物理载体是显存中的KV Cache [28] * 短期记忆面临物理资源、计算模式及Agent场景的三重挑战:1)KV Cache显存占用随上下文长度线性增长,传统内存管理技术导致显存浪费率高达**60-80%** [31][32];2)预填充与解码阶段存在算力权衡,混合部署会导致资源争抢 [39];3)Agent场景下缺乏高效记忆管理,导致重复计算和资源浪费 [39] * 软件解法包括:1)单卡显存虚拟化,如PagedAttention机制可将显存有效利用率提升到**96%** 以上 [43];2)PD分离优化集群算力调度;3)模型架构前沿探索,如无限注意力机制可实现**114倍** 的记忆状态压缩 [48][49] * 硬件需求主要对应三类:1)HBM用以承接KV Cache膨胀;2)片上SRAM负责处理瞬时状态;3)NVLink等互连技术编织分散的显存资源池 [50] 中期记忆:AI Agent的基石 * 中期记忆承载Agent的情景连续性,旨在解决短期记忆的物理瓶颈和长期记忆的调用时延问题 [56][60] * 中期记忆系统面临三大挑战:1)存储环节,SSD随机读取延迟是DRAM的**1000倍** [63];2)检索环节,易导致“上下文污染” [63];3)更新和遗忘环节,低价值信息挤占上下文窗口 [63] * 软件解法呈现结构化趋势:1)向量RAG是基础方案;2)分层RAG通过构建递归摘要树提升连贯性;3)GraphRAG引入知识图谱,在处理全局性查询时实现了**9-43倍** 的上下文Token压缩 [64][65][67] * Memory OS架构赋予Agent主动管理记忆生命周期的能力,在测试中可节省**35%** 的Token消耗 [68][74] * 硬件需求主要对应三类:1)大容量DRAM常驻热点索引与图谱拓扑;2)企业级NVMe SSD存储海量原始切片与高精度索引;3)CPU负责复杂的检索逻辑和图遍历 [59][77] 长期记忆:知识固化的三条路径与存储新蓝海 * 长期记忆旨在打破预训练截止时间的限制,实现知识的持续积累,模型训练与推理的界限正在模糊 [5][86] * 路线一(内隐参数):通过微调或训练将知识固化进模型参数,如Google Titans的测试时训练机制 [91][95] * 路线二(外显语义):将多次会话沉淀的结构化信息存储为可查阅的“百科全书”,催生键值型、文档型、关系型及向量数据库等多类数据库需求 [97][99] * 路线三(参数化查表):如DeepSeek Engram架构,将静态知识以内嵌参数表形式保留,通过确定性稀疏查找在推理期按需调用,允许将大规模嵌入表迁移到成本更低的系统内存 [104][108] * 长期记忆的硬件需求因路径而异:内隐参数路径要求推理芯片具备训练能力并抬升HBM需求;外显语义路径是重存储架构,催生企业级SSD、CXL内存池及高性能CPU需求;参数化查表路径则可能提升对DRAM模组和高速互连芯片的需求 [96][98][103][108][109]
十年垂直软件研发经验:我对行业抛售潮的看法
文章核心观点 - 大语言模型(LLM)正在系统性地瓦解垂直软件行业的部分核心竞争壁垒,导致行业估值倍数被重新定义,并引发近期软件与服务类股票市值大幅下跌 [1][2] - 行业竞争格局将从少数几家主导者演变为数百家竞争者,导致传统企业的定价权崩塌 [33][34] - 市场对行业变革方向的判断正确,但对变革速度的判断存在偏差;企业收入不会立即消失,但支撑高估值的壁垒正在消失,导致估值倍数压缩 [35][36] 垂直软件的十大竞争壁垒及大语言模型的影响 - **被瓦解或弱化的壁垒**: - **经验型操作界面**:大语言模型将专属操作界面统一为自然语言聊天窗口,使多年积累的“肌肉记忆”和转换成本归零 [4][6][7] - **定制化工作流与业务逻辑**:业务逻辑的载体从需要多年开发的专业代码,转变为任何行业专家一周内即可撰写的标记语言文档 [10][11][14][15] - **公共数据获取**:大语言模型使解析、结构化公共数据(如SEC文件、判例)的能力商品化,瓦解了垂直软件的数据检索层价值 [16][17][18] - **人才稀缺性**:大语言模型使行业专家无需工程师转译即可将知识转化为软件功能,反转了既懂行业又懂技术的复合型人才壁垒 [19] - **功能捆绑**:人工智能助手作为一个“全能捆绑体”,能在单一工作流中协调多种工具,弱化了通过捆绑功能提升转换成本的壁垒 [20][21][22] - **得以保留或强化的壁垒**: - **私有及专属数据**:真正无法复制或合成的独家数据(如彭博的实时交易数据、标普全球的信用评级)价值将提升 [24][25] - **监管与合规锁定**:受严格监管认证和漫长实施周期保护的领域(如医疗健康电子健康记录),转换成本不受大语言模型影响 [27][28] - **网络效应**:作为行业通信层(如彭博即时通讯)的软件,其网络效应带来的粘性不会改变,价值可能提升 [29] - **交易嵌入**:直接嵌入资金流环节的软件(如支付处理、贷款发放),其基础设施地位不会被大语言模型替代 [30] - **记录系统地位**:作为关键业务数据权威来源的地位短期内不受威胁,但长期看,人工智能助手可能通过跨平台记忆建立新的记录系统 [31][32] 市场抛售的性质与行业威胁 - **抛售的结构性合理性与时间错配**:近期市值暴跌(如标普500软件与服务指数年内跌20%)反映了支撑高估值倍数(如15倍市销率)的壁垒正在消失,市场在为“溢价估值倍数的终结”定价,而非收入立即崩塌 [1][36] - **行业真正的威胁是“双面夹击”**:威胁不仅来自底层数百家人工智能原生初创企业(使竞争者从3家变为300家),还来自上方通用平台(如微软Copilot、Anthropic Claude)首次能轻松深度切入垂直领域 [37][40][41] 垂直软件行业的未来方向与风险框架 - **未来方向**:软件向“无界面”发展,掌控人工智能助手及其与客户的关系成为关键;行业竞争呈组合式爆发,传统定价逻辑被颠覆 [34][40] - **风险评估框架**: - **高风险企业**:核心价值仅为公共或可授权数据的“纯检索层”企业(如部分金融数据终端、法律研究平台),其界面锁定和有限竞争两大支撑均消失 [43] - **中风险企业**:业务线混合了防御性板块和风险暴露板块的企业,其股价下跌(20%-30%)反映了市场对其估值核心的不确定性 [45] - **低风险企业**:拥有监管认证、合规基础设施或深度嵌入交易环节的企业,中期内受大语言模型影响最小,甚至可能受益 [45] - **核心检验标准**:通过评估企业是否拥有**专属数据**、**监管锁定效应**、**交易嵌入**三个维度来判断风险等级,若三者均为“否”则为高风险 [46][47]
“抢镜”春节档 人形机器人马年能否“见真章”?
上海证券报· 2026-02-24 02:37
文章核心观点 人形机器人产业在2026年正从概念走向现实,其发展呈现渐进式落地、全球技术竞速、资本市场高度关注以及引发社会深度思考等多维度态势[4] 商业落地情况 - 当前人形机器人商业落地以文娱表演为主战场,例如2026年春晚宇树科技的《武BOT》节目展示了运动控制能力的跃升[5][7] - 表演是前沿技术叩开大众认知的第一道门,符合新技术推广规律,且表演中演练的技能(如柔顺操作控制)未来可应用于精密装配、家政服务等场景[8] - 在工业场景大规模“上岗”时机未到,主要因高性能人形机器人成本高,且工厂对作业节拍、精度和可靠性要求极高,风险大[10] - 更务实的解决方案是轮式机器人,例如千寻智能的“小墨”已在宁德时代动力电池PACK生产线运行,2026年被定义为轮式双臂人形机器人的产业元年[10] 技术发展趋势与全球竞争 - 行业竞争焦点正从硬件转向“大脑”(具身智能大模型),其智慧程度决定机器人能否从玩具变为实用工具[11][12] - 人形机器人“大脑”发展尚早,技术难度高,需融合多模态信息与物理动作,瑞银证券分析师将其形容为“刚刚出生的小朋友”[13] - 全球竞争格局:美国在“大脑”领域明显领先,拥有Pi、Figure等代表企业;中国在硬件制造和工程化效率上见长,CES 2026参展的38家人形机器人企业中,有21家来自中国,占比超过一半[14] - 国内资本正加速流入“大脑”领域,2026年开年已有自变量机器人、穹彻智能等企业完成大额融资用于相关研发[14][15] 资本市场风向 - 二级市场方面,2026年机器人板块进入1-10演绎阶段,预计特斯拉机器人链上半年落地定点,下半年逐渐进入量产,国内外供应链共振[17] - 投资者需关注头部本体厂商的上市进程及实质性订单落地情况,本体厂商最有可能诞生大市值公司[17] - 一级市场融资活跃,2023年至2025年国内人形机器人企业从120余家增至320余家,行业融资突破580亿元,其中仅2025年融资额就高达380亿元[18] - 2026年资本热情有望延续但结构分化,投资逻辑将更务实,聚焦真实场景落地和可持续价值,早期融资可能降温[19][20] - 一级市场重点关注四大方向:底层技术与大脑(具身智能模型)、垂类应用与数据服务、核心供应链与材料、能打造闭环商业场景的配套企业[20] - 多家企业计划上市,除了已披露IPO辅导的企业外,另有超五家本体厂商预备在2026年冲刺港交所[18][21] 社会影响与未来思考 - 人形机器人的“落地”也是社会过程,其高度拟人化引发了公众的“恐怖谷”效应及对安全风险的担忧[22] - 技术可能重塑劳动力市场,在填补重复性、危险岗位缺口的同时,可能加剧部分中低技能劳动者的就业压力,抬高技能转型紧迫性[23] - 人形机器人将引发生产资源、方式等生产要素的空前变革,人类社会一切有规律与有规则的工作都可能被替代,挑战人的定位本身[24] - 社会需要思考如何通过教育重塑人的竞争力,体现创造力,以形成与机器人的差异化[24]
智谱致歉信:GLM-5发布后流量超预期,扩容节奏没有跟上
新浪财经· 2026-02-22 09:25
公司产品发布与运营问题 - GLM-5模型发布后,由于流量超出预期且公司扩容节奏未能跟上,导致服务能力不足 [1][4][12] - 公司采取了分批次灰度开放策略,优先顺序为Max、Pro、Lite用户 [1][4] - 目前Max用户已全面开放,Pro用户在高峰期可能因集群负载高而遇到限流,Lite用户将在节后非高峰期逐步灰度开放 [1][4] 公司产品技术规格与策略 - GLM-5的参数规模是GLM-4.7的两倍以上,定位为效果逼近Claude Opus 4.5的“大杯”模型,适合复杂任务 [2][13] - 公司设计了分层使用策略:日常简单任务优先使用GLM-4.7,GLM-5在高峰期的使用消耗按3倍计算,非高峰期按2倍计算 [2][13] - 公司承认未提前向用户清晰说明GLM-5的消耗计算规则,这是其失误 [2][13] 公司服务规则与透明度改进 - 公司优化了账户余额看板的刷新频率,从之前的1小时一次提升至10分钟一次 [3][14] - 公司已在购买页面全面展示各套餐的详细使用规则和限额 [5][15] - 具体套餐规则为:Lite套餐每5小时限额约80次prompts,每周限额约400次prompts,建议用于单项目开发;Pro套餐每5小时限额约400次prompts,每周限额约2000次prompts,建议用于1-2个项目;Max套餐每5小时限额约1600次prompts,每周限额约8000次prompts,建议用于多个大项目 [5][15] 公司用户补偿与退款方案 - 针对受影响的Lite和Pro用户,公司支持自主申请退款,并遵循“2026年1月1日至今天,公司全部请客”的原则 [1][6][16] - 老用户(2026年1月1日前订阅且2月12日后仍有效)将退还2026年1月1日至今的费用加上剩余天数的全部金额 [1][8][16] - 新用户(2026年1月1日后订阅且2月12日后仍有效)将全额退还当前订阅周期内的全部实付金额 [1][8][16] - 退款窗口将在节后一周内开启,截止至2026年3月6日 [7][18] - 对于包括Max用户在内的已用上GLM-5的用户及选择继续使用的用户,公司将统一延期15天使用期,系统将在2026年3月7日发放价值15天订阅费用的赠金 [7][18] 公司对历史问题的处理 - 针对2月12日至16日期间从老套餐误升级到新套餐的用户,公司将提供一键回滚服务 [8][19] - 处理方式为发放与用户新套餐同档位、同周期的老套餐权益(无周限额版本),并取消新套餐续费 [8][19] - 回滚产生的费用差额由公司承担,遵循“钱多退,少不补”的原则 [20] - 公司预计在节后1-2周内联系受影响用户处理此事 [21] 行业背景与公司挑战 - 公司近期遭受灰产号池和黄牛党的冲击,恶意占用了大量资源 [4][16] - 类似的应急策略在同行中也曾发生,例如去年Claude 3.5发布时因流量爆表,被迫对Pro用户增加限额 [4][16] - 公司表示GLM-5旨在成为Claude Opus的平替产品,其模型效果在全球范围内受到认可 [7][18] - 公司承诺将继续追求极致的编码效果,全力与黑灰产斗争并优化基础设施 [7][18]
编码新王登基!Gemini 3.1 Pro 血洗 Claude 与 GPT,12 项基准测试第一!
AI前线· 2026-02-20 10:43
产品发布与核心升级 - 谷歌正式推出Gemini 3.1 Pro,这是一次核心推理能力的系统性升级,旨在将最新一代推理能力快速融入实际工作流与个人使用场景,而不仅仅停留在实验室阶段 [2][4] - 该模型采用混合专家架构,用户可输入包含高达100万token数据量的提示词,响应输出最多包含6.4万token,标志着Gemini 3系列的最新能力开始全面进入开发者工具、企业服务及普通用户的日常应用 [2] - 谷歌的发布策略是先通过Deep Think展示上限,再通过3.1 Pro将这些能力沉淀为更稳定、更通用的底座模型,并迅速推向API、企业平台和消费级应用 [18] 性能表现与基准测试 - 在衡量抽象推理与新问题适应能力的ARC-AGI-2基准测试中,Gemini 3.1 Pro获得了77.1%的成绩,是其上一代产品Gemini 3 Pro(31.1%)的两倍以上,也显著领先于Claude Opus 4.6(68.8%)、Claude Sonnet 4.6(58.3%)和GPT-5.2(52.9%)[9][12][16] - 在官方公布的16项基准测试数据中,Gemini 3.1 Pro在其中12项基测中均位列第一 [17] - 在MCP Atlas测试(评估AI模型使用第三方服务执行任务能力)中,Gemini 3.1 Pro以69.2%的成绩领先于Claude Sonnet 4.6(61.3%)[17] - 在编程测试Terminal-Bench 2.0中,Gemini 3.1 Pro编码能力(68.5%)高于Opus 4.6(65.4%)和GPT-5.2(54.0%)[17] - 在科学编程任务基准测试SciCode上,Gemini 3.1 Pro的表现(59%)比Claude Opus 4.6(52%)高出7% [17] 技术特点与定位 - Gemini 3.1 Pro被定位为“更聪明、更具能力的基础模型”,尤其适用于复杂问题求解、跨领域分析以及需要抽象逻辑的任务 [9] - 与仅限Google AI Ultra订阅用户使用且每日限用10次的Deep Think模式不同,Gemini 3.1 Pro是一款向所有用户免费开放的基础模型 [15] - 该模型面向那些“给出一个简单答案远远不够”的任务而设计,旨在将高级推理能力转化为可用于解决最棘手问题的实用智能 [20] 应用场景与用例 - **基于代码的动画生成**:模型可以直接根据文本提示生成可直接用于网站的动态SVG动画,文件体积小,降低了加载和分发成本 [21] - **创意编程**:能够将文学主题转化为功能性代码,例如为小说《呼啸山庄》构建一个能捕捉主角神韵的现代个人作品集网站 [22] - **复杂系统综合**:利用先进的推理能力弥合复杂API与用户友好型设计之间的鸿沟,例如构建一个实时航天仪表盘来可视化国际空间站的轨道运行情况 [23] - **交互式设计**:能够编写复杂的3D椋鸟群舞模拟代码,并构建一个用户可通过手部追踪来操控鸟群、同时聆听动态生成式配乐的沉浸式体验 [23] 市场策略与覆盖范围 - Gemini 3.1 Pro已于发布当日开始分批上线,覆盖开发者、企业客户以及普通消费者 [3] - **开发者**可通过Gemini API(Google AI Studio)、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio预览使用 [7] - **企业用户**通过Vertex AI和Gemini Enterprise接入 [7] - **消费者**可在Gemini App及NotebookLM中直接体验 [7] - 根据公司2025年第四季度收益报告,Gemini模型通过客户直接使用API,每分钟处理超过100亿个token,Gemini App的月活跃用户已增长到超过7.5亿 [25] 行业影响与社区反馈 - 技术社区认为此次更新的关键信号在于整体推理能力和复杂问题求解能力的持续提升,竞争焦点正在从“参数规模”转向“真实任务完成率” [27][28] - 人工智能的发展节奏已进入“以月甚至以周计”的阶段,Gemini 3.1 Pro在较短时间内推出被解读为谷歌对市场现实压力的直接回应 [28] - 社区关注点包括在降低使用成本的同时提升智能水平,这对于推动AI在生产环境中的应用尤为关键,决定胜负的将是推理能力、工程可用性以及规模化落地的综合表现 [30]
一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」
搜狐财经· 2026-02-18 13:37
文章核心观点 - 微软Bing Ads与DKI团队提出了一种名为AdNanny的广告推荐系统新范式,旨在用一个统一的、基于671B参数大语言模型(DeepSeek-R1)的“推理中枢”,替代当前工业界普遍采用的、由成百上千个独立小模型组成的“模型森林”体系 [3] - 这一转变旨在解决现有“模型森林”范式带来的知识割裂、运维成本高昂和决策过程黑盒化等问题,并通过集中化的智能中枢实现更高性能、更低成本和更易维护的广告离线任务处理 [3][4] 范式与架构转变 - 行业正从为每个离线子任务(如相关性标注、用户画像生成)训练和维护独立小模型(“模型森林”)的范式,转向部署一个统一的、推理中心化的基础模型(“智能中枢”)[3][4] - “模型森林”范式存在知识孤岛、性能瓶颈(小模型对复杂语义理解偏差)和维护成本高企(每个模型需独立的数据管道、训练和监控体系)等痛点 [4] - AdNanny的核心愿景是打造一个服务于整个广告离线生态的“全能推理大脑”,而不仅是某个子任务的工具 [4] 数据与训练方法创新 - 团队构建了一个三阶段的自动化数据工厂,将数百万条广告数据转化为带有显性推理过程的高质量语料,旨在让模型学习决策逻辑而非简单的标签映射 [5] - 第一阶段:引入教师模型为广告样本生成“思维链”(CoT)[5] - 第二阶段:利用人类专家标注的黄金数据集验证并剔除存在“幻觉”或逻辑错误的推理路径 [5] - 第三阶段:通过拒绝采样,仅收录推理逻辑能准确导向正确标签的样本,确保模型学习正确的因果关系 [5] - 训练采用了多任务自适应策略,通过动态重加权机制解决不同任务数据量差异大和样本难度不均的问题 [7] - 实例级:对模型理解尚浅(困惑度下降缓慢)的样本自动增加训练权重 [7] - 任务级:根据各任务在验证集的表现动态平衡采样比例,防止大数据量任务淹没高价值小任务 [7] - 在微调阶段引入强化学习,直接以下游业务指标(如Recall@K、在线CTR预估变化量)作为奖励函数,迫使模型生成的推理和特征对最终广告效果产生正向贡献 [8] 工程实现与性能 - 基于671B参数的DeepSeek-R1模型打造AdNanny [3] - 采用深度定制的混合并行训练架构,在248块GPU上实现了31路流水线并行、8路专家并行和8路数据并行,并对频繁调用的“共享专家”采取全复制策略以减少通信瓶颈 [9][10] - 通过FP8量化推理,在保持高精度的同时大幅压缩了推理成本 [11] - 在Bing Ads的实际测算中,AdNanny替代多个小模型后,整体离线算力成本下降了约50% [11] 应用效果与价值 - 在Query-Ad相关性判断、Ad-User匹配、查询生成等多个核心离线任务上,AdNanny的表现均大幅超过了此前微调过的专属小模型 [12] - 由于模型具备推理能力,可为大量模糊样本提供可信的初审理由,从而大幅减少了需要人工标注的工作量,人工只需对推理逻辑进行抽检 [12] - 系统架构变得极简,告别了数十套独立的数据模型Pipeline和监控体系,使得系统更清晰、易维护 [13]
星河问界申请基于大语言模型的用户心理状态监测方法专利,有效提高用户心理状态评估结果的识别精度
金融界· 2026-02-17 12:27
公司核心技术动态 - 星河问界(长春)数字技术有限公司申请了一项基于大语言模型的用户心理状态数据监测专利,公开号为CN121528445A,申请日期为2025年11月 [1] - 该专利技术通过融合处理用户的语音信号、人脸图像及视频流数据,利用大语言模型进行深度分析,旨在有效提高用户心理状态评估结果的识别精度 [1] - 具体方法包括:获取并处理用户语音信号得到语音文本序列;通过预设神经网络模型处理人脸图像得到表情分类结果;处理用户视频流得到行为关键点;最后将多源信息融合并与心理维度提示模板对比,得出用户心理状态对比结果 [1] 公司基本信息 - 星河问界(长春)数字技术有限公司成立于2025年,位于长春市,主营业务为软件和信息技术服务业 [1] - 公司注册资本为200万人民币 [1] - 根据天眼查大数据分析,该公司目前拥有2条专利信息 [1]
一个模型统一所有离线任务!微软用671B大模型重构广告推荐「推理大脑」
量子位· 2026-02-17 11:58
文章核心观点 - 微软Bing Ads与DKI团队基于DeepSeek-R1 671B模型,打造了统一的离线推理中枢AdNanny,旨在用一个大型推理模型替代广告推荐系统中大量分散的专用小模型,实现从“模型森林”到“智能中枢化”的范式转移 [4] - AdNanny通过构建带有推理过程的高质量语料、采用多任务自适应训练与下游业务指标对齐,以及高效的混合并行工程架构,在提升多个核心离线任务性能的同时,大幅降低了系统复杂性和整体算力成本 [4][9][11][13][14][17] 范式转移:从“模型森林”到“智能中枢” - 工业级广告推荐系统为追求毫秒级响应,普遍在离线端堆积成百上千个专用小模型,形成“模型森林”,导致知识割裂、运维成本高昂、决策过程黑盒化 [3][4] - “一任务一模型”体系存在痛点:知识孤岛导致领域知识重复学习效率低;小模型面对长尾流量和复杂语义时易出现理解偏差,且黑盒决策难以溯源;每个模型需独立的数据管道、训练和部署体系,工程负担沉重 [6][7] - AdNanny的核心愿景是打造一个服务于整个离线生态的“全能推理大脑”,成为智能中枢,标志着从维护一系列任务特定模型转向部署一个统一的、推理中心化的基础模型 [4][8] 技术基石:数据、训练与工程创新 - **数据突破**:团队构建三阶段自动化数据工厂,将数百万条广告数据转化为带有“思维链”的高质量语料,使模型从“记忆标签映射”转向“理解决策逻辑” [9] - 第一阶段:引入教师模型生成推理过程(如判断相关性时写出逻辑链)[9] - 第二阶段:利用人类专家标注的黄金集验证并剔除存在幻觉或逻辑断裂的样本 [9] - 第三阶段:采用拒绝采样,仅收录推理逻辑能准确导向正确标签的样本,确保学习正确的因果关系 [9] - **训练艺术**:针对多任务数据量、难度、目标各异的问题,引入关键机制 [11] - 动态重加权:在实例级,对困惑度下降缓慢的样本增加训练权重;在任务级,根据验证集表现动态平衡采样比例,防止大数据量任务淹没高价值小任务 [11][12] - 强化学习对齐:在微调阶段引入强化学习,奖励函数直接以下游业务指标(如Recall@K、在线CTR预估值变化量)作为Reward,迫使模型推理对最终广告效果产生正向贡献 [13] - **工程重器**:基于Megatron框架深度定制混合并行架构以驯服671B大模型 [14] - 采用31路流水线并行、8路专家并行、8路数据并行的混合方案,在248块GPU上实现负载均衡,并对频繁调用的“共享专家”采取全复制策略以减少通信瓶颈 [15] - 通过FP8量化推理,在保持高精度的前提下大幅压缩推理成本 [16] 性能与效益 - **性能全面超越**:在Query-Ad相关性判断、Ad-User匹配、查询生成等多个核心离线任务上,AdNanny的表现均大幅超过此前微调过的专属模型 [18] - **成本显著下降**:在Bing Ads实际测算中,AdNanny替代多个小模型后,整体离线算力成本下降了约50% [17] - **运营效率提升**:模型具备推理能力后,大量模糊样本可由AdNanny提供可信的初审理由,人工只需对推理逻辑进行抽检,降低了人工标注需求 [18] - **系统架构极简**:告别了数十套独立的数据模型Pipeline和监控体系,使系统变得清晰简洁、易于维护 [19] 影响与启示 - AdNanny的尝试基于对工业AI路径的深刻反思,其启发性在于面对复杂工业场景,最佳方案往往不是打更多补丁,而是追求更深邃的逻辑统一 [20] - 该模型被定位为整个离线系统的“灵魂引擎”,并非要取代在线推荐模型 [20] - “以一个推理大模型统一所有碎片化任务”的思路,预计将在广告领域之外,对搜索、电商乃至金融决策等领域产生广泛影响 [20]
今日财经要闻TOP10|2026年2月16日
新浪财经· 2026-02-16 19:41
地缘政治与安全动态 - 以色列总理内塔尼亚胡为美伊新一轮谈判设定明确底线,要求任何协议必须包含彻底拆除伊朗的核基础设施并运出伊朗,而不仅仅是暂停铀浓缩 [1][9] - 内塔尼亚胡强调哈马斯必须彻底解除武装,据估算哈马斯手中仍掌握约6万支步枪,这些武器连同火箭弹等必须全部被收缴或运出加沙 [1][9] - 以军目前已摧毁约150公里的哈马斯隧道网络 [1][9] - 以色列计划在2028年现有援助协议到期后,结束美国每年提供的38亿美元军事援助 [1][9] - 伊朗革命卫队海军在霍尔木兹海峡举行名为“智能管控霍尔木兹海峡”的军事演习,旨在检验战备状态和应对潜在安全威胁的方案 [5][13] - 伊朗外长阿拉格齐已启程前往瑞士日内瓦,参加将于17日举行的第二轮伊美谈判 [7][14] 全球金融市场交易安排 - 周一(2月17日)美股因美国总统日休市一日,芝商所旗下美债期货交易休市,贵金属、美国原油期货合约交易提前于北京时间03:30结束,股指期货合约提前于02:00结束 [2][10] - 加拿大多伦多证券交易所因家庭日休市一日 [2][10] - 韩国、越南胡志明市、中国台湾证券交易所均因农历新年休市 [2][10] - 香港交易所除夕交易半日,并于12时08分与12时10分之间随机收市,南、北向交易关闭 [2][10] 人工智能与科技行业 - 阿里巴巴低调上线两款新大语言模型:Qwen3.5-Plus和Qwen3.5-397B-A17B,均支持文本和多模态任务 [3][11] - Qwen3.5-Plus总参数为3970亿,激活仅170亿,性能超过万亿参数的Qwen3-Max模型,部署显存占用降低60%,最大推理吞吐量可提升至19倍 [3][11] - Qwen3.5-Plus的API定价具有显著成本优势,每百万Token价格低至0.8元,仅为谷歌Gemini 3 pro价格的1/18 [3][11] 香港股市表现与指数调整 - 蛇年最后一个交易日,香港恒生指数收盘上涨0.52%,恒生科技指数上涨0.13% [4][12] - 个股方面,MINIMAX-WP股价大幅收涨24.56%,智谱上涨4.74%,老铺黄金上涨6.64%,洛阳钼业上涨6.35%,宁德时代上涨2.71% [4][12] - 受将被纳入恒生指数消息带动,宁德时代在香港的股价上涨2.2%,洛阳钼业上涨3.7%,老铺黄金涨4.5% [7][16] - 汽车零售商中升控股将被剔除出恒生指数,股价下跌2.5% [7][16] - 恒生指数成份股数量将由88只增至90只,调整于3月9日生效 [7][16] - 贝壳与地平线获纳入恒生中国企业指数,华润啤酒与蒙牛乳业将被剔除 [7][16] - 高盛策略师报告指出,此次指数再平衡可能带来接近80亿美元的双向被动资金流动 [7][16] - 互联网/媒体与娱乐、资本货物以及金属与采矿板块预计将获得最多被动买盘,而银行、能源及科技硬件与半导体板块可能出现最大资金流出 [7][16] 安全事故与政府应对 - 2月15日下午,江苏连云港东海县一烟花爆竹零售店发生爆炸,造成8人死亡、2人受伤 [5][13] - 应急管理部紧急召开调度会,派出工作组赶赴现场,并要求全面排查烟花爆竹各环节安全风险隐患,坚决防范超量储存、违规燃放等行为 [5][13] 新兴市场政治与监管动荡 - 1月下旬印尼股市暴跌,引发总统普拉博沃·苏比安托震怒,其在与内阁部长会议中下令开除金融监管高层 [8][14][15] - 会议中,部长们将股市暴跌归咎于金融监管机构和证券交易所官员未能解决MSCI公司提出的关于投资性和市场透明度的担忧 [8][14][15] - 随后,印尼金融服务管理局与印尼证券交易所的负责人相继辞职 [8][15] 媒体娱乐行业并购动态 - 华纳兄弟探索公司在收到派拉蒙天空之舞公司修订后的收购要约后,正考虑重启出售谈判 [10][17] - 此举可能引发与网飞公司的第二轮竞购战,华纳兄弟董事会尚未决定如何回应 [10][17] - 派拉蒙修订的条款包括:若华纳兄弟终止与网飞的协议,派拉蒙将承担应付给网飞的28亿美元费用,并为华纳兄弟的债务再融资提供兜底支持 [10][17] - 派拉蒙承诺,若交易未能在12月31日前完成,将向华纳兄弟股东作出赔偿,以显示其对快速获得监管批准的信心 [10][17]