大语言模型
搜索文档
探秘“灯塔工厂”
齐鲁晚报· 2026-01-17 01:32
公司成就与认证 - 海信电视成为全球电视行业首家获世界经济论坛“灯塔工厂”殊荣的企业 [2] 核心技术应用 - 智能生产车间基于大语言模型、知识库检索、仿真赋能等技术构建全生产链智造闭环管理体系 [2] - 公司首创基于AI的数字化工艺设计模式,沉淀出超过10万条工艺数据的知识库 [2] - 结合自主研发的星海大模型,可迅速自动生成涵盖工序步骤、操作要求、物料分配等全要素的工艺方案 [2] 生产运营与效率 - 工厂搭配大量智能工业机器人的应用 [2] - 技术应用在减轻传统人工劳动强度的同时,大大提升了生产效率和产品质量 [2]
探访全球首座电视行业“灯塔工厂”
新华社· 2026-01-16 14:48
公司成就与行业地位 - 海信电视成为全球电视行业首家获评世界经济论坛“灯塔工厂”的企业 [1] 核心技术应用 - 公司基于大语言模型、知识库检索、仿真赋能等技术构建全生产链智造闭环管理体系 [1] - 首创基于AI的数字化工艺设计模式 沉淀超过10万条工艺数据的知识库 [1] - 结合自主研发的星海大模型 可自动生成涵盖工序步骤、操作要求、物料分配等全要素的工艺方案 [1] 智能生产与自动化 - 工厂应用大量智能工业机器人 [1] - 工厂使用自动搬运机器人AGV在智慧仓储区运输物料 [3] - 工厂拥有自主研发的产品自动检测生产线 [4] - 工业机器人在智能装配线上作业 [8][9] 运营管理与员工培训 - 公司基于物联网技术构建设备健康度管理模型 [5] - 公司设有VR大空间实训基地用于新员工岗前培训 [6]
卫保川:AI产业仍处“修路”阶段,不怕错过,后边有的是机会
新浪财经· 2026-01-16 14:28
对AI产业发展阶段与投资路径的洞察 - 核心观点:当前AI产业处于“修路”的早期基础设施阶段,真正的行业巨头和投资机会将诞生于未来的应用层,类比互联网发展历史,当前无需担心错过机会 [1][3][5][7] - 美国在AI基础设施领域已投入近两万亿美元,该“修路”阶段已持续三年 [3][7] - 强调必须先完善基础设施(“修好路”),才能最终在应用层实现商业价值(“建起收费站”) [3][7] AI应用层的发展现状与未来方向 - 当前已显现规模的应用方向包括:1)以Chat为代表的对话交流应用,其token生成量仍占主导;2)工具化的编程辅助,其替代程序员的能力日益增强 [3][7] - 预测未来各类智能体(agent)必将大量涌现 [3][7] - 真正的行业巨头将诞生于应用层 [3][7] 以互联网历史类比AI发展路径 - 回顾2000年互联网初期,当时的主角是朗讯、甲骨文等硬件公司,但到2005年这些公司股价普遍下跌了80%-90% [3][7] - 随后真正崛起并成为巨头的是谷歌、新浪、阿里、腾讯、字节、拼多多、美团等应用层公司 [3][7] - 据此判断,AI时代当前仅是“修路”的序幕,而非真正产生大公司的阶段,后续有大量机会 [3][7] AI技术演进的长期趋势 - 提出从当前的大语言模型向真实世界物理模型过渡的趋势,认为后者还有很大市场和发展空间 [3][7] - 当前AI更多替代屏幕前的白领,未来AI可能转向取代车间里的蓝领 [3][7] - 在实现物理世界交互的进程中,自动驾驶比人形机器人更具确定性,因前者是两维空间问题,而后者是立体的多维空间问题 [3][7]
我武生物:公司药品的研发进展可以关注公司的定期报告与相关临时公告
证券日报· 2026-01-15 21:17
公司业务定位 - 公司是一家专业从事过敏性疾病诊断及治疗产品的研发、生产和销售的高科技生物制药企业 [2] 研发与技术应用 - 公司研发人员可以借助各类大语言模型检索相关研发信息和资料 [2] - 公司药品的研发进展需关注公司的定期报告与相关临时公告 [2]
浙商证券:大语言模型技术红利驱动新一轮增长 电商平台正迎双重红利期
智通财经网· 2026-01-15 15:49
文章核心观点 - 大语言模型的技术红利正驱动电商行业新一轮增长,行业处于从“判别式推荐”向“生成式推荐”跨越的关键节点,这将提升用户留存时长与广告转化率 [1] 生成式推荐技术发展 - 生成式推荐利用大语言模型的序列建模与推理能力,大幅提升推荐效果 [1] - 2025年2月,阿里巴巴技术团队引入大型用户模型,其性能优于最先进的DLRMs和E2E-GR方法,并展现出出色的可扩展性,重构了“人-货”匹配逻辑 [1] - 随着缩放定律在推荐领域的验证,行业正突破传统深度学习的瓶颈,能打破信息茧房并通过统一的端到端框架降低工程成本 [1] 交互界面与流量入口革新 - 千问APP公测后月活跃用户数快速提升,2026年1月14日MAU突破1亿,并将在2026年1月15日发布全新版本 [2] - 预计阿里巴巴将用集团生态反哺千问APP入口,其与豆包的差异化在于Agent与集团生态协同,可期待千问agent打通高德、淘天、闪购、飞猪等阿里生态 [2] - 亚马逊推出的AI购物助手Rufus改变了传统搜索框模式,允许用户通过自然语言提问进行比价、选品和获得建议,标志着生成式AI正式重塑电商的流量入口与分发机制 [2] 相关投资标的 - 重点推荐阿里巴巴-W(09988) [3] - 建议关注产业链标的分众传媒(002027.SZ)、值得买(300785.SZ)、壹网壹创(300792.SZ)、微盟集团(02013)、石基信息(002153.SZ)、青木科技(301110.SZ)、美登科技(920227.BJ)、每日互动(300766.SZ)、焦点科技(002315.SZ)、光云科技(688365.SH)等 [3]
软件ETF易方达(562930)连续3日获资金净流入,阿里“千问任务助理1.0”上线,AI应用商业化节奏有望提速
新浪财经· 2026-01-15 11:58
软件ETF易方达市场表现 - 截至2026年1月15日盘中,软件ETF易方达(562930)换手率达15.53%,成交额为1.74亿元,市场交投活跃 [1] - 截至1月14日,该ETF最新规模达11.25亿元,最新份额达10.39亿份,创近1年新高 [1] - 近3天该ETF获得连续资金净流入,最高单日净流入3.97亿元,合计净流入8.10亿元 [1] 人工智能技术进展与行业动态 - 2026年1月15日,阿里千问宣布上线“千问任务助理1.0”并开放申请邀测,其核心可执行400多种数字世界任务,包括应用开发、办公、学习辅导等 [1] - 阿里千问已全面接入淘宝、支付宝、飞猪、高德等阿里生态业务,在全球首先实现AI购物功能,如点外卖、买东西、订机票 [1] - DeepSeek发布的Engram模块通过引入可扩展条件记忆机制,显著提升模型知识存储与提取效率,在MMLU、CMMLU、BBH等多个权威评测中实现分数大幅提升 [2] - 该技术将静态知识查询外包至CPU内存以降低计算成本,释放Transformer主干网络算力用于高阶推理,有望推动AI模型向更高层次智能演进 [2] 行业前景与政策驱动 - 长江证券认为,在模型与AI应用快速迭代下,AI应用有望在2026年迎来C端和B端双重突破 [2] - 中邮证券指出,《“人工智能+制造”专项行动实施意见》明确提出到2027年推出1000个工业智能体、打造500个典型应用场景的目标 [2] - 政策引导AI技术向生产控制、工艺优化等环节渗透,工业软件企业正通过“平台+智能体”架构向智能解决方案服务商升级,加速制造业数智化转型 [2] 相关产品概况 - 软件ETF易方达(562930)紧密跟踪中证软件服务指数,该指数选取30只业务涉及软件开发、软件服务等领域的上市公司证券作为样本 [3] - 该ETF旨在反映软件服务产业上市公司证券的整体表现,其联接基金为A/C(019061/019062) [3]
一夜200万阅读,OpenAI神同步,这项测评框架让全球顶尖LLM全翻车
36氪· 2026-01-15 09:26
论文发布与行业反响 - 一篇由中国AI初创公司深度原理Deep Principle领衔全球24所顶级科研机构发布的论文《Evaluating LLMs in Scientific Discovery》引发广泛关注,一夜之间阅读量逼近200万 [1][6] - 论文同步于OpenAI发布相关领域评测报告,引发了包括Keras创始人、NBA球队老板、硅谷投资人在内的全球AI舆论场讨论 [1][3][6][8] - 论文旨在回应AI估值泡沫与能力质疑并存的行业背景,探讨大语言模型在科学发现领域的实际能力与差距 [8] 论文核心内容与发现 - 论文推出了首个用于评测大语言模型科学发现能力的体系SDE,该体系从“假设->实验->分析”的实验场景出发,超越了传统的问答式评测 [9] - 研究对GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等主流模型在生物、化学、材料、物理领域进行评估,发现其平均准确率为50–70%,远低于它们在GPQA、MMMU等题库上80–90%的表现 [11] - 在86道“SDE-Hard”难题中,模型最高得分不足12%,暴露出在多步推理、不确定性量化和实验-理论闭环方面的短板 [11] - 研究发现模型规模与推理能力提升呈现“边际效益递减”,GPT-5相比前代在SDE四大科学领域平均准确率仅提升3%-5%,部分场景如NMR结构解析甚至出现性能下滑 [11] - 结论指出当前大语言模型在推动科学发现方面的表现不如普通本科生,且现有发展路径不能“顺便攻克”科学发现 [11][17] 公司深度原理Deep Principle背景 - 论文通讯作者及深度原理Deep Principle创始人兼CTO段辰儒,曾在MIT攻读化学博士,并在图灵奖得主Yoshua Bengio支持下发起AI for Science社区 [12] - 公司由段辰儒与MIT物理化学博士贾皓钧于2024年初回国共同创立,两人均为95后,已在全球AI for Science创业领域小有名气 [12] - 创业一年半以来,公司已获得线性资本、高瓴创投、蚂蚁集团等多家知名机构投资,并与晶泰科技、深势科技等业内知名企业建立战略合作关系 [12] - 公司将生成式人工智能与量子化学结合,致力于材料发现等领域,已在Nature子刊和JACS等顶级期刊发表多项重磅成果 [13] - 公司通过商业化合作积累了来自工业研发第一线的真实场景数据和模型应用经验,为其构建SDE评测体系奠定了基础 [14] 行业影响与意义 - 该研究汇聚了全球23家顶级科学发现机构的50余位科学家,形成了制定SDE标准的“梦之队”,其中包括MMMU发起人、IBM RXN之父等多位领域内知名学者 [14][15] - 此次由中国团队领衔的工作,与OpenAI的报告共同标志着行业对AI for Science这一通往AGI关键路径的严肃讨论进入新阶段 [17] - 研究将行业焦点从大语言模型在各类问答式榜单上的竞争,推向了对真正科学发现能力的关注 [17]
DeepSeek:基于可扩展查找的条件记忆大型语言模型稀疏性的新维度技术,2026报告
欧米伽未来研究所2025· 2026-01-15 08:29
文章核心观点 - 北京大学与DeepSeek-AI联合提出名为“Engram”的全新架构,通过引入“条件记忆”作为与“条件计算”互补的稀疏性维度,旨在解决当前Transformer架构缺乏原生知识查找原语的问题,从而在提升模型推理能力的同时,打破GPU显存对模型规模的物理限制 [2] 技术架构创新 - 研究指出语言建模包含组合推理与知识检索两类子任务,现有Transformer通过昂贵的运行时计算来重建静态查找表,浪费计算深度 [3] - Engram模块复兴并现代化了N-gram概念,通过对文本后缀进行哈希映射,以O(1)时间复杂度直接检索静态嵌入向量,相当于为模型外挂一个可瞬间查询的“知识库” [3] - Engram架构将“记忆”与“计算”解耦,通过在浅层网络直接检索静态知识,将主干网络解放出来以处理复杂的全局上下文和逻辑推理,从而有效地“加深”了网络 [5] 性能与效率发现 - 研究发现“稀疏性分配定律”,在固定总参数和训练计算量下,MoE专家与Engram嵌入的比例存在一条“U型”性能曲线 [4] - 将约20%至25%的稀疏参数预算分配给Engram模块,能在保持计算成本不变的同时显著降低验证集损失 [4] - 训练了一个270亿参数(27B)的Engram模型,在同等参数量和激活开销下,相比纯MoE-27B基线模型,在多项任务上取得全面超越:MMLU(+3.4)、CMMLU(+4.0)、通用推理BBH(+5.0)、代码生成HumanEval(+3.0)、数学解题MATH(+2.4) [4] - 在长文本处理上,Engram-27B在“大海捞针”等多查询检索任务中,准确率从基线模型的84.2%提升至97.0% [8] 系统工程与商业潜力 - Engram的检索机制是确定性的,允许系统在计算前一层网络时,异步地从主机内存(CPU RAM)中预取所需嵌入向量,实现计算与通信的重叠 [6] - 实验成功在少量GPU显存下,将一个1000亿参数(100B)规模的Engram表完全卸载到主机内存,仅带来不到3%的端到端推理延迟 [6] - 该架构可利用N-gram分布的齐普夫定律构建多级缓存层次,将高频知识保留在GPU显存,将长尾低频知识放入海量的CPU内存或SSD,为在有限硬件资源下部署超大规模模型开辟新路径,对降低大模型部署成本具有商业价值 [7] 行业意义与未来展望 - 该研究标志着大语言模型的稀疏性设计从单一的“计算稀疏”(MoE)迈向了“计算-记忆双重稀疏”的新阶段 [9] - 条件记忆有望成为下一代稀疏模型的标准配置,为未来万亿参数级别的模型提供兼具高性能与低成本的解决方案 [9] - 这预示大模型设计哲学可能从“大算力出奇迹”向“算力与记忆协同进化”的深刻转型 [9]
让AI融入游戏剧情和玩法,怎样才能少走弯路?
36氪· 2026-01-14 20:26
文章核心观点 - 当前生成式AI在游戏中的应用,特别是在NPC对话生成方面,普遍存在质量低下、对话平淡、脱离游戏世界观等问题,导致玩家体验受损 [1][4] - 多位行业专家认为,将大语言模型驱动的聊天机器人简单粗暴地塞入现有游戏品类,主要是出于削减成本的动机,这通常会导致游戏质量下降 [5][8] - 尽管当前应用存在诸多问题,但专家们认为,若能围绕大语言模型的核心能力进行原生游戏设计,或将其作为游戏系统的组件之一,生成式AI仍有潜力开辟全新的游戏品类和体验 [8][9] - 行业需要正视AI技术带来的变革,进行建设性对话,探讨如何平衡技术应用与人类创造力、版权保护及就业等问题,而非一味抵制 [12][13] AI在现有游戏中的应用现状与问题 - 2025年,生成式AI已渗透主流游戏,但在《Arc Riders》、《纪元117:罗马和平》、《堡垒之夜》等游戏中出现了读错台词、生成劣质图像、配音质量差等问题 [1] - 许多游戏仅将AI用于生成次要NPC的对话,但玩家反馈这些对话平淡无奇甚至荒谬可笑,被部分玩家贬为“游戏内Siri” [1] - 目前基于大语言模型的聊天机器人生成的对话被评价为“既糟糕又无聊”,是程序化生成领域“最无趣、最耗费资源,最受企业控制的版本” [4] - AI聊天机器人虽然能回答玩家任何问题,但这弊大于利,因为它破坏了游戏通过精心设计的限制来传达世界观和故事意义的方式 [4][5] - AI生成的对话缺乏真实意图和作者性,削弱了优秀叙事设计中的作者意图,使玩家难以感受到与创作者之间的联系 [5] 对生成式AI应用的批评与担忧 - 应用生成式AI和聊天机器人可能带来数据中心能耗、用户隐私风险、创作者作品被无偿用于训练模型以及AI幻觉导致信息失真等伦理问题 [5] - 企业高管对生成式AI的兴趣主要出于削减成本的目的,但这种策略几乎总是导致游戏质量下降 [8] - 游戏编剧担忧生成式AI会加大能源消耗、引发版权争议、造成结构性失业风险并拉大企业管理层与员工间的价值观差异 [11] - 大规模使用生成式AI会造成“灾难性的能源消耗”,且训练数据来源的创作者目前无法获得报酬 [16] - 依赖AI生成NPC对话可能导致游戏公司裁员和专业知识的系统性流失,减少游戏中人类精心创作的内容 [18] AI在游戏中的潜在机遇与发展方向 - 生成式AI更适合用于打造“AI原生游戏”,即围绕大语言模型的核心玩法循环来设计全新体验,例如《1001夜》和沙盒游戏《无限工艺》 [8] - 开发者可以将大语言模型用作“玩家开放式输入的解读器”,而非简单的聊天机器人,这有望开辟一个全新的游戏品类 [8] - 设计师可将大语言模型作为游戏系统的众多组件之一,为玩家提供类似经典互动故事游戏《Façade》风格的即兴玩法体验 [9] - 通过精心调教,为AI聊天机器人设定角色背景、性格特征,并用特定提示词引导其生成符合游戏世界观和特定风格(如仿狄更斯文风)的对话,可能获得更有趣的内容 [12] - 未来,AI系统或能生成非常有趣且契合游戏世界观的对话,但这背后仍需人类创作者在系统中做出大量决策和努力 [16] 行业与从业者的应对策略 - 游戏编剧需要适应从写作到策划、筛选和展示内容的“文化转变”,以更好地利用生成式AI工具 [12] - 程序员需要改进技术,将聊天机器人更好地集成到游戏中,确保NPC能对玩家的游戏内行为做出反应 [12] - 行业应进行建设性对话,探讨如何保住工作、留住创造力、防止版权侵犯,并在规则约束下使用AI技术 [13] - 完全由人类编剧创作的工作室可能因此脱颖而出,部分玩家愿意为这类“纯手工”游戏支付溢价 [13] - 从业者应保持开放心态,广泛涉猎不同领域知识,寻找AI无法模仿的原创故事和微妙细节,以人类独有的方式讲述故事 [13] - 行业需要放慢脚步,先充分了解生成式AI技术本身的局限性、成本和影响,才能真正“驯服”这项技术 [16]
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
机器之心· 2026-01-14 13:37
文章核心观点 - 针对开源大语言模型生成代码存在运行时错误、调试成本高的问题,提出了一种名为自适应渐进式偏好优化(AP2O)的新方法,并构建了AP2O-Coder框架 [2][3] - 该方法借鉴人类“按题型高效刷题”的学习模式,通过“考试-分析-纠错-小测”的系统性流程,旨在提升模型代码纠错能力,并在多款主流开源模型上实现了最高3%的pass@k性能提升,同时降低了训练数据需求量 [3] 现有方法的核心挑战与针对性设计 - 现有基于偏好优化的方法(如DPO)在代码纠错任务中面临三大挑战:错误类型感知缺失、训练聚焦性不足、动态适配能力薄弱 [5][12] - 错误类型感知缺失:仅依赖单元测试的二元反馈,无法知晓具体错误类型(如KeyError、ValueError),导致模型难以定位错误原因 [5] - 训练聚焦性不足:训练数据随机打乱输入,模型需在多种错误类型间频繁切换,纠错学习针对性不强 [12] - 动态适配能力薄弱:静态构建的训练集无法匹配模型训练过程中不断变化的能力短板,易引发灾难性遗忘或资源浪费 [12] - AP2O-Coder针对性地借鉴人类“错题整理-专题突破-定期复盘”的学习模式,构建了包含四大核心模块的优化框架 [6] AP2O-Coder的核心技术框架与工作机制 - 框架包含四个关键步骤:代码生成评估(Exam)、错误诊断分析(Analysis)、渐进式偏好优化(Correction)、自适应错误回放(Quiz) [8] - **代码生成评估(Exam)**:为掌握模型初始能力边界,让LLM在M个编程任务上生成N个候选答案,通过单元测试获取“通过/失败”标签,形成初始数据集 [10] - **错误诊断分析(Analysis)**:使用编程语言专用分析工具对失败答案进行结构化解析,标注具体错误类型并统计频率,构建结构化的“错题本” [11] - **渐进式偏好优化(Correction)**:基于错题本设计差异化优化顺序,对小参数模型(如0.5B)采用“低频错误->高频错误”(L2H)路径,对大参数模型(如34B)采用“高频错误->低频错误”(H2L)策略,通过构建DPO滑动窗口分阶段集中优化特定错误 [13] - **自适应错误回放(Quiz)**:定期在小验证集上评估模型性能,实时捕捉当前高频错误类型,将对应失败答案重新纳入训练,动态调整训练数据分布以聚焦能力短板 [14] 实验验证与结果分析 - 研究在6款主流LLM上进行了系统验证,包括代码专用模型(CodeLlama、DeepSeek-Coder、Qwen2.5-Coder)与通用模型(Llama3、Qwen2.5、Qwen3),参数规模覆盖0.5B至34B,实验基准包括EvalPlus(HumanEval/MBPP)与LiveCodeBench v6 [16] - **性能提升有效性**:AP2O-Coder在不同类型与规模的模型上均展现出稳定性能改进,在EvalPlus(HumanEval)基准上,AP2O-Coder (H2L) 即使对30B+大参数模型也能实现2.8%至3.4%的性能优化,且未出现性能退化现象 [16] - **错误抑制效果与泛化能力**:相较于SFT、DPO等基线方法,AP2O-Coder能有效降低各类错误发生频率,且未引入新错误类型,在Qwen2.5-Coder-7B实验中,高频错误“WrongResult”发生率显著下降,IndexError等小众错误在训练后期实现清零,同时在pass@5、pass@10指标上的稳定提升表明其增强了模型代码生成的泛化能力 [22] - **样本效率优化**:AP2O-Coder通过错误类型的精准聚焦,显著提升了训练数据利用效率,仅需4%至60%的偏好数据即可达到传统DPO方法的最优性能,在32B参数规模模型上数据需求量减少更为明显 [25] - **通用LLM适配性**:AP2O-Coder不仅适用于代码专用LLM,也能有效支持通用LLM向代码领域适配,在Qwen3、Llama3等通用模型的实验中,经过该方法优化后,模型在MBPP基准上的pass@1分数显著提升 [28] 研究发现与方法特性 - 对于Qwen2.5-Coder,小参数模型(≤ 3B)采用“低频错误->高频错误”(L2H)优化顺序更具优势,可避免模型因能力有限陷入高频常见错误的学习困境 [31] - 大参数模型(≥ 7B)采用“高频错误->低频错误”(H2L)顺序效果更优,能够充分发挥其强学习能力,快速实现整体错误率的下降 [31]