语言模型
搜索文档
联想申请信息处理方法专利,实现不同维度特征向语言模型的有效输入
金融界· 2026-02-04 19:38
公司近期技术研发动态 - 联想(北京)有限公司于2025年10月申请了一项名为“一种信息处理方法、模块确定方法及信息处理装置”的专利,公开号为CN121457525A [1] - 该专利技术旨在处理文本、图像、视频、音频等不同类型的第一输入特征,并将其转换为与特定语言模型(第一语言模型)输入维度相匹配的第二输入特征,最终由该语言模型生成输出结果 [1] - 该技术核心在于通过第一转换模块将不同维度的输入特征转换为一个概率分布(第一概率信息),并据此确定符合目标模型要求的输入特征,展现了公司在多模态人工智能模型输入适配与处理领域的技术布局 [1] 公司基本背景与知识产权实力 - 联想(北京)有限公司成立于1992年,位于北京市,主营业务为计算机、通信和其他电子设备制造业 [2] - 公司注册资本为565,000万港元 [2] - 公司拥有强大的知识产权储备,其中商标信息达1,743条,专利信息达5,000条 [2] - 公司对外投资了108家企业,参与招投标项目5,000次,并拥有行政许可238个 [2]
王小川时隔一年多再露面谈医疗行业痛点:百川智能一定会“出海”,也会走上IPO道路
新浪财经· 2026-01-14 20:26
公司战略聚焦 - 百川智能将全面收缩战线,集中资源押注医疗AI赛道,公司创始人王小川表示从创立之初就希望深耕医疗,未来将确保新员工都认同此方向 [1] - 公司计划于2026年上半年推出两款面向消费者(To C)的医疗AI产品,并明确其商业化路径,认为只要能为患者提供辅助决策价值即可收费 [10] - 公司未来有明确的上市(IPO)计划,但表示相较于已上市的通用模型公司,其准备时间可能更长,希望构建更优的商业模型,预计还需一两年时间 [11][12] 行业趋势与竞争格局 - 国内外头部模型公司正密集进入医疗AI场景,例如OpenAI正式上线健康能力,Claude发布医疗计算与智能体相关技术,行业竞争加剧 [3] - 医疗被视为大模型“皇冠上的明珠”,其应用已开始进入实际范畴,AI医生正成为可能 [3][4] - 在医疗AI领域,大厂更注重行业共识,而小厂则可能依靠切入高价值严肃场景来实现大创新,百川智能选择了一条与大厂不同的创新节奏 [11] 对医疗行业痛点的洞察 - 当前医疗行业的核心问题在于“供给不足”与“结构失衡”,好医生长期短缺,且存在医患权利不平等,患者是受益方而医生是决策方 [4] - AI的价值在于填补医患信息鸿沟,推动决策权逐步向患者让渡,使患者能更明白地参与诊疗,而非简单取代或辅助医生 [4][5] - 中外医疗体系存在关键差异,中国患者倾向于直接选择三甲医院,未来趋势是医疗场景将发生变化,轻症和日常健康问题将转向居家场景,从而提升整体基层(包括居家)诊疗能力 [5][6] 技术路线与核心观点 - 公司不认同“多模态是主战场”的主流观点,认为符号与语言才是中轴,智力体现在将具体问题抽象化的能力,而非图像识别 [7][8] - 在医疗领域,大量问题本质是决策问题,未来影像解读可能由专门小模型完成,其结果符号化后再交由语言模型进行推理,感知模型与认知模型需结合 [9] - 公司对数据的重要性持有争议性观点,认为智力是本质问题,高质量院内数据并非决定模型上限的唯一关键,真正的核心在于评测体系和训练方法,以及从论文中萃取知识 [9] 产品定位与市场选择 - 公司判断未来医疗大模型的巨大增量在院外而非院内,院内空间有限,过去以医生为中心的AI服务模式是“隔山打牛” [9][10] - 公司产品定位清晰,专注于帮助患者理解信息、权衡方案和参与决策的辅助工作,不会越线进行诊断或开具处方 [10] - 公司明确其护城河在于模型领先一代、切入高价值严肃场景以及坚持独特的创新节奏,并确认未来一定会出海 [11]
王小川时隔一年再露面谈行业痛点:医疗大模型进入医院内是“隔山打牛” 不认可多模态是主战场
每日经济新闻· 2026-01-14 14:53
公司战略聚焦 - 百川智能将全面收缩战线,未来战略核心聚焦于医疗AI赛道,公司创始人王小川表示从第一天起就想做医疗,现在将确保新员工都认同此方向 [1] - 公司判断医疗是大模型“皇冠上的明珠”,并已进入应用范畴,因此选择集中资源只做医疗这一件事 [1] 行业痛点与市场机会 - 医疗行业的核心问题被归结为“供给不足”和“结构失衡”,具体表现为好医生长期短缺以及医患权力不对等 [2] - AI的价值在于填补医患信息鸿沟,推动决策权向患者让渡,从而改变医疗关系结构,而非简单取代或辅助医生 [2][3] - 中外医疗体系存在关键差异,中国患者倾向于直接选择三甲医院,未来趋势是医疗场景向居家转移,提升居家诊疗能力 [3][4] - 行业风向变化,OpenAI、Claude等国内外头部模型公司正密集进入医疗场景 [1] 技术路线与研发理念 - 公司不认同“多模态是主战场”的主流观点,认为符号与语言才是中轴,智力(将具体问题抽象化的能力)是核心 [5] - 在医疗领域,大量问题本质是决策问题,未来影像解读可能由专门小模型完成,其结果符号化后再交由语言模型推理,感知模型与认知模型需结合 [6] - 公司认为数据并非决定模型上限的唯一关键,智力是本质问题,核心在于评测体系和训练方法,以及从论文中萃取知识体系 [6] - 公司创始人批评市面上有500多个垂直医疗模型,但认为他们“都不知道什么叫做模型” [6] 产品场景与商业化路径 - 公司判断未来医疗大模型的巨大增量在院外而非院内,院内空间有限,过去以医生为中心的AI服务模式是“隔山打牛” [7] - 百川智能选择明确的To C路径,计划直接帮助患者,将于今年上半年推出两款产品 [7] - 商业化上,只要能为患者提供辅助决策价值就可以收费,模式包括直接向患者收费或通过服务包整合医疗资源和药械 [7] - 在监管边界上,公司定位为帮助患者理解信息、权衡方案、参与决策的辅助角色,不会进行诊断或开具处方 [7] 公司竞争优势与未来规划 - 公司的护城河总结为三点:模型领先一代、切入高价值严肃场景、坚持与大厂不同的创新节奏 [8] - 公司明确表示未来一定会出海,认为“不能出海的医疗公司不是好公司” [9] - 公司未来计划上市,但时间上会晚于近期已上市的同行,希望用一两年时间准备以优化商业模型,包括收入与成本结构 [9]
为什么蔚来会押注世界模型?
自动驾驶之心· 2025-12-31 14:27
文章核心观点 - 文章核心是推广一门关于自动驾驶世界模型的进阶实战课程 课程旨在帮助学习者理解并掌握这一前沿技术 推动端到端自动驾驶在工业界的落地[1][11] - 世界模型被视为智能驾驶能力上限的关键 其核心是建立高带宽的时空认知系统 以视频为核心学习物理规律 不同于解决概念认知的语言模型[1] - 行业对世界模型的定义尚不统一 初学者入门困难 该课程由业界专家设计 从原理到实战系统讲解 目标是使学员达到具备一年经验的算法工程师水平[1][14] 课程内容与结构 - 课程共六章 从概述、背景知识到具体模型流派及工业应用 循序渐进[4][6][7][8][9][10] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同流派(如纯仿真、仿真+规划、生成传感器输入等)[6] - 第二章讲解世界模型所需的基础技术栈 包括场景表征、Transformer、BEV感知、占用网络、扩散模型、闭环仿真(NeRF/3DGS)及其他生成式模型(VAE、GAN等)[6][12] - 第三章探讨通用世界模型 解析Marble、Genie 3、V-JEPA、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[7] - 第四章聚焦视频生成类世界模型 涵盖GAIA-1 & GAIA-2、UniScene、OpenDWM、InstaDrive等 并以商汤OpenDWM进行实战[8] - 第五章聚焦OCC生成类世界模型 讲解OccWorld、OccLLaMA、HERMES、II-World等论文并进行项目实战 此类方法可扩展至轨迹规划[9][13] - 第六章分享工业界应用经验、行业痛点、问题解决思路及世界模型相关岗位的面试准备[10] 讲师与课程安排 - 讲师Jason拥有C9本科和QS50博士学历 发表多篇CCF-A/B论文 现任国内顶级主机厂算法专家 主持并完成多项自动驾驶感知与端到端算法的量产交付 拥有丰富的前沿算法预研和实战经验[3] - 课程为离线视频教学 于1月1日开课 预计两个半月结课 提供VIP群答疑及三次线上答疑 答疑服务截止2026年12月31日[15] - 章节内容按计划逐步解锁 例如第一章于12月10日解锁 第六章于3月1日解锁[16] 目标受众与学习收获 - 课程面向具备一定基础的学习者 要求自备GPU(推荐算力在4090及以上) 熟悉自动驾驶基本模块 了解Transformer、扩散模型、BEV感知等基本概念 并具备概率论、线性代数及Python/PyTorch编程基础[14] - 学员学完后将掌握世界模型技术进展(视频生成、OCC生成等) 对BEV感知、多模态大模型等关键技术有更深刻理解 能够复现II-World、OpenDWM等主流算法框架 并能将所学应用于实际项目设计[14] - 该课程有助于学员在实习、校招和社招中受益[14]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
具身智能之心· 2025-12-22 09:22
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座 [1][7][60] 物理世界与虚拟世界的本质差异 - 物理世界充满连续性、随机性、不完全可观测性以及大量与力、接触和时序强相关的过程,而虚拟世界(语言/多模态模型所面对)是高度可复现、低随机性的符号世界 [2][10] - 物理事件具有高度随机性,例如用相同的角度和力度推一个杯子,十次可能停在十个不同的地方,这在虚拟世界中几乎不会发生 [10][11][12] - 现有的以语言和视觉为中心的模型架构、训练方法和数据能力,难以精确刻画物理世界的高度随机性现象 [12][16] 现有技术范式的局限性与新模型必要性 - 沿用以语言和视觉为中心的建模范式存在结构性错位,语言和视觉并非描述动作和物理过程的理想工具 [3][16] - 语言只能描述长序列(如10秒以上)事件,难以描述精细操作(如炒菜)[16] - 图像精度优于语言,但仍面临工具使用、遮挡等问题,大量涉及力和接触的过程无法靠语言和图像描述 [18][19] - 因此需要“另起炉灶”,重新训练一个专门供物理世界使用的基础模型,而非仅在现有模型上做微调 [20] 模型架构与学习范式的转变 - 感知和决策层面需要转变思路,人类在物理世界中的学习方式(如Active Perception, Interactive Perception)与虚拟世界中的静态统计学习范式有根本不同 [24][27][28][29] - 物理世界学习通过带有时序、因果和空间信息的连续观察流,以及与环境的主动互动实现,这应是多模态模型未来的重要发展方向 [27][28][29] - 坚持静态、固定的数据学习方式,无法实现人类般高效、节省数据和算力的学习效果 [30] 具身智能基础模型的潜力与影响 - 以十年为周期看,具身智能基础模型有可能反过来吞噬现有多模态模型的生存空间 [12][31] - 构建统一的基础模型应是完全端到端的,这已成为行业共识 [12][32] - 需要设计专门考虑端侧部署和推理的模型架构,以解决推理速度等权衡问题,而非沿用旧架构 [33] - 具身智能模型应是一个集成了语言能力、世界模型能力、视频生成能力和三维重现能力的统一模型 [39][40] 数据与Scaling Law - 数据的Scaling Law在机器人领域被认为是最困难的事情之一 [46] - 现实世界的数据应是最主要的来源,训练应分阶段(预训练、后训练),并发现了第三个Scaling Law:在推理时通过思维链等方式拓展模型能力 [48] - 物理世界适合持续学习范式,即端侧实时更新数据,进行体验式学习,这本质优于集中式批次训练,但带来体系架构、系统和硬件上的新挑战 [51][52] 软硬一体与AI定义硬件 - 需要让AI定义硬件,而非先制造完美硬件再适配AI模型 [53] - 公司坚持软硬一体同步发展,已实现两款全自研轮式底盘人形机器人及高自由度灵巧手,并开始市场销售 [54] - 实现了跨本体泛化,例如从夹爪模型迁移到20个自由度(15个主动自由度)的灵巧手,仅需非常少量样本,表明模型已学会基础物理规律和动作模式 [36] - 在高度复杂任务上,实现了超过人类遥操作训练速度的1倍速实时控制,并维持高准确率 [33][34] - 公司自研的WALL-OSS是领先的开源物理世界基础模型,具备VLA模型控制机器人、良好泛化、智能跟随及构建长序列思维链解决复杂问题的能力 [41][44] 具身智能的宏观重要性 - 普遍观点低估了具身智能的发展和影响,认为语言、数学、代码等领域比具身智能有本质重要性,但此观点存在隐藏假设 [54] - 创造超越人类的AGI/ASI所需的一切资源(算力、芯片、电力、能源、数据)都来自物理世界 [54] - 当前物理世界未出现指数级增长的核心卡点是“人手的劳动”,几乎所有商品和服务都无法脱离这一步 [57][58] - 若具身智能实现,万事万物可遵循类似芯片摩尔定律的发展规律,从而带来更多资源以创造更聪明的ASI,走向真正的通用智能未来 [59]
艾瑞观察:语言模型的价值重构与生态突围
艾瑞咨询· 2025-12-18 08:05
人工智能行业宏观趋势 - 2025年人工智能行业呈现规模极速扩容与技术深度迭代的双轨并行特征,语言模型作为核心引擎驱动整个AI版图重构[2] - 行业正沿多模态融合、具身智能、智能体实用化三大方向加速演进,语言模型在其中扮演连接上层应用与底层算力的“价值枢纽”角色[2] - 头部企业的战略重心已从单纯的参数规模竞赛,全面转向“价值落地”,行业竞争升维至涵盖技术底座、应用场景及商业生态的综合实力较量[1] 语言模型子行业现状与痛点 - 语言模型子行业发展整体向好,但在C端应用层面面临三大核心痛点:实用性不足(“会聊不会办”)、场景碎片化(“功能孤岛”)、成本与生态失衡[3] - 高昂的推理成本限制了中小企业接入,封闭生态阻碍了创新涌现[3] - 行业风向发生根本性逆转,致力于将语言模型从“尝鲜玩具”转化为“国民级工具”[1] 阿里巴巴千问APP的破局实践 - 阿里巴巴千问APP在2025年11月公测一周下载量突破1000万,公测23天全域月活突破3000万,表现堪称现象级[4] - 千问APP构建了以“都市青年”为核心的用户生态:男性用户占比52.2%,35岁以下群体占据半壁江山,其中25-35岁人群最为活跃(占比28.3%),半数用户深度渗透于一二线城市[4] - 千问APP背靠阿里Qwen系列大模型,2025年开源的全新一代Qwen3系列性能比肩领先的GPT5、Gemini2.5-Pro等闭源模型,在逻辑推理、长文本处理等基础能力上具备对标全球顶尖水平的实力[6] - 针对“实用性不足”痛点,千问在垂直领域深度优化:AI PPT功能支持39种文件格式导入及超10万模版库;AI讲题与教育功能覆盖全学段百万级学习资源;AI写作与文档功能支持5亿级资料库调用[6][7] - 千问不仅是APP,更是阿里生态的超级入口,计划将地图、外卖、订票、购物等生活场景全面接入,打造统一AI生活入口[7] - 在电商场景,淘宝“AI万能搜”解决5000万消费需求,AI导购和翻译支撑双11亿级调用;在办公场景,钉钉AI表格支持千万热行;在出行场景,飞猪“问一问”利用多智能体技术提供专业旅游规划[7] - 千问明确的“会办事的AI助理”定位,将AI从娱乐工具重新定义为生产力工具,推动行业从单纯对话转向解决实际问题[8] - 通过开源Qwen系列模型,阿里降低了全行业开发门槛:已开源300多款模型,全球下载量突破6亿,超过Meta的Llama成为全球第一开源模型家族[8] 未来发展趋势 - 技术融合:未来的模型将走向彻底的多模态深度融合,囊括“全模态”、“全尺寸”的模型将成为主流;垂直领域精度将持续提升,通用模型与行业专有数据结合将涌现超越人类专家的能力;随着推理架构优化,使用成本将进一步降低,推动AI普惠化[9] - 生态共生:AI模型将与基础设施深度绑定,“算力+算法”一体化是方向;开源模型将继续作为创新基座,缩小与闭源顶尖模型差距,成为全球AI创新核心驱动力;依托开源基座和低成本云服务,中小微企业将快速构建AI应用[9] - 价值导向:未来竞争不再仅看模型参数,而是看场景整合与生态构建能力,能够打通跨场景数据的“超级助理”将占据主导;企业估值逻辑将从“技术潜力”转向“变现能力”,能否切实降低成本、提升效率将是衡量AI应用成功的唯一标准[9] - 2025年的语言模型行业正处在从技术爆发向产业繁荣跨越的关键节点,以千问为代表的中国力量通过技术与场景双轮驱动,在全球范围内树立了开源模型新标杆[10][11]
腾讯混元2.0上线
第一财经· 2025-12-05 22:13
腾讯混元大模型技术升级 - 公司于12月5日正式发布最新版语言模型Tencent HY 2.0 Think和Tencent HY 2.0 Instruct [1][2] - 新模型HY 2.0采用混合专家架构,总参数达4060亿,激活参数为320亿 [2] - 新模型支持256K上下文窗口,相比上一版本显著改进了预训练数据和强化学习策略 [2]
观点分享:VLA解决的是概念认知,无法有效的建模真实世界的四维时空?
自动驾驶之心· 2025-10-14 15:12
智能驾驶技术路线分析 - 世界模型被视为智能驾驶的上限,通过视频为核心进行跨模态预测和重建,让系统学习时空和物理规律,再叠加语言层实现交互与知识注入[2] - 世界模型解决时空认知问题,而语言模型解决概念认知问题,语言模型因低带宽和稀疏性无法有效建模真实世界的四维时空[2] - 世界模型建立高带宽认知系统,直接基于视频端构建能力,而非依赖语言转换[3] - 自动驾驶终极目标是通过开放集指令交互实现用户随意表达指令并执行[3] VLA与WA技术差异 - VLA本质是语言模型的模态扩展,根基仍在语言模型上,类似于在语言体系上不断加模态[3] - 华为实际践行世界模型路径,蔚来早在去年七月份前就提出世界模型概念,VLA和WA更多是表述方式差异[5] - 技术路线关键区别在于是否真正建立时空认知能力,而非仅在语言模型上做加法[5] 语言模型在自动驾驶中的价值 - 语言模型提供海量互联网案例数据,尤其是彩色案例对自动驾驶训练非常有帮助[7] - 通过链式推理带来逻辑推理能力,弥补世界模型在细粒度推理方面的不足[7] - 实现自然语言人机交互,用户可直接用语言指令车辆操作[7] - 语言模型三大价值包括物理规律内建、时空操作能力以及推理与人机交互功能[6][7] 自动驾驶行业发展趋势 - 行业当前高度内卷,前沿技术栈趋于收敛,量产方案趋同[9] - VLA与WA路线之争背后是更大的行业变革,破局成为焦点话题[9] - 行业变革对个人既是挑战也是机遇,综合型人才更受青睐,技术栈丰富者更具优势[11] - 行业壁垒因试错成本高而提升,缺乏完整学习体系加剧竞争难度[13] 自动驾驶社区生态建设 - 自动驾驶之心知识星球已聚集超过4000名成员,覆盖近300家机构与自驾公司[13][25][107] - 社区提供40多项技术路线资源,包括VLA学习路线、世界模型应用及端到端自动驾驶等[14][26] - 社区与多家自动驾驶公司建立内推机制,提供岗位直推机会[18][19] - 社区汇总近60个数据集、40多个开源项目及主流仿真平台,助力技术学习与项目实践[25][26][43][45]
Qwen3-Max-Preview 上线,官方称系通义千问系列最强大的语言模型
搜狐财经· 2025-09-06 18:03
产品发布与定位 - 公司推出最新语言模型Qwen-3-Max-Preview 该模型是通义千问系列中最强大的语言模型[1] - 模型基于Qwen3系列更新 相比2025年1月版本在推理、指令跟随、多语言支持和长尾知识覆盖方面有重大改进[1][3] - 在数学、编码、逻辑和科学任务中提供更高准确性 更可靠遵循中英文复杂指令 减少幻觉现象[1][3] 技术特性与性能 - 支持超过100种语言 具有更强翻译和常识推理能力[1][3] - 针对检索增强生成RAG和工具调用进行优化 但不包含专门"思考"模式[1][3] - 支持256000上下文长度 最大输出长度为32800 tokens[5] 商业化定价 - 输入token定价为每百万tokens 120美元 按现汇率约合86元人民币[2] - 输出token定价为每百万tokens 600美元 按现汇率约合428元人民币[2] - 根据token长度分段计价:输入超过128K部分每百万tokens 300美元 输出超过128K部分每百万tokens 1500美元[5] 服务提供商与性能 - 阿里云国际作为主要服务提供商 在新加坡节点延迟为068秒[5] - 支持缓存读写功能 读取价格每百万tokens 240美元至600美元[5]
【焦点】香港中文大学(深圳) 赵俊华:大模型智能体在电力系统中的应用初探
搜狐财经· 2025-06-29 21:01
人工智能发展历程 - 决策式AI阶段(1950s~1980s):以逻辑程序和专家系统为主,1956年首次人工智能研讨会召开标志着领域诞生,1965年Logic Theorist程序实现数学证明推理[4] - 技术积淀阶段(1980s~2010年):1986年Backpropagation算法突破,1997年Deep Blue击败国际象棋冠军,2006年深度学习技术发明[4] - 快速发展阶段(2011-2016年):2011年IBM Watson在Jeopardy获胜,2014年GAN出现,2015年AlphaGo战胜围棋冠军[4] - 爆发阶段(2017年至今):2017年Transformer架构提出,2018年GPT/BERT发布,2022年ChatGPT推出,2024年Sora面世[4] 大语言模型技术架构 - 预训练三要素:大数据(无标注文本)、大模型(深度神经网络)、大算力(并行计算集群)[11][12][13] - 训练流程:预训练(月级/千级GPU)→有监督微调(天级/百级GPU)→强化学习(天级/百级GPU)[22] - 微调技术:LoRA方法仅需训练百万参数,效果媲美全参数微调,GPU需求降至3090*4级别[15][20] - 强化学习:通过RLHF量化人类喜好,训练打分模型优化最终输出[18][19] 智能体关键技术 - 工具使用:通过API调用、搜索引擎、代码执行等扩展能力[26][27] - 任务分解:实现复杂任务的子目标拆解与试错机制[28][30] - 长期记忆:存储经验、知识、技能,支持读写持久化[31][32][33] - 自主学习:结合权重微调、提示优化、自我反思等多路径提升[35][36][38] 电力系统应用场景 - 负荷预测:ITA-LF框架整合新闻文本,预测准确率达94.7%,显著优于LSTM(82.08%)和SARIMA(89.93%)[64][68][71] - 调度系统:构建70b参数调度大模型集群,支持检修单成票(94.46%准确率)、规程检索问答(RAG召回率58.7%)[77][91][94] - 市场仿真:多代理模型实现碳市场均衡分析,量化价格弹性系数(煤炭企业7,278吨/元)[113][115][120] - 机理研究:AI4S框架处理10万节点电网建模,年算例超10亿,推动动态建模与稳定性分析[125] 技术融合路径 - 模型融合:推理大模型+PINN+因果模型+符号模型,保留准确性同时提升计算速度[54][56][58] - 人机协同:必要场景引入人工反馈,作为最终决策质量判定者[56][59] - CPSSE仿真:结合真人、因果模型和大语言模型,构建数字孪生系统[62] - 范式演进:从参数学习(机器学习)→提示工程(大模型)→机制工程(智能体)的能力获取转变[40]