语言模型
搜索文档
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
具身智能之心· 2025-12-22 09:22
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座 [1][7][60] 物理世界与虚拟世界的本质差异 - 物理世界充满连续性、随机性、不完全可观测性以及大量与力、接触和时序强相关的过程,而虚拟世界(语言/多模态模型所面对)是高度可复现、低随机性的符号世界 [2][10] - 物理事件具有高度随机性,例如用相同的角度和力度推一个杯子,十次可能停在十个不同的地方,这在虚拟世界中几乎不会发生 [10][11][12] - 现有的以语言和视觉为中心的模型架构、训练方法和数据能力,难以精确刻画物理世界的高度随机性现象 [12][16] 现有技术范式的局限性与新模型必要性 - 沿用以语言和视觉为中心的建模范式存在结构性错位,语言和视觉并非描述动作和物理过程的理想工具 [3][16] - 语言只能描述长序列(如10秒以上)事件,难以描述精细操作(如炒菜)[16] - 图像精度优于语言,但仍面临工具使用、遮挡等问题,大量涉及力和接触的过程无法靠语言和图像描述 [18][19] - 因此需要“另起炉灶”,重新训练一个专门供物理世界使用的基础模型,而非仅在现有模型上做微调 [20] 模型架构与学习范式的转变 - 感知和决策层面需要转变思路,人类在物理世界中的学习方式(如Active Perception, Interactive Perception)与虚拟世界中的静态统计学习范式有根本不同 [24][27][28][29] - 物理世界学习通过带有时序、因果和空间信息的连续观察流,以及与环境的主动互动实现,这应是多模态模型未来的重要发展方向 [27][28][29] - 坚持静态、固定的数据学习方式,无法实现人类般高效、节省数据和算力的学习效果 [30] 具身智能基础模型的潜力与影响 - 以十年为周期看,具身智能基础模型有可能反过来吞噬现有多模态模型的生存空间 [12][31] - 构建统一的基础模型应是完全端到端的,这已成为行业共识 [12][32] - 需要设计专门考虑端侧部署和推理的模型架构,以解决推理速度等权衡问题,而非沿用旧架构 [33] - 具身智能模型应是一个集成了语言能力、世界模型能力、视频生成能力和三维重现能力的统一模型 [39][40] 数据与Scaling Law - 数据的Scaling Law在机器人领域被认为是最困难的事情之一 [46] - 现实世界的数据应是最主要的来源,训练应分阶段(预训练、后训练),并发现了第三个Scaling Law:在推理时通过思维链等方式拓展模型能力 [48] - 物理世界适合持续学习范式,即端侧实时更新数据,进行体验式学习,这本质优于集中式批次训练,但带来体系架构、系统和硬件上的新挑战 [51][52] 软硬一体与AI定义硬件 - 需要让AI定义硬件,而非先制造完美硬件再适配AI模型 [53] - 公司坚持软硬一体同步发展,已实现两款全自研轮式底盘人形机器人及高自由度灵巧手,并开始市场销售 [54] - 实现了跨本体泛化,例如从夹爪模型迁移到20个自由度(15个主动自由度)的灵巧手,仅需非常少量样本,表明模型已学会基础物理规律和动作模式 [36] - 在高度复杂任务上,实现了超过人类遥操作训练速度的1倍速实时控制,并维持高准确率 [33][34] - 公司自研的WALL-OSS是领先的开源物理世界基础模型,具备VLA模型控制机器人、良好泛化、智能跟随及构建长序列思维链解决复杂问题的能力 [41][44] 具身智能的宏观重要性 - 普遍观点低估了具身智能的发展和影响,认为语言、数学、代码等领域比具身智能有本质重要性,但此观点存在隐藏假设 [54] - 创造超越人类的AGI/ASI所需的一切资源(算力、芯片、电力、能源、数据)都来自物理世界 [54] - 当前物理世界未出现指数级增长的核心卡点是“人手的劳动”,几乎所有商品和服务都无法脱离这一步 [57][58] - 若具身智能实现,万事万物可遵循类似芯片摩尔定律的发展规律,从而带来更多资源以创造更聪明的ASI,走向真正的通用智能未来 [59]
艾瑞观察:语言模型的价值重构与生态突围
艾瑞咨询· 2025-12-18 08:05
人工智能行业宏观趋势 - 2025年人工智能行业呈现规模极速扩容与技术深度迭代的双轨并行特征,语言模型作为核心引擎驱动整个AI版图重构[2] - 行业正沿多模态融合、具身智能、智能体实用化三大方向加速演进,语言模型在其中扮演连接上层应用与底层算力的“价值枢纽”角色[2] - 头部企业的战略重心已从单纯的参数规模竞赛,全面转向“价值落地”,行业竞争升维至涵盖技术底座、应用场景及商业生态的综合实力较量[1] 语言模型子行业现状与痛点 - 语言模型子行业发展整体向好,但在C端应用层面面临三大核心痛点:实用性不足(“会聊不会办”)、场景碎片化(“功能孤岛”)、成本与生态失衡[3] - 高昂的推理成本限制了中小企业接入,封闭生态阻碍了创新涌现[3] - 行业风向发生根本性逆转,致力于将语言模型从“尝鲜玩具”转化为“国民级工具”[1] 阿里巴巴千问APP的破局实践 - 阿里巴巴千问APP在2025年11月公测一周下载量突破1000万,公测23天全域月活突破3000万,表现堪称现象级[4] - 千问APP构建了以“都市青年”为核心的用户生态:男性用户占比52.2%,35岁以下群体占据半壁江山,其中25-35岁人群最为活跃(占比28.3%),半数用户深度渗透于一二线城市[4] - 千问APP背靠阿里Qwen系列大模型,2025年开源的全新一代Qwen3系列性能比肩领先的GPT5、Gemini2.5-Pro等闭源模型,在逻辑推理、长文本处理等基础能力上具备对标全球顶尖水平的实力[6] - 针对“实用性不足”痛点,千问在垂直领域深度优化:AI PPT功能支持39种文件格式导入及超10万模版库;AI讲题与教育功能覆盖全学段百万级学习资源;AI写作与文档功能支持5亿级资料库调用[6][7] - 千问不仅是APP,更是阿里生态的超级入口,计划将地图、外卖、订票、购物等生活场景全面接入,打造统一AI生活入口[7] - 在电商场景,淘宝“AI万能搜”解决5000万消费需求,AI导购和翻译支撑双11亿级调用;在办公场景,钉钉AI表格支持千万热行;在出行场景,飞猪“问一问”利用多智能体技术提供专业旅游规划[7] - 千问明确的“会办事的AI助理”定位,将AI从娱乐工具重新定义为生产力工具,推动行业从单纯对话转向解决实际问题[8] - 通过开源Qwen系列模型,阿里降低了全行业开发门槛:已开源300多款模型,全球下载量突破6亿,超过Meta的Llama成为全球第一开源模型家族[8] 未来发展趋势 - 技术融合:未来的模型将走向彻底的多模态深度融合,囊括“全模态”、“全尺寸”的模型将成为主流;垂直领域精度将持续提升,通用模型与行业专有数据结合将涌现超越人类专家的能力;随着推理架构优化,使用成本将进一步降低,推动AI普惠化[9] - 生态共生:AI模型将与基础设施深度绑定,“算力+算法”一体化是方向;开源模型将继续作为创新基座,缩小与闭源顶尖模型差距,成为全球AI创新核心驱动力;依托开源基座和低成本云服务,中小微企业将快速构建AI应用[9] - 价值导向:未来竞争不再仅看模型参数,而是看场景整合与生态构建能力,能够打通跨场景数据的“超级助理”将占据主导;企业估值逻辑将从“技术潜力”转向“变现能力”,能否切实降低成本、提升效率将是衡量AI应用成功的唯一标准[9] - 2025年的语言模型行业正处在从技术爆发向产业繁荣跨越的关键节点,以千问为代表的中国力量通过技术与场景双轮驱动,在全球范围内树立了开源模型新标杆[10][11]
腾讯混元2.0上线
第一财经· 2025-12-05 22:13
腾讯混元大模型技术升级 - 公司于12月5日正式发布最新版语言模型Tencent HY 2.0 Think和Tencent HY 2.0 Instruct [1][2] - 新模型HY 2.0采用混合专家架构,总参数达4060亿,激活参数为320亿 [2] - 新模型支持256K上下文窗口,相比上一版本显著改进了预训练数据和强化学习策略 [2]
观点分享:VLA解决的是概念认知,无法有效的建模真实世界的四维时空?
自动驾驶之心· 2025-10-14 15:12
智能驾驶技术路线分析 - 世界模型被视为智能驾驶的上限,通过视频为核心进行跨模态预测和重建,让系统学习时空和物理规律,再叠加语言层实现交互与知识注入[2] - 世界模型解决时空认知问题,而语言模型解决概念认知问题,语言模型因低带宽和稀疏性无法有效建模真实世界的四维时空[2] - 世界模型建立高带宽认知系统,直接基于视频端构建能力,而非依赖语言转换[3] - 自动驾驶终极目标是通过开放集指令交互实现用户随意表达指令并执行[3] VLA与WA技术差异 - VLA本质是语言模型的模态扩展,根基仍在语言模型上,类似于在语言体系上不断加模态[3] - 华为实际践行世界模型路径,蔚来早在去年七月份前就提出世界模型概念,VLA和WA更多是表述方式差异[5] - 技术路线关键区别在于是否真正建立时空认知能力,而非仅在语言模型上做加法[5] 语言模型在自动驾驶中的价值 - 语言模型提供海量互联网案例数据,尤其是彩色案例对自动驾驶训练非常有帮助[7] - 通过链式推理带来逻辑推理能力,弥补世界模型在细粒度推理方面的不足[7] - 实现自然语言人机交互,用户可直接用语言指令车辆操作[7] - 语言模型三大价值包括物理规律内建、时空操作能力以及推理与人机交互功能[6][7] 自动驾驶行业发展趋势 - 行业当前高度内卷,前沿技术栈趋于收敛,量产方案趋同[9] - VLA与WA路线之争背后是更大的行业变革,破局成为焦点话题[9] - 行业变革对个人既是挑战也是机遇,综合型人才更受青睐,技术栈丰富者更具优势[11] - 行业壁垒因试错成本高而提升,缺乏完整学习体系加剧竞争难度[13] 自动驾驶社区生态建设 - 自动驾驶之心知识星球已聚集超过4000名成员,覆盖近300家机构与自驾公司[13][25][107] - 社区提供40多项技术路线资源,包括VLA学习路线、世界模型应用及端到端自动驾驶等[14][26] - 社区与多家自动驾驶公司建立内推机制,提供岗位直推机会[18][19] - 社区汇总近60个数据集、40多个开源项目及主流仿真平台,助力技术学习与项目实践[25][26][43][45]
Qwen3-Max-Preview 上线,官方称系通义千问系列最强大的语言模型
搜狐财经· 2025-09-06 18:03
产品发布与定位 - 公司推出最新语言模型Qwen-3-Max-Preview 该模型是通义千问系列中最强大的语言模型[1] - 模型基于Qwen3系列更新 相比2025年1月版本在推理、指令跟随、多语言支持和长尾知识覆盖方面有重大改进[1][3] - 在数学、编码、逻辑和科学任务中提供更高准确性 更可靠遵循中英文复杂指令 减少幻觉现象[1][3] 技术特性与性能 - 支持超过100种语言 具有更强翻译和常识推理能力[1][3] - 针对检索增强生成RAG和工具调用进行优化 但不包含专门"思考"模式[1][3] - 支持256000上下文长度 最大输出长度为32800 tokens[5] 商业化定价 - 输入token定价为每百万tokens 120美元 按现汇率约合86元人民币[2] - 输出token定价为每百万tokens 600美元 按现汇率约合428元人民币[2] - 根据token长度分段计价:输入超过128K部分每百万tokens 300美元 输出超过128K部分每百万tokens 1500美元[5] 服务提供商与性能 - 阿里云国际作为主要服务提供商 在新加坡节点延迟为068秒[5] - 支持缓存读写功能 读取价格每百万tokens 240美元至600美元[5]
【焦点】香港中文大学(深圳) 赵俊华:大模型智能体在电力系统中的应用初探
搜狐财经· 2025-06-29 21:01
人工智能发展历程 - 决策式AI阶段(1950s~1980s):以逻辑程序和专家系统为主,1956年首次人工智能研讨会召开标志着领域诞生,1965年Logic Theorist程序实现数学证明推理[4] - 技术积淀阶段(1980s~2010年):1986年Backpropagation算法突破,1997年Deep Blue击败国际象棋冠军,2006年深度学习技术发明[4] - 快速发展阶段(2011-2016年):2011年IBM Watson在Jeopardy获胜,2014年GAN出现,2015年AlphaGo战胜围棋冠军[4] - 爆发阶段(2017年至今):2017年Transformer架构提出,2018年GPT/BERT发布,2022年ChatGPT推出,2024年Sora面世[4] 大语言模型技术架构 - 预训练三要素:大数据(无标注文本)、大模型(深度神经网络)、大算力(并行计算集群)[11][12][13] - 训练流程:预训练(月级/千级GPU)→有监督微调(天级/百级GPU)→强化学习(天级/百级GPU)[22] - 微调技术:LoRA方法仅需训练百万参数,效果媲美全参数微调,GPU需求降至3090*4级别[15][20] - 强化学习:通过RLHF量化人类喜好,训练打分模型优化最终输出[18][19] 智能体关键技术 - 工具使用:通过API调用、搜索引擎、代码执行等扩展能力[26][27] - 任务分解:实现复杂任务的子目标拆解与试错机制[28][30] - 长期记忆:存储经验、知识、技能,支持读写持久化[31][32][33] - 自主学习:结合权重微调、提示优化、自我反思等多路径提升[35][36][38] 电力系统应用场景 - 负荷预测:ITA-LF框架整合新闻文本,预测准确率达94.7%,显著优于LSTM(82.08%)和SARIMA(89.93%)[64][68][71] - 调度系统:构建70b参数调度大模型集群,支持检修单成票(94.46%准确率)、规程检索问答(RAG召回率58.7%)[77][91][94] - 市场仿真:多代理模型实现碳市场均衡分析,量化价格弹性系数(煤炭企业7,278吨/元)[113][115][120] - 机理研究:AI4S框架处理10万节点电网建模,年算例超10亿,推动动态建模与稳定性分析[125] 技术融合路径 - 模型融合:推理大模型+PINN+因果模型+符号模型,保留准确性同时提升计算速度[54][56][58] - 人机协同:必要场景引入人工反馈,作为最终决策质量判定者[56][59] - CPSSE仿真:结合真人、因果模型和大语言模型,构建数字孪生系统[62] - 范式演进:从参数学习(机器学习)→提示工程(大模型)→机制工程(智能体)的能力获取转变[40]
大佬面对面!斯坦福2025 CS336课程全公开:从零开始搓大模型~
自动驾驶之心· 2025-06-24 19:47
课程概述 - 斯坦福大学2025年春季CS336课程「从头开始创造语言模型」已全面上线网络 提供完整课程视频和主页链接[2][4] - 课程目标为引导学生从零开发语言模型 覆盖预训练数据收集 Transformer构建 模型训练及部署评测全流程[5] 师资团队 - 核心讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究成果累计引用超3万次 研究方向聚焦机器学习模型性能权衡[3] - 联合讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超10万 主导多项AI领域研究项目[3] 课程模块 - 五大模块涵盖基础 系统 扩展 数据 对齐和推理强化学习 强调实践操作与深度技术掌握[7] - 实践要求包括Python编程能力 PyTorch熟练度 系统优化经验及数学基础(线性代数 概率统计等)[7] 实践作业 - 作业1要求实现BPE分词器 Transformer架构和Adam优化器 仅允许使用PyTorch原语进行模型训练[8] - 作业2聚焦GPU加速 需在Triton中实现Flash Attention 2及分布式并行优化[8] - 作业3涉及Scaling Law拟合 学生需在有限计算预算内通过训练API收集数据点[8] - 作业4侧重数据工程 要求完成Common Crawl数据清洗 去重及有害内容过滤[8] - 作业5要求实现监督微调 专家迭代等对齐技术 在Qwen 2 5 Math 1 5B模型上运行强化学习[8] 课程安排 - 18周课程包含16次讲座和2次嘉宾分享 内容覆盖分词 GPU并行 混合专家系统 推理优化等核心技术[9] - 作业周期与课程紧密衔接 例如第5周完成作业1提交后立即发布作业2 强化学习实践贯穿后期课程[9]
新鲜出炉!斯坦福2025 CS336课程全公开:从零开始搓大模型
机器之心· 2025-06-23 12:04
课程发布与师资 - 斯坦福大学2025年春季CS336课程《从头开始创造语言模型》已全面上线 提供课程视频和主页链接[1][5] - 讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究方向为机器学习模型性能权衡 学术成果累计引用超3万次[2][3] - 另一位讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超过10万次 研究方向涵盖自然语言处理与机器学习[6][7] 课程内容与结构 - 课程目标为引导学生完成开发语言模型的全流程 包括数据收集、模型构建、训练及评估等环节[8] - 课程分为5个单元共19门课 涵盖token化、PyTorch应用、GPU优化、Scaling Law拟合、数据清洗及模型对齐等核心技术[10] - 实践作业包括实现BPE分词器、Transformer架构、Flash Attention 2优化及分布式训练等 要求学生直接使用PyTorch原语编程[10] 学习门槛与技能要求 - 需熟练掌握Python编程 课程作业代码量显著高于其他AI课程 涉及底层框架开发[11] - 需具备深度学习与系统优化经验 包括PyTorch应用及GPU并行计算能力[11] - 需掌握大学微积分、线性代数、概率统计及机器学习基础知识[11] 行业合作与资源 - 课程包含阿里巴巴达摩院研究员和Meta AI科学家的客座讲座 聚焦Qwen和Llama 3等工业级模型开发经验[10] - 提供Triton框架实现、Common Crawl数据处理等实战内容 强调工业级技术栈应用[10]
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 15:35
语言模型与视频模型的对比 - 语言模型通过预测下一个词学习,取得了显著成功,其算法为下一词预测+强化学习微调[9][10] - 视频模型通过预测下一帧学习,但效果远不如语言模型,尽管视频数据信息更丰富[13][14][17] - 语言模型能解决复杂问题和推理,而视频模型仅能生成逼真视频[19][20] 语言模型的优势与局限性 - 语言模型调用人类总结的知识,模仿已有推理结果,形成"抄近路"效应[22][24] - 语言模型仅接触文本"影子"(人类认知投影),却比直接观察物理世界的视频模型更具推理能力[25] - 语言模型是对人类认知的"逆向工程",而非真正理解世界[26][33] 柏拉图洞穴的类比 - 互联网被比作洞穴,真实世界比作洞穴外阳光,AI通过语言模型学习人类知识如同看到洞穴墙壁上的影子[31][32] - AI目前依赖人类中介(文本数据),长期目标是通过传感器直接与物理世界交互[34][35] - 跨模态连接被视为突破洞穴困境的潜在方法,需建立视觉、语言、行动系统的共享结构[35] 研究背景与作者观点 - 人类心智复杂性可能源自单一算法,AI复现该算法可达到人类智能高度[7][8] - 作者Sergey Levine为UC伯克利副教授兼Google Brain研究员,学术引用18万次[2][3] - 研究提出AI需突破"影子依赖",将语言模型作为通用AI的起点[34][35]
完整版|谷歌创始人最新访谈,揭秘Gemini为什么突然变得这么强大?
36氪· 2025-05-26 08:49
谷歌AI发展现状 - 谷歌I/O大会发布了一系列AI创新功能包括搜索中的虚拟试穿反响热烈但仍有大量工作需完成交付[2] - 语言模型成为AI发展主要驱动力这一趋势在15年前并不明显DeepMind过去更专注物理基础[14] - 思维模型展现出惊人可解释性能清晰展示推理过程从安全角度看具有显著优势[14] 模型架构与技术演进 - 不同模态模型架构高度相似视频传播模型与文本语言模型共享大量Transformer核心技术[15] - 后训练阶段占比显著提升从99%预训练转变为80-90% 新增工具使用等功能增强模型能力[16] - Gemini 2.5 Pro实现技术飞跃在多数基准测试中保持第一2.5 Flash模型速度超快位列第二[20][21] 深度思考与推理扩展 - 谷歌开发五种不同方法实现深度思考模型可延长推理时间至数小时甚至数月以解决复杂问题[17] - 模型需突破长上下文输入限制当前支持百万级信息未来需实现无限上下文处理[18] - 从短期任务训练到长期开发存在显著技术差距需模型具备持续数天的思考能力[18] 谷歌创新战略与转型 - 公司需定期自我重塑从网页到移动再到AI转型凭借谷歌大脑和Transformer技术积累占据优势[19] - 2025年产品发布速度明显快于2024年Gemini系列模型迭代加速体现技术突破[19][20] - 原生音频功能耗时一年才正式推出需解决输入输出同步等技术难题[10] 生成式AI应用进展 - 生成媒体模型如Imagen和Veo 3实现超人级创作效率艺术领域突破远超人类专家水平[7] - 音频生成技术通过Diffusion实现与视频生成类似可观察训练过程中逐步优化的过程[10][12] - 文本模型已广泛应用于编码和数学问题解决可靠性持续提升但仍存在偶发错误[7]