情境智能
搜索文档
从Token到词元:全模态时代的基模与交互入口
量子位· 2026-03-27 13:10
行业趋势与范式转变 - 国家数据局首次在官方语境中确立“词元”为Token的标准译名,并披露国内日均Token调用量已突破140万亿,但这仍只是“文本时代主导”的规模 [1] - 在语音、视频与实时交互驱动的多模态场景中,随着自主调用工具并交付结果的Agent大量部署,Token的生成与消耗方式正发生范式性变化:从离散文本走向连续感知,从低频批量输入走向高频流式输入 [1] - 随着大模型从文本走向多模态、从模型能力走向Agent系统,“词元”所对应的,是下一代智能系统的底层组织方式 [3] - 行业竞争正从单一的“模型能力”比拼,转向对交互入口与环境理解能力的争夺,语音、上下文与情境建模能力正在成为新的技术分水岭 [12] 公司核心技术与路径 - 模思智能选择了一条非共识路径:从语音切入,走向全模态,在统一的Token结构中表达和计算不同模态的信息 [7] - 选择语音作为突破口,是因为相比纯文本,音频的信息密度更高,天然包含语调、节奏、情绪等文本难以完整承载的信号,且更容易与环境、动作和上下文形成连续输入流,更接近真实世界的人机交互方式 [9] - 公司提出的“情境智能”以持续感知、动态记忆与环境理解为基础,使AI能够在真实世界中进行自适应交互 [10] - 公司的技术演进路线清晰:2023年2月发布国内首个类ChatGPT对话式大模型MOSS;同年5月推出SpeechGPT,验证了“离散化端到端语音大模型”路径的可行性;同年8月发布SpeechTokenizer音频离散化编码器;2024年2月发布AnyGPT,首次将语音、文本、图像与视频统一映射至离散Token体系,提出真正意义上的离散化全模态基座模型架构 [13][14][17][18] - 2025年7月发布基于百万小时音频训练的开源中英双语对话语音模型MOSS-TTSD;同年11月联合发布的下一代能动性模型体系NEX,在多项基准测试中进入全球第一梯队水平 [21][22] - 2026年持续迭代,发布了在复杂多说话人场景领先的MOSS-Transcribe-Diarize、高性能音视频生成开源模型MOVA、刷新音频重建性能的MOSS-Audio-Tokenizer以及面向生产场景的MOSS-TTS系列模型 [25] - 一系列成果验证了核心底层命题:多模态信息可以通过统一的离散化方式映射到同一Token序列结构中,进而实现统一计算,这赋予了不同模态可组合性与可计算性,是全模态智能与Agent系统落地的底层架构前提 [26] 公司团队与背景 - 首席科学家邱锡鹏是复旦大学教授,国家杰出青年科学基金获得者、上海创智学院全职导师,荣获2024年CCF-ACM AI Award,是国内大模型领域兼具学术高度与产业影响力的领军人物 [27] - CEO李世民出自邱锡鹏门下硕博连读体系,以一作身份发表多篇CCF-A类论文,并深度参与科技部“新一代人工智能2030”重点研发项目 [29] - 模思智能是由上海创智学院与复旦大学联合孵化的标杆项目,获得了覆盖算力、人才与产业资源的体系化支持,具备远高于常规学术创业项目的起点与迭代速度 [31] - 公司目前已形成近百人的全栈技术体系,博士占比接近50%,核心成员主要来自复旦大学NLP体系,并引入了具备阿里、字节、理想汽车等背景的关键成员以补齐工程化与商业化能力 [34] 融资与商业化进展 - 模思智能近日官宣完成数亿元的天使轮融资,由IDG资本领投,元禾控股、上海国投旗下上海科创及上海未来产业基金、奇绩创坛、智谱系基金-星连资本及某头部产业投资方联合投资 [4] - 多维资本将担任新一轮独家财务顾问 [4] - 公司多模态大模型开放平台已进入全面公测阶段,提供一站式API服务,以高稳定性与高性价比支撑企业级调用需求 [35] - 公司已在消费电子、智能汽车、具身智能与AI陪伴等多个场景中与头部客户展开合作,初步验证了技术落地能力与商业转化潜力 [36] - 公司的商业增长飞轮将围绕“词元(Token)的生产、分发与应用”展开,从MaaS能力输出延伸至2B、2B2C与2C多层级场景 [36] 核心观点与未来定义 - 单纯依赖参数堆叠与算力外推的阶段正在逐步过去,未来模型能力的差距,可能越来越取决于架构创新、系统组织方式以及顶尖人才密度 [37] - 当大模型进入深水区,真正的护城河在于是否能够更早识别并押注下一代智能的核心结构,这种结构体现为:统一的Token表达、面向情境的持续理解能力,以及能够调用工具、交付结果、与用户建立长期关系的Agent系统 [38] - 当“词元”进入官方语言,真正值得关注的是谁能够率先定义:词元将如何被生产、组织与使用,这正是在定义下一代智能系统的边界 [39]
具身智能2026机器人“破壁之年”
新浪财经· 2026-02-27 15:06
文章核心观点 - 2026年将是具身智能机器人行业从实验室研发和概念展示,迈向规模化量产和全场景渗透的关键转折点,其社会角色将从吸引眼球的“表演者”转变为被依赖的“参与者”[2][9] 核心技术突破 - 行业突破将从单纯的动作升级,转变为“大脑进化+身体迭代”的双轮驱动格局,实现“物理AI ChatGPT时刻”,使机器人能像人类一样理解物理世界[2] - 具身智能与大模型深度融合,实现“感知—决策—执行”全流程自主化,摆脱传统预设程序局限,“任务型AI智能体”将成为竞争核心[3] - 机器人将发展出“情境智能”,不仅能识别物体,还能理解用户情绪状态,标志着从工具向伙伴的转变[3] 应用场景拓展 - 应用场景将从当前的“单点试点”向“全场景渗透”转变,在工业、家庭、商业、特种、医疗等领域实现多元化突破[3] - 工业领域应用将从搬运、巡检向柔性生产、精密装配、质量检测、设备维护等全流程延伸,整体应用渗透率预计突破15%[3] - 在城市服务领域,机器人将参与垃圾分类、管道检修、绿化养护等市政服务,显著提升城市管理效率[7] 产业化与成本 - 2026年将成为规模化量产元年,特斯拉、Figure、智元、优必选等企业将实现规模化交付,全年全球人形机器人量产规模预计突破5万台[6] - 随着核心零部件国产化率提升和生产规模扩大,机器人整机成本预计较2025年下降35%—45%,形成“量产—成本下降—需求提升”的正向循环[6] 基础设施与协同 - 新加坡、杭州等智慧城市将率先部署“机器人专用通道”与充电桩网络,支持配送、巡检、清洁类机器人全天候运行[7] - 在城市试点中,各类机器人共享统一的城市数字孪生平台,能够协调行动,避免资源冲突[7] 性能与续航 - 新型固态电池与能量回收系统结合,将使主流人形机器人续航时间提升至16小时以上[5] - 部分产品采用太阳能辅助充电面板,实现“工作—休眠”循环,边缘计算架构优化也将进一步降低能耗、延长待机时间[5] 安全与标准 - 安全性成为监管重点,国际电工委员会(IEC)已发布针对家用机器人的性能评估国际标准[4] - 柔性材料与仿生结构的应用使机器人外壳具备自愈合特性,降低碰撞伤害风险[4] - 在敏感场景,机器人通过毫米波雷达与红外传感器实现“零接触监控”,在保障安全的同时避免侵犯隐私[4] 社会接受度挑战 - 行业面临的最大挑战是社会接受度和信任建立,隐私担忧是首要障碍[8] - 领先企业采用“边缘智能”范式,敏感数据在本地处理,只上传必要的匿名化元数据,并提供透明的数据使用控制面板供用户管理[8] - 责任界定问题推动着机器人保险和伦理标准发展,行业正在形成分层责任体系[8]
这届NeurIPS 2025太有看头了!11月22日北京见
机器之心· 2025-11-16 15:30
AI技术演进趋势 - AI发展正从“能力突破”阶段迈向“系统构建”阶段,技术焦点转向如何做得更可靠、可解释和可持续 [2] - 自主智能体尝试真实任务闭环,世界模型在复杂环境中持续验证,推理架构与训练范式不断重构 [2] NeurIPS 2025学术会议概况 - 全球AI顶级学术会议NeurIPS 2025共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [2] - 大会将于2025年12月2日至7日在美国圣地亚哥举办,并首次设置墨西哥城第二个官方分会场,标志全球AI学术生态多元化布局加速 [2] 机器之心NeurIPS 2025论文分享会核心安排 - 活动定于北京时间2025年11月22日09:00-17:30在北京中关村皇冠假日酒店3F举行 [5][6] - 活动设置Keynote、论文分享、圆桌对话、Poster交流及企业展位交流等环节 [3] 上午Keynote及论文分享重点 - 上午Keynote由复旦大学教授邱锡鹏主讲“情境智能:补全AGI的关键拼图”,探讨通过引入多模态信息构建更全面认知体系 [8][14][16] - 上午论文分享涵盖6个主题,包括Data Mixing诱导知识获取相变、MokA多模态低秩适配、GeoLLaVA-8K遥感多模态大模型等 [9] 下午Keynote及论文分享重点 - 下午Keynote由南京大学副教授范琦主讲,圆桌对话主题为“世界模型会成为下一个AI前沿吗” [10][13][17][19] - 下午论文分享涵盖3个主题,包括强化学习对LLM推理能力激励、TransMLA模型迁移、Scaling语言中心全模态表示学习 [11] Poster展示研究成果 - Poster环节展示多项前沿研究,涉及知识获取、推理能力、3D分子生成、图像生成、LLM推理链压缩、3D高斯缩减等 [23][24][25][26] 合作伙伴与行业参与 - 活动独家战略合作伙伴为Trexquant,生态合作伙伴包括联想和NVIDIA [27][29] - 联想推出搭载NVIDIA GB10超级芯片的AI工作站ThinkStation PGX,提供1 PetaFLOP算力并支持2000亿参数大模型 [29] - Trexquant是一家成立于2012年的全球对冲基金,利用数据科学和机器学习开发系统化统计套利策略 [29]
复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
机器之心· 2025-06-15 12:40
AGI发展路径 - 大模型演进分为三幕:第一幕是模型规模化胜利,通过堆叠数据与参数实现通用任务跃升,代表模型包括ChatGPT、MOSS、Qwen [6] - 第二幕是后训练优化探索,通过强化学习、工具调用、思维链等技术提升复杂问题决策能力,代表成果包括GPT o1/o3、DeepSeek-R1、AnyGPT [6] - 第三幕Context Scaling聚焦情境理解,旨在让AI适应复杂多变情境并捕获"暗知识",实现模糊环境中的合理判断 [7][8] Context Scaling核心价值 - Context是多维动态信息结构,包含时空信息、参与者状态、文化规则等未明示的语境暗示 [9] - 关键能力是捕获"暗知识"(如社交暗示、文化差异判断),解决现有技术对模糊任务描述的局限性 [11] - 对AI安全发展至关重要,通过情境理解使AI做出符合人类价值观的自主判断(如规避回形针悖论) [12] 技术实现支柱 - 强交互性:要求AI具备社交智能、文化适应、动态调整能力,需从多模态协作中理解情绪状态和未说出口的期望 [14][15] - 具身性:智能体需具备虚拟或现实环境中的主体性,通过感知-行动闭环实现情境学习 [16] - 拟人化:需深度理解人类情感模式与文化敏感性,在参数固定情况下通过Context积累实现持续能力提升 [17] 技术协同与挑战 - Context Scaling与Test-Time Scaling形成互补,前者提升输入质量后者优化计算效率 [18] - 为强化学习提供新环境定义,将简单状态-动作循环升级为含丰富情境的交互空间 [20] - 面临三大技术挑战:Transformer架构重构、学习范式向交互式持续学习转变、复杂情境数据的生成方法创新 [23] 行业影响 - 将推理增强、多模态融合等技术统一于"情境理解"目标,可能成为通向AGI的关键路径 [22] - 代表企业包括OpenAI(o系列数学推理)、DeepSeek(GRPO强化学习突破)等探索不同扩展路径的机构 [2] - 复旦大学邱锡鹏教授提出该理论框架,指出行业需突破已有路径微调,解决"意识到但未表达"的核心问题 [22]