Workflow
多模态融合
icon
搜索文档
AI云计算行业发展现状
2025-09-26 10:29
**AI 云计算行业发展现状与阿里巴巴战略分析** **一 行业与公司概况** * 纪要涉及的行业为AI云计算行业 公司为阿里巴巴及其阿里云[1] * 阿里云在中国云计算市场占据领先地位 市场份额约为33-35% 排名第一 同时也是全球第四大先进营销厂商[2] * 国内云计算赛道已形成两个梯队 阿里属于前站的新一代云计算厂商 其技术架构与谷歌相似 从底层自研芯片到智能体应用 与其他竞争者拉开差距[1][2] * 华为云位居国内第二 市场份额约13% 火山引擎紧随其后占比接近14% 其他主要厂商包括腾讯和百度[2] **二 市场竞争格局与技术优势** * 阿里云拥有自研芯片和智能体应用能力 形成包括数据标注 模型后训练及托管的MAAS 2.0服务矩阵[1][3] * 阿里开源社区拥有400万用户 并提供丰富的模型矩阵覆盖语言模型 视觉理解与生成 全模态及语音模型等[3] * 火山引擎尚未实现自研芯片 百度有一定前站特征但较弱 腾讯主要做应用层面工作 华为由于其深层架构且不开源 不能完全对标全球领先的谷歌 微软和AWS[2] * 从全球布局来看 阿里的数据中心遍布东南亚 中美洲 中东及欧洲多个国家 如新加坡 泰国 墨西哥 迪拜 西班牙等地 而其他几家如腾讯和华为则仅在东南亚有一些数据中心[2] * 目前国内各大云厂商收入结构中 一半以上仍来自于传统IaaS服务 如云主机 存储 安全网络带宽等 然而未来几年内 这些收入结构将逐步转向PaaS SaaS以及AI驱动产品[3] **三 Token需求 价格与用户行为趋势** * 国内Token需求激增 主要由互联网巨头利用AI重构产品驱动 如高德地图 淘宝和美团等 互联网流量中约60%来自巨头重构原有产品体系[1][4] * 以阿里的10亿DAU为例 每人每天使用10次 每次消耗2000个Token 总计每天消耗20万亿个Token 推算出市场接近90万亿个Token需求[4] * 预计每年渗透率将从30%增长到明年的60% 再到后年的90% 将保持高速增长并持续增加Token消耗量[4] * 2023年第三季度 主流模型Token价格较第一季度下降30%-50% 从每百万token 16元降至8元左右 字节跳动甚至将部分模型调价至4元或2元[6] * 但阿里巴巴新模型23MAX主导定价权 其新定价为每百万token 24元 输入6元[6] * AI Chatbot豆包平均停留时长从第一季度的13分钟增加到第三季度的一次对话半小时左右[6] * AIGC视频生成速度显著提升 从第一季度生成一个十几秒的视频需要20分钟 到现在只需3-5分钟[6] **四 产品发布与技术亮点** * 阿里云栖大会发布7款大模型 旗舰产品23MAX拥有万亿参数 具备极致稀疏性(仅有3.7%的参数在推理时激活)和超低幻觉率(降至1%) 支持百万token上下文[7] * 千问3 Only是国内首个全模态模型 可以处理文本 声音 视觉理解和生成等任务[7] * 通用万象代表阿里视频生成能力 重返全球前三 在电商平台上已有40%的图片和视频通过此模式生成[7] * 未来迭代方向将从语言模型为骨干逐步走向多模态融合 并对标GPT-5 从明年开始 全模态将成为主流技术路径[7] **五 资本支出与战略投入** * 未来三年 阿里巴巴计划投入3800亿CAPEX 主要用于全球化数据中心建设(占1/3) AI服务器采购(占硬件相关支出60%)和网络设备升级[10] * 全球化布局重点在亚洲和欧洲 南美洲以墨西哥为起点辐射巴西等人口密集国家[1][10] * 云业务中的硬件服务器折旧周期为5年 每年约20% 2025年开始进入加速折旧期 到2026年会产生大量老旧卡淘汰替换[11] * 阿里资本支出的逻辑是通过这些技术赋能内部核心场景 如电商 通过提升用户停留时长 广告投放精准率等指标来增加GMV 而不是直接销售AI产品[11] **六 算力基础设施与芯片合作** * 当前云计算卡市场总量约为36万张 先进训练卡约8万张 推理卡十几万张[2][12] * 国产推理卡性能已超过H20 国产海关账号芯片指标与A100相当甚至更优(IP16达到400多TFRAPS IP32超过100 带宽达到500多G)[2][12] * 阿里巴巴与NVIDIA合作聚焦"Physical AI" 将Isaac Cosmos世界模型及Universe自动驾驶模拟和机器模拟架构组件部署到阿里云 并迭代聚生智能平台 提供全流程解决方案[2][13][14] * 今年发布的所有模型均使用英伟达CUDA训练卡进行训练[17] * 目前对外服务的推理部分全部使用英伟达CUDA卡 国产卡预计明年上线对外出租 目前仍处于内部测试阶段[18] * 明年的存量CUDA芯片可以支撑现有模型迭代 但需要补充新的型号如B3A或B30A以承接下一代模型训练[19] **七 应用场景与市场拓展** * 垂直智能体结合模型和Agent框架 使客户能够将业务数据填入其中 适用于许多垂直行业 AI编程是最早落地的应用之一[8] * 在企业实际应用中 99%的客户使用的是智能体而非直接使用AI模型[22] * 在C端市场 AI技术主要应用于AI搜索 虚拟社交 数字人 面向C端的AI编程助手 以及图像生成和视频生成等AIGC玩法[9] * 阿里巴巴将其端侧模型与手机芯片进行合作 并推送给手机制造商 如传音 OPPO vivo 魅族和荣耀等 在新能源汽车领域 也与高通 地平线等车载芯片供应商合作[16] * 硬件侧是重要战略之一 其小尺寸语言模型(如1.5B 3B 7B)专为端侧硬件设计[15] **八 其他重要信息** * 由于受到限制 中国的AI基础设施建设速度慢于海外 抑制了国内AI应用爆发[1][5] * 当前国内每日token消耗量约为90万亿 其中阿里的消耗量接近18万亿[20] * 随着多智能体架构AgentScope的发展 单次交互token消耗从两三千增加至两三万倍 明年多模态架构底座将进一步增加token处理量[20] * 国内多模态模型不追求超大参数规模 而是通过极致稀疏激活来优化推理效率[21] * 海外计算中心建设目前以通用算力为主 AI技术作为补充 由于兼容性 合规性等问题 海外市场暂时仍以英伟达的卡为主导[22] * 对于服务器组装业务 一般采用就近原则进行采购和组装 在中国境内则与新华三 富士康或浪潮等厂商合作[22]
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-26 07:33
如何向一段式端到端注入人类思考的能力? 人类视觉能够将2D观察结果转化为以自身为中心的3D场景理解,这一能力为理解复杂场景和展现自适应行为提供了基础。然而当前自动驾驶系统仍缺乏 这种能力—主流方法在很大程度上依赖于基于深度的三维重建,而非真正的场景理解。 为解决这一局限,港科、理想和清华的团队提出一种全新的类人框架OmniScene。 首先本文引入OmniScene视觉-语言模型(OmniVLM),这是一种结合 环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解。其次通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实 现语义监督,既丰富了特征学习过程,又明确捕捉了类人的注意力语义信息。这些特征表征进一步与人类驾驶行为对齐,形成更贴近人类认知的"感知-理 解-行动"架构。 此外本文提出分层融合策略(HFS),以解决多模态融合过程中模态贡献不平衡的问题。该方法能在多个抽象层级上自适应校准几何特征与语义特征的相 对重要性,实现视觉模态与文本模态互补信息的协同利用。这种可学习的动态融合机制,使得异质信息能够被更细致、更有效地挖掘。 本文在nuScenes数据集上对OmniScene ...
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 21:33
以下文章来源于自动驾驶之心 ,作者Dapeng Zhang等 自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案 等,坚持为领域输出最前沿的技术方向! 压缩版: VLA (Vision Language Action) 模型的出现标志着机器人技术从传统的基于策略的控制向通用机 器人技术的范式转变 。它将视觉语言模型 (VLM) 从被动的序列生成器重构为能够在复杂动态环 境中进行主动操作和决策的智能体 。 该综述对VLA方法进行清晰的分类和系统性的回顾。 VLA方法主要可分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法 。 基于自回归 (Autoregression-based) 的模型 自动驾驶之心 . 核心思想: 将动作序列视为时间依赖过程,逐步生成动作 。 创新与发展: 通用智能体: 通过统一的多模态Transformer(如Gato, RT-1/RT-2, PaLM-E)实现跨任务的泛化 。 推理与规划: 结合大语言模型 (LLM) 进行链式思考 (Chain-of-Thought) 和分层规划,处理长时程 和复杂任务 。 轨迹生成: 直接将语言指 ...
2 亿美元 ARR,AI 语音赛道最会赚钱的公司,ElevenLabs 如何做到快速增长?
Founder Park· 2025-09-16 21:22
估值 66 亿美元,首个 1 亿美元 ARR 耗时 20 个月,而第二个 1 亿美元 ARR 仅用 10 个月。 AI 音频独角兽 ElevenLabs 可以说是欧洲发展速度最快的 AI 创企。 随着语音模态正在成为人与技术交互的重要接口,AI 语音赛道的竞争也尤为激烈,Murf.ai、Play.ht、 WellSaid Labs......尤其是在 OpenAI、Google、微软这些科技巨头的围攻下,ElevenLabs 能够「跑」出来 十分艰难。在初期融资阶段,ElevenLabs 几乎被所有接触的投资人拒绝;在验证市场需求时,挨个给 YouTuber 发了几千封邀请邮件,得到的肯定回复寥寥无几。 ElevenLabs 是如何从一家「小公司」快速成长为 AI 语音领域独角兽的?ElevenLabs 的 CEO Mati Staniszewski 在一场播客对谈中,回顾了其创业历程以及心得经验: 超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 当技术研发到一定阶段,最终都会走向商品化,仅靠研发优势是不够的,必须要靠产品力。11 ...
王兴兴最新发声
财联社· 2025-09-11 16:54
机器人行业发展现状 - 当前语言模型在文字和图像领域表现出色 但在AI实际执行任务的领域仍处于早期阶段 仅如荒漠中长了几根小草 大规模爆发性增长的前夜尚未到来 [3] - 机器人领域面临的核心挑战并非数据缺乏 而是机器人大模型的水平不足 硬件已足够可用 但AI模型能力不足导致硬件无法充分发挥效用 例如难以有效控制灵巧手 [4] - 多模态融合在机器人领域表现不理想 尽管单纯语言或多模态模型优异 但用语言或图像、视频生成内容来控制机器人仍存在重大挑战 特别是运动与视频、语言模型的对齐难题 [4] 数据挑战与利用 - 机器人数据采集面临巨大难题 包括难以判断优质数据标准 哪些动作和场景需要采集 如何采集才能获得有价值数据 都需要建立一套标准来提高数据利用率 [4] - 数据质量存在显著问题 采集过程噪声大 数据质量差 且需要采集的数据类型和规模都处于模糊阶段 目标是通过提高模型对数据的理解能力 实现在较小数据量下获得良好效果 [4] 技术发展与人才管理 - AI模型认知需要更激进 应将其视为全能型工具 重新学习新知识 摒弃过去经验 避免依赖历史经验影响未来决策 [4] - 科技企业发展面临顶尖人才短缺和管理效率低下两大挑战 人员增加反而导致效率降低 [4]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-09-01 12:02
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用,涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务,并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据,显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合(输入层直接拼接)、中期融合(特征层交互如注意力机制)和后期融合(决策层整合),现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构(如DeepLabv3+)、基于注意力的Transformer(如MRFTrans)和图神经网络方法(如MISSIONGNN) [12] 3D目标检测 - 多模态融合结合相机(丰富纹理)和LiDAR(精准几何),解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合(早期/中期/后期)、融合内容(特征图、点云、BEV视图)及融合方法(从非注意力型到基于注意力的跨模态交互) [17] - 技术演进从早期MV3D、AVOD到TransFusion(Transformer建模跨模态依赖)和BEVFusion,并扩展雷达-相机融合(如CenterFusion)和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航(依赖视觉语义与空间先验)、指令跟随导航(结合自然语言理解)和基于对话的导航(主动交互与动态调整),体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav(零样本规划)和NaVid(视频驱动泛化),强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合(如DeepVO、D3VO)和自监督学习解决光照变化、遮挡及动态场景中的定位问题,神经隐式表示(如NeRF)压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM(几何精准)和V-SLAM(语义丰富)向多模态融合(如V-LOAM、LIC-Fusion)和神经化转型(如UVIO用Transformer建模时序) [34][35] - 未来方向包括轻量化、自监督与感知决策一体化,提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型(VLA) - VLA模型整合视觉感知、语言理解和动作生成,实现从"感知"到"执行"的闭环,代表方法包括RT-2(预训练对齐)、RoboMamba(动作动态建模)和3D-VLA(三维点云融合) [36][37][39] - 高效化趋势明显:OpenVLA通过LoRA降低训练成本,DeeR-VLA采用动态退出机制减少计算开销,VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息(位置、形态),触觉补充局部反馈(接触力、滑动),提升抓取精度与稳定性,如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态,避免滑动或掉落,并通过时空注意力(如Li等人方法)或自监督学习(如MimicTouch)优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习(如CLIP)或自监督方法对齐多模态表示,实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习(拉近相关样本)、自监督学习(掩码预测)和跨模态生成(如DALL·E),解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2,支持多模态(图像、文本、音频)和结构优化(MoE、稀疏注意力),增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求,以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升,以及发展具备长期学习能力的认知型VLM架构 [58]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-08-31 10:33
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉中的应用 涵盖语义场景理解 三维目标检测 SLAM 具身导航和操作控制等任务[4] - 比较了传统方法与新兴大模型方法的优缺点 并分析相关数据集与基准测试[4] - 提出未来发展方向包括跨模态自监督学习 轻量化融合架构 Transformer驱动的统一范式以及真实环境中的高效部署策略[4] 多模态融合在机器人视觉任务中的应用 - 多模态融合整合RGB图像 深度信息 LiDAR点云 语言 触觉与位置信息 提升机器人感知全面性[3] - 主流融合策略分为早期融合 中期融合和后期融合三类[12] - 现代多模态模型在统一架构中完成特征提取 模态交互和任务预测 减少阶段设计麻烦并使信息交换更顺畅[10] 语义场景理解 - 涉及物体识别 语义分割和关系建模 仅靠RGB图像在复杂环境下易受光照变化 物体遮挡和多目标重叠影响[9] - 多模态融合通过引入深度 LiDAR 语言等额外信息大幅提升场景理解的准确性和鲁棒性[9] - 主流实现路径包括编码器-解码器架构 基于注意力的Transformer和图神经网络方法[12] 三维目标检测 - 自动驾驶系统中关键感知任务 准确识别并定位行人 车辆和障碍物[15] - 单一传感器各有短板 相机能捕捉纹理和颜色但缺乏深度信息 LiDAR提供精准空间几何结构但看不懂语义和纹理[15] - 多模态融合设计需解决何时融合 融合什么和如何融合三个核心问题[16] 方法演进 - 从早期依赖直接拼接或统计操作 演化出点级 体素级 区域级融合策略 到Transformer引入实现智能交互[19] - 代表性方法包括PointPainting和TransFusion 前者对图像做语义分割并涂到点云上 后者用Transformer解码器建模跨模态依赖[21] - 探索雷达-相机和雷达-LiDAR融合 雷达优势在于直接测量速度且在恶劣天气中稳定[20] 具身导航 - 核心思想是让机器人像真的身处环境中一样去探索 感知和行动 强调自主决策与动态适应能力[23] - 分为目标导向导航 指令跟随导航和基于对话的导航三类 从感知驱动到语言理解再到交互感知演进[23] - 基于对话的导航中机器人能够主动发问 实时交互 提升任务灵活性 特别适合长时序 多步骤复杂任务[27] 视觉定位与SLAM - 视觉定位在光照变化 遮挡严重 环境动态频繁场景中是大难题 多模态融合思路推进问题解决[28] - 自监督学习通过光度一致性和几何一致性物理约束进行学习 不依赖人工标注[28] - SLAM从单打独斗变成抱团取暖 通过融合LiDAR 相机 IMU GPS 雷达等多源信息提升系统稳定性[33] 视觉-语言-动作模型 - 结合视觉感知 语言理解和动作规划 让机器人基于多源信息主动决策和执行[35] - 核心思路是从视觉模态获取世界状态 通过语言模态理解任务语义 将多模态信息融合到统一表示再映射成动作序列[36] - 代表性方法包括RT-2 RoboMamba 3D-VLA OpenVLA DeeR-VLA和VoxPoser[38] 视觉与触觉融合 - 视觉负责提供全局信息如物体位置 形态和姿态 触觉提供局部反馈如接触力 摩擦和滑动[40] - 在抓取生成阶段 视觉帮助确定空间姿态和位置 触觉补充表面特性和受力信息用于选择最优抓取点[41] - 抓取稳定性预测中 视觉-触觉融合展现巨大优势 让机器人从只会抓升级为会思考怎么抓[44] 视觉语言模型演进 - 预训练几乎是整个系统起点 通过大规模图像-文本数据联合训练学会视觉与语言间深层语义关联[49] - 跨模态对齐是关键 需在不同模态间建立精确对应关系 主流方法分为对比学习 自监督学习和跨模态生成三类[51] - 自2022年以来VLM发展迅速 从Flamingo PaLM-E到MiniGPT-4 LLaVA 再到Gemini Llama-3.2 多模态范围扩展到图像 文本 音频甚至跨语言[52] 核心创新点 - 大规模图文预训练先喂饱模型海量图文对 为跨模态推理打下坚实基础[53] - 指令微调用自然语言告诉模型需求 学会举一反三甚至猜未说出口需求[53] - 结构优化采用MoE专家混合和稀疏注意力等黑科技 在提升性能同时节省算力[53] 结论与未来方向 - 跨模态对齐策略决定机器人感知能力上限 但不同模态间语义粒度差异和特征对不上号仍是硬伤[57] - 在算力有限机器人平台部署大规模VLM需靠轻量化与多阶段自适应机制精打细算[57] - 未来研究可重点关注引入结构化空间建模和记忆机制 提升系统可解释性与伦理适应性 发展具备长期学习能力的认知型VLM架构[57]
MiniMax上市计划启动,为何“米哈游们”频频布局AI?
36氪· 2025-08-27 21:09
文章核心观点 - 人工智能独角兽MiniMax计划香港上市 估值超40亿美元 游戏公司如米哈游等通过投资AI企业积极布局AI赛道 驱动因素包括游戏开发降本增效及提升用户体验需求 [1][2][3][5][13] MiniMax公司概况与融资 - 成立于2021年 专注多模态大模型研发 属中国大模型六小龙之一 [6] - 融资历程:2025年7月C轮融资近3亿美元(上海国资母基金) 2024年5月B轮融资6亿美元(阿里巴巴) 2023年6月A轮融资超2.5亿美元(腾讯投资、绿洲资本) 2022年7月Pre-A轮(米哈游、明势资本等) [1] - 产品包括视频生成APP海螺AI(24年12月-25年2月登顶全球AI产品榜) 虚拟伴侣软件Talkie(年营收近7000万美元)及国内版星野 [8][10] 游戏行业AI投资布局 - 米哈游2018年成立逆熵研究部 2023年将AI嵌入《崩坏:星穹铁道》开发 2024年创始人蔡浩宇在美成立AI公司Anuttacon 2025年推出AI原生游戏《Whispers from the Star》 [2][3][5] - 2024年至今米哈游成立至少6家AI相关公司 2025年7月全资成立上海米哈游无定谷科技有限公司(注册资本5亿) [5] - 莉莉丝投资启元世界(应用于《万国觉醒》等游戏) 三七互娱投资14家AI公司(包括月之暗面、智谱AI等) 巨人网络与完美世界亦有布局 [5] - 腾讯AI Lab覆盖游戏、社交等业务(如《和平精英》智能队友) 网易伏羲实验室实现《逆水寒》400+智能NPC实时交互 两家均采用自研+投资策略 [5] AI在游戏行业应用场景 - 降本:52%游戏开发公司使用AI工具 36%个人开发者用AI催生创意 顶级3A游戏研发成本达9000万-2亿美元 回本需售700万套以上 [13][15] - 人力成本涵盖策划、美术、程序等近20种职能 技术成本包括引擎授权费(数十万美元)、服务器租赁(月均数千至数万美元)及工具采购(年数十万元) 美术原画单张价格达数千至上万元 动画特效累计花费数十万元 [14] - 增效:AI应用于角色行为控制、3D建模调优、NPC台词生产(如《崩坏:星穹铁道》) AI队友提供战斗支持与情感陪伴(如《永劫无间》) AI实现场景生成(如《黑神话·悟空》运用AI技术去噪) [3][17][19] 行业风险与挑战 - 训练数据侵权问题:MiniMax于2025年1月遭爱奇艺起诉著作权侵权(涉图片视频素材训练 索赔10万元) 案件审理结果或成行业版权合规判例 [22][23] - 产品内容合规风险:AI陪伴类产品存在擦边、低俗内容(如Talkie因违规被美日应用商店下架) 需建立内容分级过滤体系及双重审核机制 [10][24]
脑机接口,AI喜临门的新跳板
脑机接口技术发展现状 - 脑机接口技术正从科幻概念加速迈向现实 尤其以Neuralink公司为代表的侵入式方案在医疗康复领域取得突破性进展 如帮助渐冻症患者重新沟通和瘫痪患者用意念作画[1] - 非侵入式脑机接口技术因安全性高、易用性强 被视为消费级应用的主流方向 中国工信部等七部门联合发文明确支持其在工业制造、医疗健康等领域的应用[2] 睡眠健康市场痛点与需求 - 全球睡眠问题严峻:失眠人数超20亿 仅13%人群每晚有优质睡眠 中国约65.91%被调查者存在睡眠困扰 成人平均夜间睡眠不足7小时[3] - 睡眠不足导致多重健康风险:包括记忆力衰退、阿尔茨海默病风险增加、青少年发育受影响及肥胖问题[3] - 超80%中国消费者愿意使用智能助眠设备 56.6%购买过智能眼罩 超40%购买过电子睡眠仪和智能按摩仪 但现有产品存在体验差距和"智商税"质疑[4] 脑电技术应用与挑战 - 非侵入式脑机接口通过EEG脑电采集技术解读睡眠状态 强脑科技"深海豚智能安睡仪"已实现商业化 在京东销量突破4万台 70%用户反馈入睡时间缩短和夜间醒来次数减少[6][7] - 当前头戴式设备存在体积大、操作不便、信号易受翻身/头发/出汗干扰等问题 影响用户长期使用依从性[7] - 行业向多模态融合方向发展:通过融合脑电、心电、体动、环境等多维度数据 在无感前提下实现精准睡眠监测[7] 喜临门战略合作与产品创新 - 与强脑科技推出全球首款脑机脑电技术AI床垫"宝褓·BrainCo" 实现多模态生理数据感知与实时动态干预 形成睡前调节、睡中自适应到睡后唤醒的完整闭环[8] - 通过专利传感器捕捉脑电波和心率信号 AI算法解析"放松指数"并动态调整床垫支撑策略 达到秒级响应的"人床互动"[8] - 计划成立合资公司 构建智慧睡眠生态:将家庭睡眠数据与便携设备打通 实现跨场景个性化服务 并依托2800家酒店网络提供睡眠设置同步服务[8][9] 公司战略转型与研发投入 - 经历三次战略转型:从90年代突破弹簧技术垄断 到2020年启动智能化战略推出Smart1智能床垫 再到2024年进军脑机接口领域[11][12][13] - 研发投入累计12亿元 拥有9大生产基地和2441项专利 连续13年发布《中国睡眠研究报告》并建成5G工厂[13] - 2025半年报显示营业收入40.21亿元(同比+1.59%) 归母净利润2.66亿元(同比+14.04%)[14] 行业发展趋势 - 睡眠经济向"监测-干预-服务"全链条健康管理转变 在"健康中国2030"和消费升级推动下持续变革[16] - 未来睡眠系统将朝更精准、舒适、个性化方向发展 无感监测与智能调节或成为健康卧室新标配[16]
动捕设备能成为具身大模型的下一场蓝海吗?
机器人大讲堂· 2025-08-21 18:11
具身智能产业发展历程 - 具身智能概念可追溯至20世纪50年代图灵论文[1] - 1980-1990年代进入早期探索与理论发展阶段[1] - 2000年代初形成跨学科融合与技术突破[1] - 2010年代中期深度学习技术注入新动力[1] - 2020年以来逐步走向产业应用[1] 大模型技术演进 - 大模型发展始于20世纪AI研究初期[2] - 2017年谷歌Transformer引入自注意力机制[2] - 2022年底ChatGPT推动NLP领域发展[2] - 2023年3月GPT-4实现多模态转变[2] 具身大模型发展路径 - 由非具身大模型发展而来[4] - 谷歌RT系列为代表:2022年RT-1结合视觉/语言/动作[4] - 2023年RT-2提升多模态融合能力[4] - 特斯拉FSD v12采用端到端架构[4] - 2024年RFM-1推动向通用化发展[4] 核心技术架构 - Transformer模型解决RNN梯度消失问题[5] - 采用自注意力机制和位置编码层[5] - GPT基于Transformer预训练范式[7] - 强化学习通过环境交互学习最优策略[9] - 多模态融合分早期/中期/晚期三个层次[9] 模型架构对比 - 分层模型将任务分解为规划/决策/控制三层[9] - Figure AI部署三层架构:OpenAI model/Neural Network Policies/Whole Body Controller[11] - 端到端模型直接映射输入输出[12] - RT-2使用VLM生成动作token序列[12] - 端到端模型泛化能力强但可解释性差[14] - 分层模型模块化好但系统复杂[14] 数据资源体系 - 具身机器人数据集仅2.4M(Coatue数据)[15] - 2024年多家机构发布高质量数据集[15] - 数据采集呈金字塔结构:底层仿真/中层动捕/顶层遥操[17] - 遥操数据量最少但准确性最高[17] - 动捕技术实现实时动作捕捉[19] - 仿真数据降低成本但存在差异[19] 训练场建设进展 - 特斯拉Optimus/谷歌RT-X建设训练场[20] - 斯坦福与DeepMind推出ALOHA2框架[20] - 2025年1月上海启用全国首个异构人形机器人训练场[22] - 首期部署超100台异构人形机器人[22] - 计划2025年收集1000万条实体数据[22] 动作捕捉技术 - 系统由硬件(传感器/捕捉设备)和软件构成[23] - 分机械式/声学式/电磁式/惯性传感器式/光学式五类[25] - 基于真实本体的数据采集成本最高[27] - 基于虚拟本体的数据存在环境互通性问题[27] - 数据连续性比精度更重要[27] 产业链重点企业 - 度量科技:光学三维动作捕捉系统精度达0.01mm/0.1°[28] - 凌云光:FZMotion系统具备实时跟踪测量功能[29] - 奥飞娱乐:投资诺亦腾开发MEMS惯性传感器[30] - 利亚德:OptiTrack技术应用于影视游戏领域[31] - 洲明科技:非穿戴式系统实现毫秒级延迟反馈[32] - 芯动联科:MEMS惯性传感器拓展至机器人领域[33]