Workflow
多模态融合
icon
搜索文档
AI云计算行业发展现状
2025-09-26 10:29
**AI 云计算行业发展现状与阿里巴巴战略分析** **一 行业与公司概况** * 纪要涉及的行业为AI云计算行业 公司为阿里巴巴及其阿里云[1] * 阿里云在中国云计算市场占据领先地位 市场份额约为33-35% 排名第一 同时也是全球第四大先进营销厂商[2] * 国内云计算赛道已形成两个梯队 阿里属于前站的新一代云计算厂商 其技术架构与谷歌相似 从底层自研芯片到智能体应用 与其他竞争者拉开差距[1][2] * 华为云位居国内第二 市场份额约13% 火山引擎紧随其后占比接近14% 其他主要厂商包括腾讯和百度[2] **二 市场竞争格局与技术优势** * 阿里云拥有自研芯片和智能体应用能力 形成包括数据标注 模型后训练及托管的MAAS 2.0服务矩阵[1][3] * 阿里开源社区拥有400万用户 并提供丰富的模型矩阵覆盖语言模型 视觉理解与生成 全模态及语音模型等[3] * 火山引擎尚未实现自研芯片 百度有一定前站特征但较弱 腾讯主要做应用层面工作 华为由于其深层架构且不开源 不能完全对标全球领先的谷歌 微软和AWS[2] * 从全球布局来看 阿里的数据中心遍布东南亚 中美洲 中东及欧洲多个国家 如新加坡 泰国 墨西哥 迪拜 西班牙等地 而其他几家如腾讯和华为则仅在东南亚有一些数据中心[2] * 目前国内各大云厂商收入结构中 一半以上仍来自于传统IaaS服务 如云主机 存储 安全网络带宽等 然而未来几年内 这些收入结构将逐步转向PaaS SaaS以及AI驱动产品[3] **三 Token需求 价格与用户行为趋势** * 国内Token需求激增 主要由互联网巨头利用AI重构产品驱动 如高德地图 淘宝和美团等 互联网流量中约60%来自巨头重构原有产品体系[1][4] * 以阿里的10亿DAU为例 每人每天使用10次 每次消耗2000个Token 总计每天消耗20万亿个Token 推算出市场接近90万亿个Token需求[4] * 预计每年渗透率将从30%增长到明年的60% 再到后年的90% 将保持高速增长并持续增加Token消耗量[4] * 2023年第三季度 主流模型Token价格较第一季度下降30%-50% 从每百万token 16元降至8元左右 字节跳动甚至将部分模型调价至4元或2元[6] * 但阿里巴巴新模型23MAX主导定价权 其新定价为每百万token 24元 输入6元[6] * AI Chatbot豆包平均停留时长从第一季度的13分钟增加到第三季度的一次对话半小时左右[6] * AIGC视频生成速度显著提升 从第一季度生成一个十几秒的视频需要20分钟 到现在只需3-5分钟[6] **四 产品发布与技术亮点** * 阿里云栖大会发布7款大模型 旗舰产品23MAX拥有万亿参数 具备极致稀疏性(仅有3.7%的参数在推理时激活)和超低幻觉率(降至1%) 支持百万token上下文[7] * 千问3 Only是国内首个全模态模型 可以处理文本 声音 视觉理解和生成等任务[7] * 通用万象代表阿里视频生成能力 重返全球前三 在电商平台上已有40%的图片和视频通过此模式生成[7] * 未来迭代方向将从语言模型为骨干逐步走向多模态融合 并对标GPT-5 从明年开始 全模态将成为主流技术路径[7] **五 资本支出与战略投入** * 未来三年 阿里巴巴计划投入3800亿CAPEX 主要用于全球化数据中心建设(占1/3) AI服务器采购(占硬件相关支出60%)和网络设备升级[10] * 全球化布局重点在亚洲和欧洲 南美洲以墨西哥为起点辐射巴西等人口密集国家[1][10] * 云业务中的硬件服务器折旧周期为5年 每年约20% 2025年开始进入加速折旧期 到2026年会产生大量老旧卡淘汰替换[11] * 阿里资本支出的逻辑是通过这些技术赋能内部核心场景 如电商 通过提升用户停留时长 广告投放精准率等指标来增加GMV 而不是直接销售AI产品[11] **六 算力基础设施与芯片合作** * 当前云计算卡市场总量约为36万张 先进训练卡约8万张 推理卡十几万张[2][12] * 国产推理卡性能已超过H20 国产海关账号芯片指标与A100相当甚至更优(IP16达到400多TFRAPS IP32超过100 带宽达到500多G)[2][12] * 阿里巴巴与NVIDIA合作聚焦"Physical AI" 将Isaac Cosmos世界模型及Universe自动驾驶模拟和机器模拟架构组件部署到阿里云 并迭代聚生智能平台 提供全流程解决方案[2][13][14] * 今年发布的所有模型均使用英伟达CUDA训练卡进行训练[17] * 目前对外服务的推理部分全部使用英伟达CUDA卡 国产卡预计明年上线对外出租 目前仍处于内部测试阶段[18] * 明年的存量CUDA芯片可以支撑现有模型迭代 但需要补充新的型号如B3A或B30A以承接下一代模型训练[19] **七 应用场景与市场拓展** * 垂直智能体结合模型和Agent框架 使客户能够将业务数据填入其中 适用于许多垂直行业 AI编程是最早落地的应用之一[8] * 在企业实际应用中 99%的客户使用的是智能体而非直接使用AI模型[22] * 在C端市场 AI技术主要应用于AI搜索 虚拟社交 数字人 面向C端的AI编程助手 以及图像生成和视频生成等AIGC玩法[9] * 阿里巴巴将其端侧模型与手机芯片进行合作 并推送给手机制造商 如传音 OPPO vivo 魅族和荣耀等 在新能源汽车领域 也与高通 地平线等车载芯片供应商合作[16] * 硬件侧是重要战略之一 其小尺寸语言模型(如1.5B 3B 7B)专为端侧硬件设计[15] **八 其他重要信息** * 由于受到限制 中国的AI基础设施建设速度慢于海外 抑制了国内AI应用爆发[1][5] * 当前国内每日token消耗量约为90万亿 其中阿里的消耗量接近18万亿[20] * 随着多智能体架构AgentScope的发展 单次交互token消耗从两三千增加至两三万倍 明年多模态架构底座将进一步增加token处理量[20] * 国内多模态模型不追求超大参数规模 而是通过极致稀疏激活来优化推理效率[21] * 海外计算中心建设目前以通用算力为主 AI技术作为补充 由于兼容性 合规性等问题 海外市场暂时仍以英伟达的卡为主导[22] * 对于服务器组装业务 一般采用就近原则进行采购和组装 在中国境内则与新华三 富士康或浪潮等厂商合作[22]
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-26 07:33
文章核心观点 - 提出了一种名为OmniScene的全新类人框架,旨在解决当前自动驾驶系统缺乏真正场景理解能力的问题,通过结合环视感知与时序融合实现全面的4D场景理解 [2] - 该框架通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征以实现语义监督,并采用分层融合策略解决多模态融合中的模态贡献不平衡问题 [2] - 在nuScenes数据集上的评估表明,OmniScene在所有任务中均实现了更优性能,特别是在视觉问答性能上实现了21.40%的显著提升 [3] 技术框架与创新 - 引入OmniScene视觉-语言模型,这是一种结合环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解 [2] - 通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实现语义监督,明确捕捉类人的注意力语义信息 [2] - 提出分层融合策略,以解决多模态融合过程中模态贡献不平衡的问题,该方法能在多个抽象层级上自适应校准几何特征与语义特征的相对重要性 [2] - 框架输入包括环视图像、操作指令与用户提示,通过学生端OmniVLM模块生成文本标注,并与视觉特征、三维实例特征融合形成全面特征表示 [23] 算法核心组件 - 采用基于稀疏查询的范式初始化三维目标实例集,有效降低计算复杂度并使模型聚焦于信息区域 [41][45] - 设计4D时空融合模块,通过解耦交叉注意力显式建模实例在多帧间的时间依赖关系,并通过解耦自注意力挖掘当前帧内实例间的空间关系 [46][52] - 引入视觉可变形聚合模块,以每个实例的几何先验为引导,自适应从环视图像特征中聚合信息线索 [53][59] - 设计文本条件聚合模块,将文本语义信息整合到每个三维实例特征中,实现上下文感知推理 [60][65] - 引入深度优化模块,利用增强实例特征与来自环视图像的辅助深度线索,对每个实例的估计深度进行校正与优化 [66][69] 性能评估结果 - 在nuScenes验证集上的感知任务中,所提模型的nuScenes检测得分达到0.526,平均平移误差最低为0.555米 [96] - 在跟踪任务上,平均多目标跟踪精度为1.235,召回率为0.528,身份切换次数仅为503次,显著优于所有现有基线模型 [98][99] - 在预测任务中,最小平均位移误差和最小最终位移误差分别低至0.61米和0.96米,遗漏率最低为0.128 [100][101] - 在规划任务中,轨迹L2误差平均值最低为0.58米,在所有预测时域下均表现领先 [102] - 在视觉问答任务中,OmniVLM 7B模型的CIDEr得分为87.39,比最佳基线模型高出24.9% [104][106] 行业应用与前景 - 该技术框架展示了在复杂城市驾驶环境中实现全面场景理解与推理的显著优势,为自动驾驶系统的智能决策与安全规划提供了新思路 [107][109] - 实时性能评估表明,OmniVLM 3B模型在A800平台上仅需88毫秒处理300个输入令牌,总处理时间在113毫秒到139毫秒之间,满足实时任务要求 [125][127] - 行业对VLA/VLM大模型算法专家的需求旺盛,相关岗位薪资范围在40-70K之间,反映了该技术方向的市场价值和发展潜力 [9]
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 21:33
VLA模型综述核心观点 - VLA模型的出现标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,将视觉语言模型从被动的序列生成器重构为能够在复杂动态环境中进行主动操作和决策的智能体[1][12] - 该综述对VLA方法进行清晰的分类和系统性的回顾,基于300多项最新研究,将VLA方法主要分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法[1][2][12] - VLA模型通过整合视觉编码器的表征能力、大语言模型的推理能力、强化学习与控制框架的决策能力,有望弥合"感知-理解-动作"的鸿沟,成为实现通用具身智能的核心路径[38][39] VLA方法分类与特点 基于自回归的模型 - 核心思想是将动作序列视为时间依赖过程,逐步生成动作,通过统一的多模态Transformer实现跨任务的泛化[4][46] - 创新点包括结合大语言模型进行链式思考和分层规划处理长时程和复杂任务,直接将语言指令映射为运动轨迹并通过视频预训练增强时间建模能力[4][47][48] - 采用层级规划、动态推理、量化和并行解码等技术减少计算冗余和延迟,典型模型包括Gato、RT-1/RT-2、PaLM-E等[4][48] 基于扩散的模型 - 核心思想是将动作生成视为一个条件去噪过程,能够对多模态的动作分布进行建模,将策略学习重新解释为视频生成[5][59] - 利用几何感知方法确保动作的物理一致性,利用Transformer统一处理视觉、语言和动作等异构模态实现灵活的目标条件化[5][63] - 出现轻量化设计以降低训练成本,发展出双系统/三系统等认知启发式架构提升任务性能和可解释性,典型模型包括SE(3)-DiffusionFields、Dita等[5][63][67] 基于强化学习的模型 - 核心思想是整合视觉语言模型与强化学习,利用视觉和语言输入在交互式环境中生成上下文感知的动作[6][72] - 利用视觉语言模型从人类演示中学习奖励代理简化奖励工程,提出约束学习对齐机制防止高风险行为同时不牺牲任务性能[6][73] - 结合离线学习和在线学习实现安全高效的训练,采用量化、剪枝和知识蒸馏等方法压缩模型提高推理速度并减少内存占用[6][73] 混合与专用方法 - 混合架构结合不同范式,利用扩散生成平滑的轨迹同时保留自回归模型的推理能力,典型代表如HybridVLA[7][80] - 从早期的特征拼接发展到显式建模几何、功能可见性和空间约束的3D感知架构,如CLIPort、3D-VLA等[7][80][82] - 将VLA框架扩展到自动驾驶、人形机器人控制和图形用户界面交互等特定领域,通过大规模多模态数据集和可扩展架构构建通用机器人智能体[7][80][83] 数据集与仿真平台 - VLA模型的发展严重依赖高质量数据集,真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集,包含527项技能和160,266个任务[8][35][99] - 模拟数据集如ALFRED、RLBench和CARLA为大规模、可控和安全的模型训练与评估提供了环境,模拟器如THOR、Habitat、MuJoCo和Isaac Gym为开发和评估智能机器人在多样化交互环境中的能力提供了平台[8][35][41] - 自动驾驶领域的数据集提供包含相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据,但大多数公开数据集是在开环场景下采集的,主要反映正常驾驶行为[101][102] 核心挑战与未来机遇 - 核心挑战包括数据稀缺性、架构异构性、实时性约束和评估局限性,真实世界机器人交互数据的规模和多样性仍然不足,大规模Transformer架构的推理速度严重限制了其在需要毫秒级响应的真实机器人上的应用[9][43] - 未来机遇包括实现语言、视觉和行动的深度耦合使VLA演变为能够联合建模环境、推理和交互的"世界模型",发展能够基于因果定律进行探索和验证的模型[10][39] - 结合高保真模拟和合成数据生成构建超大规模轨迹数据集,建立风险评估、可解释性和问责制的标准化框架,将VLA从实验室工具转变为社会中值得信赖的合作伙伴[10][39]
2 亿美元 ARR,AI 语音赛道最会赚钱的公司,ElevenLabs 如何做到快速增长?
Founder Park· 2025-09-16 21:22
公司概况与市场地位 - AI音频领域独角兽,估值达66亿美元[2] - 欧洲发展速度最快的AI创企,在科技巨头围攻下成功突围[3] - 营收增长迅猛:首个1亿美元ARR耗时20个月,第二个1亿美元ARR仅用10个月[2],目前营收已突破2亿美元[33],从1亿美元增长到2亿美元用时约10个月[34] 创业历程与产品市场契合 - 创业契机源于对波兰落后电影配音体验的洞察,结合此前音频项目经验[4][5] - 早期采用双管齐下策略:联合创始人负责技术研发,CEO负责市场需求验证[7] - 通过给YouTuber发送数千封个性化邮件进行市场测试,初期回复率约15%[7] - 关键转折点是将方向从配音转向旁白和语音解说,通过三件事找到PMF信号:发布"能模拟笑声的AI"博客后等待名单新增上千人、有声书作者成功使用产品并推荐朋友、测试版公开后获得创作者和旁白演员积极反馈[9][10] 技术战略与研发优势 - 坚持自研模型路线,因当时市面现有模型效果均处于"恐怖谷"状态[11] - 技术发展从专注单一语音模态转向多模态融合,最新Eleven v3模型已结合推理能力与语音技术[12] - 自建数据中心用于模型训练,计算持续训练需求后认为自建与云服务成本基本打平,且能获得更快实验速度[26][27][28] - 目前技术领先竞争对手6到12个月,具体优势取决于聚焦的细分领域[24] 业务模式与增长动力 - 企业客户成为业务核心,重点打造对话式Agents平台[37] - 最大单笔合同金额约200万美元,客户来自呼叫中心、客户支持、个人助理领域[38] - 重要合作伙伴包括思科、Twilio、Epic Games等,同时保持庞大自助用户群体[38] - 语音Agents业务被视为未来数十亿美元营收潜力的增长点[46] 融资策略与资本运作 - 种子轮融资异常艰难,被30到50位投资人拒绝,主要质疑研发难度、市场规模和产品护城河[64][65] - 融资宣布与重大产品动态、用户里程碑或核心招聘进展绑定,不单纯为宣布融资而宣布[70] - 每轮融资核心逻辑是"提前布局未来业务",如拓展模型能力、推进国际化、深耕Agents平台[44] - 几乎每轮融资都会推出员工股票二次出售和要约收购,为员工提供流动性[87] 组织管理与人才战略 - 坚持小团队模式,目前约250人拆分为20个5-10人小团队,按产品领域划分[50][51] - 取消头衔制度以优化影响力和决策效率,小团队核心是快速执行[52][53] - 创始人仍亲自参与每个候选人面试,年底计划将团队规模扩展至400人[56][59] - 注重本土人才培养,通过与美国投资人网络中的顾问配对指导团队成长[19] 竞争壁垒与核心优势 - 面对OpenAI等巨头的三点优势:顶尖研发团队、快速执行力、对语音AI应用场景的深度聚焦[16][18] - 全球顶尖语音技术研发人员仅50到100人,公司拥有5到10名顶尖人才[16] - 产品层面优势体现在创意领域语音产品的额外优化步骤和完整平台构建能力[17] - 策略是研发+产品+生态三者结合,研发提供的是未来1到3年对竞争对手的优势[23] 市场拓展与全球化布局 - 定位为全球化公司,目标在美国、欧洲和亚洲市场获胜[21] - 欧洲人才质量非常高,关键是要知道如何找到他们,越来越多欧洲公司展现全球化野心[20][21] - 反驳"欧洲人工作不拼"的片面说法,团队中有很多使命感驱动的人才[22] - 在国际化扩张中采取在巴西、日本、印度、墨西哥等地建立小型分支机构的模式[62]
王兴兴最新发声
财联社· 2025-09-11 16:54
机器人行业发展现状 - 当前语言模型在文字和图像领域表现出色 但在AI实际执行任务的领域仍处于早期阶段 仅如荒漠中长了几根小草 大规模爆发性增长的前夜尚未到来 [3] - 机器人领域面临的核心挑战并非数据缺乏 而是机器人大模型的水平不足 硬件已足够可用 但AI模型能力不足导致硬件无法充分发挥效用 例如难以有效控制灵巧手 [4] - 多模态融合在机器人领域表现不理想 尽管单纯语言或多模态模型优异 但用语言或图像、视频生成内容来控制机器人仍存在重大挑战 特别是运动与视频、语言模型的对齐难题 [4] 数据挑战与利用 - 机器人数据采集面临巨大难题 包括难以判断优质数据标准 哪些动作和场景需要采集 如何采集才能获得有价值数据 都需要建立一套标准来提高数据利用率 [4] - 数据质量存在显著问题 采集过程噪声大 数据质量差 且需要采集的数据类型和规模都处于模糊阶段 目标是通过提高模型对数据的理解能力 实现在较小数据量下获得良好效果 [4] 技术发展与人才管理 - AI模型认知需要更激进 应将其视为全能型工具 重新学习新知识 摒弃过去经验 避免依赖历史经验影响未来决策 [4] - 科技企业发展面临顶尖人才短缺和管理效率低下两大挑战 人员增加反而导致效率降低 [4]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-09-01 12:02
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用,涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务,并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据,显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合(输入层直接拼接)、中期融合(特征层交互如注意力机制)和后期融合(决策层整合),现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构(如DeepLabv3+)、基于注意力的Transformer(如MRFTrans)和图神经网络方法(如MISSIONGNN) [12] 3D目标检测 - 多模态融合结合相机(丰富纹理)和LiDAR(精准几何),解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合(早期/中期/后期)、融合内容(特征图、点云、BEV视图)及融合方法(从非注意力型到基于注意力的跨模态交互) [17] - 技术演进从早期MV3D、AVOD到TransFusion(Transformer建模跨模态依赖)和BEVFusion,并扩展雷达-相机融合(如CenterFusion)和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航(依赖视觉语义与空间先验)、指令跟随导航(结合自然语言理解)和基于对话的导航(主动交互与动态调整),体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav(零样本规划)和NaVid(视频驱动泛化),强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合(如DeepVO、D3VO)和自监督学习解决光照变化、遮挡及动态场景中的定位问题,神经隐式表示(如NeRF)压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM(几何精准)和V-SLAM(语义丰富)向多模态融合(如V-LOAM、LIC-Fusion)和神经化转型(如UVIO用Transformer建模时序) [34][35] - 未来方向包括轻量化、自监督与感知决策一体化,提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型(VLA) - VLA模型整合视觉感知、语言理解和动作生成,实现从"感知"到"执行"的闭环,代表方法包括RT-2(预训练对齐)、RoboMamba(动作动态建模)和3D-VLA(三维点云融合) [36][37][39] - 高效化趋势明显:OpenVLA通过LoRA降低训练成本,DeeR-VLA采用动态退出机制减少计算开销,VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息(位置、形态),触觉补充局部反馈(接触力、滑动),提升抓取精度与稳定性,如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态,避免滑动或掉落,并通过时空注意力(如Li等人方法)或自监督学习(如MimicTouch)优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习(如CLIP)或自监督方法对齐多模态表示,实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习(拉近相关样本)、自监督学习(掩码预测)和跨模态生成(如DALL·E),解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2,支持多模态(图像、文本、音频)和结构优化(MoE、稀疏注意力),增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求,以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升,以及发展具备长期学习能力的认知型VLM架构 [58]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-08-31 10:33
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉中的应用 涵盖语义场景理解 三维目标检测 SLAM 具身导航和操作控制等任务[4] - 比较了传统方法与新兴大模型方法的优缺点 并分析相关数据集与基准测试[4] - 提出未来发展方向包括跨模态自监督学习 轻量化融合架构 Transformer驱动的统一范式以及真实环境中的高效部署策略[4] 多模态融合在机器人视觉任务中的应用 - 多模态融合整合RGB图像 深度信息 LiDAR点云 语言 触觉与位置信息 提升机器人感知全面性[3] - 主流融合策略分为早期融合 中期融合和后期融合三类[12] - 现代多模态模型在统一架构中完成特征提取 模态交互和任务预测 减少阶段设计麻烦并使信息交换更顺畅[10] 语义场景理解 - 涉及物体识别 语义分割和关系建模 仅靠RGB图像在复杂环境下易受光照变化 物体遮挡和多目标重叠影响[9] - 多模态融合通过引入深度 LiDAR 语言等额外信息大幅提升场景理解的准确性和鲁棒性[9] - 主流实现路径包括编码器-解码器架构 基于注意力的Transformer和图神经网络方法[12] 三维目标检测 - 自动驾驶系统中关键感知任务 准确识别并定位行人 车辆和障碍物[15] - 单一传感器各有短板 相机能捕捉纹理和颜色但缺乏深度信息 LiDAR提供精准空间几何结构但看不懂语义和纹理[15] - 多模态融合设计需解决何时融合 融合什么和如何融合三个核心问题[16] 方法演进 - 从早期依赖直接拼接或统计操作 演化出点级 体素级 区域级融合策略 到Transformer引入实现智能交互[19] - 代表性方法包括PointPainting和TransFusion 前者对图像做语义分割并涂到点云上 后者用Transformer解码器建模跨模态依赖[21] - 探索雷达-相机和雷达-LiDAR融合 雷达优势在于直接测量速度且在恶劣天气中稳定[20] 具身导航 - 核心思想是让机器人像真的身处环境中一样去探索 感知和行动 强调自主决策与动态适应能力[23] - 分为目标导向导航 指令跟随导航和基于对话的导航三类 从感知驱动到语言理解再到交互感知演进[23] - 基于对话的导航中机器人能够主动发问 实时交互 提升任务灵活性 特别适合长时序 多步骤复杂任务[27] 视觉定位与SLAM - 视觉定位在光照变化 遮挡严重 环境动态频繁场景中是大难题 多模态融合思路推进问题解决[28] - 自监督学习通过光度一致性和几何一致性物理约束进行学习 不依赖人工标注[28] - SLAM从单打独斗变成抱团取暖 通过融合LiDAR 相机 IMU GPS 雷达等多源信息提升系统稳定性[33] 视觉-语言-动作模型 - 结合视觉感知 语言理解和动作规划 让机器人基于多源信息主动决策和执行[35] - 核心思路是从视觉模态获取世界状态 通过语言模态理解任务语义 将多模态信息融合到统一表示再映射成动作序列[36] - 代表性方法包括RT-2 RoboMamba 3D-VLA OpenVLA DeeR-VLA和VoxPoser[38] 视觉与触觉融合 - 视觉负责提供全局信息如物体位置 形态和姿态 触觉提供局部反馈如接触力 摩擦和滑动[40] - 在抓取生成阶段 视觉帮助确定空间姿态和位置 触觉补充表面特性和受力信息用于选择最优抓取点[41] - 抓取稳定性预测中 视觉-触觉融合展现巨大优势 让机器人从只会抓升级为会思考怎么抓[44] 视觉语言模型演进 - 预训练几乎是整个系统起点 通过大规模图像-文本数据联合训练学会视觉与语言间深层语义关联[49] - 跨模态对齐是关键 需在不同模态间建立精确对应关系 主流方法分为对比学习 自监督学习和跨模态生成三类[51] - 自2022年以来VLM发展迅速 从Flamingo PaLM-E到MiniGPT-4 LLaVA 再到Gemini Llama-3.2 多模态范围扩展到图像 文本 音频甚至跨语言[52] 核心创新点 - 大规模图文预训练先喂饱模型海量图文对 为跨模态推理打下坚实基础[53] - 指令微调用自然语言告诉模型需求 学会举一反三甚至猜未说出口需求[53] - 结构优化采用MoE专家混合和稀疏注意力等黑科技 在提升性能同时节省算力[53] 结论与未来方向 - 跨模态对齐策略决定机器人感知能力上限 但不同模态间语义粒度差异和特征对不上号仍是硬伤[57] - 在算力有限机器人平台部署大规模VLM需靠轻量化与多阶段自适应机制精打细算[57] - 未来研究可重点关注引入结构化空间建模和记忆机制 提升系统可解释性与伦理适应性 发展具备长期学习能力的认知型VLM架构[57]
MiniMax上市计划启动,为何“米哈游们”频频布局AI?
36氪· 2025-08-27 21:09
文章核心观点 - 人工智能独角兽MiniMax计划香港上市 估值超40亿美元 游戏公司如米哈游等通过投资AI企业积极布局AI赛道 驱动因素包括游戏开发降本增效及提升用户体验需求 [1][2][3][5][13] MiniMax公司概况与融资 - 成立于2021年 专注多模态大模型研发 属中国大模型六小龙之一 [6] - 融资历程:2025年7月C轮融资近3亿美元(上海国资母基金) 2024年5月B轮融资6亿美元(阿里巴巴) 2023年6月A轮融资超2.5亿美元(腾讯投资、绿洲资本) 2022年7月Pre-A轮(米哈游、明势资本等) [1] - 产品包括视频生成APP海螺AI(24年12月-25年2月登顶全球AI产品榜) 虚拟伴侣软件Talkie(年营收近7000万美元)及国内版星野 [8][10] 游戏行业AI投资布局 - 米哈游2018年成立逆熵研究部 2023年将AI嵌入《崩坏:星穹铁道》开发 2024年创始人蔡浩宇在美成立AI公司Anuttacon 2025年推出AI原生游戏《Whispers from the Star》 [2][3][5] - 2024年至今米哈游成立至少6家AI相关公司 2025年7月全资成立上海米哈游无定谷科技有限公司(注册资本5亿) [5] - 莉莉丝投资启元世界(应用于《万国觉醒》等游戏) 三七互娱投资14家AI公司(包括月之暗面、智谱AI等) 巨人网络与完美世界亦有布局 [5] - 腾讯AI Lab覆盖游戏、社交等业务(如《和平精英》智能队友) 网易伏羲实验室实现《逆水寒》400+智能NPC实时交互 两家均采用自研+投资策略 [5] AI在游戏行业应用场景 - 降本:52%游戏开发公司使用AI工具 36%个人开发者用AI催生创意 顶级3A游戏研发成本达9000万-2亿美元 回本需售700万套以上 [13][15] - 人力成本涵盖策划、美术、程序等近20种职能 技术成本包括引擎授权费(数十万美元)、服务器租赁(月均数千至数万美元)及工具采购(年数十万元) 美术原画单张价格达数千至上万元 动画特效累计花费数十万元 [14] - 增效:AI应用于角色行为控制、3D建模调优、NPC台词生产(如《崩坏:星穹铁道》) AI队友提供战斗支持与情感陪伴(如《永劫无间》) AI实现场景生成(如《黑神话·悟空》运用AI技术去噪) [3][17][19] 行业风险与挑战 - 训练数据侵权问题:MiniMax于2025年1月遭爱奇艺起诉著作权侵权(涉图片视频素材训练 索赔10万元) 案件审理结果或成行业版权合规判例 [22][23] - 产品内容合规风险:AI陪伴类产品存在擦边、低俗内容(如Talkie因违规被美日应用商店下架) 需建立内容分级过滤体系及双重审核机制 [10][24]
脑机接口,AI喜临门的新跳板
脑机接口技术发展现状 - 脑机接口技术正从科幻概念加速迈向现实 尤其以Neuralink公司为代表的侵入式方案在医疗康复领域取得突破性进展 如帮助渐冻症患者重新沟通和瘫痪患者用意念作画[1] - 非侵入式脑机接口技术因安全性高、易用性强 被视为消费级应用的主流方向 中国工信部等七部门联合发文明确支持其在工业制造、医疗健康等领域的应用[2] 睡眠健康市场痛点与需求 - 全球睡眠问题严峻:失眠人数超20亿 仅13%人群每晚有优质睡眠 中国约65.91%被调查者存在睡眠困扰 成人平均夜间睡眠不足7小时[3] - 睡眠不足导致多重健康风险:包括记忆力衰退、阿尔茨海默病风险增加、青少年发育受影响及肥胖问题[3] - 超80%中国消费者愿意使用智能助眠设备 56.6%购买过智能眼罩 超40%购买过电子睡眠仪和智能按摩仪 但现有产品存在体验差距和"智商税"质疑[4] 脑电技术应用与挑战 - 非侵入式脑机接口通过EEG脑电采集技术解读睡眠状态 强脑科技"深海豚智能安睡仪"已实现商业化 在京东销量突破4万台 70%用户反馈入睡时间缩短和夜间醒来次数减少[6][7] - 当前头戴式设备存在体积大、操作不便、信号易受翻身/头发/出汗干扰等问题 影响用户长期使用依从性[7] - 行业向多模态融合方向发展:通过融合脑电、心电、体动、环境等多维度数据 在无感前提下实现精准睡眠监测[7] 喜临门战略合作与产品创新 - 与强脑科技推出全球首款脑机脑电技术AI床垫"宝褓·BrainCo" 实现多模态生理数据感知与实时动态干预 形成睡前调节、睡中自适应到睡后唤醒的完整闭环[8] - 通过专利传感器捕捉脑电波和心率信号 AI算法解析"放松指数"并动态调整床垫支撑策略 达到秒级响应的"人床互动"[8] - 计划成立合资公司 构建智慧睡眠生态:将家庭睡眠数据与便携设备打通 实现跨场景个性化服务 并依托2800家酒店网络提供睡眠设置同步服务[8][9] 公司战略转型与研发投入 - 经历三次战略转型:从90年代突破弹簧技术垄断 到2020年启动智能化战略推出Smart1智能床垫 再到2024年进军脑机接口领域[11][12][13] - 研发投入累计12亿元 拥有9大生产基地和2441项专利 连续13年发布《中国睡眠研究报告》并建成5G工厂[13] - 2025半年报显示营业收入40.21亿元(同比+1.59%) 归母净利润2.66亿元(同比+14.04%)[14] 行业发展趋势 - 睡眠经济向"监测-干预-服务"全链条健康管理转变 在"健康中国2030"和消费升级推动下持续变革[16] - 未来睡眠系统将朝更精准、舒适、个性化方向发展 无感监测与智能调节或成为健康卧室新标配[16]
动捕设备能成为具身大模型的下一场蓝海吗?
机器人大讲堂· 2025-08-21 18:11
具身智能产业发展历程 - 具身智能概念可追溯至20世纪50年代图灵论文[1] - 1980-1990年代进入早期探索与理论发展阶段[1] - 2000年代初形成跨学科融合与技术突破[1] - 2010年代中期深度学习技术注入新动力[1] - 2020年以来逐步走向产业应用[1] 大模型技术演进 - 大模型发展始于20世纪AI研究初期[2] - 2017年谷歌Transformer引入自注意力机制[2] - 2022年底ChatGPT推动NLP领域发展[2] - 2023年3月GPT-4实现多模态转变[2] 具身大模型发展路径 - 由非具身大模型发展而来[4] - 谷歌RT系列为代表:2022年RT-1结合视觉/语言/动作[4] - 2023年RT-2提升多模态融合能力[4] - 特斯拉FSD v12采用端到端架构[4] - 2024年RFM-1推动向通用化发展[4] 核心技术架构 - Transformer模型解决RNN梯度消失问题[5] - 采用自注意力机制和位置编码层[5] - GPT基于Transformer预训练范式[7] - 强化学习通过环境交互学习最优策略[9] - 多模态融合分早期/中期/晚期三个层次[9] 模型架构对比 - 分层模型将任务分解为规划/决策/控制三层[9] - Figure AI部署三层架构:OpenAI model/Neural Network Policies/Whole Body Controller[11] - 端到端模型直接映射输入输出[12] - RT-2使用VLM生成动作token序列[12] - 端到端模型泛化能力强但可解释性差[14] - 分层模型模块化好但系统复杂[14] 数据资源体系 - 具身机器人数据集仅2.4M(Coatue数据)[15] - 2024年多家机构发布高质量数据集[15] - 数据采集呈金字塔结构:底层仿真/中层动捕/顶层遥操[17] - 遥操数据量最少但准确性最高[17] - 动捕技术实现实时动作捕捉[19] - 仿真数据降低成本但存在差异[19] 训练场建设进展 - 特斯拉Optimus/谷歌RT-X建设训练场[20] - 斯坦福与DeepMind推出ALOHA2框架[20] - 2025年1月上海启用全国首个异构人形机器人训练场[22] - 首期部署超100台异构人形机器人[22] - 计划2025年收集1000万条实体数据[22] 动作捕捉技术 - 系统由硬件(传感器/捕捉设备)和软件构成[23] - 分机械式/声学式/电磁式/惯性传感器式/光学式五类[25] - 基于真实本体的数据采集成本最高[27] - 基于虚拟本体的数据存在环境互通性问题[27] - 数据连续性比精度更重要[27] 产业链重点企业 - 度量科技:光学三维动作捕捉系统精度达0.01mm/0.1°[28] - 凌云光:FZMotion系统具备实时跟踪测量功能[29] - 奥飞娱乐:投资诺亦腾开发MEMS惯性传感器[30] - 利亚德:OptiTrack技术应用于影视游戏领域[31] - 洲明科技:非穿戴式系统实现毫秒级延迟反馈[32] - 芯动联科:MEMS惯性传感器拓展至机器人领域[33]