Workflow
多模态融合
icon
搜索文档
从感知能力提升到轻量化落地,具身这条路还要走很长一段时间~
具身智能之心· 2025-06-30 20:21
具身智能技术发展趋势 - 感知能力升级与多模态融合成为技术发展重点 触觉感知特别是灵巧手领域的力控技术显著提升操作精细度及反馈能力 多模态传感器融合技术实现视觉、听觉、触觉信息的硬件与算法深度整合 [1] - 大模型驱动认知能力突破 基于多模态数据提升人形机器人感知与自主学习能力 轻量化模型设计成为行业落地关键需求 需低算力、跨平台的多模态模型支撑 [1] - 仿真环境与数据生态加速训练效率 通过物理世界规律建模实现运动、形变、环境变化的模拟仿真 sim2real技术推动虚拟与现实环境对齐 大规模仿真数据应用于真实场景是当前研究难点 [1] 行业技术资源体系 - 全栈技术社区覆盖40+开源项目与60+数据集 包含强化学习、视觉语言导航、多模态大模型、机械臂策略等16个技术路线 整合主流仿真平台与学习路径 [6] - 数据生态支持本体多样化 双足、轮式、轮足复合等形态数据需抽象共同特征 关节与执行器数据标准化是技术突破基础 [2] 产业应用与研究方向 - 国内外200+头部机构参与生态 涵盖斯坦福、清华等高校及优必选、小米等企业 涉及教育、医疗、物流等8大应用领域 [6][12] - 前沿技术应用场景明确 包括VLM在机器人抓取规划、分层决策优化、Diffusion Policy生成等20+细分方向 [7][44] 行业知识库建设 - 研报与文献覆盖大模型、人形机器人等热点 汇总30+企业研报及机器人动力学、视觉控制等专业书籍 [14][16] - 零部件供应链体系完善 整合芯片、激光雷达、ToF相机等核心部件厂商技术手册与产品数据 [18][22] 人才发展与技术交流 - 提供高校实验室与公司岗位双通道 汇总国内外知名研究机构方向 同步头部企业招聘需求 [9][11] - 实时技术问题讨论平台 涉及仿真平台选型、模仿学习方法、研报获取等实操性议题 [7][58]
国产大模型高考出分了:裸分683,选清华还是北大?
量子位· 2025-06-26 14:25
大模型高考评测表现 - 核心观点:字节跳动Seed团队发布的大模型高考评测结果显示,Gemini和豆包在理科和文科总分分别位列第一,展现领先的学科能力 [2] - 理科总分排名:Gemini以655分居首,豆包648分次之;文科总分豆包683分第一 [2] - 细分科目优势:豆包在语文(128)、英语(144)、物理(90)、地理(92)、历史(92)、政治(84)6科中排名第一,数学(141)仅次于Deepseek(145) [3] - 国际模型短板:国外模型在文综科目(政治/历史)表现较弱,对中国知识点理解不足 [24] 评测方法与标准 - 试卷构成:主科采用全国一卷(语数英),副科采用山东卷,总分750分 [9] - 评分机制:选择题机评+人工质检,开放题实行双评制由高中教师阅卷 [10] - 测试环境:API测试不联网,未使用提示词优化技巧确保公平性 [11] 学科能力深度分析 - 数学进步:模型均达140分水平,较去年显著提升(此前多数不及格) [13] - 视觉短板:全国一卷第6题因图表识别问题全军覆没(正解A,模型多选C) [16][17] - 语文写作:得分率高但存在刻板化、字数不达标、立意偏差等问题 [20] - 英语表现:接近完美,仅写作存在用词和句式单调等细微缺陷 [21] - 理综挑战:图像题仍是难点,豆包与Gemini相对优势明显 [22][23] 技术能力突破 - 多模态融合:Seed1.6通过三阶段训练(文本预训练/多模态混合/长上下文)实现256K上下文支持,提升阅读理解准确率 [33][34][35] - 深度思考优化:采用RFT+RL迭代方法,引入parallel decoding技术,数学高难度测试集成绩提升8分 [36][37][38] - 动态思考机制:AutoCoT技术解决过度思考问题,复杂任务中思维链触发率达100% [39][40][44] 国际考试对比 - JEE Advanced表现:豆包与Gemini进入全印度前10,Gemini物理化学突出,豆包数学5次采样全对 [27][28] - 多模态潜力:使用清晰图片重新测试后,豆包理科总分提升30分至676分,验证图文结合输入的效能 [42][43]
RoboSense 2025 机器感知挑战赛正式启动
具身智能之心· 2025-06-25 21:52
RoboSense Challenge 2025概述 - 核心目标为系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[1] - 聚焦动态人群、恶劣天气、传感器故障等复杂环境条件下的感知算法性能挑战[1] - 由新加坡国立大学、南洋理工大学等全球7所顶尖研究机构联合主办,并获得IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[3] - 第一阶段提交截止2025年8月15日,第二阶段截止9月15日[3] - 颁奖典礼于2025年10月19日在IROS 2025杭州主会场举行[3][46] 五大核心挑战任务 语言驱动的自动驾驶 - 要求构建端到端多模态驾驶模型,实现语言指令到规划轨迹的闭环控制[6][7] - Baseline模型Qwen2.5-VL需4块A100 GPU训练12小时,感知准确率75.5%[13] - 关键技术难点包括多模态时序融合、语言指令泛化及弱感知条件下的决策[13] 社交导航 - 基于RGB-D输入实现符合人类社交规范的动态路径规划[14][15] - Baseline模型Falcon成功率55.84%,需4块RTX 3090训练48小时[19] - 需解决动态行为建模与隐式社交规则编码问题[17] 传感器布局优化 - 评估3D感知模型对不同LiDAR安装配置的适应性[20][21] - Baseline模型BEVFusion-L的mAP为48.8%,单卡RTX 4090需16小时训练[26] - 关键技术包括视角差异建模与结构对齐模块设计[27] 跨模态无人机导航 - 建立语言描述与空地视角图像的语义映射关系[28][29] - Baseline模型GeoText-1652的R@1为13.6,需2块RTX 4090训练12小时[34] - 需解决视角转换带来的纹理缩放与空间反转问题[33] 跨平台3D目标检测 - 要求模型在车辆/无人机/四足机器人等平台保持检测一致性[34][35] - Baseline模型ST3D++的Car AP@0.5为33.7%,单卡RTX 3090训练24小时[39] - 核心挑战为跨平台Domain Gap与视角仿射变化适应[39] 赛事资源与评测 - 提供多源多模态真实场景数据支持研究复现[9] - 采用统一评测平台确保公正性,如codabench.org/eval.ai等[14][19][26][34][39] - 开放Toolkit与代码资源库github.com/robosense2025[8] 奖项设置 - 总奖金池超10,000美元,一等奖奖金5,000美元[40][41] - 设立创新奖(每赛道2项)及参与奖(完成有效提交即可获证明)[40]
BEV高频面试问题汇总!(纯视觉&多模态融合算法)
自动驾驶之心· 2025-06-25 10:30
BEV感知技术发展现状 - BEV(Bird's Eye View)感知已成为视觉感知领域竞争焦点 地平线、文远、小鹏、比亚迪、毫末等厂商加速投入量产研发 [2] - 2024年以来多模态融合、时间建模、实时性优化等技术突破推动BEV感知实际落地 部分团队将其作为核心模块融入自研自动驾驶栈 [2] - 纯视觉3D结合长时序算法显著提升检测性能 如StreamPETR、3DPPE等方法已接近LiDAR水平 [4] BEV关键技术解析 - BEVFormer采用隐式特征编码实现2D到3D空间变换 区别于BEVDet的显式深度估计方式 [4] - 时序建模中query为BEV query key/value包含历史BEV信息(pre_bev)和图像特征(image feature) [3] - BEVDet4D通过grid_sample warp实现2D图像到BEV空间的像素映射 依赖相机内外参和预定义网格进行坐标转换 [3] 轻量化与部署实践 - 车载部署常见方案包括BEVDet和BEVDepth的TensorRT版本 Fast-BEV因体量较小成为轻量化代表 [5] - 激光雷达检测需处理不同厂商传感器强度差异 现有方法可参考《LiDAR强度校正方法综述》但公开数据集未覆盖该问题 [5] 性能参数与优化方向 - BEV鸟瞰矩阵物理空间通常定义为50m范围 纯视觉方案稳定检测距离约50m 主要受数据质量限制 [6] - 远距离检测优化方案包括多模态融合 当前技术瓶颈集中在远距小物体识别和芯片推理速度 [6] - 工业界已在自主代客泊车场景实现BEV感知量产应用 [6] 行业生态与人才储备 - 自动驾驶之心知识星球聚集全球顶尖院校研究者 覆盖清华大学、ETH等机构 并与20+头部企业建立内推合作 [8] - 平台推动学术工程交流 提供从基础到进阶的算法与代码教学 支持行业资源对接 [8]
多模态内容生成的机会,为什么属于中国公司?
Founder Park· 2025-06-24 19:53
多模态技术发展现状 - 中国企业在视频生成、3D创作等多模态细分领域已跻身全球第一梯队,与美国在大语言模型领域的领先形成差异化竞争[1] - Pixverse的视频生成产品用户规模超过许多美国知名产品,VAST在3D技术上实现核心突破,Feeling AI探索多模态融合创新路径[1] - 中国团队在场景理解、数据积累和工程落地方面具备综合优势,抖音、快手等产品背后的视觉技术为视频生成奠定基础[7] 中国团队的核心优势 - 视频技术领域有多年积累,组织架构灵活性助力创新,全球用户量最大的视频生成产品多数来自国内团队[7] - 多模态领域技术路径尚未定型,中国丰富的应用场景和人才储备为创新提供沃土[7] - 差异化技术策略实现突破,3D领域从核心技术攻坚转向产品化落地,专注画质而非功能丰富性[8] 竞争格局与战略应对 - 面对阿里、腾讯等巨头的开源攻势,创业公司通过保持战略定力、聚焦细分需求寻找突破口[9] - 大厂竞争是创业公司的"成人礼",战略节奏领先是关键,先聚拢顶尖科学家实现技术突破,再转向产品化和商业化[9][10] - 开源是创业公司可以借力的东风,但难以满足特定场景需求,需要在开源基础上进行深度定制[12] 技术发展趋势 - 实时生成成为重点方向,Pixverse线上模型5秒生成5秒视频,目标实现真正实时生成[17] - 多模态融合趋势显著,GPT-4o强调的原生多模态实现训练时共享同一语义空间[14] - 3D生成转向自回归路线,生成模型面数低且拓扑结构类似人工建模,方便二次编辑[18] 产品与用户策略 - Pixverse采取双轨策略:网页版服务专业用户,移动端"拍我"App面向大众,模板化生成降低创作门槛[21][22] - VAST调整用户定位,从游戏玩家转向专业用户,打造完整3D创作工作流而非简单模型生成[25] - Feeling AI面向海外14-24岁年轻群体,结合游戏、创作和虚拟陪伴体验,模糊创作者与消费者界限[27][28] 未来目标与挑战 - Pixverse目标实现高质量实时视频生成,用户规模达3亿-5亿[37] - VAST希望降低3D创作门槛,探索可交互内容新生态,可能出现"3D版抖音"[37] - 行业共识是技术进步将让更多普通用户参与多模态创作,AI加速动态3D内容发展进程[33]
全模态数据闭环破局具身智能“粮荒”,零次方方案将机器人训练门槛拉至10万级
机器人大讲堂· 2025-06-19 18:55
中国机器人市场前景 - 2024年中国在全球机器人市场份额达40% [1] - 预计2024-2028年市场规模从470亿美元增至1080亿美元,年复合增长率23% [1] - 当前面临"数据荒"问题,72%研发团队认为多模态数据缺失是最大瓶颈 [1] 零次方全模态解决方案 - 覆盖数据采集设备、管理平台、模型训练与推理全流程 [2] - 起步价9.9万元,显著降低高质量数据获取门槛 [2] - 包含硬件核心ZERITH-H1人形机器人和配套软件系统 [7][12] 技术方案对比 - 视觉-关节融合方案(如ACT、Diffusion Policy)缺乏力学反馈 [5] - 语义-视觉-关节方案(如Pi0、GROOT)增强复杂任务理解 [5] - 视觉-关节-力联合建模(如RDP)提升精密操作鲁棒性 [5] ZERITH-H1硬件创新 - 拟人化身体架构,活动范围超越成年男性 [7] - 集成二维视觉、三维空间、关节、力触觉、声音等多模态传感器 [10] - 搭载高分辨率视触觉夹爪,源于清华AI&Robot实验室技术 [11] 软件系统优势 - ZERITH-VR APP实现超低延迟(逼近零延迟)遥操作 [14] - 单次连续运行超4小时,满足长时间采集需求 [14] - 数据管理平台具备分类、清洗、标注、检索等模块化功能 [17] 训练部署工具链 - 兼容主流开源算法框架(ACT、Diffusion Policy等) [19] - 集成Swanlab工具实现训练全过程监控与可视化 [19] - 可选配500TOPS算力主机提升推理效果 [22] 行业影响 - 解决方案首次让中小厂商以低于10万元获取实验室级数据资源 [23] - 数据供给能力成为智能制造领域竞争分水岭 [23] - 全模态架构可能重构人机协作产业格局 [23]
一口气发布4个大模型,火山引擎这次真的杀疯了!
搜狐财经· 2025-06-17 17:09
火山引擎AI产品发布 - 火山引擎发布豆包大模型1.6、豆包・视频生成模型Seedance 1.0 pro等新模型,支持多模态交互、复杂任务处理、内容生成等功能 [2] - 豆包大模型1.6在多模态理解和图形界面操作方面表现突出,能高效处理真实世界问题 [2] - Seedance 1.0 pro可生成1080P高品质视频,在Artificial Analysis评测榜单上文生视频、图生视频两项任务排名首位 [4] - 豆包大模型家族已形成丰富矩阵,涵盖基础语言模型、视觉模型、语音模型等,适用于智能交互、内容创作、数据分析等多元场景 [3] 产品技术优势 - 豆包大模型1.6在复杂推理、竞赛级数学、多轮对话和指令遵循等测试集上表现跻身全球前列 [3] - 豆包1.6系列模型支持自动操作浏览器完成酒店预订、识别购物小票并整理成Excel表格等复杂任务 [3] - Seedance 1.0 pro的主体运动稳定性与画面自然度达到行业领先水平 [4] - 豆包・实时语音模型支持方言演绎、悄悄话、唱歌等特色效果,语音播客模型让双人对话更加自然 [4] 行业应用案例 - 在汽车行业,梅赛德斯-奔驰利用豆包大模型提升智舱信息检索能力及系统反应速度 [8] - 在金融行业,海尔消金构建消费金融垂直大模型,满足90%以上智能化场景需求,解决95%的质量问题 [8] - 在教育行业,火山引擎与超五成985高校合作,浙江大学7天落地"浙大先生"大模型应用体系 [9] - 字节跳动内部AI编程产品TRAE月活用户超过100万,80%工程师使用该产品辅助开发 [12] 技术发展趋势 - 智能Agent将呈现多模态融合深化、边缘智能协同加强、自主学习与决策能力提升等趋势 [14] - 到2028年,至少15%的日常工作决策将借助Agentic AI自主完成 [12] - 边缘智能技术使智能Agent能在边缘设备上完成数据处理与决策,预计2026年全球75%数据在边缘侧处理 [14] - 新一代智能Agent将结合强化学习、元学习等技术,实现动态环境下的自主学习与策略优化 [14]
海天瑞声20250605
2025-06-06 10:37
纪要涉及的公司 海天瑞声 纪要提到的核心观点和论据 - **财务表现**:2024 年全年营收 2.37 亿元,同比增长 39.45%,毛利率提升至 66.46%,同比增加 10.45 个百分点,归母净利润 1134 万元,较上年同期改善 4172 万元,经营性现金流净额 2873 万元,同比增加 5978 万元;2025 年第一季度营收 6981 万元,同比增长 72%,毛利率 47.41%,归母净利润 37 万元,同比增长 101 万元 [2][3][14] - **应对全球市场机遇**:通过创新品牌营销拓展海外市场,构建全球化供应链和服务能力,在智能驾驶领域紧跟车企出海布局海外数据采集,优化算法和平台功能,推动 2024 年业绩增长 [5] - **核心能力建设成果**:2024 年在一体化平台建设和基础算法研究取得进展,包括升级智能驾驶数据处理平台、构建智能化数据运营平台、搭建 data x 数据中台、增厚算法储备并启动语音大模型自研项目 [6] - **构建差异化竞争壁垒**:确立科技引领战略,通过研发投入突破技术瓶颈,布局多模态融合等领域,针对自动驾驶点云标注提出动静态分类标注方案,依托标注工具链等保持领先 [7] - **智能驾驶标注领域创新**:推出多帧点云叠加及物体跟踪算法提升标注效率,向 4D 标注转化,自研 SLAM 算法优化泊车场景 4D 点云标注,开发智能分段加载解决方案突破边缘场景标注瓶颈 [2][8] - **语音识别和合成领域进展**:与清华合作启动语音大模型 Dolphin 训练项目,收集 21.2 万小时数据集,覆盖 40 种东方语种和 22 种中国方言,新增 11 个语种,深入核心场景并推出特色音色 [3][10] - **计算机视觉与自然语言处理领域**:计算机视觉打造多种数据集,自然语言处理构建思维链数据和高价值数据集,支撑大模型复杂推理和行业应用 [11] - **2025 年度计划**:以技术加产品双轮驱动,构建智能化数据管理平台,升级多模态数据产品矩阵,探索具身智能,扩充专业领域标注资源网络 [12] - **参与国家数字经济战略布局**:融入国家数字要素市场建设,与地方政府等合作构建数据治理与流通体系,联合高校培养人才,助力打造基地和新生态,开发解决方案赋能政企客户 [13] 其他重要但是可能被忽略的内容 - 2024 年公司获得国内外领军企业多类多模态数据订单,高毛利标准化数据及产品收入占比提升和定制服务毛利率改善推动业绩增长 [4] - 2025 年第一季度业绩增长得益于计算机视觉业务大型客户采购增加、自然语言处理业务垂直领域需求增长、海外业务拓展定制服务市场 [14]
让大模型从实验室走进产业园
21世纪经济报道· 2025-06-06 00:43
大模型在制造业的落地部署 - 工信部明确推动大模型在制造业重点行业落地部署 标志着中国人工智能发展从实验室迈向产业深水区 [1] - 制造业成为大模型技术转化的核心地带 涉及钢铁 汽车 电子等多个行业 [1] - 大模型重构中国制造底层逻辑 推动生产模式 组织形态和价值创造方式的系统性重塑 [1] 制造业数字化转型的挑战 - 传统制造企业面临数据孤岛难以打通 工艺知识难以沉淀 决策响应难以实时等"三难"问题 [1] - 汽车行业因供应链中断导致月度产能损失数亿元 传统ERP系统难以预测零部件短缺风险 [1] - 家电企业焊接机器人缺乏自适应算法 导致产品不良率居高不下 [1] 大模型的突破性价值 - 大模型具备"认知+推理+生成"三位一体能力 通过训练海量行业数据模拟人类工程师经验判断 [2] - 钢铁行业某产线采用大模型自动排程 编制效率提升40% 轧硬卷周转周期缩短12% 减少返回卷35% 年均增效超千万元 [2] - 大模型是制造业"知识资产化"的关键载体 而非简单工具叠加 [2] 大模型技术实现路径 - 数据驱动的智能决策 某化工企业利用大模型监控5000+参数 产品合格率提升至99.8% [2] - 多模态融合应用创新 某电子企业视觉大模型与NLP模型协同 外观缺陷识别准确率达99.7% 检测效率提升300% [3] - "边缘—云端"协同部署架构 某装备制造企业部署边缘计算节点 实时处理设备振动数据 [3] 大模型落地面临的挑战 - 数据壁垒 制造企业数据分散在ERP MES SCADA等系统中 存在安全顾虑 [3] - 人才缺口 既懂制造工艺又擅长AI建模的复合型人才不足 深圳职院"工业AI工程师"专业年均培养3000名毕业生 [3] - 投资回报周期长 中小企业难以承受初期投入 北京经开区对模型部署费用给予50%补贴 带动本地AI服务商数量增长40% [3] 政策创新与战略路径 - 针对离散制造业推广"AI微工厂"模式 针对流程制造业建立"行业模型库"共享共性算法资源 [4] - 中国制造业战略路径独特 以海量场景倒逼大模型进化 依托41个工业大类的全产业链纵深优势 [4] - 工信部"揭榜挂帅"机制推动AI芯片 工业软件等领域协同攻关 [5] 大模型与制造业融合的长期影响 - 推动中国制造从"规模扩张"向"质量跃升"的价值跨越 [5] - 实现从"要素驱动"向"创新驱动"的动力跨越 [5] - 完成从"产业跟随"向"标准引领"的地位跨越 [5]
人形机器人专题:2025具身智能产业发展趋势研究及安全威胁分析报告
搜狐财经· 2025-06-05 04:55
具身智能产业概述 - 具身智能定义为基于物理身体进行感知和行动的智能系统,强调智能行为是身体与环境动态交互的结果[12] - 区别于传统AI,具身智能具备物理交互性、环境适应性和生产力型技能三大特征[13][14] - 主要形态包括类人机器人(如特斯拉Optimus)、仿生机器人(如波士顿动力Spot)和环境嵌入式系统(如达芬奇手术机器人)[15] 技术体系 - 核心技术框架为"感知-决策-行动-反馈"闭环: - 感知模块融合视觉/听觉/触觉等多模态数据,采用CNN等算法实现环境解析[19][20] - 决策模块依托GPT/RT-2等大模型进行任务规划,采用分层或端到端模型架构[21][22] - 行动模块结合机器人学与仿生学技术实现精密运动控制[22][23] - 反馈模块通过强化学习与物联网技术持续优化行为策略[23][24] 全球市场发展 - 2024年市场规模25.335亿美元,预计2033年达87.565亿美元(CAGR 15%)[35] - 美国主导技术生态(特斯拉/英伟达等),欧盟侧重伦理治理,日韩聚焦产业协同[1][37] - 商业模式包括软硬结合整机销售(特斯拉)、API接口收费(英伟达)和垂直领域解决方案(ABB)[36] 中国产业现状 - 2023年市场规模4186亿元,政策从国家到地方分层布局(北京/上海/深圳)[1] - 华为/优必选等企业在大模型和机器人本体领域取得突破[1] - 核心挑战包括高端伺服电机国产化率不足60%、数据采集成本高、标准不统一等[1] 技术发展趋势 - 多模态融合与数据生态标准化加速技术泛化[29] - 仿真平台(如"慧思开物")重塑研发模式[30] - 场景商业化分阶段推进:工业优先(机械臂)、家庭长期培育(服务机器人)[30] - 材料革命推动柔性电子皮肤等新型产品形态[31] 产业链构成 - 上游:传感器/芯片等核心零部件[25] - 中游:机器人本体制造与系统集成[25] - 下游:工业/医疗/物流/家庭等应用场景[25] 安全挑战 - 数实融合攻击可能引发物理系统破坏[32] - 多维度数据采集存在隐私泄露风险[32] - 自主决策事故责任界定困难[33]