多模态大模型
搜索文档
机器人产业跟踪:龙头引领下的灵巧手即将升级,景气度有望提升
东方证券· 2025-09-14 10:12
行业投资评级 - 机械设备行业评级为看好(维持)[6] 核心观点 - 特斯拉推出新一代灵巧手,灵巧手行业的自由度和功能等指标有望再次升级,看好灵巧手产业链景气度上升[3] - 特斯拉灵巧手技术已迭代三次,从第一代11个自由度提升到第三代22个自由度,新一代灵巧手每个手臂有26个执行器,自由度有望继续增加[9][10] - 灵巧手产业有望跟随特斯拉升级自由度和功能,因灵巧手的数据采集有助于大模型升级并实现具身智能更快落地[9][13] - 灵巧手自由度的提升将带来更高产品价值,因需要更多执行器或驱动传动环节,以及结构和部件升级[9][14] 相关公司 - 震裕科技(300953,买入)[3] - 汉威科技(300007,未评级)[3] - 南山智尚(300918,未评级)[3] - 鸣志电器(603728,未评级)[3] 技术发展 - 特斯拉第一代灵巧手采用仿生五指结构设计,单手拥有11个自由度(6主动+5被动)[10] - 第三代灵巧手自由度提升到22个,主动自由度由6个提升至17个,驱动系统由内置改为外置[10] - 新一代灵巧手每个手臂有26个执行器,包括26个电机、齿轮箱和电力电子设备[10] 产业影响 - 灵巧手作为机器人与物理环境交互的末端执行器,集成了力/力矩/温度/触觉等传感器,构成多模态数据采集平台[9][13] - 多传感器数据采集增强了数据多样性和复杂性,有利于提升AI训练效率和模型泛化能力[9][13] - 灵巧手控制主要通过强化学习、模型驱动学习、模仿学习等方法实现,仍需依赖多模态大模型的持续进步[13]
前京东智能驾驶一号位创业,「星源智」要打造通用具身大脑丨36氪独家
36氪· 2025-09-12 07:46
公司背景与融资 - 前京东智能驾驶负责人刘东创立星源智 旨在通过具身智能解决物流末端配送难题[5][7] - 公司完成2亿元天使轮融资 投资方包括中科创星、高瓴创投、元禾原点等机构及产业资本[9] - 技术团队由商业化专家与学术研究者组成 形成"技术+工程+商业"复合能力[9] 技术路线选择 - 放弃纯端到端VLA模型路线 因缺乏低成本真机数据获取方案[11][23] - 采用分层式架构:大脑负责感知规划(基于多模态大模型) 小脑负责运动控制[12][22] - 自研核心抓取与导航技能 同时保持对VLA操作模型的调用能力[24] 商业化策略 - 双轨商业模式:50%作为Tier 1供应商向本体厂商提供软硬件一体解决方案(含5万元/套域控制器) 50%作为总承包方直接服务终端客户[30][32][33] - 定位"具身智能领域的华为" 通过深入场景理解需求反哺技术迭代[32] - 预计单台10万元机器人解决方案中 公司可获取近50%价值量[33] 落地场景规划 - 首选商超/药店拣选场景 因夜间人力替代需求明确且ROI易测算(月成本<2000元/机器人)[36][38] - 技术难点在于细粒度物品识别(当前仅能区分20%SKU)与异形物品抓取[40][41] - 2025年实现拣选机器人规模化落地 同步推进导览导购类低难度场景[42][43] 行业发展判断 - 具身智能需遵循"先落地后迭代"路径 参照特斯拉自动驾驶发展历程[23][46] - 行业存在技术理想主义与商业化务实路线分歧 公司坚持落地能力为生存第一要素[13][46] - 物流行业超2000万分拣从业人员构成替代市场基础[36]
转行自动驾驶算法之路 - 学习篇
自动驾驶之心· 2025-09-11 07:33
开学季促销活动 - 推出299元超级折扣卡 一年有效期内购买全平台课程享受七折优惠 [3] - 自动驾驶之心知识星球立减88元 [3] - 课程消费满1000元赠送2门带读课程 八选二 [3] - 自动驾驶论文辅导1000元最高抵扣10000元 [3] - 自动驾驶1v6小班课限时立减1000元 [3] - 全平台硬件优惠包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂双臂方案 [3] 自动驾驶技术课程体系 - 端到端与VLA自动驾驶课程覆盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等技术方向 [6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注技术 解决动静态元素 OCC和轨迹标注等复杂需求 [11] - 多模态大模型与自动驾驶实战课程涵盖通用多模态大模型 大模型微调 端到端自动驾驶多模态大模型 [15][16] - BEV感知全栈系列教程包含毫米波雷达视觉融合 激光雷达视觉融合 3D4D毫米波雷达 车道线检测 Occupancy占用网络等技术模块 [19] - 多传感器标定融合课程提供标定技术方案 [20] - 模型部署课程包含CUDA与TensorRT部署实战 BEV模型部署实战 [21] - 规划控制与预测课程涵盖规划控制理论实战 轨迹预测理论与实战 [21] - 自动驾驶仿真与开发课程提供Carla-Autoware联合仿真 面向量产的C++实战教程 [22] - 科研辅导课程包括自动驾驶与CV领域通用论文辅导 NeRF与自动驾驶论文带读 [22] 教学服务特色 - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 [29] - 小班课聚焦实际工作需求 解决量产痛点 分享面试亮点 [23][24] - 提供简历辅导和面试辅导环节 针对秋招社招需求 [24][25] - 课程学员可获岗位推荐 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等企业 [41] 硬件与开发支持 - 硬件平台支持包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂平台 桌面级机械臂平台 数采夹爪方案 [3] - 开发环境要求本地电脑配备GPU 显存至少12GB 支持CUDA加速 [36] - 提供Ubuntu开发环境支持 课程代码规范基于Apollo等工业级框架 [36]
击败英伟达,全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球!
机器人圈· 2025-09-10 17:07
近日,优必选自主研发的人形机器人 Walker 最强大脑——百亿参数基座的多模态大模型:优必选 Thinker ,在 机器人感知与规划领域三大国际权威基准测试——分别由微软、谷歌等发起与提出的 MS COCO Detection Challenge 、 RoboVQA 与 Egoplan-bench2 中,针对二十一个场景、四大类型的任务规划等命题,优必选一举 斩获四项全球榜单第一。榜单吸引了来自英伟达、北京智源研究院、上海 AI Lab 等全球顶尖团队,角逐激烈。优 必选这次取得的成绩不仅体现了其机器人在复杂环境感知、语义理解与长程任务规划方面的全方位技术领先性, 也标志着人形机器人 Walker S 系列的"最强大脑"实现关键进化。 多模态感知+强推理规划 赋能工业场景规模化应用 在智能化浪潮席卷全球的当下,人形机器人的规划能力已成为关键竞争维度之一。传统机器人系统依赖预设指令 执行任务,难以应对高度动态、多变的现实场景。而本次三大基准测试的核心,正是针对人形机器人在复杂环境 中的多模态感知和推理规划能力进行系统化验证。 MS COCO detection challenge 由微软发起,是计算机视觉领域 ...
全球首个L4级能源AI Agent,预测准确率较传统方法提升30%以上 | 创新场景
钛媒体APP· 2025-09-08 09:13
核心技术架构 - 采用ILM多模态大模型作为AI决策大脑,具备复杂场景理解和推理能力 [1][2] - 基于HEE超级能源引擎技术底座,提供强大数据处理和计算能力支撑 [1][2] - 实现主动感知、自主决策、智能执行的完整闭环,支持多模态数据融合处理 [2] 技术突破 - 从L3到L4跨越,实现从有条件自主到完全自主的技术突破 [4] - 突破单一数据源限制,实现文本、数值、图像、时序数据的全方位信息感知 [2][4] - 具备毫秒级响应速度,满足能源市场高频交易需求 [2][4] - 主动意识算法支持7x24小时自主监控市场变化 [2][4] 性能指标 - 短期负荷预测准确率达98.5%,较传统方法提升30%以上 [4] - 电价预测精度提升35%,风险预测准确率达到95% [4] - 决策响应时间从分钟级提升至毫秒级,峰值处理能力提升10倍 [4] - 系统可用性达到99.9%以上,支持大规模并发处理 [4] 应用场景 - 自主监控电力现货市场和辅助服务市场多个交易品种 [2] - 实时优化分布式能源资源配置,协调发电、储能和负荷侧资源 [2] - 基于电价预测优化储能系统充放电策略,提升经济性和运行效率 [2] - 已在多个省份电力交易中心部署,累计处理交易额超百亿元 [4] 商业成效 - 试点项目交易收益较传统方法提升25-40% [4] - 运营成本降低30%以上,人力投入减少60% [4] - 每1%准确率提升可在万亿级能源市场节省数亿元成本 [4] - 服务客户覆盖发电企业、售电公司和工业用户等多类型 [4] 行业影响 - 推动能源行业向智能化、数字化方向发展 [6] - 为传统能源企业提供转型升级技术路径 [6] - 通过智能优化提升可再生能源消纳率,助力双碳目标实现 [4] - 作为全球首个L4级能源AI Agent,树立行业技术标杆 [1][6]
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-07 00:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]
自动驾驶之心开学季火热进行中,所有课程七折优惠!
自动驾驶之心· 2025-09-07 00:05
开学季促销活动 - 推出299元超级折扣卡 自购买之日起一年内购买平台任意课程享受七折优惠 包括后续新课程[3][5] - 课程福利满1000元赠送2门带读课程 八选二[3][46] - 自动驾驶之心知识星球立减88元[3][46] - 自动驾驶论文辅导1000元最高抵扣10000元[3][46] - 自动驾驶1v6小班课限时福利立减1000元[3][46] - 全平台硬件优惠包括全栈教研平台黑武士001 足式/强化学习科研平台TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂+双臂方案[3][46] 自动驾驶前沿课程方向 - 端到端与VLA自动驾驶作为智驾量产核心算法 分为一段式端到端和二段式端到端两个技术方向[6] - 端到端自动驾驶通过传感器数据输入直接输出自车规划或控制信息 需要掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等知识[6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注 解决端到端和VLA训练数据需求复杂化问题 需要时间同步后传感器统一标注动静态元素 OCC和轨迹等[11] - 多模态大模型与自动驾驶实战课程系统化学习从通用多模态大模型到大模型微调 最终聚焦端到端自动驾驶多模态大模型[15][16] 课程体系与师资 - 平台课程涵盖BEV感知全栈系列教程 毫米波雷达视觉融合 激光雷达视觉融合 3D&4D毫米波雷达 车道线检测 Occupancy占用网络等方向[19] - 模型部署课程包括CUDA与TensorRT部署实战 BEV模型部署实战[21] - 规划控制与预测课程包含规划控制理论&实战教程 轨迹预测理论与实战教程[21] - 讲师团队包括C9本科+QS50 PhD背景的算法专家 具备CCF-A论文发表和量产交付经验[8][12][18] 小班课特色与就业支持 - 小班课聚焦实际工作需求 解决规控研究深水区内容 量产实战项目 简历修改和面试指导等问题[23][24] - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 解决小白常踩的坑和工程问题[29] - 对接理想 地平线 百度 上海人工智能实验室 蔚来汽车 小鹏汽车 华为车BU 大疆等公司 学员完成课程后可进行岗位推荐 绕开官网投递[41] - 提供自动驾驶之心知识星球和AutoRobo求职星球 第一时间获取最新岗位和技术信息[42]
筹备了很久,下周和大家线上聊一聊~
自动驾驶之心· 2025-09-05 15:50
社区活动与交流 - 计划举办线上交流活动 针对自动驾驶多个技术方向收集问题并进行交流 [1] - 社区成员主要分布在头部自驾公司 互联网公司 Top高校实验室和传统机器人公司 形成工业界和学术界互补的态势 [3] - 社区已建立超过100场专业技术直播 邀请学术界和工业界大佬分享最新研究成果 [52] 社区规模与内容 - 自动驾驶之心知识星球目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [5] - 社区内容涵盖近40个自动驾驶技术方向 包括多模态大模型 VLM 端到端自动驾驶 规划控制 多传感器融合等 [3][5] - 社区提供视频 图文 学习路线 问答和求职交流为一体的综合服务 并梳理了40+技术路线 [5] 技术资源与学习 - 汇总近40+开源项目 近60+自动驾驶数据集 行业主流仿真平台以及各类技术学习路线 [12] - 提供全栈方向学习课程 适合0基础入门 同时为进阶者提供产业体系和项目方案 [8][10] - 社区内部包含自动驾驶感知 仿真 规划控制等学习路线 以及VLA 多模态大模型等前沿技术内容 [12][13] 行业合作与就业 - 与多家自动驾驶公司建立岗位内推机制 帮助成员将简历送至心仪公司 [8] - 社区成员来自国内外知名高校和头部企业 包括上海交大 清华大学 CMU 蔚小理 地平线 华为 英伟达等 [12] - 提供求职交流 行业机会挖掘 投资与项目对接等服务 [16] 技术方向覆盖 - 详细梳理端到端自动驾驶 VLM VLA 世界模型 扩散模型 BEV感知 3D目标检测等多领域内容 [25][26][28][29][31][34][36] - 涵盖规划控制 多传感器融合 在线高精地图 Occupancy Network 轨迹预测 强化学习等关键技术 [32][37][38][40] - 包括传感器标定 模型部署 CUDA 仿真框架等工程实践内容 [7][43][46] 直播与专家分享 - 直播内容覆盖VLA 3D检测 扩散模型规划器 神经符号系统等前沿话题 [52] - 邀请学术界和工业界专家分享最新研究成果 如Impromptu VLA DetAny3D模型等 [52] - 提供超过100场专业技术直播 部分内容可反复观看 [52]
开学了,需要一个报团取暖的自驾学习社区...
自动驾驶之心· 2025-09-05 07:33
自动驾驶行业招聘与求职 - 金九银十为秋招关键期 业内tier 1公司已开始发放测试岗位offer 但部分求职者仍希望冲刺算法岗[1] - 行业招聘需求集中在感知算法、端到端自动驾驶、4D标注、多模态大模型等前沿方向[7][11][14] - 主流车企与科技公司包括理想、地平线、百度、上海人工智能实验室、蔚来、小鹏、华为车BU、大疆等均开放岗位[38] - 课程学员可获得直接推荐至算法开发负责人的机会 绕过官网投递流程[38] 自动驾驶技术发展趋势 - 端到端自动驾驶成为智驾量产核心算法 分为一段式与二段式技术方向 理想汽车已宣布E2E+VLM双系统架构量产[7] - 2024年端到端技术需融合多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识[8] - 4D自动标注算法需求激增 因端到端训练需时间同步后的传感器统一标注动静态元素、OCC和轨迹等[11] - 多模态大模型与自动驾驶结合成为新兴领域 学术界论文爆发 工业界融资案例快速增长[14] 专业培训课程体系 - 推出299元超级折扣卡 一年期内享受全平台课程七折优惠[4][6] - 开设端到端与VLA自动驾驶小班课 涵盖多模态大模型、BEV感知、强化学习等核心技术[7][8] - 4D自动标注算法就业小班课聚焦数据闭环算法开发与工程化落地[11][12] - 多模态大模型实战课程系统化覆盖从通用模型到端到端自动驾驶应用[14][15] - 感知系列课程包括BEV感知全栈、毫米波雷达视觉融合、激光雷达视觉融合等16个模块[16] - 规划控制与预测课程包含轨迹预测理论与实战、规划控制小班课等[18] - 模型部署课程涵盖CUDA与TensorRT部署、BEV模型部署实战[18] 硬件与科研平台 - 全栈教研平台黑武士001支持全流程开发[4][43] - 足式/强化学习科研平台TRON1针对进阶研究[4][43] - 四足机械狗+机械臂科研平台整合运动控制与操作[4][43] - 桌面级机械臂科研平台适用于轻量级实验[4][43] - 数采夹爪提供单臂与双臂方案 支持数据采集任务[4][43] 学习与交流机制 - 每门课程配备专属VIP交流群 主讲老师每日群内交流并定期直播答疑[26] - 重点解决小白常踩坑问题、工程常见问题及后续研究方向[26] - 实际讨论内容涵盖模型微调(如Florence2)、TensorRT部署、多模态数据标注等实操问题[28][29][32] 工程实践与挑战 - 车端部署需满足低于100毫秒响应时间的理想目标 复杂场景要求成功率99.9%以上[34] - 转向角误差需小于1度(理想目标)或2度(可接受范围)[34] - 加速制动误差需小于0.1 m/s²(理想目标)或0.2 m/s²(可接受范围)[34] - 传感器升级(如相机200万→800万像素)可能需重构数据集与模型重新训练[36] - 多传感器联合标定采用在线标定与优化结合方式 依赖高精地图投影验证精度[36]
国投智能(300188.SZ):已将多模态能力应用到了视觉理解和增强上
格隆汇· 2025-09-04 15:26
多模态大模型技术应用进展 - 通过动态规则及指令将多模态大模型广泛应用于行为识别、场景分析、风险预警及应急指挥等领域 为每一路视频构建智慧大脑系统 [1] - 在视频流全面感知过程中应用多模态技术 从视频中获取目标事件信息并形成完整的信息认知图景 [1] - 智能穿戴设备领域应用多模态能力于视觉理解与增强 结合数据和服务资源实现业务场景与数据能力的联动 [1] 业务赋能方向 - 多模态大模型技术全面赋能公司各业务线 覆盖视频分析、行为识别及智能指挥等核心业务场景 [1] - 技术应用延伸至智能穿戴设备领域 强化视觉理解与数据服务资源的协同效应 [1]