多模态大模型

搜索文档
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 11:59
OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到 数十轮 。 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。由字 节、香港大学团队联合开发。 跨越数十个步骤的深度推理 最近的多模态大模型虽然能通过"图像工具+强化学习"处理视觉问题,但现有开源方案存在很大的短板: 比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。 而Mini-o3突破了上述局限——它能够进行 长达数十个步骤的深度多轮推理 ,在高难度视觉搜索任务中达到了当前最佳水平。 这得益于它的三个关键设计: 第一,研究团队构建了视觉探测数据集VisualProbe,包含数千个专为探索式推理设计的视觉搜索难题; 第二,开发了迭代式数据收集流程,让模型能学会深度优先搜索、试错探索、目标维持等多样化推理策略; 第三,提出超轮次掩码策略,在强化学习中避免对达到最大交互轮次的响应进行惩罚,从而平 ...
招聘几位大佬,打算共创平台(世界模型/模型部署)
自动驾驶之心· 2025-09-14 11:44
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶技术[3] - 涉及具身交互、联合预测、SLAM及3D目标检测领域[3] - 布局世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿方向[3] 人才招募标准 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励机制[5] - 开放创业项目合作与推荐机会[5]
机器人产业跟踪:龙头引领下的灵巧手即将升级,景气度有望提升
东方证券· 2025-09-14 10:12
行业投资评级 - 机械设备行业评级为看好(维持)[6] 核心观点 - 特斯拉推出新一代灵巧手,灵巧手行业的自由度和功能等指标有望再次升级,看好灵巧手产业链景气度上升[3] - 特斯拉灵巧手技术已迭代三次,从第一代11个自由度提升到第三代22个自由度,新一代灵巧手每个手臂有26个执行器,自由度有望继续增加[9][10] - 灵巧手产业有望跟随特斯拉升级自由度和功能,因灵巧手的数据采集有助于大模型升级并实现具身智能更快落地[9][13] - 灵巧手自由度的提升将带来更高产品价值,因需要更多执行器或驱动传动环节,以及结构和部件升级[9][14] 相关公司 - 震裕科技(300953,买入)[3] - 汉威科技(300007,未评级)[3] - 南山智尚(300918,未评级)[3] - 鸣志电器(603728,未评级)[3] 技术发展 - 特斯拉第一代灵巧手采用仿生五指结构设计,单手拥有11个自由度(6主动+5被动)[10] - 第三代灵巧手自由度提升到22个,主动自由度由6个提升至17个,驱动系统由内置改为外置[10] - 新一代灵巧手每个手臂有26个执行器,包括26个电机、齿轮箱和电力电子设备[10] 产业影响 - 灵巧手作为机器人与物理环境交互的末端执行器,集成了力/力矩/温度/触觉等传感器,构成多模态数据采集平台[9][13] - 多传感器数据采集增强了数据多样性和复杂性,有利于提升AI训练效率和模型泛化能力[9][13] - 灵巧手控制主要通过强化学习、模型驱动学习、模仿学习等方法实现,仍需依赖多模态大模型的持续进步[13]
前京东智能驾驶一号位创业,「星源智」要打造通用具身大脑丨36氪独家
36氪· 2025-09-12 07:46
公司背景与融资 - 前京东智能驾驶负责人刘东创立星源智 旨在通过具身智能解决物流末端配送难题[5][7] - 公司完成2亿元天使轮融资 投资方包括中科创星、高瓴创投、元禾原点等机构及产业资本[9] - 技术团队由商业化专家与学术研究者组成 形成"技术+工程+商业"复合能力[9] 技术路线选择 - 放弃纯端到端VLA模型路线 因缺乏低成本真机数据获取方案[11][23] - 采用分层式架构:大脑负责感知规划(基于多模态大模型) 小脑负责运动控制[12][22] - 自研核心抓取与导航技能 同时保持对VLA操作模型的调用能力[24] 商业化策略 - 双轨商业模式:50%作为Tier 1供应商向本体厂商提供软硬件一体解决方案(含5万元/套域控制器) 50%作为总承包方直接服务终端客户[30][32][33] - 定位"具身智能领域的华为" 通过深入场景理解需求反哺技术迭代[32] - 预计单台10万元机器人解决方案中 公司可获取近50%价值量[33] 落地场景规划 - 首选商超/药店拣选场景 因夜间人力替代需求明确且ROI易测算(月成本<2000元/机器人)[36][38] - 技术难点在于细粒度物品识别(当前仅能区分20%SKU)与异形物品抓取[40][41] - 2025年实现拣选机器人规模化落地 同步推进导览导购类低难度场景[42][43] 行业发展判断 - 具身智能需遵循"先落地后迭代"路径 参照特斯拉自动驾驶发展历程[23][46] - 行业存在技术理想主义与商业化务实路线分歧 公司坚持落地能力为生存第一要素[13][46] - 物流行业超2000万分拣从业人员构成替代市场基础[36]
转行自动驾驶算法之路 - 学习篇
自动驾驶之心· 2025-09-11 07:33
开学季促销活动 - 推出299元超级折扣卡 一年有效期内购买全平台课程享受七折优惠 [3] - 自动驾驶之心知识星球立减88元 [3] - 课程消费满1000元赠送2门带读课程 八选二 [3] - 自动驾驶论文辅导1000元最高抵扣10000元 [3] - 自动驾驶1v6小班课限时立减1000元 [3] - 全平台硬件优惠包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂双臂方案 [3] 自动驾驶技术课程体系 - 端到端与VLA自动驾驶课程覆盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等技术方向 [6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注技术 解决动静态元素 OCC和轨迹标注等复杂需求 [11] - 多模态大模型与自动驾驶实战课程涵盖通用多模态大模型 大模型微调 端到端自动驾驶多模态大模型 [15][16] - BEV感知全栈系列教程包含毫米波雷达视觉融合 激光雷达视觉融合 3D4D毫米波雷达 车道线检测 Occupancy占用网络等技术模块 [19] - 多传感器标定融合课程提供标定技术方案 [20] - 模型部署课程包含CUDA与TensorRT部署实战 BEV模型部署实战 [21] - 规划控制与预测课程涵盖规划控制理论实战 轨迹预测理论与实战 [21] - 自动驾驶仿真与开发课程提供Carla-Autoware联合仿真 面向量产的C++实战教程 [22] - 科研辅导课程包括自动驾驶与CV领域通用论文辅导 NeRF与自动驾驶论文带读 [22] 教学服务特色 - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 [29] - 小班课聚焦实际工作需求 解决量产痛点 分享面试亮点 [23][24] - 提供简历辅导和面试辅导环节 针对秋招社招需求 [24][25] - 课程学员可获岗位推荐 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等企业 [41] 硬件与开发支持 - 硬件平台支持包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂平台 桌面级机械臂平台 数采夹爪方案 [3] - 开发环境要求本地电脑配备GPU 显存至少12GB 支持CUDA加速 [36] - 提供Ubuntu开发环境支持 课程代码规范基于Apollo等工业级框架 [36]
击败英伟达,全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球!
机器人圈· 2025-09-10 17:07
近日,优必选自主研发的人形机器人 Walker 最强大脑——百亿参数基座的多模态大模型:优必选 Thinker ,在 机器人感知与规划领域三大国际权威基准测试——分别由微软、谷歌等发起与提出的 MS COCO Detection Challenge 、 RoboVQA 与 Egoplan-bench2 中,针对二十一个场景、四大类型的任务规划等命题,优必选一举 斩获四项全球榜单第一。榜单吸引了来自英伟达、北京智源研究院、上海 AI Lab 等全球顶尖团队,角逐激烈。优 必选这次取得的成绩不仅体现了其机器人在复杂环境感知、语义理解与长程任务规划方面的全方位技术领先性, 也标志着人形机器人 Walker S 系列的"最强大脑"实现关键进化。 多模态感知+强推理规划 赋能工业场景规模化应用 在智能化浪潮席卷全球的当下,人形机器人的规划能力已成为关键竞争维度之一。传统机器人系统依赖预设指令 执行任务,难以应对高度动态、多变的现实场景。而本次三大基准测试的核心,正是针对人形机器人在复杂环境 中的多模态感知和推理规划能力进行系统化验证。 MS COCO detection challenge 由微软发起,是计算机视觉领域 ...
全球首个L4级能源AI Agent,预测准确率较传统方法提升30%以上 | 创新场景
钛媒体APP· 2025-09-08 09:13
核心技术架构 - 采用ILM多模态大模型作为AI决策大脑,具备复杂场景理解和推理能力 [1][2] - 基于HEE超级能源引擎技术底座,提供强大数据处理和计算能力支撑 [1][2] - 实现主动感知、自主决策、智能执行的完整闭环,支持多模态数据融合处理 [2] 技术突破 - 从L3到L4跨越,实现从有条件自主到完全自主的技术突破 [4] - 突破单一数据源限制,实现文本、数值、图像、时序数据的全方位信息感知 [2][4] - 具备毫秒级响应速度,满足能源市场高频交易需求 [2][4] - 主动意识算法支持7x24小时自主监控市场变化 [2][4] 性能指标 - 短期负荷预测准确率达98.5%,较传统方法提升30%以上 [4] - 电价预测精度提升35%,风险预测准确率达到95% [4] - 决策响应时间从分钟级提升至毫秒级,峰值处理能力提升10倍 [4] - 系统可用性达到99.9%以上,支持大规模并发处理 [4] 应用场景 - 自主监控电力现货市场和辅助服务市场多个交易品种 [2] - 实时优化分布式能源资源配置,协调发电、储能和负荷侧资源 [2] - 基于电价预测优化储能系统充放电策略,提升经济性和运行效率 [2] - 已在多个省份电力交易中心部署,累计处理交易额超百亿元 [4] 商业成效 - 试点项目交易收益较传统方法提升25-40% [4] - 运营成本降低30%以上,人力投入减少60% [4] - 每1%准确率提升可在万亿级能源市场节省数亿元成本 [4] - 服务客户覆盖发电企业、售电公司和工业用户等多类型 [4] 行业影响 - 推动能源行业向智能化、数字化方向发展 [6] - 为传统能源企业提供转型升级技术路径 [6] - 通过智能优化提升可再生能源消纳率,助力双碳目标实现 [4] - 作为全球首个L4级能源AI Agent,树立行业技术标杆 [1][6]
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-07 00:05
自动驾驶中有"纯血vla"吗? Q1:每个数据集的相机数量不一样,这里是怎么处理的? 每个数据集的相机数量不同。VLM模型能够支持不同数量图像的输入,因此在Prompt中可以提供不同数量 的图像token输入,模型能够自动处理,无需明确指定相机数量。 Q2:vla中的action是怎么做的,直接用大模型输出文本形式的轨迹吗? 对于轨迹输出,我们直接通过模型以文本形式输出,并在Prompt中限制输出格式为XY坐标。数据中的QA 部分,包括轨迹预测,均基于当前车辆坐标系给出。 本文内容均出自『自动驾驶之心知识星球』 ,星球内部汇总了诸多关于端到端和VLA的学术界和工业界的 问题讨论、技术交流、大佬问答及岗位分享! 更多内容欢迎加入知识星球,和4000人一起同行~ Q3:输出轨迹是在图片上的坐标吗? 最后通过视频验证结果,输出的轨迹并非图像坐标,而是相对于当前车辆的坐标。例如,当前车辆坐标为 原点(0,0)(0,0)(0,0),预测结果为相对于该原点的(x,y)(x,y)(x,y)值。若需映射到图像,则需更多相 机内参数据。不同数据集提供的数据各异:如NuScenes数据集包含相机内参,而Motioniary等数据 ...
自动驾驶之心开学季火热进行中,所有课程七折优惠!
自动驾驶之心· 2025-09-07 00:05
值此开学季之际,我们为大家准备了重磅学习礼包: 1. 重磅推出299元超级折扣卡(一年期有效):购买后,享受全平台课程七折优惠; 2. 自动驾驶之心知识星球立减88; 3. 课程福利放送:满1000元赠送2门带读课程(八选二); 4. 自动驾驶论文辅导1000最高抵扣10000; 5. 自动驾驶1v6小班课限时福利立减1000; 6. 全平台硬件优惠: 全栈教研平台黑武士001 足式/强化学习科研平台:TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪(单臂+双臂方案) 超级折扣卡 重点介绍下我们最新推出的超级折扣卡!活动期间购买有效, 自购买之日起一年时间内,购买平台任意课程均享受七折优惠,包括后续推出的新课程呦~ 自动驾驶前沿课程 2025年我们重点推荐以下自动驾驶技术方向。 1)端到端与VLA自动驾驶 端到端自动驾驶(End-to-End Autonomous Driving)作为目前智驾量产的核心算法,可以分为一段式端到端、二段式端到端两个大的技术方向。自UniAD获得 CVPR Best Paper以来,正式拉开了国内新一轮的智驾军备竞赛。2024年理想汽车更是宣布E2E+VLM ...
筹备了很久,下周和大家线上聊一聊~
自动驾驶之心· 2025-09-05 15:50
社区活动与交流 - 计划举办线上交流活动 针对自动驾驶多个技术方向收集问题并进行交流 [1] - 社区成员主要分布在头部自驾公司 互联网公司 Top高校实验室和传统机器人公司 形成工业界和学术界互补的态势 [3] - 社区已建立超过100场专业技术直播 邀请学术界和工业界大佬分享最新研究成果 [52] 社区规模与内容 - 自动驾驶之心知识星球目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [5] - 社区内容涵盖近40个自动驾驶技术方向 包括多模态大模型 VLM 端到端自动驾驶 规划控制 多传感器融合等 [3][5] - 社区提供视频 图文 学习路线 问答和求职交流为一体的综合服务 并梳理了40+技术路线 [5] 技术资源与学习 - 汇总近40+开源项目 近60+自动驾驶数据集 行业主流仿真平台以及各类技术学习路线 [12] - 提供全栈方向学习课程 适合0基础入门 同时为进阶者提供产业体系和项目方案 [8][10] - 社区内部包含自动驾驶感知 仿真 规划控制等学习路线 以及VLA 多模态大模型等前沿技术内容 [12][13] 行业合作与就业 - 与多家自动驾驶公司建立岗位内推机制 帮助成员将简历送至心仪公司 [8] - 社区成员来自国内外知名高校和头部企业 包括上海交大 清华大学 CMU 蔚小理 地平线 华为 英伟达等 [12] - 提供求职交流 行业机会挖掘 投资与项目对接等服务 [16] 技术方向覆盖 - 详细梳理端到端自动驾驶 VLM VLA 世界模型 扩散模型 BEV感知 3D目标检测等多领域内容 [25][26][28][29][31][34][36] - 涵盖规划控制 多传感器融合 在线高精地图 Occupancy Network 轨迹预测 强化学习等关键技术 [32][37][38][40] - 包括传感器标定 模型部署 CUDA 仿真框架等工程实践内容 [7][43][46] 直播与专家分享 - 直播内容覆盖VLA 3D检测 扩散模型规划器 神经符号系统等前沿话题 [52] - 邀请学术界和工业界专家分享最新研究成果 如Impromptu VLA DetAny3D模型等 [52] - 提供超过100场专业技术直播 部分内容可反复观看 [52]