多模态大模型
搜索文档
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 11:59
模型核心突破 - 推出开源视觉语言模型Mini-o3,能够进行长达数十个步骤的深度多轮视觉推理,在训练轮次限制仅为6轮的情况下,测试阶段可将思考轮数扩展到数十轮[1][2][13] - 模型通过恰当的数据、初始化方法和强化学习微调实现长周期视觉搜索能力,无需消耗大量训练周期资源[13] - 在多个视觉搜索基准测试中达到当前最佳水平,显著优于其他开源基线模型[15][43] 技术架构与训练方法 - 采用两阶段训练流程:第一阶段为冷启动监督微调,仅使用6个人工示范样本便生成约6000条高质量推理轨迹[19][22][24] - 第二阶段实施强化学习,关键创新包括将单张图像最大像素限制从1200万降至200万,使相同上下文容量内容纳更多交互轮次[25][26][27] - 提出超轮次掩码技术,避免对达到最大交互轮次的响应进行惩罚,平衡训练效率与测试扩展性,使测试推理轨迹能延伸至数十轮[28][34][35] 数据集构建 - 专门构建视觉探测数据集VisualProbe,包含4000个训练用视觉问答对和500个测试用问答对,涵盖简单、中等、困难三个难度级别[38] - 数据集特点包括小目标、众多干扰物体和高分辨率图像,这些特性使任务更具挑战性并自然要求迭代探索和试错[39][42] 性能表现 - 在VisualProbe数据集上,Mini-o3在困难、中等、简单任务准确率分别达到48.0%、50.4%、67.0%,显著超越GPT-40的11.2%、15.4%、47.5%[40] - 在V* Bench评估中取得88.2分,优于DyFot的81.2分和Chain-of-FocusT的88.0分[40] - 消融实验显示,移除RL数据导致模型在VisualProbe-Hard上性能下降约8.6分,验证了具有挑战性的RL样本对复杂推理轨迹的重要性[45] 行业影响 - 该技术方案为多轮交互式多模态模型的开发与强化学习应用提供实用指导,相关代码已全部开源[52][53] - 模型由字节跳动与香港大学团队联合开发,团队核心成员在大型多模态模型领域有深厚积累,曾发表多项重要研究成果[54][55][58][61]
招聘几位大佬,打算共创平台(世界模型/模型部署)
自动驾驶之心· 2025-09-14 11:44
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶技术[3] - 涉及具身交互、联合预测、SLAM及3D目标检测领域[3] - 布局世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿方向[3] 人才招募标准 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励机制[5] - 开放创业项目合作与推荐机会[5]
机器人产业跟踪:龙头引领下的灵巧手即将升级,景气度有望提升
东方证券· 2025-09-14 10:12
行业投资评级 - 机械设备行业评级为看好(维持)[6] 核心观点 - 特斯拉推出新一代灵巧手,灵巧手行业的自由度和功能等指标有望再次升级,看好灵巧手产业链景气度上升[3] - 特斯拉灵巧手技术已迭代三次,从第一代11个自由度提升到第三代22个自由度,新一代灵巧手每个手臂有26个执行器,自由度有望继续增加[9][10] - 灵巧手产业有望跟随特斯拉升级自由度和功能,因灵巧手的数据采集有助于大模型升级并实现具身智能更快落地[9][13] - 灵巧手自由度的提升将带来更高产品价值,因需要更多执行器或驱动传动环节,以及结构和部件升级[9][14] 相关公司 - 震裕科技(300953,买入)[3] - 汉威科技(300007,未评级)[3] - 南山智尚(300918,未评级)[3] - 鸣志电器(603728,未评级)[3] 技术发展 - 特斯拉第一代灵巧手采用仿生五指结构设计,单手拥有11个自由度(6主动+5被动)[10] - 第三代灵巧手自由度提升到22个,主动自由度由6个提升至17个,驱动系统由内置改为外置[10] - 新一代灵巧手每个手臂有26个执行器,包括26个电机、齿轮箱和电力电子设备[10] 产业影响 - 灵巧手作为机器人与物理环境交互的末端执行器,集成了力/力矩/温度/触觉等传感器,构成多模态数据采集平台[9][13] - 多传感器数据采集增强了数据多样性和复杂性,有利于提升AI训练效率和模型泛化能力[9][13] - 灵巧手控制主要通过强化学习、模型驱动学习、模仿学习等方法实现,仍需依赖多模态大模型的持续进步[13]
前京东智能驾驶一号位创业,「星源智」要打造通用具身大脑丨36氪独家
36氪· 2025-09-12 07:46
公司背景与融资 - 前京东智能驾驶负责人刘东创立星源智 旨在通过具身智能解决物流末端配送难题[5][7] - 公司完成2亿元天使轮融资 投资方包括中科创星、高瓴创投、元禾原点等机构及产业资本[9] - 技术团队由商业化专家与学术研究者组成 形成"技术+工程+商业"复合能力[9] 技术路线选择 - 放弃纯端到端VLA模型路线 因缺乏低成本真机数据获取方案[11][23] - 采用分层式架构:大脑负责感知规划(基于多模态大模型) 小脑负责运动控制[12][22] - 自研核心抓取与导航技能 同时保持对VLA操作模型的调用能力[24] 商业化策略 - 双轨商业模式:50%作为Tier 1供应商向本体厂商提供软硬件一体解决方案(含5万元/套域控制器) 50%作为总承包方直接服务终端客户[30][32][33] - 定位"具身智能领域的华为" 通过深入场景理解需求反哺技术迭代[32] - 预计单台10万元机器人解决方案中 公司可获取近50%价值量[33] 落地场景规划 - 首选商超/药店拣选场景 因夜间人力替代需求明确且ROI易测算(月成本<2000元/机器人)[36][38] - 技术难点在于细粒度物品识别(当前仅能区分20%SKU)与异形物品抓取[40][41] - 2025年实现拣选机器人规模化落地 同步推进导览导购类低难度场景[42][43] 行业发展判断 - 具身智能需遵循"先落地后迭代"路径 参照特斯拉自动驾驶发展历程[23][46] - 行业存在技术理想主义与商业化务实路线分歧 公司坚持落地能力为生存第一要素[13][46] - 物流行业超2000万分拣从业人员构成替代市场基础[36]
转行自动驾驶算法之路 - 学习篇
自动驾驶之心· 2025-09-11 07:33
开学季促销活动 - 推出299元超级折扣卡 一年有效期内购买全平台课程享受七折优惠 [3] - 自动驾驶之心知识星球立减88元 [3] - 课程消费满1000元赠送2门带读课程 八选二 [3] - 自动驾驶论文辅导1000元最高抵扣10000元 [3] - 自动驾驶1v6小班课限时立减1000元 [3] - 全平台硬件优惠包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂双臂方案 [3] 自动驾驶技术课程体系 - 端到端与VLA自动驾驶课程覆盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等技术方向 [6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注技术 解决动静态元素 OCC和轨迹标注等复杂需求 [11] - 多模态大模型与自动驾驶实战课程涵盖通用多模态大模型 大模型微调 端到端自动驾驶多模态大模型 [15][16] - BEV感知全栈系列教程包含毫米波雷达视觉融合 激光雷达视觉融合 3D4D毫米波雷达 车道线检测 Occupancy占用网络等技术模块 [19] - 多传感器标定融合课程提供标定技术方案 [20] - 模型部署课程包含CUDA与TensorRT部署实战 BEV模型部署实战 [21] - 规划控制与预测课程涵盖规划控制理论实战 轨迹预测理论与实战 [21] - 自动驾驶仿真与开发课程提供Carla-Autoware联合仿真 面向量产的C++实战教程 [22] - 科研辅导课程包括自动驾驶与CV领域通用论文辅导 NeRF与自动驾驶论文带读 [22] 教学服务特色 - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 [29] - 小班课聚焦实际工作需求 解决量产痛点 分享面试亮点 [23][24] - 提供简历辅导和面试辅导环节 针对秋招社招需求 [24][25] - 课程学员可获岗位推荐 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等企业 [41] 硬件与开发支持 - 硬件平台支持包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂平台 桌面级机械臂平台 数采夹爪方案 [3] - 开发环境要求本地电脑配备GPU 显存至少12GB 支持CUDA加速 [36] - 提供Ubuntu开发环境支持 课程代码规范基于Apollo等工业级框架 [36]
击败英伟达,全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球!
机器人圈· 2025-09-10 17:07
技术成就与行业地位 - 优必选自研的百亿参数多模态大模型Thinker在机器人感知与规划领域三大国际权威基准测试中斩获四项全球榜单第一[2] - 测试包括微软发起的MS COCO Detection Challenge、谷歌DeepMind提出的RoboVQA及香港大学提出的Egoplan-bench2,针对21个场景、四大类型任务规划[2] - 榜单吸引了英伟达、北京智源研究院、上海AI Lab等全球顶尖团队参与,竞争激烈[2] - 在MS COCO detection challenge - Segmentation Mask中排名第一,AP指标达0.58,AP at IoU=0.50达0.81,AP at IoU=0.75达0.64[5] - 在MS COCO detection challenge - Bounding Box排名中并列第一,AP指标达0.66[5] - 在RoboVQA测试中Bleu-1得分72.7,Bleu-avg得分63.5,超越GPT-4V的26.8和英伟达ThinkAct-7B的59.8[5] - 在Egoplan-bench2测试中Overall得分58.21,超越RoboBrain2-32B的57.23和GPT-4V的32.6[5] 核心技术架构与创新 - 自研视觉编码器基座,结合Co-DETR检测头,通过多阶段模态对齐机制实现视觉-语言模态高效融合[7] - 构建具有百亿参数的多模态大模型Thinker基座,实现视觉-语言-时间的跨域统一表征[7] - 采用时序增强算法与强化学习方法,通过大模型蒸馏技术将百亿参数模型效果浓缩至7B参数模型中[7] - 创新性采用"通用基础能力打造+工业场景精调"微调策略,基于超200万条视频数据预训练,并引入亿级工业数据集微调[11] - 优化使模型可在端侧部署,用机器人自身算力实时自主拆解复杂流程,避免规划中断或逻辑混乱[7] 工业应用性能与效果 - 技术提升使机器人具备高精准环境感知能力,在动态场景中高效完成任务分解、实时调整与稳定规划[12] - Walker S2可精准识别设备、物料与障碍物,深度理解场景语义及操作前后逻辑关联[12] - 采用工业数据集二次微调后,Walker S2在拆码垛规划等典型任务中的规划精度提升超过20%[12] - 模型能够快速学习工业场景的视觉特征、任务规则与操作偏好,显著提升理解准确率、规划适配性与决策可靠性[11] - 在复杂流水线环境中展现出持续连贯的规划能力,大幅降低对人工干预的依赖[12] 行业生态与发展战略 - 公司将逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型,为全行业提供高质量合规数据资源[14] - 开发者可基于优必选多模态大模型Thinker面向各类新场景开展精调与二次开发,提升开发效率[14] - 人形机器人正在进入大规模应用的关键阶段,发展亟需与开发者共同构建开放、协同的应用生态[14] - 技术为人形机器人在生产线上的稳定、高效部署奠定基础,加速其从技术验证走向规模化实战应用[9]
全球首个L4级能源AI Agent,预测准确率较传统方法提升30%以上 | 创新场景
钛媒体APP· 2025-09-08 09:13
核心技术架构 - 采用ILM多模态大模型作为AI决策大脑,具备复杂场景理解和推理能力 [1][2] - 基于HEE超级能源引擎技术底座,提供强大数据处理和计算能力支撑 [1][2] - 实现主动感知、自主决策、智能执行的完整闭环,支持多模态数据融合处理 [2] 技术突破 - 从L3到L4跨越,实现从有条件自主到完全自主的技术突破 [4] - 突破单一数据源限制,实现文本、数值、图像、时序数据的全方位信息感知 [2][4] - 具备毫秒级响应速度,满足能源市场高频交易需求 [2][4] - 主动意识算法支持7x24小时自主监控市场变化 [2][4] 性能指标 - 短期负荷预测准确率达98.5%,较传统方法提升30%以上 [4] - 电价预测精度提升35%,风险预测准确率达到95% [4] - 决策响应时间从分钟级提升至毫秒级,峰值处理能力提升10倍 [4] - 系统可用性达到99.9%以上,支持大规模并发处理 [4] 应用场景 - 自主监控电力现货市场和辅助服务市场多个交易品种 [2] - 实时优化分布式能源资源配置,协调发电、储能和负荷侧资源 [2] - 基于电价预测优化储能系统充放电策略,提升经济性和运行效率 [2] - 已在多个省份电力交易中心部署,累计处理交易额超百亿元 [4] 商业成效 - 试点项目交易收益较传统方法提升25-40% [4] - 运营成本降低30%以上,人力投入减少60% [4] - 每1%准确率提升可在万亿级能源市场节省数亿元成本 [4] - 服务客户覆盖发电企业、售电公司和工业用户等多类型 [4] 行业影响 - 推动能源行业向智能化、数字化方向发展 [6] - 为传统能源企业提供转型升级技术路径 [6] - 通过智能优化提升可再生能源消纳率,助力双碳目标实现 [4] - 作为全球首个L4级能源AI Agent,树立行业技术标杆 [1][6]
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-07 00:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]
自动驾驶之心开学季火热进行中,所有课程七折优惠!
自动驾驶之心· 2025-09-07 00:05
开学季促销活动 - 推出299元超级折扣卡 自购买之日起一年内购买平台任意课程享受七折优惠 包括后续新课程[3][5] - 课程福利满1000元赠送2门带读课程 八选二[3][46] - 自动驾驶之心知识星球立减88元[3][46] - 自动驾驶论文辅导1000元最高抵扣10000元[3][46] - 自动驾驶1v6小班课限时福利立减1000元[3][46] - 全平台硬件优惠包括全栈教研平台黑武士001 足式/强化学习科研平台TRON1 四足机械狗+机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂+双臂方案[3][46] 自动驾驶前沿课程方向 - 端到端与VLA自动驾驶作为智驾量产核心算法 分为一段式端到端和二段式端到端两个技术方向[6] - 端到端自动驾驶通过传感器数据输入直接输出自车规划或控制信息 需要掌握多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等知识[6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注 解决端到端和VLA训练数据需求复杂化问题 需要时间同步后传感器统一标注动静态元素 OCC和轨迹等[11] - 多模态大模型与自动驾驶实战课程系统化学习从通用多模态大模型到大模型微调 最终聚焦端到端自动驾驶多模态大模型[15][16] 课程体系与师资 - 平台课程涵盖BEV感知全栈系列教程 毫米波雷达视觉融合 激光雷达视觉融合 3D&4D毫米波雷达 车道线检测 Occupancy占用网络等方向[19] - 模型部署课程包括CUDA与TensorRT部署实战 BEV模型部署实战[21] - 规划控制与预测课程包含规划控制理论&实战教程 轨迹预测理论与实战教程[21] - 讲师团队包括C9本科+QS50 PhD背景的算法专家 具备CCF-A论文发表和量产交付经验[8][12][18] 小班课特色与就业支持 - 小班课聚焦实际工作需求 解决规控研究深水区内容 量产实战项目 简历修改和面试指导等问题[23][24] - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 解决小白常踩的坑和工程问题[29] - 对接理想 地平线 百度 上海人工智能实验室 蔚来汽车 小鹏汽车 华为车BU 大疆等公司 学员完成课程后可进行岗位推荐 绕开官网投递[41] - 提供自动驾驶之心知识星球和AutoRobo求职星球 第一时间获取最新岗位和技术信息[42]
筹备了很久,下周和大家线上聊一聊~
自动驾驶之心· 2025-09-05 15:50
社区活动与交流 - 计划举办线上交流活动 针对自动驾驶多个技术方向收集问题并进行交流 [1] - 社区成员主要分布在头部自驾公司 互联网公司 Top高校实验室和传统机器人公司 形成工业界和学术界互补的态势 [3] - 社区已建立超过100场专业技术直播 邀请学术界和工业界大佬分享最新研究成果 [52] 社区规模与内容 - 自动驾驶之心知识星球目前拥有超过4000名成员 目标在未来2年内达到近万人规模 [5] - 社区内容涵盖近40个自动驾驶技术方向 包括多模态大模型 VLM 端到端自动驾驶 规划控制 多传感器融合等 [3][5] - 社区提供视频 图文 学习路线 问答和求职交流为一体的综合服务 并梳理了40+技术路线 [5] 技术资源与学习 - 汇总近40+开源项目 近60+自动驾驶数据集 行业主流仿真平台以及各类技术学习路线 [12] - 提供全栈方向学习课程 适合0基础入门 同时为进阶者提供产业体系和项目方案 [8][10] - 社区内部包含自动驾驶感知 仿真 规划控制等学习路线 以及VLA 多模态大模型等前沿技术内容 [12][13] 行业合作与就业 - 与多家自动驾驶公司建立岗位内推机制 帮助成员将简历送至心仪公司 [8] - 社区成员来自国内外知名高校和头部企业 包括上海交大 清华大学 CMU 蔚小理 地平线 华为 英伟达等 [12] - 提供求职交流 行业机会挖掘 投资与项目对接等服务 [16] 技术方向覆盖 - 详细梳理端到端自动驾驶 VLM VLA 世界模型 扩散模型 BEV感知 3D目标检测等多领域内容 [25][26][28][29][31][34][36] - 涵盖规划控制 多传感器融合 在线高精地图 Occupancy Network 轨迹预测 强化学习等关键技术 [32][37][38][40] - 包括传感器标定 模型部署 CUDA 仿真框架等工程实践内容 [7][43][46] 直播与专家分享 - 直播内容覆盖VLA 3D检测 扩散模型规划器 神经符号系统等前沿话题 [52] - 邀请学术界和工业界专家分享最新研究成果 如Impromptu VLA DetAny3D模型等 [52] - 提供超过100场专业技术直播 部分内容可反复观看 [52]