Workflow
视觉
icon
搜索文档
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 20:54
强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA),OOD场景任务成功率提升42.6%,语义理解任务成功率从61.5%提升至75.0%,动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准,验证PPO优于GRPO和DPO算法,并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT),视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术,在R2R-CE基准未见环境中成功率(SR)达47.9%,路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示,结合Foresight Action Planner实现前瞻决策,Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先:单目相机场景下Test Unseen的SR达45.7%,全景相机场景SR提升至60%,SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示,NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点,SPL提高4个百分点 [18] - 具身智能领域形成产学研社区,近200家公司及研究机构参与技术交流,涵盖招聘、学习资源及前沿技术更新 [23]
索赔5000万元!奥比中光起诉光鉴科技专利侵权 光鉴科技称“产品始终坚持自主创新”
每日经济新闻· 2025-07-08 18:46
每经记者:孔泽思每经编辑:魏文艺 7月7日晚间,奥比中光-UW(SH688322,股价60.44元,市值242.42亿元)公告称,公司近日以专利侵权为由起诉了深圳市光鉴科技有限公司(以下简称光 鉴科技),目前法院已立案受理。 公告显示,奥比中光为2017XXXXXXXX.5号的中国发明专利所有权人,光鉴科技未经许可,长期实施侵害涉案专利权的行为,严重侵犯了公司合法权益。 同时,光鉴科技的侵权行为获得了巨大的商业利益,应当承担损害赔偿的法律责任。 来源:奥比中光-UW公告 据此,奥比中光请求法院判令光鉴科技立即停止制造、销售专利侵权产品,销毁库存侵权产品以及专门用于实施专利侵权行为的模具和治具;要求光鉴科技 赔偿侵权损失5000万元,加上律师费、调查费等合理费用25万元,共计5025万元,并承担本案诉讼费用。 奥比中光-UW年报显示,奥比中光的主营业务是3D视觉感知产品的设计、研发、生产和销售,主要产品包括3D视觉传感器、消费级应用设备和工业级应用 设备,目前公司是全球3D视觉传感器重要供应商之一。 奥比中光提供的资料显示,其在3D视觉感知领域专利申请数量接近2000项,授权专利接近1000项,其中发明专利占比 ...
特斯拉奥斯汀FSD发布:自动驾驶押注失败
美股研究社· 2025-07-08 18:45
特斯拉自动驾驶技术争议 - 特斯拉2025年6月在奥斯汀推出的付费全自动驾驶试点项目表现糟糕,车辆出现漂移、急刹、错过载客等问题,引发对仅依赖视觉系统局限性的质疑[1] - 公司坚持使用廉价摄像头而非激光雷达和雷达,学术界质疑其能否达到4级自动驾驶所需精度,研究显示纯摄像头系统在雾雪天气误判率比激光雷达系统高40%,低光照条件下误报率上升25%[2][4] - 特斯拉2021年移除雷达,2022年放弃超声波传感器,但研究表明异构冗余传感器对功能安全标准至关重要,纯视觉系统在受控基准测试中仅达到激光雷达92.1%的检测性能[4] 行业与监管反应 - 福特CEO公开支持Waymo的激光雷达策略,MIT研究指出特斯拉驾驶员监控系统存在缺陷,德州新法规特别将纯视觉车辆列为风险点,可能要求冗余传感器[5] - NHTSA已启动调查特斯拉试点车辆,指出其可能违反联邦安全规定,奥斯汀自2023年以来记录122起自动驾驶事故[7] - 立法者要求特斯拉公开人工接管数据,试点项目被律所称为"危险之旅",投资者热情减退[7][8] 运营与财务表现 - 2025年Q2特斯拉交付量同比降13.5%至38.4万辆,低于预期的40.6万辆,库存周转天数达38天,占压75亿美元营运资金[10][11] - 股价在交付数据公布后下跌3.8%至327.69美元,市值此前六个交易日蒸发14%,卖方机构评级出现分化[11][12] - 2025年Q1自由现金流降至负7亿美元,自动驾驶研发年支出超40亿美元,能源业务毛利率仅中个位数[13] 技术优势与潜在机会 - 特斯拉Dojo加速器训练效率或与英伟达相当而成本仅10%,车队日收集1.8亿英里数据远超Waymo的2500万英里,具备OTA快速更新能力[14] - 2024年毛利率17.4%高于行业水平,摩根士丹利模型预测L4自动驾驶可实现2030年息税前利润增长10倍[14][15] - 部分学术研究支持纯视觉方案,康奈尔大学实现特定条件下端到端驾驶超越小型激光雷达[15] 市场估值与投资建议 - 自动驾驶出租车收入预期应推迟至2028年后,建议将估值向高端车企15倍远期市盈率靠拢[17] - 当前战略下交付量下降、库存增加、诉讼风险上升,除非增加传感器冗余或证明安全提升,否则应谨慎看空[16] - 奥斯汀试点证明特斯拉自动驾驶理论在科学和商业层面均存在重大缺陷,执行风险加剧[16][17]
中科通达(688038)每日收评(07-08)
和讯财经· 2025-07-08 17:25
元 当日主力成本 15.50 元 趋势方向 主力成本分析 15.66 时间: 2025年7月8日星期二 48.79分综合得分 偏弱 中科通达688038 5日主力成本 15.51 元 20日主力成本 15.40 元 60日主力成本 周期内涨跌停 过去一年内该股 涨停 0 次 技术面分析 15.74 短期压力位 15.36 短期支撑位 1次 跌停 16.25 中期压力位 14.84 中期支撑位 目前短线趋势不慎明朗,静待主力资金选择方向; 目前中期趋势不慎明朗,静待主力资金选择方向 K线形态 ★光头阳线★ 后市看涨 资金流数据 2025年07月08日的资金流向数据方面 软件开发 1.57%、机器视觉 1.28%、生物识别 1.52%、数字孪生 1.12%等 财务数据 最近的财报数据显示,该股于2025年07月08日 | 每股收益0.04元 | 营业利润0.04亿元 | | --- | --- | | 市盈率--- | 销售毛利率21.418% | | 净利润4,377,834.58元 | | 2025年7月8日星期二 48.79 偏弱 15.66; 15.50; 15.51; 15.40; | 主力资金净流入5 ...
头部Robovan专家小范围交流
2025-07-08 00:32
纪要涉及的行业和公司 - 行业:无人物流车行业 - 公司:G90、白犀牛、菜鸟、文远、三通一达、顺丰、新石器 纪要提到的核心观点和论据 行业发展情况 - 2025年无人物流车市场迎来爆发,驱动因素为政策支持和供需关系改善使产品价格符合市场门槛 [1][2] - 国内无人物流车发展始于2020年,因供应链和成本因素未大规模推广,2025年产业链成熟、成本下降致市场爆发 [2] - 行业主要企业包括头部厂商G90、第二梯队白犀牛和菜鸟,文远等即将入局 [1][2] 政策支持 - 政策端最初支持智能网联城市,北京、上海等城市率先开放,后其他城市跟进,国家出台降低物流成本政策,各地逐步放开限制 [4] - 申报无人物流车测试牌照需提交含第三方检测报告和随车保险等材料给经信局或交通局,测试标准为不少于240小时或行驶1000公里,经专家库和联系小组审批,通过获测试牌照可在指定线路测试 [5] - 测试牌照仅用于功能性和安全性验证,运营牌照是测试无事故故障后由测试牌照转成,可正常作业 [6] G90公司情况 - 客户面向物流板块,70%营收来自快递网点和城市配送,厂区转运和定制化业务各占15%,主要服务三通一达,不与顺丰合作 [1][8] - 采用按年购买和续费商业模式,客户购一年使用权后可租赁或出售给其他小型网点,经销商拿货底价为市场价七折,再以九折或85折销售赚取利润差 [1][9][10] - 车辆售价和服务费捆绑出售,如一辆车硬件成本5万元加2.8万元服务费总价7.8万元,经销商拿货底价6.8万元 [10] - E6车型BOM成本约4.5万元,售价2万无法覆盖成本,通过后续服务费回收成本并盈利,配备两个补盲雷达、11个摄像头及毫米波雷达,通过算法优化实现高效感知功能 [1][12] - 成本优化通过算法调优降低对大型硬件传感器依赖、降低算力需求、减少激光雷达使用,预计带来20% - 30%成本下降空间 [1][15][16] - 计划2025年交付1万台无人车,2026年交付5万台,2027年交付10万台,已自建工厂,今年年底开始大规模出货,推出16车型针对小型客户,先规模化占领市场再回收成本 [3][34][35] 行业收费模式 - 行业普遍采用租赁型收费模式,通过收取服务费或运维费回收成本并实现规模化 [1][17] 无人车应用场景和效果 - 主要用于快递末端配送,从转运中心到营业网点、快递驿站或快递柜运输,可重构配送模式,降本约30%,从网点到末端配送每件货物成本从两毛五至三毛降至9分钱左右 [3][24][27] - 在驿站多且有直送件场景渗透率较高,若驿站件占总量50%,渗透率接近50%,大型网点对无人车需求量至少20台 [28] - 无人车成本按两年计算回本周期,中途每票8分至1毛3元不等,使用客户第二年续费率达100% [30][31] 市场竞争格局 - 市场竞争遵循二八定律,最终剩少数几家厂商,客户选供应商考虑售后响应速度、灵活度和价格等因素,硬件成本遵循摩尔定律,降至一定程度保持稳定 [32] 技术相关 - 域控制芯片目前用两颗欧瑞芯片,未来逐步适配国产化芯片,与地平线GO 6P适配,今年年底完成部分车型替换,主要是五方车和E6 [14] - 激光雷达使用从两颗减为一颗,最终取消,转向纯视觉方案以降低硬件成本 [15][16][20] - 极端天气下无人驾驶汽车难以正常运行,暴雨影响激光雷达和视觉系统感知能力,极端天气不建议作业 [21] 其他重要但可能被忽略的内容 - 三通一达约90% - 95%加盟商是个体户加盟,较大加盟商有转运中心,需求20 - 30台车,公司会考虑发展为经销商 [8] - 路权申请针对特定线路,每条线路单独审批,申报主体必须是厂商,因保险保的是自动驾驶公司 [22] - 快递件分驿站件和入户件,驿站件占比约65%,入户件占比约35%,10个快递员网点每天配送量约5000件,每个快递员每天配送300 - 400件 [29] - 无人车正常行驶超两三分钟未移动视为异常上报后台,软处理可远程重启或重新规划路线,硬处理硬件故障城市内响应时间一般为一小时,故障率约为1/10000 [33]
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型
具身智能之心· 2025-07-07 17:20
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiawei He等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 动机与出发点 随着大型模型的兴起,视觉-语言-动作系统使机器人能够处理日益复杂的任务。然而,受限于数据收集的难 度,研究进展主要集中在控制简单的夹持器末端执行器上。关于使用大型模型实现类人灵巧手的功能性抓 取研究较少。DexVLG是一个大型视觉-语言-抓取模型,用于根据语言指令,通过单视角RGBD输入预测灵 巧抓取姿态。 为实现这一目标,还生成了一个包含1.7亿个灵巧抓取姿态的数据集,这些姿态映射到174,000个模拟目标的 语义部分,并配有详细的part级描述。这个名为DexGraspNet 3.0的大规模数据集被用于训练一个VLM和基 于流匹配的姿态Head,该模型能够为桌面物体生成与指令对齐的抓取姿态。为了评估DexVLG的性能,在 基于物理的模拟中创建了基准,并进行了真实世界实验。大量测试表明,DexVLG具 ...
易思维“90后”研发主管变财务负责人,董事长年薪不足9万
搜狐财经· 2025-07-07 11:29
瑞财经 吴文婷近日,易思维(杭州)科技股份有限公司(以下简称"易思维")科创板IPO进入问询阶段,保荐机构为国投证券股 份有限公司,保荐代表人为陈毅浩、唐斌,会计师事务所为天健会计师事务所(特殊普通合伙)。 易思维专注于汽车制造机器视觉设备的研发、生产及销售,为汽车整车及零部件制造过程的各工艺环节提供机器视觉解决方案, 是该领域国内市占率第一的国家重点"小巨人"企业,在成功打破国外厂商长期垄断的同时加速推动了国内汽车制造的数智化进 程。此外,公司也在轨交运维与航空领域开展了业务布局,持续拓展新的应用场景。 据招股书,2022年-2024年,易思维实现营收分别为2.23亿元、3.55亿元、3.92亿元;归母净利润分别为640.12万元、6103.86万 元、8546.06万元。 | | 2024 年 12 | 2023年12 | 2022年12 | | --- | --- | --- | --- | | 主要财务指标 | 月 31 日 | 月 31 日 | 月 31 日 | | | /2024 | /2023 | /2022 | | | 年度 | 年度 | 年度 | | 资产总额(万元) | 70.355.85 ...
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 20:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 当前自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段。如果你对自动驾驶 有浓厚的兴趣,并且想找业内最专业的大佬交流,那么这个圈子一定没错!技术迭代的浪潮下暗藏职业焦虑。 对职场老人而言 ,传统以激光雷达为核心的感知算法工程师可能面临路线冲击——特斯拉的纯视觉方案依托成 本优势和算法革新,正在撼动多传感器融合的主流地位;而规划控制领域从PID到强化学习的转型,也让依赖传 统控制理论的从业者陷入技能升级的紧迫感。 学生新手则陷入"选择困难症" :感知算法赛道因头部企业技术垄 断加剧内卷,数据闭环工程师需要同时掌握分布式计算与AI模型调优能力,而新兴的车路协同方向又要求跨界 融合通信与交通系统工程知识。当禾赛科技将激光雷达成本降至200美元、比亚迪宣布自研体系内价格再降70% 时, 技术红利背后实则是从业者必须持续奔跑的生存法则,这种技术路线的不确定性与知识体系的重构压力, 正在重塑自动驾驶人才市场的竞争格局。 后处理,写逻辑建议转行业可以,不要换方向,gap还是蛮大。现在很多人 ...
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 19:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 19:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiahui Zhang等 以 OpenVLA 为代表的主流方法,仅使用 单帧 RGB 图像 + 文本指令 作为条件来拟合动作分布 。这 种极简输入导致目标分布呈现两类混乱: 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Teaser 在 VLA pretrain 中,单帧 RGB + 文本的传统输入往往缺失关键时空线索,导致坐标系混乱与状态模糊——即同 一观测下可能对应多种动作分布, 显著拉低预训练效率 。为破解这一瓶颈,我们提出 4D-VLA:通过将3D 空间 + 历史帧融入预训练输入,从而抑制混乱分布,提升模型在复杂场景中的performance。 Insight 如何从多源机器人数据中高效提取可迁移的运动知识 ,仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能,但 输入信息的不完整与不一致 严重削弱了预训 练的效果。 ...