Workflow
视觉
icon
搜索文档
活力中国调研行|触摸!钢铁身躯的创新脉搏
新华社· 2025-06-27 20:28
人形机器人技术突破 - 众擎机器人科技展示PM01人形机器人 身高1.38米 体重40多公斤 全身拥有24个自由度 腰部配备320度自由旋转电机 能完成"前空翻"等高难度动作 [1] - PM01机器人通过具身智能、运控算法、动力关节等技术实现平衡行走和复杂动作 2024年12月发布 [1] - 公司专注于通用智能机器人及行业场景方案 已实现从核心算法研发到关节驱动的全面自主设计 正在攻关自主跌倒爬起、灵活避障等能力 [2] 3D视觉感知技术领先 - 奥比中光自主研发MX系列深度引擎芯片 核心部件MX6600芯片仅9毫米见方 用于处理3D视觉感知数据 2015年破解国内"缺芯少核"难题 [4] - 公司3D摄像头产品国内市占率达70%(10台服务机器人中7台使用) 全面布局主流3D视觉感知技术路线 [4] - 送餐机器人通过三组3D视觉传感器实现灵敏感知和避障功能 [3] 微纳米医疗机器人创新 - 深圳市人工智能与机器人研究院开发磁性微纳米医疗机器人 通过体外磁控引导集群堵塞肿瘤供血血管 已进入大动物活体实验阶段 [6] - 研究院聚焦能源、交通、智能制造、医疗康复等领域技术落地 联合头部企业开展重大技术攻关 [6] 机器人产业规模增长 - 2024年深圳机器人企业总数达74000家 新增14000家 产业链总产值首次突破2000亿元(2012亿元) 同比增长12.58% [6] - 全国机器人产业形成北京、上海、杭州等地产学研融合创新体系 稳居全球第一梯队 [7]
新股消息 | 豪威集团(603501.SH)递表港交所 为全球前十大Fabless半导体公司
智通财经网· 2025-06-27 20:06
上市申请 - 豪威集团向港交所主板递交上市申请,联席保荐人为瑞银集团、中金公司、PASCHK、GFSHK [1] - 发行H股面值为每股人民币1元,最高发行价包含1%经纪佣金及多项交易费用 [2] 行业地位与产品线 - 按2024年收入计,公司是全球前十大Fabless半导体公司,拥有图像传感器、显示及模拟解决方案三大产品线 [4] - 在图像传感器领域,公司是全球第三大供应商(2024年收入占比10.5%),并推出搭载LOFIC技术的OV50X旗舰智能手机传感器 [4] - 汽车CIS领域市场份额达32.9%(2024年),为全球最大供应商 [5] - 医疗领域推出OCH2B30摄像头模组,适用于3D口腔扫描仪 [5] - 2024年新设机器视觉部门,发布多款基于PureCel®Plus-S架构的传感器及整体摄像头解决方案 [5] 财务表现 - 2022-2024年收入分别为200.4亿元、209.84亿元、257.07亿元人民币 [6] - 同期毛利为47.41亿元、41.84亿元、72.39亿元人民币 [6] - 2024年毛利率提升至28.2%(2023年为19.9%),主要因收入增长及成本优化 [7] - 研发费用占比从2022年的12.6%降至2024年的10.4% [7]
特斯拉Robotaxi:一场万亿级的产业重塑,你看懂了多少?
36氪· 2025-06-27 19:50
特斯拉Robotaxi发展现状 - 特斯拉Robotaxi自2024年8月8日发布会后经历一年发展,从奥斯汀等试点城市的有限部署到社交媒体广泛传播的测试表现,包括复杂路况下的操作问题和与Waymo等竞争对手的街头对比 [1] - 市场情绪从最初的狂热转向对实际进展的深度质疑,焦点从概念普及转向技术落地和商业模式验证 [3] Robotaxi三大颠覆性想象 - **出行即服务(MaaS)终局**:特斯拉提出车辆闲时加入共享网络的去中心化运力平台模式,直接挑战Uber和传统出租车行业 [5] - **纯视觉技术路线**:特斯拉放弃激光雷达和高精地图,依赖摄像头与神经网络,潜在边际成本极低,具备全球快速扩张潜力 [5] - **资产价值重构**:Robotaxi可将车辆日均使用时间从1.5小时提升至16小时,汽车从消费品转变为生产资料,重塑汽车产业估值逻辑 [5] 技术路线挑战 - FSD V12的端到端AI技术尚未完全解决极端天气(暴雨、大雪)和模糊交通规则等长尾场景问题,奥斯汀测试仍依赖安全员和远程接管 [8] - L4到L5级自动驾驶的"最后一公里"技术瓶颈尚未突破,实际落地能力存疑 [8] 商业模式与竞争格局 - 特斯拉需平衡自营车队与私家车加盟模式,后者涉及责任认定、保险和维保等复杂问题 [8] - Waymo已在美国多地实现商业化运营,年收入近1亿美元,特斯拉需在对手已建立壁垒的市场中突破 [8] 产业链影响与配套需求 - 大规模部署将考验城市充电网络和数据中心承载力,保险行业需重构无人驾驶定价与理赔体系 [8] - 上游芯片(如英伟达)、传感器和摄像头供应商的竞争格局可能因技术路线差异而重塑 [8] 行业研究方法论 - 依赖公开信息难以解决核心问题,需通过一线工程师(如特斯拉FSD团队)或产业链专家(如英伟达自动驾驶科学家)获取内部视角 [9] - 案例显示,与AI项目技术负责人的闭门交流能直接获取多模态模型演进路径等关键信息,显著提升研究效率 [28] 行业长期展望 - Robotaxi引发的产业变革将持续数十年,参与者需通过顶级专家网络获取前瞻洞察,而非被动接收信息 [29]
紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
量子位· 2025-06-27 18:57
核心观点 - 中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的高效解决方案VHR,通过"视觉神经增强"机制直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象 [1][2] - 此前主流方法如对齐训练或输出层分布修正仅作用于模型最终输出阶段,未能深入干预其内部表征和生成机制,难以实现高效精准的幻觉抑制 [3] - 大型视觉语言模型(LVLMs)常因过度依赖语言先验知识而非图像真实内容导致事实性错误,这种幻觉是受内部语言建模偏好的系统性影响 [4][5] - 研究发现注意力机制内部的不平衡性是幻觉根本原因,少数注意力头对视觉信息敏感,大多数头更依赖语言规律 [7][8] - 提出视觉感知头散度(VHD)指标量化注意力头对视觉输入的响应强度,并开发视觉感知头增强(VHR)技术强化视觉敏感注意力头输出 [8][9] - VHR在多个基准测试中优于现有方法,几乎不增加额外时间开销 [8][16] 技术方法 VHD指标 - 提出VHD指标量化每个注意力头对视觉信息的敏感度,通过对比有无图像输入时注意力头输出的差异计算 [9] - 仅有少数注意力头表现出高VHD值,表明模型内部存在视觉感知与语言偏好头的显著分化 [9] - 进一步提出Token-VHD(T-VHD)指标评估生成每个词时模型对视觉信息的依赖程度,统计表明幻觉词通常对应较低的T-VHD值 [10][11] VHR技术 - VHR通过三个步骤动态强化视觉敏感的注意力头:异常VHD过滤、注意力头选择与强化、分层渐进式增强 [14][15] - 每层选择VHD得分前50%的注意力头,将其输出缩放α倍以增强视觉上下文的贡献 [15] - 采用逐层强化策略避免层间干扰,并在首步生成时确定每层的关键注意力头 [16] SSL方法 - SSL方法从语义引导角度出发,通过分析模型内部表征空间缓解LVLMs幻觉问题 [19] - 利用稀疏自编码器(SAE)识别"幻觉"和"真实"两种语义方向,在特定层进行针对性干预 [19] - 在视觉信息融合阶段注入真实语义方向增强视觉表示忠实性,在语言生成阶段抑制幻觉语义方向投影 [19] - SAE识别的语义方向在不同架构LVLMs中展现出良好跨模型迁移能力 [22] 实验结果 - 在MSCOCO数据集CHAIR评估中,VHR在InstructBLIP、LLaVA-1.5和LLaVA-NeXT模型上分别达到85.52、85.47和88.87分,优于其他基线方法 [17] - SSL方法在POPE数据集上取得显著F1分数提升,同时保持推理效率 [20] - VHR和SSL方法均保持高效性,几乎不增加额外时间开销 [16][20]
特斯拉Robotaxi“上路”近一周,马斯克给无人驾驶出租车行业带来了什么?
搜狐财经· 2025-06-27 18:17
特斯拉Robotaxi试运营启动 - 特斯拉于2025年6月22日在德克萨斯州奥斯汀启动Robotaxi试运营服务,初期部署10辆2025款Model Y车型,采用邀请制,运营范围限定在特定区域,运营时间为上午6点至午夜12点 [3] - 乘客支付固定费用4.20美元,车辆配备人类安全员,配备紧急中止开关 [3] - 受邀参与者反馈积极,包括减速带减速效果良好、停车平稳、夜间行驶稳定、处理狭窄施工路段和避让动物等场景表现优异 [3][6][9][11] 特斯拉Robotaxi技术表现与问题 - 部分场景出现技术问题:未对倒车卡车刹车导致险情、左转时短暂逆行、系统分配车辆接客困难、无视限速标志等 [11][12][15] - 有用户质疑车辆可能由后台人工操控,因在限速20英里区域以35英里时速行驶 [15] - 马斯克预测到2026年底美国将有数十万至超百万辆特斯拉自动驾驶汽车行驶 [11] 特斯拉Robotaxi商业模式与市场反应 - 特斯拉计划融合Uber和Airbnb模式,车主可通过共享闲置车辆获得收入,公司抽取佣金 [2] - 2025年Q1特斯拉电动汽车交付量暴跌13%,公司将Robotaxi定位为救星,预计2026年底显著改善财务状况 [20] - 官宣Robotaxi后特斯拉股价上涨9%至349美元,市值达1.03万亿美元,马斯克身价超3350亿美元 [20] 中国无人驾驶出租车发展 - 2025年被视为无人驾驶出租车商业化元年,中国已有超15个城市允许完全无人驾驶运营 [21] - 百度萝卜快跑2025年Q1提供超140万次出行服务,同比增长75%,累计服务超1100万次,业务扩展至迪拜、阿布扎比和香港 [21][22] - 滴滴与广汽埃安联合发布L4 Robotaxi车型,计划2025年底量产,2026年在广州、北京示范运营 [22] - 哈啰出行联合蚂蚁集团、宁德时代成立合资公司,注册资本12.88亿元,专注L4自动驾驶技术研发和商业化 [23] 自动驾驶技术路线对比 - 特斯拉采用纯视觉方案,依赖摄像头和FSD计算机,声称比Waymo方案"安全7倍,成本低7倍" [23] - Waymo和中国公司采用多传感器融合方案,配备激光雷达、雷达等实现环境感知 [24] - 全球Robotaxi市场处于关键转型期,技术成熟度、监管框架和公众信任仍是核心挑战 [24]
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 17:41
论文辅导服务 - 提供前沿论文辅导服务 覆盖多模态大模型 视觉语言动作 视觉语言导航 机器人抓取与导航 具身智能体泛化 3D高斯泼溅 端到端具身智能体 具身合成数据生成等领域 [2][3] - 服务范围包括CCF-A到CCF-C SCI一区到四区 EI 中文核心 毕业论文 申博等 [2] - 提供1V1定制化辅导 从选题创新点挖掘 实验设计 代码调试 论文写作到投稿策略全流程闭环辅导 [4] 导师团队 - 导师团队来自CMU Stanford MIT等名校的PhD及大厂研究员 具有ICRA NeurIPS CVPR等顶级会议审稿经验 [4] - 提供工业界和学术界双视角辅导 不仅关注论文发表 更关注落地价值 如机器人抓取鲁棒性 导航实时性优化等 [4] 优惠活动 - 前50名咨询的同学可免费匹配专属导师 进行深度Meeting 根据研究方向 学术基础 提供会议 期刊选投建议 [5]
ICCV 2025不完全汇总(具身/自驾/3D视觉/LLM/CV等)
具身智能之心· 2025-06-27 17:41
具身智能相关 - GaussianProperty通过LMMs将物理属性整合到3D高斯模型中 [4] - Aether提出几何感知的统一世界建模方法 [4] - A0模型构建了分层架构实现通用机器人操作 [4] - PASG框架实现机器人操作中的几何基元自动提取与语义锚定 [4] - MoMa-Kitchen提供超过10万样本的移动操作导航基准数据集 [4] - OVA-Fields开发弱监督开放词汇affordance场用于机器人部件检测 [4] 自动驾驶相关 - ETA采用双模型架构提升自动驾驶系统效率 [4] - DriveArena构建可控生成式自动驾驶仿真平台 [4] - Epona开发自回归扩散世界模型用于自动驾驶 [4] - SynthDrive建立高保真传感器仿真与驾驶数据合成管线 [4] - StableDepth实现场景一致的单目深度估计 [4] - CoopTrack探索协同序列感知的端到端学习 [4] - U-ViLAR通过可微分关联实现不确定性感知的视觉定位 [4] 3D视觉与点云 - StruMamba3D探索结构Mamba模型用于点云自监督学习 [6] - DiST-4D开发解耦时空扩散模型用于4D驾驶场景生成 [6] - InvRGB+L实现复杂场景的统一颜色与LiDAR反射率建模 [6] - GS-Occ3D利用高斯泼溅扩展纯视觉占据重建规模 [6] - Detect Anything 3D实现野外环境3D物体检测 [6] - PanSt3R保证多视角全景分割一致性 [6] 大模型与生成技术 - 图知识检索与推理方法增强MLLMs处理未知领域能力 [8] - TaxaDiffusion开发渐进式训练扩散模型实现细粒度物种生成 [10] - G2D通过梯度引导蒸馏提升多模态学习效果 [13] - CL-Splats实现高斯泼溅的持续本地优化学习 [13]
环球市场动态:人民币汇率短期或延续低波状态
中信证券· 2025-06-27 13:21
汇率与政策 - 人民币汇率6月以来呈“低波 + 韧性”特征,预计短期延续低波状态[5] - 美元指数五连跌,续创三年低位,美元兑人民币汇率有变动[4][25] 股票市场 - 美股三大指数齐涨,标普11个行业指数9个上涨,中概股金龙指数逆市下跌[3][8] - 港股走弱,三大指数集体收跌,原材料板块领涨,医疗保健板块领跌[3][10] - A股周四回调,沪指跌0.22%,深证成指跌0.48%,创业板指跌0.66%[14] - 亚太股市涨多跌少,日本市场涨幅居前,韩国市场领跌[20] 个股动态 - Palo Alto Networks推出AI安全产品,转型为全栈护航者[7] - 中芯国际基本面向好,下半年有望持续改善[12] - 奥比中光技术优势明显,盈利改善趋势有望延续[18] 商品市场 - 原油期货靠稳,纽约期油上涨0.49%,布伦特期油上涨0.07%[26] - 国际金价微涨,纽约期金上涨0.2%[4][26] 债券市场 - 美债全线上涨,短期美债领涨,亚洲债市情绪分化[4] - 美国一季度GDP终值下修,经济三年来首次萎缩,为美联储降息提供依据[30]
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 12:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 22:19
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行 动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中 均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。 近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的 重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调; 反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因 此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果 以及3D操作策略的效率? 作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 2D VLA的泛化,3D Policy的效率,这下全部打包带走! 缩小VLM和VLA之间的迁 ...