视觉 - 财报，业绩电话会，研报，新闻

视觉

搜索文档

用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化

机器之心· 2025-06-30 11:18

赵天辰，清华大学电子工程系高能效计算实验室研究生，研究方向主要是：面向视觉生成的高效算法，与软硬件协同设计。以下工作为赵天辰在字节跳动-Seed视觉部门实习期间完成近年来，随着视觉生成模型的发展，视觉生成任务的输入序列长度逐渐增长（高分辨率生成，视频多帧生成，可达到 10K-100K）。与输入序列长度呈平方复杂度的 Attention 操作，成为主要的性能瓶颈（可占据全模型的 60-80% 的开销），有明显的效率优化需求。注意力的稀疏化（Sparse Attention）与低比特量化（Attention Quantization）为常用的 Attention 优化技巧，在许多现有应用中取得优秀的效果。然而，这些方法在视觉生成模型中，在低稠密度（<50%）与低比特（纯 INT8/INT4）时面临着显著的性能损失，具有优化的需求。本文围绕着视觉任务的 "局部性"（Locality）特点，首先提出了系统的分析框架，识别出了视觉生成任务 Attention 优化的关键挑战在于 "多样且分散" 的注意力模式，并且进一步探索了该模式的产生原因，并揭示了多样且分散的注意力模式，可以被统一为代表 "局部聚合" ...

10 人 1600 万美金 ARR，华人团队 OpenArt 用了这 11 个 AI 技术栈

投资实习所· 2025-06-29 19:53

定位策略 - 早期面临定位挑战，AI图像生成市场竞争激烈，Midjourney以艺术化输出见长，DALL-E以技术实力著称 [1] - 核心功能与竞品相似，差异化在于用户体验和使用场景的精准把握 [1] - 确定三大核心用户群体：内容创作者、奇幻爱好者、中小企业 [2] 增长策略 - 传统SEO增长趋缓，转向程序化SEO（pSEO）策略 [2] - 针对长尾关键词创建特定主题的AI生成器页面，结构包括H1标题、示例按钮、示例画廊、使用指南 [3] - 与daydream合作，8个月内创建600多个pSEO页面，月访问量达100万次，跻身"AI艺术生成器"搜索前10 [4] 战略转型 - 从AI图像生成转向视觉故事讲述，定位为"品类定义公司" [5] - 赞助MIT AI电影黑客马拉松，验证方向可行性，团队两天创作出接近皮克斯水准的短片 [5] - 采用"Uber模式"，简化复杂流程为输入→输出体验，区别于Sora/Pika/Runway的"手动挡工具" [6][7] 技术突破 - 解决角色一致性问题，通过多模态集成组合多个开源工具 [8] - 技术栈包括Stability AI、Flux、ElevenLabs、Kling、Hailuo等 [10] 产品开发与运营 - 编程工具使用Cursor或Windsurf，支持全局上下文搜索，提升效率 [13] - 测试工具Checkly和Stably减少手动QA工作量，提升稳定性 [14][15] - 客户支持工具Serif自动生成70%以上回复，减少人工干预 [16] 用户研究与内容管理 - 用户反馈工具Claude实时分析需求与情绪 [17] - 用户研究工具Dovetail快速梳理访谈内容，提取关键需求 [18] - 内容审核工具Cinder每日处理数百万张图片，保障内容安全 [19] 市场营销 - 程序化SEO工作流每月产出数百个高质量页面，带来数百万自然流量 [20] - SEM广告管理仅需1人兼职，OpenArt生成素材，DeepSeek撰写文案 [21] - 网红挖掘工具Beacons AI匹配契合度90%+的网红，GMass批量触达 [22][23] - 网红管理工具Serif和MightyScout优化沟通与追踪 [24] - YouTube分析工具VidIQ助力订阅量从0增至7万 [25] 未来愿景 - 长期目标是成为AI原生社交媒体平台，探索互动式内容格式 [9] - 定位为故事可视化解决方案，保存用户角色、故事和模板，增强用户粘性 [9]

CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~

自动驾驶之心· 2025-06-29 19:33

技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法：阶段一预训练采用自监督方式，使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据，采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集，生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片，30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景，每段20秒10Hz，8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型，CoVLA VLT训练24小时，WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps，8 rollouts per sample，耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT，Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99，排名第一 [2] - Poutine方案7.99分，Poutine-base 7.91分，RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95，Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标，通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异，但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA，主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]

Qwen2.5-VL 72B Instruct模型

Qwen2.5-VL 72B Instruct模型

Poutine方案

割草机器人行业深度：浩渺境中，千峰竞秀

长江证券· 2025-06-29 13:33

报告行业投资评级 - 看好丨维持 [10] 报告的核心观点 - 无边界割草机器人有望全面替代有边界产品，若割草机器人替代30%手推式+10%骑乘式，无边界割草机器人出货量增长空间超10倍 [3][9][150] - 产品稳定性优、资金体量大、海外本地化运维能力强的企业更具竞争优势，推荐九号公司，以及安克创新和科沃斯 [3][9][150] 整体规模割草场景解析 - 割草是欧美家庭刚需和草坪护理高频活动，全球约2.5亿私人花园，欧美占72%，暖季草割草季3 - 10月，生长旺季每月割草4 - 6次，雇人割草费用49 - 147美元 [18] - 2024年OPE市场规模预计超300亿美元，割草机占比约37%，手推式+骑乘式割草机市场规模超百亿美元，出货量超2000万台 [23] 增长空间分析 - 2024年割草机器人市场规模预计15亿美元，占割草机整体超10%，出货量约129万台，2024 - 2029年CAGR达13.2% [30] - 无边界割草机器人出货量占比2024年约30%，为38万台左右，正替代有边界产品，富世华2024年销售额下滑、利润率回落 [38] - 无边界割草机器人经济性突出，预计全面替代有边界产品，割草机器人稳态销量达582万台，出货量增长空间分别为351%/1430% [47][49] 竞争格局传统龙头 - 富世华和宝时得早期在有边界割草机器人市场份额合计超90% [55] - 富世华1995年发布首台太阳能割草机器人，2024年营收484亿瑞典朗克，割草机器人营收72亿瑞典朗克，同比下滑11%，2025年推13款无边界新品，2026年集成太阳能电池板和避障功能 [57][58] - 宝时得1994年成立，2024年Q1德国市场现代渠道割草机器人销售份额约59%，2023年推无边界产品，WORX用纯视觉方案，Kress用网格式RTK+视觉方案 [67] 新锐玩家 - 九号公司2021年首发无边界割草机器人，2024年营收8.6亿元，出货量15万台，采用RTK+视觉技术路径，搭建3000多个分销渠道 [74][75] - 库犸动力2025年春季产品在德法美亚马逊霸榜，采用RTK+视觉技术，爬坡能力强，2025年拓展产品、下拓价格、尝试固态激光雷达产品，销售以线上为主 [81] - 科沃斯割草机器人早期用UWB+双目视觉，后转RTK+视觉/激光雷达+视觉，2024年海外收入和销量分别同比+186.7%/+271.7%，2025年将在美国销售 [83] - 追觅2023年推出首款无边界割草机器人，采用3D高精度激光雷达方案，2024年融入AI视觉技术，2025年出货量达十万台 [85] 新入局者 - 安克创新2025年推新品E15/E18，采用纯视觉方案，配备LED大灯、自动除雾器和AI检测摄像头 [88] - 优必选2025年CES首发智能割草机M10，采用RTK+视觉方案，双参考站解决信号遮挡问题 [89] - 长曜创新、来牟科技、森合创新等初创企业通过差异化产品进入赛道 [92][93] 竞争要素技术路径 - RTK+视觉是主流技术路径，RTK定位精准但受遮挡影响，视觉成本低但特征点捕捉难，二者互补且成本低 [105] - 激光雷达精度高、抗干扰强，但易受微小障碍物影响、成本高 [108] - 国内厂商中，RTK+视觉主流，也有玩家尝试激光雷达、纯视觉方案 [119] 渠道壁垒 - 割草机器人线下销售占比约80%，先发企业有望构筑壁垒，美国市场渠道集中，进入门槛高 [128][134] - 九号Navimow搭建3000多个分销渠道，覆盖30多个国家，相比库犸动力有先发优势 [140] 售后能力 - 割草机器人对售后/维修能力要求高，宝时得、九号、追觅保修期较长 [142][145] - 企业售后能力考察产品稳定性、资金体量和本地化运维能力，九号和富世华推出租赁服务 [142][148] 投资建议 - 推荐高景气赛道优质龙头九号公司，以及积极布局的安克创新和科沃斯 [9][150]

放榜了！ICCV 2025最新汇总（自驾/具身/3D视觉/LLM/CV等）

自动驾驶之心· 2025-06-28 21:34

自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏提升跨模态学习效果 [9]

海康威视申请一种定位方法相关专利，提高对目标设备进行定位的准确性

金融界· 2025-06-28 17:05

公司专利技术 - 公司申请了一项名为"一种定位方法、装置、电子设备及存储介质"的专利，公开号CN120219481A，申请日期为2023年12月 [1] - 该专利涉及视觉定位技术领域，旨在提高目标设备定位的准确性，方法包括获取全局地图、目标图像和最新定位状态，并基于临时地图和位姿确定目标位姿 [1] 公司基本信息 - 公司成立于2001年，位于杭州市，主要从事计算机、通信和其他电子设备制造业 [2] - 公司注册资本为923319.8326万人民币 [2] 公司业务与资产 - 公司对外投资了68家企业，参与招投标项目5000次 [2] - 公司拥有商标信息833条，专利信息5000条，行政许可571个 [2]

具身智能之心· 2025-06-28 15:48

行业发展趋势 - 自动驾驶和具身智能成为AI技术发展的主线支撑了近一半的技术路线和融资金额 [1] - L2~L4自动驾驶功能逐步实现量产人形机器人和四足机械狗等具身智能产品完成复杂动作演示 [1] - 行业对技术和人才需求旺盛尤其在自动驾驶、具身智能、3D视觉和机器人领域 [1] 求职社区概况 - AutoRobo知识星球专注于自动驾驶、具身智能和机器人方向的求职交流成员近1000名 [2] - 成员包括地平线、理想汽车、华为、小米汽车等公司的社招人员以及2024-2025届秋招学生 [2] - 社区提供面试题目、面经、行业研报、谈薪技巧、内推资源和简历优化等服务 [2] 招聘信息 - 日常分享算法、开发、产品等岗位信息涵盖校招、社招和实习机会 [3] - 寒武纪持续招聘2026届实习生包括C++开发、PyTorch框架研发和软件测试开发等岗位 [4] 面试资源 - 汇总自动驾驶和具身智能方向的"一百问"系列涵盖毫米波视觉融合、BEV感知、多传感器标定等核心技术 [6][7] - 具身智能领域包含Occupancy感知、相机标定、端到端自动驾驶等专项问题 [8][12] - 整理社招/校招全流程面经包括代码题、项目细节和面试复盘 [15][19] 行业研究 - 提供领域研报帮助理解行业发展状态、前景和产业链如世界机器人报告、中国具身智能创投报告等 [13][14] - 深度分析具身智能技术路线、市场机遇和人形机器人量产硬件等专题 [14] 职业发展支持 - 汇总机器人、自动驾驶和AI类专业书籍构建知识体系 [18] - 分享谈薪技巧、HR面常见问题和岗位薪资谈判策略 [17][20] - 提供转行经验、面试官建议和岗位技能树等职业指导 [20]

虎嗅· 2025-06-28 14:50

技术突破 - 谷歌Gemini Robotics On-Device模型实现机器人脱机工作，无需持续互联网连接[3] - 该模型是公司首个"视觉-语言-动作"模型，帮助机器人更快适应新任务和新环境[3] - 模型解决了灵巧操作、新任务微调和适应、基于本地运行的低延迟快速推理三大问题[5] - 在双臂Franka FR3机器人和Apptronik Apollo人形机器人上展示了通用指令执行能力[14][17] 性能表现 - 模型泛化能力略低于旗舰Gemini Robotics模型，但远超之前最好的离线模型[8] - 在分布式任务和复杂多步骤指令方面优于其他设备端替代方案[10] - 通过50到100次演示即可快速适应新任务，展示了强大的适应能力[12][14] - 能够处理以前未见过的物体和场景，完成折叠衣服等灵巧任务[14] 行业比较 - 与Figure的Helix模型不同，谷歌模型独立于数据网络运行，适合延迟敏感应用[3] - 模型提供了微调选择，而Helix使用一组神经网络权重学习所有行为[12] - 技术白皮书提出机器人应成为物理世界的解读者而非人类模仿者[19] 应用展示 - 机器人未经教授完成"扣篮"动作，展现快速适应新场景能力[1] - 在RSS2025大会上完成全球首个互动式现场展示[1] - 灵巧手可以拿起笔并相互配合拔掉笔盖[7] - 完成"放置蓝色砖块"、"拉开抽屉"等基于自然语言指令的任务[8]

具身智能

视觉语言动作（VLA）模型

人工智能

Gemini Robotics On-Device

Gemini Robotics On-Device

Helix

第二十届中博会吸引境内外近两千家企业参展

中国新闻网· 2025-06-28 06:13

展会概况 - 第二十届中国国际中小企业博览会在广州广交会展馆开幕，吸引境内外近2000家企业参展，总展位数超3400个 [1] - 展会规模约8万平方米，设7个展厅，包括主题展、专业展、配套活动和网上中博会 [3] - 中博会自创办以来累计境内外参展企业超5.6万家，其中境外企业1.1万多家，展位达9.3万个 [4] 展区设置 - 主题展包括国际展区、港澳台展区、省区市专精特新展区 [3] - 专业展包括制造业数字化转型专题展、工业设计展、智能穿戴与现代钟表展、老字号企业展等 [3] - 国际展区、港澳台展区展览面积约1.8万平方米，来自超50个国家(地区)和国际组织参展，展位总数超800个，参展企业总数超500家 [3] 参展企业与产品 - 国际展区汇聚欧美、东南亚、非洲等地区标志性消费品，融入美国AI、加拿大3D机器视觉、韩国热界面材料制造、中国台湾半导体等创新科技产品 [3] - 老字号展区除中国各省区市老字号外，还有尼泊尔、斯里兰卡、乌兹别克斯坦、马来西亚等地老字号企业参展 [3] 配套活动 - 本届中博会将举办近60场系列配套活动，包括APEC中小企业产业集群对接研讨、人工智能赋能新型工业化深度行等 [4]

新华社· 2025-06-27 20:28

人形机器人技术突破 - 众擎机器人科技展示PM01人形机器人身高1.38米体重40多公斤全身拥有24个自由度腰部配备320度自由旋转电机能完成"前空翻"等高难度动作 [1] - PM01机器人通过具身智能、运控算法、动力关节等技术实现平衡行走和复杂动作 2024年12月发布 [1] - 公司专注于通用智能机器人及行业场景方案已实现从核心算法研发到关节驱动的全面自主设计正在攻关自主跌倒爬起、灵活避障等能力 [2] 3D视觉感知技术领先 - 奥比中光自主研发MX系列深度引擎芯片核心部件MX6600芯片仅9毫米见方用于处理3D视觉感知数据 2015年破解国内"缺芯少核"难题 [4] - 公司3D摄像头产品国内市占率达70%（10台服务机器人中7台使用）全面布局主流3D视觉感知技术路线 [4] - 送餐机器人通过三组3D视觉传感器实现灵敏感知和避障功能 [3] 微纳米医疗机器人创新 - 深圳市人工智能与机器人研究院开发磁性微纳米医疗机器人通过体外磁控引导集群堵塞肿瘤供血血管已进入大动物活体实验阶段 [6] - 研究院聚焦能源、交通、智能制造、医疗康复等领域技术落地联合头部企业开展重大技术攻关 [6] 机器人产业规模增长 - 2024年深圳机器人企业总数达74000家新增14000家产业链总产值首次突破2000亿元（2012亿元）同比增长12.58% [6] - 全国机器人产业形成北京、上海、杭州等地产学研融合创新体系稳居全球第一梯队 [7]