Workflow
视觉
icon
搜索文档
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
机器之心· 2025-06-30 11:18
赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计。以下工作为赵天辰在字节跳动-Seed视 觉部门实习期间完成 近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。与输入序列长度呈平方复杂度 的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。注意力的稀疏化(Sparse Attention)与低比特量化 (Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。然而,这些方法在视觉生成模型中,在低稠密度(<50%)与低比特 (纯 INT8/INT4)时面临着显著的性能损失,具有优化的需求。 本文围绕着视觉任务的 "局部性"(Locality)特点,首先提出了系统的分析框架,识别出了视觉生成任务 Attention 优化的关键挑战在于 "多样且分散" 的注意力模 式,并且进一步探索了该模式的产生原因,并揭示了多样且分散的注意力模式,可以被统一为代表 "局部聚合" ...
10 人 1600 万美金 ARR,华人团队 OpenArt 用了这 11 个 AI 技术栈
投资实习所· 2025-06-29 19:53
定位策略 - 早期面临定位挑战,AI图像生成市场竞争激烈,Midjourney以艺术化输出见长,DALL-E以技术实力著称 [1] - 核心功能与竞品相似,差异化在于用户体验和使用场景的精准把握 [1] - 确定三大核心用户群体:内容创作者、奇幻爱好者、中小企业 [2] 增长策略 - 传统SEO增长趋缓,转向程序化SEO(pSEO)策略 [2] - 针对长尾关键词创建特定主题的AI生成器页面,结构包括H1标题、示例按钮、示例画廊、使用指南 [3] - 与daydream合作,8个月内创建600多个pSEO页面,月访问量达100万次,跻身"AI艺术生成器"搜索前10 [4] 战略转型 - 从AI图像生成转向视觉故事讲述,定位为"品类定义公司" [5] - 赞助MIT AI电影黑客马拉松,验证方向可行性,团队两天创作出接近皮克斯水准的短片 [5] - 采用"Uber模式",简化复杂流程为输入→输出体验,区别于Sora/Pika/Runway的"手动挡工具" [6][7] 技术突破 - 解决角色一致性问题,通过多模态集成组合多个开源工具 [8] - 技术栈包括Stability AI、Flux、ElevenLabs、Kling、Hailuo等 [10] 产品开发与运营 - 编程工具使用Cursor或Windsurf,支持全局上下文搜索,提升效率 [13] - 测试工具Checkly和Stably减少手动QA工作量,提升稳定性 [14][15] - 客户支持工具Serif自动生成70%以上回复,减少人工干预 [16] 用户研究与内容管理 - 用户反馈工具Claude实时分析需求与情绪 [17] - 用户研究工具Dovetail快速梳理访谈内容,提取关键需求 [18] - 内容审核工具Cinder每日处理数百万张图片,保障内容安全 [19] 市场营销 - 程序化SEO工作流每月产出数百个高质量页面,带来数百万自然流量 [20] - SEM广告管理仅需1人兼职,OpenArt生成素材,DeepSeek撰写文案 [21] - 网红挖掘工具Beacons AI匹配契合度90%+的网红,GMass批量触达 [22][23] - 网红管理工具Serif和MightyScout优化沟通与追踪 [24] - YouTube分析工具VidIQ助力订阅量从0增至7万 [25] 未来愿景 - 长期目标是成为AI原生社交媒体平台,探索互动式内容格式 [9] - 定位为故事可视化解决方案,保存用户角色、故事和模板,增强用户粘性 [9]
CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~
自动驾驶之心· 2025-06-29 19:33
技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法:阶段一预训练采用自监督方式,使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据,采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集,生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片,30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景,每段20秒10Hz,8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型,CoVLA VLT训练24小时,WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps,8 rollouts per sample,耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT,Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99,排名第一 [2] - Poutine方案7.99分,Poutine-base 7.91分,RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95,Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标,通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异,但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA,主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]
割草机器人行业深度:浩渺境中,千峰竞秀
长江证券· 2025-06-29 13:33
报告行业投资评级 - 看好丨维持 [10] 报告的核心观点 - 无边界割草机器人有望全面替代有边界产品,若割草机器人替代30%手推式+10%骑乘式,无边界割草机器人出货量增长空间超10倍 [3][9][150] - 产品稳定性优、资金体量大、海外本地化运维能力强的企业更具竞争优势,推荐九号公司,以及安克创新和科沃斯 [3][9][150] 整体规模 割草场景解析 - 割草是欧美家庭刚需和草坪护理高频活动,全球约2.5亿私人花园,欧美占72%,暖季草割草季3 - 10月,生长旺季每月割草4 - 6次,雇人割草费用49 - 147美元 [18] - 2024年OPE市场规模预计超300亿美元,割草机占比约37%,手推式+骑乘式割草机市场规模超百亿美元,出货量超2000万台 [23] 增长空间分析 - 2024年割草机器人市场规模预计15亿美元,占割草机整体超10%,出货量约129万台,2024 - 2029年CAGR达13.2% [30] - 无边界割草机器人出货量占比2024年约30%,为38万台左右,正替代有边界产品,富世华2024年销售额下滑、利润率回落 [38] - 无边界割草机器人经济性突出,预计全面替代有边界产品,割草机器人稳态销量达582万台,出货量增长空间分别为351%/1430% [47][49] 竞争格局 传统龙头 - 富世华和宝时得早期在有边界割草机器人市场份额合计超90% [55] - 富世华1995年发布首台太阳能割草机器人,2024年营收484亿瑞典朗克,割草机器人营收72亿瑞典朗克,同比下滑11%,2025年推13款无边界新品,2026年集成太阳能电池板和避障功能 [57][58] - 宝时得1994年成立,2024年Q1德国市场现代渠道割草机器人销售份额约59%,2023年推无边界产品,WORX用纯视觉方案,Kress用网格式RTK+视觉方案 [67] 新锐玩家 - 九号公司2021年首发无边界割草机器人,2024年营收8.6亿元,出货量15万台,采用RTK+视觉技术路径,搭建3000多个分销渠道 [74][75] - 库犸动力2025年春季产品在德法美亚马逊霸榜,采用RTK+视觉技术,爬坡能力强,2025年拓展产品、下拓价格、尝试固态激光雷达产品,销售以线上为主 [81] - 科沃斯割草机器人早期用UWB+双目视觉,后转RTK+视觉/激光雷达+视觉,2024年海外收入和销量分别同比+186.7%/+271.7%,2025年将在美国销售 [83] - 追觅2023年推出首款无边界割草机器人,采用3D高精度激光雷达方案,2024年融入AI视觉技术,2025年出货量达十万台 [85] 新入局者 - 安克创新2025年推新品E15/E18,采用纯视觉方案,配备LED大灯、自动除雾器和AI检测摄像头 [88] - 优必选2025年CES首发智能割草机M10,采用RTK+视觉方案,双参考站解决信号遮挡问题 [89] - 长曜创新、来牟科技、森合创新等初创企业通过差异化产品进入赛道 [92][93] 竞争要素 技术路径 - RTK+视觉是主流技术路径,RTK定位精准但受遮挡影响,视觉成本低但特征点捕捉难,二者互补且成本低 [105] - 激光雷达精度高、抗干扰强,但易受微小障碍物影响、成本高 [108] - 国内厂商中,RTK+视觉主流,也有玩家尝试激光雷达、纯视觉方案 [119] 渠道壁垒 - 割草机器人线下销售占比约80%,先发企业有望构筑壁垒,美国市场渠道集中,进入门槛高 [128][134] - 九号Navimow搭建3000多个分销渠道,覆盖30多个国家,相比库犸动力有先发优势 [140] 售后能力 - 割草机器人对售后/维修能力要求高,宝时得、九号、追觅保修期较长 [142][145] - 企业售后能力考察产品稳定性、资金体量和本地化运维能力,九号和富世华推出租赁服务 [142][148] 投资建议 - 推荐高景气赛道优质龙头九号公司,以及积极布局的安克创新和科沃斯 [9][150]
放榜了!ICCV 2025最新汇总(自驾/具身/3D视觉/LLM/CV等)
自动驾驶之心· 2025-06-28 21:34
自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台 支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统 可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线 实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型 支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统 集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型 结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型 支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架 实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术 提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架 优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统 通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习 实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统 支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型 实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架 通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模 集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型 支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准 针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场 用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架 基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习 探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏 提升跨模态学习效果 [9]
海康威视申请一种定位方法相关专利,提高对目标设备进行定位的准确性
金融界· 2025-06-28 17:05
公司专利技术 - 公司申请了一项名为"一种定位方法、装置、电子设备及存储介质"的专利,公开号CN120219481A,申请日期为2023年12月 [1] - 该专利涉及视觉定位技术领域,旨在提高目标设备定位的准确性,方法包括获取全局地图、目标图像和最新定位状态,并基于临时地图和位姿确定目标位姿 [1] 公司基本信息 - 公司成立于2001年,位于杭州市,主要从事计算机、通信和其他电子设备制造业 [2] - 公司注册资本为923319.8326万人民币 [2] 公司业务与资产 - 公司对外投资了68家企业,参与招投标项目5000次 [2] - 公司拥有商标信息833条,专利信息5000条,行政许可571个 [2]
具身的秋招马上要开始了,去哪里抱团呀?
具身智能之心· 2025-06-28 15:48
行业发展趋势 - 自动驾驶和具身智能成为AI技术发展的主线 支撑了近一半的技术路线和融资金额 [1] - L2~L4自动驾驶功能逐步实现量产 人形机器人和四足机械狗等具身智能产品完成复杂动作演示 [1] - 行业对技术和人才需求旺盛 尤其在自动驾驶、具身智能、3D视觉和机器人领域 [1] 求职社区概况 - AutoRobo知识星球专注于自动驾驶、具身智能和机器人方向的求职交流 成员近1000名 [2] - 成员包括地平线、理想汽车、华为、小米汽车等公司的社招人员以及2024-2025届秋招学生 [2] - 社区提供面试题目、面经、行业研报、谈薪技巧、内推资源和简历优化等服务 [2] 招聘信息 - 日常分享算法、开发、产品等岗位信息 涵盖校招、社招和实习机会 [3] - 寒武纪持续招聘2026届实习生 包括C++开发、PyTorch框架研发和软件测试开发等岗位 [4] 面试资源 - 汇总自动驾驶和具身智能方向的"一百问"系列 涵盖毫米波视觉融合、BEV感知、多传感器标定等核心技术 [6][7] - 具身智能领域包含Occupancy感知、相机标定、端到端自动驾驶等专项问题 [8][12] - 整理社招/校招全流程面经 包括代码题、项目细节和面试复盘 [15][19] 行业研究 - 提供领域研报帮助理解行业发展状态、前景和产业链 如世界机器人报告、中国具身智能创投报告等 [13][14] - 深度分析具身智能技术路线、市场机遇和人形机器人量产硬件等专题 [14] 职业发展支持 - 汇总机器人、自动驾驶和AI类专业书籍 构建知识体系 [18] - 分享谈薪技巧、HR面常见问题和岗位薪资谈判策略 [17][20] - 提供转行经验、面试官建议和岗位技能树等职业指导 [20]
谷歌拍了拍Figure说,“起来卷”
虎嗅· 2025-06-28 14:50
技术突破 - 谷歌Gemini Robotics On-Device模型实现机器人脱机工作,无需持续互联网连接[3] - 该模型是公司首个"视觉-语言-动作"模型,帮助机器人更快适应新任务和新环境[3] - 模型解决了灵巧操作、新任务微调和适应、基于本地运行的低延迟快速推理三大问题[5] - 在双臂Franka FR3机器人和Apptronik Apollo人形机器人上展示了通用指令执行能力[14][17] 性能表现 - 模型泛化能力略低于旗舰Gemini Robotics模型,但远超之前最好的离线模型[8] - 在分布式任务和复杂多步骤指令方面优于其他设备端替代方案[10] - 通过50到100次演示即可快速适应新任务,展示了强大的适应能力[12][14] - 能够处理以前未见过的物体和场景,完成折叠衣服等灵巧任务[14] 行业比较 - 与Figure的Helix模型不同,谷歌模型独立于数据网络运行,适合延迟敏感应用[3] - 模型提供了微调选择,而Helix使用一组神经网络权重学习所有行为[12] - 技术白皮书提出机器人应成为物理世界的解读者而非人类模仿者[19] 应用展示 - 机器人未经教授完成"扣篮"动作,展现快速适应新场景能力[1] - 在RSS2025大会上完成全球首个互动式现场展示[1] - 灵巧手可以拿起笔并相互配合拔掉笔盖[7] - 完成"放置蓝色砖块"、"拉开抽屉"等基于自然语言指令的任务[8]
第二十届中博会吸引境内外近两千家企业参展
中国新闻网· 2025-06-28 06:13
展会概况 - 第二十届中国国际中小企业博览会在广州广交会展馆开幕,吸引境内外近2000家企业参展,总展位数超3400个 [1] - 展会规模约8万平方米,设7个展厅,包括主题展、专业展、配套活动和网上中博会 [3] - 中博会自创办以来累计境内外参展企业超5.6万家,其中境外企业1.1万多家,展位达9.3万个 [4] 展区设置 - 主题展包括国际展区、港澳台展区、省区市专精特新展区 [3] - 专业展包括制造业数字化转型专题展、工业设计展、智能穿戴与现代钟表展、老字号企业展等 [3] - 国际展区、港澳台展区展览面积约1.8万平方米,来自超50个国家(地区)和国际组织参展,展位总数超800个,参展企业总数超500家 [3] 参展企业与产品 - 国际展区汇聚欧美、东南亚、非洲等地区标志性消费品,融入美国AI、加拿大3D机器视觉、韩国热界面材料制造、中国台湾半导体等创新科技产品 [3] - 老字号展区除中国各省区市老字号外,还有尼泊尔、斯里兰卡、乌兹别克斯坦、马来西亚等地老字号企业参展 [3] 配套活动 - 本届中博会将举办近60场系列配套活动,包括APEC中小企业产业集群对接研讨、人工智能赋能新型工业化深度行等 [4]
活力中国调研行|触摸!钢铁身躯的创新脉搏
新华社· 2025-06-27 20:28
人形机器人技术突破 - 众擎机器人科技展示PM01人形机器人 身高1.38米 体重40多公斤 全身拥有24个自由度 腰部配备320度自由旋转电机 能完成"前空翻"等高难度动作 [1] - PM01机器人通过具身智能、运控算法、动力关节等技术实现平衡行走和复杂动作 2024年12月发布 [1] - 公司专注于通用智能机器人及行业场景方案 已实现从核心算法研发到关节驱动的全面自主设计 正在攻关自主跌倒爬起、灵活避障等能力 [2] 3D视觉感知技术领先 - 奥比中光自主研发MX系列深度引擎芯片 核心部件MX6600芯片仅9毫米见方 用于处理3D视觉感知数据 2015年破解国内"缺芯少核"难题 [4] - 公司3D摄像头产品国内市占率达70%(10台服务机器人中7台使用) 全面布局主流3D视觉感知技术路线 [4] - 送餐机器人通过三组3D视觉传感器实现灵敏感知和避障功能 [3] 微纳米医疗机器人创新 - 深圳市人工智能与机器人研究院开发磁性微纳米医疗机器人 通过体外磁控引导集群堵塞肿瘤供血血管 已进入大动物活体实验阶段 [6] - 研究院聚焦能源、交通、智能制造、医疗康复等领域技术落地 联合头部企业开展重大技术攻关 [6] 机器人产业规模增长 - 2024年深圳机器人企业总数达74000家 新增14000家 产业链总产值首次突破2000亿元(2012亿元) 同比增长12.58% [6] - 全国机器人产业形成北京、上海、杭州等地产学研融合创新体系 稳居全球第一梯队 [7]