多视角

搜索文档
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 19:54
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiahui Zhang等 以 OpenVLA 为代表的主流方法,仅使用 单帧 RGB 图像 + 文本指令 作为条件来拟合动作分布 。这 种极简输入导致目标分布呈现两类混乱: 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Teaser 在 VLA pretrain 中,单帧 RGB + 文本的传统输入往往缺失关键时空线索,导致坐标系混乱与状态模糊——即同 一观测下可能对应多种动作分布, 显著拉低预训练效率 。为破解这一瓶颈,我们提出 4D-VLA:通过将3D 空间 + 历史帧融入预训练输入,从而抑制混乱分布,提升模型在复杂场景中的performance。 Insight 如何从多源机器人数据中高效提取可迁移的运动知识 ,仍是制约通用操作策略的关键瓶颈。当前公开的 DROID、LIBERO 等大规模数据集为数据驱动控制提供了可能,但 输入信息的不完整与不一致 严重削弱了预训 练的效果。 ...
工银瑞信主动量化团队:多视角、多资产、多因子、多策略的制胜之道
信达证券· 2025-06-16 15:02
报告核心观点 - 工银瑞信主动量化团队践行“多视角、多资产、多因子、多策略”的4M多元化理念,由焦文龙带队,具备分工科学、因子策略储备深厚等竞争优势,规模承载能力充裕,产品/策略相关性低,值得关注 [2][12][13] 工银瑞信主动量化投资团队 多视角 - 团队成员背景复合多元,在大类资产和宏/中/微观维度高效协作,从业经历丰富,有助于形成多元有效观点 [14][15] 多资产 - 管理资产丰富,建立多资产分析框架,提出ARC投资导航系统,为产品提供确定性投资决策支持 [14] 多因子 - 因子开发遵循预测有效性与逻辑独立性双准则,构建多层次选股因子池,借助前沿算法提炼选股能力,控制组合风险暴露 [14][25] 团队架构与成员 - 团队由4名基金/投资经理和3名研究员构成,焦文龙统筹领导,成员各有所长、梯队合理 [3] - 焦文龙经验丰富,能力圈广泛,在管产品风格特色鲜明,策略同质化低 [3][18][19] 量化投研体系 - 构建以多因子协同等为核心的量化投研体系,通过低相关性设计提升因子入库有效性 [25] - 形成成熟完备的量化投研框架,覆盖产品全生命周期管理,分为投前、投中、投后步骤 [26][29] “主观+量化”融合 - 主观投资与量化策略互补,团队注重二者深度融合,借力内部主观投研人员,内部注重定性思维 [30][31] - 研发主动量化投研平台,实现投研一体化,提升效率,未来支持“零代码”化 [32] 工银瑞信主动量化产品线 产品线概览 - 以基本面量化、指数增强为主,规模占比超80%,各品类有细分子策略,产品遵循收益风险匹配逻辑 [5][35][36] 指数增强 - 依托成熟体系与平台优势,通过基金经理调整与策略迭代提升超额,近期表现优异 [42][52] 基本面量化 - 具备smart beta特色,形成立体化布局,产品线组合运作分四步,部分产品以“固收+量化增强股票组合”形式呈现 [54][55][57] 量化对冲 - 聚焦低风险绝对收益策略,两只核心产品定位差异化,“924”后跑赢同类,为投资者提供低波动资产配置工具 [67][68] 圆桌实录 投资框架与特色 - 投资理念注重长期思维、均衡配置,采取定量与定性结合框架,特色为多视角、多资产、多因子、多策略 [74][75][76] 因子及策略储备 - 因子库入库标准严格,构建方法包括人工和算法挖掘,实盘策略结合量化多因子模型与深度学习 [78][79] 因子或策略失效问题 - 重视策略实战有效性,通过严格回测、模拟盘跟踪和有效性验证构建策略 [84] alpha策略回撤应对 - 不轻易判断因子失效,定期观察因子表现,对因子进行相应处理,出库因子可重新入库 [86] 分域选股理念 - 认为不同股票池和因子类型存在差异,采取分域训练,拆分任务搭建子模型 [88][89] 基金管理人基本情况 - 工银瑞信基金成立于2005年6月,依托强大背景,提供多元化财富管理服务,业务资格全面,产品种类丰富,管理规模领先 [91][92]
《亚维农少女》与毕加索:现代艺术的解构宣言?
经济观察报· 2025-06-05 12:14
艺术创作背景 - 毕加索的《亚维农少女》创作于1907年,耗时近一年完成,是20世纪现代艺术史上的里程碑作品[1] - 作品灵感源于巴塞罗那卡列·亚维农街的红灯区场景,最初可能探讨性与道德议题,后转向形式语言的革新[1] - 受非洲原始雕塑、塞尚几何化造型及后期印象派色彩观念影响,打破西方绘画基于透视法和单一视角的传统[1] - 1907年毕加索在巴黎人类博物馆接触非洲科特迪瓦、贝宁的面具与雕塑,直接影响画中少女面孔的塑造[1] 艺术形式创新 - 画面中五位裸女身体被拆解为平面化的几何块面,右侧两位少女面孔融合非洲面具与伊比利亚雕塑的抽象特征[2] - 采用"多视角同时性"效果,左侧少女正面躯干与侧面手臂同时呈现,右侧少女脸部既有正面鼻子又有侧面眼睛[2] - 完全抛弃单一透视法,将不同角度视觉元素并置同一平面,背景以平面化几何色块与简化线条构成[3] - 色彩以蓝、赭、灰为主色调,笔触粗犷果断,人物轮廓线以深色勾勒,强化形式冲击力[3] 艺术史意义 - 作品1916年首次正式展出,早期仅在少数艺术家间引发讨论,后成为立体主义运动兴起的标志[4] - 保守派评论家视其为"艺术的灾难",因彻底否定文艺复兴以来的写实传统[4] - 被认为是立体主义的开端,推动现代艺术从具象走向抽象[4] - 毕加索艺术生涯横跨多个时期,从蓝色时期、粉色时期到立体主义、超现实主义[5] 文化影响与当代价值 - 作品直接影响马蒂斯、莱热等艺术家,为未来主义、抽象表现主义等流派铺平道路[6] - 打破"艺术必须美"的固有认知,证明形式革新可承载深刻思想内涵[6] - 多视角并置创作方法为现代艺术多元叙事奠定基础[6] - 现收藏于纽约现代艺术博物馆,成为理解现代艺术转型的关键文本[7]
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
视觉语言大模型的空间推理能力 - 当前视觉语言大模型(VLMs)在大规模图文数据中学习到的空间信息是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时,模型表现不佳,缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench,涵盖五种任务类型,覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对,通过自动化3D标注流水线生成精确方向标签,覆盖丰富3D场景 [4][16] - 五大任务包括:物体相对方向识别、人物视线方向识别(相机视角),以及从人类视角出发的三类任务(物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别) [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足,整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%,远低于物体相对方向判断的38.9%,但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角,如GPT-4o在人物视角平均准确率为36.29%,高于摄像头视角的33.57% [25] Multi-View Spatial Model(MVSM) - 研究团队开发MVSM专门用于跨视角空间理解优化,采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升,验证针对性训练的有效性 [5][28] - 在VSI-App评估中,MVSM在室内场景表现提升20%,户外场景提升4.00%,展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具,重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡,为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 11:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]