视频生成

搜索文档
VLA+RL还是纯强化?从200多篇工作中看强化学习的发展路线
具身智能之心· 2025-08-18 08:07
视觉强化学习综述 核心观点 - 该综述对视觉强化学习(VRL)领域进行系统性梳理,整合200+篇研究成果,提出四大主题支柱:多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型,并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用,包括跨模态对齐、长序列优化及可验证奖励设计,同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架 强化学习范式 - **RLHF(基于人类反馈的强化学习)**:通过三元组偏好数据训练奖励模型,结合PPO优化策略,三阶段流程(监督预训练→奖励建模→策略优化)成为主流 [10] - **DPO(直接偏好优化)**:绕过奖励建模环节,直接通过封闭式监督目标优化策略,降低计算成本 [11] - **RLVR(带可验证奖励的强化学习)**:用确定性验证信号(如代码测试结果)替代人类偏好,提升客观性 [12] 策略优化算法 - **PPO(近端策略优化)**:通过重要性采样和广义优势估计实现稳定策略更新,依赖精确奖励模型 [15] - **GRPO(群体相对策略优化)**:利用群体归一化优势信号替代价值网络,降低内存消耗并提升训练稳定性 [16] 应用领域 多模态大型语言模型 - **传统方法**:通过GRPO/PPO将视觉-语言模型与可验证奖励对齐,如RePIC、GoalLadder等 [17] - **空间感知**:2D任务(目标检测、分割)和3D任务(布局推理)均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**:分层奖励设计(如VQ-Insight)和时间衰减回报(如TW-GRPO)解决长序列挑战 [20] 视觉生成 - **图像生成**:DiffPPO等结合扩散模型与感知奖励(如ImageReward),提升生成质量 [21] - **3D生成**:DreamCS等通过渲染-比较循环优化几何结构,强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**:规则驱动奖励(如GUI-R1)和群体归一化更新(如UIShift)推动跨平台交互 [28] - **视觉导航**:OctoNav-R1等结合第一人称视觉与低级动作控制,通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**:结合外部基准(如MME)、人类偏好奖励和KL散度监控 [35] - **视觉生成**:FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**:在线成功率与逐步奖励设计(如Mind2web)平衡稀疏信号问题 [39] 未来方向 - **自适应推理**:通过终止评论者动态平衡深度与效率 [43] - **长视野优化**:子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**:需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]
中信证券:持续看好受益海外算力需求的供应链机会
快讯· 2025-07-16 08:41
海外AI应用加速态势 - 今年以来海外AI应用呈现加速态势 [1] - token消耗维持高速增长 大模型调用与收入水平快速增长 [1] - 基于LLM模型的AI搜索 AI Coding Agent等通用型应用率先爆发 [1] - 多模态模型能力持续迭代 图片生成 视频生成应用具备爆款潜力 [1] - 营销 客服 招聘 教育 医疗 法律等垂类应用层出不穷 [1] 投资机会 - 持续看好受益海外算力需求的供应链机会 [1] - 建议关注国内具备AI基础设施 模型能力与应用场景的云和互联网厂商 [1] - Coding Agent 图片/视频生成等应用落地带来投资机会 [1]
人工智能快速发展 商业化应用将带动相关产业持续繁荣
证券日报网· 2025-05-08 22:01
人工智能产业政策与市场趋势 - 中央经济工作会议提出开展"人工智能+"行动,培育未来产业 [1] - 政府工作报告强调持续推进"人工智能+"行动 [1] - 人工智能成为国际竞争新焦点和经济发展新引擎 [1] - 国内AI产业呈现模型、算力、应用全方位进步和突破态势 [1] - 政策助推下各地形成AI产业集群 [1] 产业链公司业绩表现 - AI算力龙头海光信息去年净利润同比增长52.87%,今年一季度增长75.33% [1] - 浪潮信息去年净利润同比增长28.55%,今年一季度增长52.78% [1] - AI存储器公司兆易创新去年净利润同比增长584.2%,今年一季度增长14.57% [1] - 智能穿戴领域恒玄科技去年净利润同比增长272.5%,今年一季度增长590.22% [1] 算力需求与供给分析 - 中国服务器市场下游重点为互联网、通信等行业 [2] - 互联网、通信、金融为算力主要需求方,均有积极信号验证需求增长 [2] - 互联网厂商将AI作为未来10年核心竞争力,研发需求支撑算力基础设施 [2] - 国内AI算力芯片从可用迈向好用,下游客户主动与国产芯片厂商合作 [2] - 国产AI芯片加速发展,供应链安全和产品多样化需求推动替代 [2] AI应用发展现状 - C端应用格局收敛,头部AI应用月活用户数及下载量持续增长 [2] - 聊天机器人为主战场,AI伴侣、视频生成、AI修图占据一席之地 [2] - B端应用处于商业化早期,AI在营销、教育、医疗等领域渗透率较高 [2] - B端产品类型包括AI原生应用及传统软件智能化升级两类 [2] 未来发展趋势 - 国产大模型性能快速突破,算力需求保持高景气 [3] - 国产算力逐步占据市场主导,AI应用加快商业化 [3] - AI产业基础层算力芯片、技术层大模型快速迭代缩小与海外差距 [3] - 应用层行业能力处于全球领先梯队,AI渗透全社会场景空间无限 [3]
速抢席位!在中国AIGC产业峰会现场,一起深度求索AI怎么用 ⁉️ 首批嘉宾已曝光
量子位· 2025-03-18 19:53
文章核心观点 - 第三届中国AIGC产业峰会将于4月16日在北京举办,主题为「万物皆可AI」,旨在让更多AI落地被看见,峰会已开启报名,还将发布相关评选结果和全景图谱 [1][2][29] 峰会信息 - 峰会时间为2025年4月16日,地点在北京·金茂万丽酒店,已开启报名,可点击链接报名线下参会,也可点击按钮一键预约线上直播 [2][29] 首批嘉宾阵容 - 百度副总裁阮瑜,从事互联网产品运营工作十余年,带领团队实现多项业务突破和创新变革 [4] - 无问芯穹联合创始人兼CEO夏立雪,在大语言模型等领域工作国际领先,带领公司成为AI算力领域代表性企业 [5][6] - 数势科技联合创始人谭李,带领团队打造企业级数据智能分析AI Agent,服务众多行业领军企业 [7][8] - 中关村科金总裁喻友平,有17年科技公司产品研发和管理经验,在云和AI的ToB商业体系有全面运营管理经验 [9][10] - PPIO派欧云联合创始人兼CEO姚欣,创办PPTV,后二次创业聚焦分布式云计算领域 [12] - 瑞莱智慧创始人兼CEO田天,是AI领域青年科学家,获多项荣誉并担任多个职位 [14][15] - 粉笔CTO陈建华,深耕产品技术研发,带领团队推动职业教育智能化 [16] - 生数科技产品副总裁廖谦,深耕AI领域,有丰富产品研发等经验 [17] - 轻松健康集团技术副总裁高玉石,主导构建集团核心技术平台AIcare [19] - 心影随形科技创始人兼CEO刘斌新,创业项目受好评,公司获相关荣誉 [20][21] - 像素绽放PixelBloom(AiPPT.com)CEO赵充,创办微梦传媒,推出AIGC产品AiPPT [22] - 狸谱App负责人一休,曾任职于字节跳动、哔哩哔哩等 [23] 评选信息 - 峰会上将发布「2025年度值得关注的AIGC企业&产品」评选结果,从技术、产品、市场、潜力维度评选 [24][26] - 评选报名截止日期为2025年3月24日,企业可通过添加微信18801103170或邮件发送至linyu@qbitai.com报名 [27] 全景图谱信息 - 峰会上将发布「2025年中国AIGC产品全景图谱」,展示国内AIGC产品市场格局与发展动态,并进行分析 [28] - 全景图谱正在征集中,截止日期为2025年3月31日,征集报名链接为https://wj.qq.com/s2/17871780/9cdc/ [28][29]