Workflow
多模态大模型
icon
搜索文档
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
机器之心· 2025-06-27 08:49
核心观点 - 清华大学自然语言处理实验室提出基于参考概率奖励的强化学习(RLPR)技术,解决了现有RLVR范式在通用领域的应用局限 [4][7][24] - RLPR通过Prob-to-Reward方法和动态过滤机制显著提升奖励质量和训练稳定性,在Gemma、Llama、Qwen等主流模型上验证有效 [7][8][22][24] - 该方法利用大语言模型生成参考答案的概率作为奖励信号,无需领域特定规则验证器,实现领域无关的高效奖励生成 [13][14] 技术原理 - 观察到LLM生成参考答案的概率与推理质量高度相关,错误推理会导致参考答案生成概率显著下降 [11] - 提出构建不含思维链过程的对照奖励,通过差值计算去除无关因素干扰,实现奖励纠偏 [16] - 采用基于奖励标准差的动态过滤机制,结合EMA更新阈值,提升训练稳定性 [17] 性能优势 - PR奖励在0.5B规模即优于规则奖励和验证器模型奖励,通用领域质量可达0.91 ROC-AUC [19] - 在Qwen2.5 3B模型上使用不同训练模板均能取得稳定性能提升 [21] - 在Gemma、Llama等基座模型上超越使用规则奖励的RLVR基线 [22] 应用价值 - 突破现有RLVR局限于数学/代码领域的限制,可拓展至自然语言通用领域 [3][4][24] - 仅需一次前向传播即可生成奖励,显著降低人力和工程资源投入 [13] - 相关代码、模型、数据和论文已全部开源 [8][9]
京东外卖回应试点“骑手帮扔垃圾”功能;快手上线多模态大模型Kwai Keye-VL丨未来商业早参
每日经济新闻· 2025-06-27 07:42
京东外卖试点"骑手帮扔垃圾"功能 - 京东外卖正在小范围测试"骑手帮扔垃圾"功能 该服务目前仅处于方案和小范围测试阶段 尚未正式上线 [1] - 服务初衷是为有需求的用户提供额外便利 全职骑手完全自愿参与 不做强制要求 参与骑手每单可获得补贴 用户也可自发打赏 [1] - 服务需用户明确需求后才会触发 平台为骑手配备一次性手套和消毒液 确保安心配送 后续将根据反馈评估和优化该服务 [1] 快手发布多模态大模型Kwai Keye-VL - 快手发布全新多模态大模型Kwai Keye-VL 该模型在视频理解方面表现优异 能将视频内容转化为高效解决方案 并能智能选择思考模式 [2] - Kwai Keye-VL已正式开源 开源策略有助于吸引更多开发者和研究者参与 加速技术迭代和应用场景拓展 [2] - 该模型为快手在内容创作和推荐领域提供了更强技术支持 [2] 宇树科技期待与海尔等公司合作 - 宇树科技首席执行官王兴兴表示 非常期待与海尔等大型集团公司合作 [3] - 宇树科技在机器人领域具有技术优势 特别是在人工智能和机器人应用方面 [3] - 与海尔合作将有助于宇树科技拓展应用场景 提升技术商业化能力 更好应用于智能家居等领域 [3] 安心鲜生完成2800万元A轮融资 - 陕西安心鲜生连锁超市完成2800万元A轮融资 资金将用于深化智能供应链系统建设 加速全国仓储网络升级 [4] - 融资还将用于拓展"超市+驿站"融合门店规模 安心鲜生是一家专注于社区零售的连锁超市 [4] - 融资为其在社区零售领域拓展提供支持 有助于提升市场覆盖范围和品牌影响力 [4] 美团预测服务零售线上化趋势 - 美团核心本地商业首席执行官王莆中表示 未来5年服务零售会加速线上化 美团要做好服务零售商家线上化小帮手 [5] - 美团将引入最新AI技术 加速线上场景全面升级 预计2030年服务零售线上化率将增至25% 诞生300个千店品牌 [5] - 服务零售加速线上化是行业发展趋势 美团通过提前布局和技术创新 能更好抓住市场机会 提升市场份额 [5]
让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
机器之心· 2025-06-25 14:50
多模态大模型技术进展 - 当前多模态大模型在复杂文本提示生成高保真图像方面取得进展,但在处理精确空间关系、多对象属性及复杂组合指令时仍面临挑战[1] - 香港大学MMLab、香港中文大学MMLab和商汤科技团队推出GoT-R1框架,通过强化学习增强语义-空间推理能力,超越预定义模板限制[2][3] - GoT框架通过显式语言推理过程规划语义内容和空间布局,提升图像生成准确性和可控性,但依赖人工定义模板限制了自主推理潜力[4] GoT-R1技术创新 - GoT-R1创新性应用强化学习于视觉生成,赋予模型自主学习和优化推理路径能力[5] - 构建双阶段多维度奖励框架:推理过程评估奖励(RPR)、推理至图像对齐奖励(RRI)、语义对齐奖励(Rsem)、空间对齐奖励(Rspa)、文本提示至图像对齐奖励(RPI)[14][15][16][17] - 采用组相对策略优化(GRPO)强化学习算法,使模型主动探索更优质推理策略,突破训练数据固定模式限制[18] 性能评估与行业对比 - GoT-R1-7B在T2I-CompBench六个评估类别中五个(色彩、形状、纹理、非空间属性、复杂组合)取得最高分,确立新SOTA性能[22][23] - 相比监督微调基线模型(Janus-Pro-7B-GoT),GoT-R1-7B指标提升达15%,纹理和形状保真度显著进步[24] - GPT-4o评估显示GoT-R1在空间关系理解类别以84:16压倒性优势胜出,证明其从根本上优化了模型推理能力[25] 技术实现细节 - GoT依赖840万图像生成样本和92万图像编辑样本构建的大规模推理链图文对数据集,结合Qwen2.5-VL等多模态大模型[10] - 独创语义-空间指导模块(SSGM)增强扩散模型遵循推理链能力[10] - 空间对齐奖励创新性将文本坐标转换为可视化布局供MLLM评估,显著提升空间关系判断准确性[16]
深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
自动驾驶之心· 2025-06-22 22:09
大模型微调技术 - 大模型高效微调成为业界焦点 无论是通用大模型还是智驾大模型 如何通过轻量微调变成专业模型成为热点话题 [2] - 开发大模型成本极高 ChatGPT单次训练成本超千万美元 DeepSeekv3单次训练成本超500万美元 小公司或个人难以承担 [2] - LoRA通过旁路降维再升维操作模拟intrinsic rank 训练时固定预训练模型参数 仅训练降维矩阵A与升维矩阵B [3] - LoRA初始化采用随机高斯分布初始化A 0矩阵初始化B 保证训练开始时旁路矩阵为0矩阵 [3] - LoRA思想类似残差连接 通过旁路更新模拟全参数微调过程 全参数微调可视为LoRA特例 [11] - LoRA推理时几乎不引入额外延迟 只需计算W=W0+△W [12] 多模态大模型课程内容 - 第一章介绍多模态大模型基础概念 包括结构&训练范式 公开数据集 应用场景 课程框架 [18] - 第二章讲解多模态大模型基础模块 包括模态编码器 Input Projector LLM Backbone Output Projector Modality Generator [20] - 第三章聚焦通用多模态大模型 涵盖图文理解 视频理解 任意模态 轻量大模型 统一视觉任务大模型算法 [22] - 第四章专注微调与强化学习技术 包括Adapter LoRA QLoRA Reward Model+PPO KTO DPO等算法实战 [25] - 第五章探讨多模态大模型在自动驾驶应用 包含DriveVLM等端到端自动驾驶前沿算法 [27] - 第六章提供求职专题 涵盖行业公司 发展方向 应用瓶颈 面试准备等实战经验 [29] 课程相关信息 - 讲师为一线大厂高级算法工程师 研究方向包括多模态大语言模型 Agent 参与过多车型量产项目 [32] - 课程适合高校研究人员 初创团队 企业技术骨干 转行人员等群体 [35] - 课程收获包括掌握通用大模型理论 自动驾驶前沿算法 微调部署能力 实际问题解决能力等 [36]
广联达(002410) - 002410广联达投资者关系管理信息20250621
2025-06-21 21:35
分组1:产业AI要素与公司优势 - 做好产业AI的三个关键要素为高质量数据、高价值场景、高可靠模型 [2] - 广联达在产业AI上的优势包括有自研大模型AecGPT、内置工程建设知识库、更懂图纸解析、领域知识回答更优、建筑工作流编排更优 [2] 分组2:AI价值场景落地 - 公司将建筑行业大模型与工程软件深度融合,提供智能化设计、交易、施工、运维、企业等系列应用产品及解决方案 [2] - AI场景落地方向为设计一体化、成本精细化、施工精细化 [2] 分组3:高价值AI应用特点 - 高价值AI应用应能从头到尾闭环交付 [4] - 其价值能被明确度量,如AI智能评标在海南使市场主体参与投标数量提升约10倍,节约财政资金约45.6亿元,平均中标下浮率为8% [5] - 能在过程中持续学习和优化 [5] 分组4:AI智能评标商业化落地 - AI产品商业化落地与技术成熟阶段相关,2024年交易阶段AI产品落地多,后续项目建设施工阶段AI应用价值将更凸显 [5][6] - AI智能评标通过减少人为干预保障公平公正,提升效率,破除地域限制,带来新增需求 [6] 分组5:未来高价值AI场景突破 - 技术维度上,多模态大模型突破后可带动施工现场安全管理需求场景,满足政府和企业对安全管理的需求 [6] - 市场维度上,新清单激发行业数据管理需求,AI自动建库可提高建库效率,产品已进入验证阶段,后续将规模化推广 [7]
今夏面世 OpenAI剧透GPT-5
北京商报· 2025-06-19 22:52
GPT-5发布计划 - GPT-5预计将于2024年夏季发布,具体日期未定,性能较GPT-4有显著提升 [1] - 公司内部讨论是否简单提升版本号或延续GPT-4的优化模式,7月是初步目标但可能调整 [3][4] - GPT-5定位为更接近通用人工智能的代理模型,具备推理、规划和跨情境互动能力 [3] 技术升级与竞争 - GPT-5目标是在某些任务上达到博士水平,而GPT-4仅相当于优秀高中生 [3] - 公司计划先发布GPT-4 5(代号Orion),作为最后一个非思维链模型,再推出集成技术的GPT-5 [6] - 深度求索的DeepSeek-R1性能接近公司o1模型,训练成本约600万美元,加剧行业竞争 [6] 产品策略与命名 - GPT-4o已完全取代GPT-4,其"全能"特性拓展了应用场景,但命名混乱问题待解决 [5] - 未来版本命名将简化,避免如o4-mini等复杂名称,GPT-5和GPT-6将更易使用 [5] - GPT-5将免费开放基础功能,订阅用户可享受更高智能级别 [5] 商业模式探索 - 公司主要收入来自企业客户购买增强版ChatGPT,但未排除广告可能性 [7] - 广告需谨慎处理,确保不修改模型输出且对用户有用,可能通过点击内容获得交易收入 [8] - 隐私保护是核心原则,公司反对《纽约时报》要求保留输出日志数据的诉讼 [7] 行业动态与挑战 - 多模态大模型领域将因GPT-5发布迎来新一轮技术竞争 [1] - 公司高管承认开源策略需调整,以应对竞争对手的追赶 [6] - GPT-5开发曾面临跳票、烧钱、缺人和数据不足等问题 [5]
阿里巴巴集团副总裁许主洪:多模态大模型是通往AGI的关键路径|直击MWC上海2025
国际金融报· 2025-06-19 18:48
许主洪进一步分享道,多模态理解模型主要基于自回归的模型框架,相比之下,多模态生成模型则更多地采用基于扩散的模型框架,利用如UNet和DiT 等架构,以及CLIP和T5等先进的文本编码器。 根据许主洪预测,未来多模态大模型将朝着理解与生成相统一的方向发展,但同时也指出主干网络设计、模态对齐融合等关键技术仍需深入研究。尽管 行业整体仍处于早期阶段,不过其对多模态技术在搜索、创作、机器人等领域的应用前景充满信心。 "多模态agent AI的时代才刚刚开始,未来我们要真正达到AGI,还是要解决非常多的技术难题,包括多模态大模型基础的能力,数据细节的连接与操 作,物理世界的控制与交付等等,都有很多的技术挑战,但这也是未来多模态大模型行业机会。"6月19日,在上海世界移动通信大会(MWC上海2025) 上,阿里巴巴集团副总裁,智能信息事业群首席科学家发表主题演讲,深入阐述了多模态大模型技术的发展趋势及其在实现通用人工智能(AGI)中的核心 作用。 在演讲中,许主洪将多模态大模型技术分为理解与生成两大类,并系统梳理了技术演进路径。他指出,多模态的理解任务,主要解决的难点包括多模态 的模态编码对齐、融合的理解与推理等等;多模 ...
还不知道发什么方向论文?别人已经投稿CCF-A了......
具身智能之心· 2025-06-18 11:03
具身智能之心论文辅导服务 - 核心观点:提供具身智能领域的论文辅导服务,帮助学员冲击顶级会议 [1] - 辅导方向包括多模态大模型、机器人导航、机器人抓取、具身泛化、具身合成数据、端到端具身智能体、3DGS等 [2] - 辅导老师均在CVPR、ICCV、ECCV、ICLR、RSS、ICML、ICRA等顶级会议发表过论文 [3] 学员要求 - 需要自带简历,学校背景要求国内TOP100高校或国外QS200以内 [5] - 详细内容可通过微信咨询 [5]
京东今年向应届生提供1.8万余个岗位
北京日报客户端· 2025-06-13 09:11
转自:北京日报客户端 记者近日从京东获悉,今年该公司将面向2025届毕业生提供1.8万余个岗位。数据显示,截至4月30日, 京东体系员工总数已超过72万人,其中快递小哥、运输司机、分拣员工等一线员工总数超过50万人。 "非常惊喜!能在实习后通过转正述职,提前锁定正式校招offer(入职通知)。"去年正式入职京东的晓 韦说,公司为大学生人才设置了快速成长通道,他在入职后的短短一年间连获两次晋升,成长为一名能 够独当一面的采销人员。 京东集团雇主品牌负责人石玉介绍,公司在连续三年累计面向在校生提供5万多个岗位的基础上,今年 面向2025届毕业生再提供1.8万余个岗位,核心岗位薪资提升20%。同时,今年5月,京东启动了面向全 球技术人才招聘的"顶尖青年技术天才计划",在新兴领域持续提供更多优质岗位,涵盖多模态大模型与 应用、机器学习、搜索推荐广告、空间与具身智能、高性能与云计算、大数据等前沿领域。 新技术催生新职业,公司近年来增添了许多新岗位,例如"大模型+"广告智能投放岗、"AI+"医疗服务 岗、家用机器人研发岗、无人机飞行师等等。 "有了'五险一金',心里踏实也更有奔头。"今年3月成为京东外卖全职骑手的杨晶泽说 ...
何小鹏:大模型道路,大家都在摸着石头过河
快讯· 2025-06-12 19:31
小鹏汽车新品发布 - 小鹏在广州发布了最新SUV车型G7 [1] - 发布会超过一半时间用于介绍辅助驾驶芯片"图灵" [1] - 媒体沟通会主要围绕芯片技术展开讨论 [1] 自动驾驶技术路线 - 公司CEO表示大模型道路仍处于探索阶段 [1] - VLA方案成为国内辅助驾驶第一梯队的选择 [1] - 理想汽车已开始开发VLA方案 [1] - 特斯拉坚持"端到端"方案与多模态大模型路线不同 [1]