多模态理解

搜索文档
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 10:25
随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。我们联合业界知名大模型专家,为大家退出了大模型1v6论文辅导小班课! ⼀、有关大模型核心的几个点⭐ 本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键 技术。我们将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法; 在知识扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方 面,研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多 模态理解等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、 ...
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 15:13
⼀、课题简介⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动 态扩展和复杂推理三大方向的关键技术。 课程将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法;在知识 扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方面,研究 链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多模态理解 等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、课程目的 三、招生人数⭐ 6⼈/期(⾄多8人) 四、招生对象⭐ 五、课程收获 解决 ...
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
机器之心· 2025-06-22 12:26
随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。 南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源! https://github.com/wusize/OpenUni 联系方式: size001@e.ntu.edu.sg 架构图, OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL (理解)与 SANA (生成) 机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院 作者: Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy 开源代码: 图 1 : OpenUni 在生成任务上的性能表现,展示了其高效的参数利用 三大核心优势 | Size Wu*1 | | Zhonghu ...
实测豆包1.6,最火玩法all in one!Seedance登顶视频生成榜一,豆包APP全量上线
量子位· 2025-06-12 15:11
海淀区高考模拟卷,豆包1.6文理科成绩全部突破700分,理科成绩更是比去年的豆包提升了154分。 | 海淀模拟全卷 | | | --- | --- | | 豆包大模型1.6: | 豆包-240615: | | 理科: 656+50=706 | 理科: 502+50=552 | | 文科:662+50=712 | 文科:572+50=622 | 视频领域, Seedance 1.0 Pro 亮相即登顶全球竞技场文生视频、图生视频双料第一。 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不愧是字节,一发大模型,各模态榜单格局全部被重构! 最新豆包大模型1.6系列 ,"小版本"更新但推理、数学、多模态能力全部冲入 全球第一梯队 。 | Artificial Analysis Video Arena Leaderboard | | | | | | Artificial Analysis Video Arena Leaderboard | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | Text to Video | ...
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
量子位· 2025-05-10 12:40
基础大模型研发战略 - 公司明确表态坚持基础大模型研发,认为行业技术发展仍处于陡峭上升期,GPT-4等前沿技术迭代速度极快[1][2] - 坚持研发的逻辑包括:技术趋势的快速演进要求紧跟主流增长路径,避免被淘汰[1][2] - 应用与模型存在共生关系——模型决定应用上限,应用反哺模型场景数据[3] 产品形态与商业化路径 - 公司C端产品完成从"跃问"到"阶跃AI"的品牌升级,形态从手机App转向端云一体Agent平台[4] - 商业化逻辑遵循"模型突破先于商业化"原则,参考OpenAI的GPT-3.5到ChatGPT演进路径[4] - 终端产品定位明确聚焦C端市场,涵盖助手类与内容类应用场景[4] 技术演进两大趋势 - **强化学习转型**:行业从模仿学习转向强化学习,OpenAI的o1/o3和DeepSeek-R1均采用该技术[7][8] - **多模态融合**:多模态被视为实现AGI的必经之路,涉及符号/视觉/空间等多元智能形态[9][12] 多模态研发实践 - 公司采取散弹式研发策略,两年内发布22款基座模型,其中16款为多模态模型(占比73%),覆盖文字/语音/图像/视频等方向[10] - 多模态模型细分领域包括图像理解生成、视频处理、音乐生成及多模态推理等7类[10] - 技术路线聚焦"单模态→多模态→理解生成一体化→世界模型→AGI"的演进路径[12] 理解生成一体化技术突破 - 多模态理解生成一体化指同一模型完成理解与生成,而非传统三段式流程[13] - 视觉模态因高维度连续分布特性,其NFP(Next-Frame-Prediction)技术复杂度显著高于语言模型的NTP[13][14] - 公司图像编辑模型Step1X-Edit已初步实现该技术,但承认仍需架构优化与数据打磨[17] - 技术难点在于视觉领域缺乏类似Transformer的统一架构,公司正探索可扩展的解决方案[16] 综合能力建设 - 实现理解生成一体化需语言模型、视觉推理、内容生成等全栈能力支撑,无法单点突破[20][21] - 公司通过并行多条技术路线保持技术领先性,内部各方向能力均衡发展[17][22]
细扒字节Seed 逆天招人要求!这5%本地顶级大脑做出了首个跨7大语言代码修复基准,让大模型成本狂降83%!
AI前线· 2025-04-28 19:10
作者|冬梅 字节 Top Seed 启动 2026 届招聘,瞄准顶尖博士 4 月 27 日,字节跳动 Seed 在其官微上发布了一则招聘启示,宣布正式启动 2026 届 Top Seed 大模型顶尖人才校招计划, 研究课题包括大语言模型、机器学习算法和系统、多模态生成、多模态理解、语音等方向,基本覆盖大模型研究各个领域, 计划招募约 30 位顶尖应届博士。 值得一提的是,本届 Top Seed 强调不限专业背景,更关注研究潜力,希望寻找具有极强技术信仰与热情、具备出色研究能 力、富有好奇心和驱动力的年轻研究者。 值得注意的是,字节跳动在此次招聘启事中还透露了几位刚毕业的同学已经做出了一些有影响力的研究。 比如,Z 同学构建并开源了首个多语言代码修复基准 Multi-SWE-bench,在 SWE-bench 基础上,首次覆盖 Python 之外的 Java、TypeScript、C、C++、Go、Rust 和 JavaScript 七种编程语言,1632 个真实修复任务,是真正面向"全栈工程"的评测 基准,其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。 ...