多模态理解
搜索文档
谷歌Gemini 3夜袭全球,暴击GPT-5.1,奥特曼罕见祝贺
36氪· 2025-11-19 08:07
产品发布核心 - 谷歌正式发布新一代旗舰人工智能模型Gemini 3 Pro,该模型被定位为“史上最强推理+多模态+氛围编程”三合一的AI模型 [1] - 此次发布标志着公司在通往AGI的道路上迈出重要一步,被视为开启了AI的下一个时代 [3][9] - 发布获得了行业高度关注,包括OpenAI CEO在内的业界人士表达了祝贺 [1] 核心性能优势 - 在多项关键基准测试中,Gemini 3 Pro性能相较于前代Gemini 2.5 Pro实现全方位跃升,并在多项测试中超越竞争对手包括GPT-5.1和Claude Sonnet 4.5 [3][4][18] - 模型在LMArena排行榜上以1501 Elo分数名列榜首,在WebDev Arena排行榜上以1487 Elo分数登顶,展示了顶尖的推理和编码能力 [5][6][31] - 其核心优势体现在博士级推理能力,在Humanity‘s Last Exam测试中取得37.5%(无工具)和45.8%(使用搜索和代码执行)的成绩,在GPQA Diamond测试中取得91.9%的成绩 [4][17] 多模态与复杂任务处理能力 - 模型具备世界领先的多模态理解力,能处理文本、图像、视频、音频、代码等多种信息形态,在MMMU-Pro测试中获81.0%高分,在Video-MMMU测试中获87.6%高分 [4][19][28] - 在长程规划和智能体任务方面表现卓越,在Vending-Bench 2测试中以平均净值$5,478.16的成绩大幅领先于其他模型,展示了出色的长期规划能力 [4][38][40] - 模型具备100万token的上下文长度,能够帮助用户以个性化方式进行学习,例如破译手写食谱、分析教学视频并生成训练计划等 [28][30] 编程与开发能力 - Gemini 3在“氛围编程”和智能体编码方面实现突破,能够根据简单提示生成美观灵动的应用和复杂的Web UI [14][31][34] - 在编码基准测试中表现强劲,在LiveCodeBench Pro测试中获得2,439 Elo评分,在SWE-Bench Verified测试中取得76.2%的成绩 [4][32] - 公司同步推出革命性智能体开发平台Google Antigravity,该平台与Gemini 3紧密集成,允许开发者以任务为维度与智能体协同,实现端到端的软件任务开发 [42][45][47] 市场应用与生态整合 - 即日起,Gemini 3 Pro预览版全面上线,而更高级的Deep Think模式将稍后向Google AI Ultra订阅用户开放 [11][41] - 模型的API定价针对不同上下文长度设定,对于不超过20万token的请求,输入价格为每百万tokens $2.00,输出价格为每百万tokens $12.00 [24] - 模型已接入Google AI Studio、Vertex AI等多个开发平台,并与Cursor、GitHub、JetBrains等第三方平台集成,供全球开发者使用 [36] 技术实现与行业影响 - Gemini 3完全在谷歌自研的TPU上完成训练,这被视为公司重要的技术护城河 [54] - 早期实测演示显示模型能力强大,可一次性生成复杂的3D乐高编辑器、重现经典iOS游戏甚至构建Game Boy模拟器,展示了其在游戏开发和复杂应用构建上的潜力 [48][49][52] - 模型的发布在行业内引发广泛关注和讨论,一系列实测Demo展示了其在实际应用中的卓越表现 [48][52]
百度文心5.0大模型发布,支持多模态理解
新浪科技· 2025-11-13 11:44
公司产品发布 - 百度创始人李彦宏在2025百度世界大会上宣布文心5 0大模型正式发布 [1] - 文心5 0大模型支持多模态理解、创意写作及智能体规划等能力 [1] - 百度CTO王海峰介绍文心5 0是一款原生全模态大模型,具有原生全模态建模、理解与生成一体化等特点 [1] 行业技术地位 - 文心5 0大模型在多项国际测评中均取得了领先成绩 [1]
攻克长文档与多模态挑战,Paper2Video实现学术视频的自动化生产
机器之心· 2025-10-23 10:22
研究背景与挑战 - 学术展示视频制作高度依赖人工,通常需要数小时才能产出几分钟的视频,效率低下且成本高昂[4] - 学术展示视频生成面临三大独特挑战:来源于完整学术论文的长文档与高密度输入、需要同时生成并对齐多个模态通道、缺乏专门针对知识传递和学术可用性的评价标准[4] - 现有自然视频生成模型和简单的幻灯片加语音拼接方法难以胜任学术视频生成任务[4] Paper2Video评价基准 - 基准收集了来自近三年顶会的101篇论文及其作者录制的展示视频,涵盖机器学习、计算机视觉与自然语言处理领域[10] - 每个样例包含论文LaTeX工程、幻灯片、展示视频、讲者肖像与语音样本,论文平均13.3K字、44.7幅图表,展示视频平均16页幻灯片、时长6分钟[10] - 基准提出了四个评价指标:Meta Similarity衡量类人相似度,PresentArena评估类人一致性,PresentQuiz测试信息传递性,IP Memory反映学术影响力[7][13][16] PaperTalker多智能体框架 - PaperTalker是首个支持学术展示视频生成的多智能体框架,以研究论文、讲者图像与语音样本为输入,自动生成包含幻灯片、字幕、语音、光标轨迹和讲者视频的完整展示视频[17] - 框架由四个关键模块组成:Slide Builder基于论文内容生成LaTeX Beamer幻灯片,Subtitle Builder生成逐句字幕,Cursor Builder实现光标时空对齐,Talker Builder合成个性化讲者视频[18][23] - 框架通过模块化的多智能体协作,实现了可控、个性化、学术风格化的展示视频生成[18] 技术创新与优化 - 提出Tree Search Visual Choice布局优化机制,将低效的多轮参数搜索转化为高效的单轮视觉判别,实现图像尺寸与布局的自动优化[21][24] - 引入UI-Grounding和WhisperX模型实现光标在时间和空间上的精准对齐,通过提供显式空间线索帮助观众定位关键信息[23][25] - 采用并行化的talking-head生成机制,将讲者生成过程划分为独立的幻灯片片段并行执行,实验证明实现了超过6倍的加速[26] 性能评估结果 - 在Meta Similarity指标上,PaperTalker在幻灯片、字幕和语音的相似度上均取得最高分,与人类作品最为接近[29][31] - 在PresentArena观感质量对比中,PaperTalker获得最高胜率,完整版本比去掉讲者和光标的变体更受偏好[31] - 在PresentQuiz知识传递测试中,PaperTalker的问答准确率达到17.0%,显著优于其他基线方法[29][31] - 在IP Memory学术记忆度方面,PaperTalker达到50.0%的表现,引入讲者视频显著提升了记忆效果[29][31][41] 效率与成本优势 - PaperTalker在生成成本上最低,仅为0.001美元,总耗时48.1分钟,相比非并行版本实现6倍加速[34][35] - 效率优势主要来自三个方面:基于Beamer的幻灯片生成减少token消耗、轻量化的tree search visual choice后处理、并行的talking-head生成机制[35] - PaperTalker仅消耗62K token,显著低于PresentAgent的241K token,同时时间成本也大幅降低[34]
国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键
量子位· 2025-10-11 17:01
文章核心观点 - 国产开源模型在垂类领域取得突破,逗逗AI的游戏理解模型LynkSoul VLM v1在东京电玩展上表现超越GPT-4o等顶尖闭源模型 [1][2] - 公司认为AI陪伴的终极目标是让虚拟形象融入生活,多模态理解技术是产品持续突破的关键 [9] - 公司通过用户参与和数据积累构建核心壁垒,并已实现显著的用户增长和全球化初步布局 [5][43] 技术优势与性能表现 - 专为游戏训练的视觉语言模型LynkSoul VLM v1,在《英雄联盟》测试场景的识别准确率、建议实用性及语言表达自然度上显著超越通用模型 [7][10] - 官方测试数据显示,该模型在视觉理解准确度(3.44 vs 1.95)、游戏情境掌握度(3.29 vs 1.95)和语言表达自然度(2.91 vs 1.37)上均优于OpenAI-4o-Latest [11] - 在泛化能力测试中,模型在未参与训练的游戏上同样表现稳健,三项核心指标(4.06/3.67/4.18)超越对比模型 [12] - 模型推理延迟具有优势,首包延迟为2.179秒,总延迟为3.981秒,优于对比模型 [14] 用户增长与市场反响 - 新产品上线约一个月,新增200多万用户,总用户数突破1000万 [5] - 海外版Hakko AI已积累几十万用户,在英语和日语市场反响良好,用户留存时长甚至超过国内 [43] - 用户使用场景超出预期,有超过一半的时间发生在游戏外,如陪同看剧、逛电商平台乃至作为直播课助手 [35] 产品理念与战略方向 - 公司认为Chatbot交互形态不友好,理想形态是基于多模态的、能理解环境信息的深度陪伴,类似Cursor基于代码上下文的交互范式 [29][31] - 公司定位为软件优先,目标是打造一个可跨设备(电脑、手机、硬件等)使用的7x24小时陪伴账号,未来再与硬件结合 [37] - 公司从第一天就定位全球化,预计长期用户比例国内与海外为6:4,收入各占一半 [43][45] 核心竞争力构建 - 超越顶级模型的关键在于前期积累的800多万游戏玩家提供的画面及互动数据,通过精调使模型能精准理解场景 [18] - 采用主题索引结合向量检索的技术方案实现长期记忆,使AI能根据用户偏好提供个性化互动 [23][24] - 当前技术攻关重点在于多模态理解,特别是对游戏连续帧而非法单帧的理解 [27]
24岁退学博士生,赢得2.5亿美元薪酬合同
虎嗅· 2025-08-25 09:52
核心事件 - 24岁AI研究员Matt Deitke与Meta签署四年总价值2.5亿美元薪酬合同 包括基础工资、签约奖金和股票 首年收入可能达1亿美元[1][4][6] - 初始Meta报价四年1.25亿美元遭拒 后由CEO扎克伯格亲自介入谈判并将合同价值翻倍[5][6][25] - 该薪酬水平经通胀调整后为原子弹项目负责人奥本海默收入的327倍[1] 人才背景与技术贡献 - Deitke曾就读华盛顿大学博士项目 中途退学 18岁加入艾伦人工智能研究所担任研究科学家[13] - 主导开发ProcTHOR框架 获NeurIPS 2022杰出论文奖 可自动化生成大规模可交互3D虚拟环境 使用1万个生成房屋训练AI智能体实现零样本泛化能力[15] - 创建Objaverse开源3D数据集 规模从80万扩展至超1000万个模型 比此前所有公开3D数据集总和大100倍[15] - 开发Phone2Proc系统 用iPhone扫描真实房间10分钟即可生成大量虚拟训练环境 使机器人真实导航成功率从34.7%提升至70.7%[16] - 领导Molmo项目构建PixMo数据集 采用人类语音标注替代文字 其72B参数模型性能超越Claude 3.5 Sonnet和Gemini 1.5 Pro 仅次于GPT-4o[18][20] 行业竞争态势 - Meta从苹果挖走AI团队负责人庞若鸣 薪酬包价值约2亿美元 其两名关键同事Mark Lee和Tom Gunter随后加入Meta[27] - Meta超级智能团队中40%成员来自OpenAI 20%来自Google DeepMind 包括Pei Sun、Michael Zhang、Hongyu Ren等研究人员[28] - 扎克伯格亲自参与名为"招聘派对"的高管群聊 讨论招募策略和接触方式[30] 人才流动趋势 - 2020年计算机科学博士毕业生进入工业界比例达70% 较2016年57%显著上升 远高于20年前的20%[32] - AI创业公司成为巨头收购目标 如Windsurf创始团队被谷歌收购后仅留空壳公司[34] - OpenAI CEO形容巨头挖角行为为"黑手党式" 风险投资需重新评估团队瓦解风险[35] 行业影响与结构变化 - 顶尖AI人才向少数科技巨头集中 形成算力、数据和人才的"三位一体"护城河[38] - 非技术AI岗位年增长率超30% 包括AI内容创作者、培训师和合规经理等新职业[40] - 美国计算机科学和计算机工程本科毕业生失业率分别达6.1%和7.5% 企业更倾向招聘能立即产生高价值的资深人才[42]
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 18:37
核心观点 - X-SAM是由中山大学、鹏城实验室和美团团队提出的突破性框架,将分割范式从"分割任何事物"推向"任何分割",实现了多任务、多模态的统一分割能力 [3][4] - X-SAM在超过20个分割数据集、7大核心任务上全面超越现有模型,包括文本指令驱动的分割任务和跨图像场景的精准分割 [4] - X-SAM通过三大支柱创新(统一输入格式、双编码器架构、多阶段训练)解决了SAM的局限性,如任务单一性、模态割裂和多任务壁垒 [12][6] 技术架构 统一输入格式 - 设计统一输入规则,用`<p>`和`</p>`标记文本查询,`<region>`标签代表视觉提示(点、框、涂鸦等),使不同任务能被模型统一处理 [13][15] 双编码器架构 - 图像编码器(SigLIP2-so400m)提取全局特征,分割编码器(SAM-L)捕捉像素级细节,双投影器将视觉特征转换为与语言模型匹配的维度 [19] - 分割连接器通过补丁合并和扩展操作生成1/8、1/16、1/32三种尺度特征,支持不同大小物体的分割 [19][17] - 分割解码器基于Mask2Former架构,能一次性输出多个分割掩码,并通过LLM生成的`<SEG>`标签关联类别或描述 [20] 多阶段训练 - 分割器微调:在COCO全景分割数据集上训练分割编码器和解码器,使用分类损失、掩码损失和dice损失 [27] - 对齐预训练:在LLaVA-558K数据集上训练双投影器,使视觉特征与语言模型词嵌入空间对齐 [27] - 混合微调:混合多种任务数据集训练,采用数据集平衡重采样策略(参数t=0.1)解决数据集大小差异问题 [24][27] 性能表现 基准测试 - 在COCO全景分割中PQ达54.7,接近Mask2Former(57.8);在A150-OV数据集上AP达16.2,远超ODISE(14.4)和PSALM(9.0) [31] - Referring分割任务中,RefCOCO/+/g的cIoU分别达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和Sa2VA(81.6/76.2/78.7) [32] - 推理分割任务gIoU达56.6,超过LISA-7B(52.9);GCG分割mIoU达69.4,远超GLaMM(65.8) [32][33] 新任务VGD分割 - 在COCO-VGD数据集上,点/涂鸦/框/掩码提示的AP分别达47.9/48.7/49.5/49.7,远超PSALM(2.0-3.7) [26][35] - 支持跨图像VGD分割,用一张图的视觉提示在另一张图中分割同类对象 [26] 消融实验 - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2跃升至57.1 [37] - 双编码器组合使GCG分割mIoU达69.4,远超单编码器方案(Swin编码器为62.5) [38] - 多阶段训练中,跳过分割器微调会使COCO全景分割PQ降至45.2,完整训练提升至54.7 [39] - Mask2Former解码器比SAM原生解码器PQ提升9.2,加入多尺度特征后PQ再提升1.3 [41] 未来方向 - 计划与SAM2结合拓展至视频分割,将VGD分割延伸到视频领域实现"跨时空视觉定位" [43] - 需解决任务平衡难题(部分分割任务因对话数据干扰性能下降)和性能不均问题(某些细分任务略逊于专门优化模型) [46]
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 14:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 20:56
大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算:研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展:探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [3] - 复杂推理优化:研究链式思维(CoT)和强化学习优化(GRPO)等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法,包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT,结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论,形成清晰知识体系 [8] - 提升Coding能力,实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象:大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数:6人/期,至多8人 [5] - 要求:具备深度学习基础,熟悉Python和PyTorch,有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿,具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码,涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡,建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea,目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月,确保后续研究支持 [22]
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-08 07:31
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法,聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程,涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系,解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力,掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础,建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码,包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 10:25
大模型优化课程核心内容 - 课程聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展和复杂推理三大方向 [1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等,实验平台采用LLaMA、GPT等主流模型 [1] - 重点解决参数压缩(剪枝稀疏化/量化加速)、知识扩展(RAG/PEFT)和推理优化(CoT/GRPO)等核心挑战 [1] 课程结构与招生信息 - 采用12周在线科研+2周论文指导+10周维护期的教学模式,每期限招6-8人 [3][10] - 目标学员包括大模型方向本硕博学生、科研人员及AI从业者,需具备PyTorch和Python基础 [4][5] - 硬件要求最低配置2张NVIDIA 4090显卡,推荐4张或使用云服务器 [11] 课程产出与学术支持 - 学员将获得定制化研究idea、baseline代码及公开数据集,最终完成论文初稿 [10][13][14] - 论文指导覆盖SCI 1-4区和CCF A/B/C类会议,提供从选题到投稿的全流程方法论 [18] - 必读论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)等前沿成果 [15][17] 课程技术模块 - 剪枝量化模块:涵盖结构化剪枝算法、GPTQ量化技术及TVM编译器优化 [15] - 知识扩展模块:通过RAG解决幻觉问题,采用PEFT实现垂类任务高效微调 [16] - 推理增强模块:包含Chain-of-Thought多步推理和GRPO强化学习优化 [16][17] - 多模态扩展:涉及LLaVA视觉语言模型和Flamingo多模态学习框架 [15][17] 教学安排与服务 - 每周1-1.5小时专题授课,包含多智能体协作、动态知识扩展等14个核心模块 [16][18] - 采用腾讯会议直播+小鹅通回放形式,提供6个月答疑周期和学术诚信监督 [18] - 课程产出包括顶会论文模板应用、动机凝练方法和选刊投稿策略 [18]