LLMs

搜索文档
蔡崇信:DeepSeek取得突破后,阿里巴巴工程师春节无休全力追赶AI浪潮
华尔街见闻· 2025-06-12 18:42
阿里巴巴AI战略转型 - 公司在DeepSeek发布R1模型后意识到AI领域落后 随即取消春节假期加速开发 几周内推出Qwen系列模型[1] - Qwen系列模型现为全球最受欢迎的开源大型语言模型之一 公司承诺未来三年投入3800亿元人民币(530亿美元)建设AI基础设施[2] - 全面转向聚焦人工智能特别是通用人工智能(AGI) 开源策略旨在推动AI应用普及并带动云计算需求增长[2][3] 行业竞争与创新动力 - 中国消费互联网环境与工程师竞争文化持续驱动AI领域创新[1] - 行业竞争激烈程度体现在公司连夜加班赶进度 快速迭代模型版本[1] - 开源大型语言模型将带动AI应用激增 并推动云计算需求[2][3] 公司近期表现与挑战 - 2024年第一季度销售额仅同比增长7% AI投资回报仍不确定[4] - 2023年公司经历"巨大考验时期" 承认扩张过快导致方向迷失[4] - 近期与苹果合作 为iPhone提供AI技术 管理层对未来发展持乐观态度[3][4]
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 11:54
| 机器之心报道 | | --- | 编辑:张倩、陈陈 谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢? 在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是 蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身。」 从 2016 年至今,LeCun 对强化学习一直不看好。然而,不可否认的是,强化学习在提升 AI 模型能力方面正变得越来越重要。而且,来自微软的一项新研究显 示,它不仅在后训练阶段发挥着关键作用,甚至在预训练阶段也展现出巨大的潜力。 在这篇题为「Reinforcement Pre-Training」的论文中,作者提出了一种名为「强化预训练(RPT)」的新范式。在这种范式中,下一个 token 预测任务可以被重新定 义为一个通过强化学习训练的推理任务。在这一任务中,模型会因正确预测给定上下文中的下一个 token 而获得可验证的奖励。 这就好比在制作蛋糕的过程中,直接将樱桃融入到蛋糕的主体结构中。 作者指出,RPT 范式的好处在于 ...
看似无害的提问,也能偷走RAG系统的记忆——IKEA:隐蔽高效的数据提取攻击新范式
机器之心· 2025-06-04 17:22
研究背景 - 大语言模型(LLMs)面临无法直接访问最新或领域特定信息的问题,RAG系统通过接入外部知识库解决这一痛点[5] - RAG系统知识库常包含私有或敏感信息,传统攻击方式依赖明显的恶意输入(如提示注入/越狱攻击),易被防御系统识别[5] 攻击方法创新 - 提出隐式知识提取攻击(IKEA),通过自然常规查询高效引导系统暴露私有信息,无需依赖异常指令[1] - IKEA攻击流程具备高度自然性与隐蔽性,核心步骤包括构建锚点概念、生成自然语言问题、优化攻击路径[8] - 采用两项关键机制:经验反思采样(动态筛选有效锚点概念)和可信域有向变异(定向扩展未覆盖知识区域)[17] 技术实现细节 - 锚点概念数据库初始化采用语义相似度阈值筛选,公式为$D_{\rm march}=\{w\in{\rm Gen}_{\rm concept}(w_{\rm logic})|s(w,w_{\rm logic})\geq\theta_{\rm logic}\}$[11] - 经验反思采样通过历史记录评估无效锚点,惩罚得分函数包含域外样本和不相关样本判断标准[14][19] - 可信域有向变异(TRDM)在语义邻域内搜索新锚点词,定义变异停止函数$F_{\mathrm{stop}}$控制探索边界[21] 实验结果 - 在医疗/小说/百科三类数据集测试中,IKEA在无防御/输入检测/输出过滤场景下平均提取效率达91%,攻击成功率96%[23] - 双重防御下提取的知识使问答准确率提升至92-95%(医疗93%/小说94%/百科92%),显著优于基线方法[28] - 构建的替代RAG系统在Pokémon数据集上评估显示,IKEA提取知识在MCQ/QA任务表现接近原始知识库[28] 研究意义 - 揭示RAG系统在表面正常交互下的严重隐私风险,提出首个不依赖异常指令的黑盒攻击范式[1][29] - 攻击方法对现有防御机制具有强鲁棒性,为后续防御体系设计提供关键参考[29]
音频大模型安全可信度的全面“体检”!6大维度,清华南洋理工联手打造
量子位· 2025-06-03 12:26
AudioTrust团队 投稿 量子位 | 公众号 QbitAI 首个 专为ALLMs (音频大语言模型) 设计的多维度可信度评估基准来了。 南洋理工、清华大学领衔的研究团队注意到,现有评估框架大多只关注文本模态或仅涵盖有限的安全维度,未能充分考虑音频模态的独特特性 与应用场景。 于是他们创新性地提出了新框架 AudioTrust ,将评估范围扩展至 六个核心维度 (公平性、幻觉、安全性、隐私、鲁棒性和身份验证) , 并深入探究了音频模态特有的安全、可信问题。 目前该基准及评估平台已全面开发,点击文末链接即可获取。 接下来是AudioTrust的更多详细信息。 什么是AudioTrust △ AudioTrust关注的不同可信评估视角 Fairness AudioTrust从 7大敏感属性 出发,构造了传统与音频特有的公平性评估体系。 共采集 840条 高质量音频样本 (每条约20秒) ,模拟多样化社会角色与语境交互,激发AI对传统公平的深度响应,聚焦社会普遍存在的偏 见。 构造音频特有属性,体现多模态感知中的不公平,特别关注口音、语言表达特征等,并通过混合音频和文本预处理的方式模拟现实场景。 实验结果显示, ...
GPT-Kline:MCoT与技术分析
华泰证券· 2025-05-31 18:25
报告行业投资评级 未提及 报告的核心观点 - 多模态思维链(MCoT)将大模型的多模态与推理能力相结合,提升其应对复杂多模态任务的表现 [1][121] - 尝试将 MCoT 应用于 K 线技术分析场景,构建智能化、自动化技术分析平台 GPT - Kline,实现技术分析全流程自动化 [1][121] - GPT - Kline 能基于 K 线图像准确识别和深入推理,实现可靠走势分析、精准指标及形态标注、逻辑连贯报告输出 [1][121] 根据相关目录分别进行总结 大模型如何基于图片思考 - 多模态协同是大模型通往通用人工智能的必经之路,多模态大模型致力于将智能从文本单模态泛化至多模态领域 [17] - 早期多模态大模型仅增加图像输入,未充分挖掘多模态潜力,MCoT 可让大模型从“感知理解图片”到“通过图片思考” [12] - 计算机视觉底层技术突破和大语言模型能力迭代促成多模态大模型飞速发展 [18] 多模态思维链:从 CoT 到 MCoT - CoT 方法通过提示引导模型“一步一步思考”,提升其在复杂任务上的表现,与 TTS 方法结合让“思考”成为内生能力 [21] - TTS 为大模型测试阶段分配更多计算资源,如 DeepSeek - R1 模型通过强化学习提升推理表现 [23] - MCoT 是 CoT 在多模态领域的扩展,让大模型在图像问答任务中表现提升,扩展多模态大模型能力边界 [27][31] O3:从 Think Over Image 到 Think By Image - 2025 年 4 月 OpenAI 上线“满血版”O3 模型,展现惊艳图像推理能力,实现真正的“多模态推理” [37] - O3 模型在推理中调用工具应对复杂多模态任务,无需用户提示,自主规划流程 [37] - O3 在多模态推理和工具调用方面表现优异,但在文本写作、编码领域较弱,幻觉现象严重,未达通用人工智能标准 [39] MCoT 在投研中的应用初探:自动化技术分析 - 股票 K 线图与技术分析符合多模态、逻辑推理特征,是 MCoT 能力圈的应用场景,可构建大模型自动化技术分析应用 [42] O3 在技术分析任务中的表现 - O3 模型接收技术分析任务后,对图像建立感知,估算尺寸和坐标,裁剪图像,建立对应关系,规划标注内容 [46][50] - O3 调用 Python 工具在图像上绘制支撑/压力线和趋势线,标注较清晰完整,写代码规范可运行 [54][60] - O3 最终生成的技术分析报告结构清晰,分析有理有据,与标注呼应,给出走势判断和操作建议 [63] GPT - Kline:全自动技术分析流程的手动实现 模型选择 - O3 模型存在输出不稳定、内容有限、使用门槛高的问题,需构建专业版 O3 模型 GPT - Kline [65][69] - 选用的大模型需具备多模态输入和工具调用能力,截至 2025 年 5 月,GPT - 4o、GPT - 4.1、Gemini - 2.5 - Pro 等模型符合要求 [66][69] 工具调用 - 为大模型设计与图像交互的工具,让其具备画图、标注能力,工具调用流程包括用户提供工具、模型决定调用、用户执行代码等步骤 [70][73] 流程设计 - 为大模型设计指令输入、读取数据、绘制图像、图像分析、图像标注、输出报告的技术分析全流程,实时反馈结果并保留对话记忆 [79] 应用封装 - 基于 Gradio 设计网页端应用,提供手动选择和自然语言指令两种分析模式,界面左右两栏分别显示标注 K 线图和分析过程 [83] 结果 - 模型对比发现,OpenAI 模型标注“消极”且位置偏差,豆包系列模型标注丰富但内容偏差大,指令跟随效果不稳定 [95] - 以 Gemini 2.5 Flash 模型为例展示全自动技术分析流程,包括绘制 K 线、初步分析、技术指标标注、生成技术分析报告 [96] 总结 - 研究深入探索多模态大模型推理能力及其在投研中的应用,构建 GPT - Kline 平台 [121] - 研究存在支持资产品类有限、长周期 K 线分析能力待探索、投研其他场景应用潜力待挖掘等未尽之处 [125]
Redis 之父亲证:人类程序员仍力压 LLM!网友锐评:那是你没见过平庸码农被 AI 吊打的样子
程序员的那些事· 2025-05-30 15:10
AI与程序员能力对比 - 核心观点:人类程序员在复杂问题解决和创造性思维方面仍显著优于大语言模型(LLMs),AI当前主要作为辅助工具而非替代品[2][3][10] - Redis之父antirez通过修复HNSW图结构双向连接校验的案例,展示人类能提出LLM无法自主生成的优化方案(如异或累加器检测算法),将2000万向量集的校验时间从90秒优化至可接受范围[5][7][8][10] - 行业专家普遍认为LLM的价值在于充当"智能伙伴",帮助验证想法和代码审查,但无法替代需求分析、社交协作等软件工程核心环节[13][14] 技术实现细节 - Redis向量集修复方案: - 常规方法时间复杂度达O(N²),导致2000万向量加载时间翻倍至90秒[5][7] - LLM(Gemini 2.5 PRO)仅能建议排序+二分查找等基础优化,无法突破性解决指针校验问题[7][8] - 人类提出创新方案: - 哈希表存储连接关系(A:B:X格式),利用memcpy替代snprintf提升效率[8] - 128位寄存器异或累加检测,配合murmur-128哈希函数降低碰撞风险至可接受水平[9][14] 行业观点碰撞 - 能力边界争议: - 顶尖程序员(如antirez)的创造性解决方案能力远超LLM,但平庸程序员可能被AI工具缩小差距[15] - 软件工程的社交属性(需求分析、客户沟通)是AI难以替代的核心竞争力[14] - 技术演进预期: - 当前LLM在代码生成文档等标准化任务中表现最佳,但无法预判未来2年技术突破后的格局[13][16] 典型案例参考 - 高性能编程领域人类优势显著:日本工程师的PowerPC汇编代码性能可超越编译器生成代码达数量级差异[15] - AI生成代码现存缺陷:存在生成3000+行无法运行代码的案例,反映逻辑连贯性不足的问题[16]
Cerence(CRNC) - 2025 FY - Earnings Call Transcript
2025-05-29 23:50
财务数据和关键指标变化 - 公司在2024财年末至2025年努力提高盈利能力和正向现金流 [34] - 公司目前的PPU指标代表每辆车的技术价值,未来可通过提高产品价格、增加技术栈渗透率和提高连接采用率来增加PPU,进而增加收入 [19][20] - 公司的连接率在过去12个月约为29%,跟踪该指标有助于了解PPU的增长情况 [58] - 公司的调整后现金流(不包括专业服务,调整预付费用等)能显示业务方向,其连接功能在汽车发货时开票,但收入在订阅期内确认,开票数据有助于了解未来连接收入情况 [59][60] 各条业务线数据和关键指标变化 - 汽车业务方面,公司技术应用于超50%下线汽车,累计应用于超5亿辆汽车 [6] - 非汽车业务方面,公司涉足运输(两轮车、卡车)、Garmin手表、LG电视等领域,还宣布了与自助服务亭相关的语音合作关系 [33][34] 各个市场数据和关键指标变化 - 中国市场内销售不太成功,存在国内受支持的竞争对手等限制,但在中国制造海外销售、全球制造商对华销售方面表现良好 [28] - 除中国外,欧洲和美国制造商对UI、AI产品的采用率相似 [29] 公司战略和发展方向和行业竞争 - 公司是全球汽车行业AI语音通信交互领域的领导者,目标是利用AI代理平台拓展汽车外业务 [6] - 公司计划在2025年底完成Cerence XUI产品,并于2026年在OEM中推出 [17] - 公司通过与NVIDIA、ARM等SOC提供商建立信任伙伴关系,提升软件执行性能 [26] - 行业竞争方面,主要竞争对手仍是过去几年的对手,新竞争对手是大科技公司,但OEM因品牌、数据和交互等因素,对大科技公司有所顾虑,公司作为值得信赖的供应商具有竞争优势 [13] 管理层对经营环境和未来前景的评论 - 消费者对汽车内AI交互的需求增加,OEM也在寻找能执行AI技术的可靠供应商,公司有望从中受益 [12] - 行业内软件占比增加,公司新产品可赋予更高价格,有机会提高PPU和收入 [19][20] - 公司认为非汽车业务有机会,特别是运输领域,与汽车业务有协同效应 [33][35] 其他重要信息 - 公司起源于25年前的原始语音识别软件,2019年从Nuance Communications分拆为纯汽车软件公司 [5] - 公司是首个为汽车行业推出特定大语言模型(LLM)的公司,且可在汽车外利用该AI代理平台 [6] - 公司与OEM合作将技术引入汽车的时间从12个月缩短至3 - 4个月,OTA连接和更新对业务很重要 [14][15] - 公司的Cerence XUI产品是全多模态AI交互平台,部分组件已应用AI技术,可用于当前车型更新和未来车型规划 [17][18] 总结问答环节所有的提问和回答 问题: 公司产品提供如何随AI转变,对消费者和汽车制造商有何好处 - 随着消费者在日常生活中使用AI,他们期望在汽车内也有类似交互。过去汽车技术使用需按按钮且指令明确,现在连接性增强,可在车内操作并获取车外信息,AI和LLM使交互更自然,车内执行指令能力几乎无限 [8][9][10] 问题: 向汽车制造商展示技术时,他们的接受程度如何,多快想转向基于LLM的功能 - 公司产品和技术优势使其成为值得信赖的顾问,OEM因消费者需求,希望公司提供技术。消费者对汽车内技术的需求促使OEM寻求可靠供应商,公司在行业内的渗透率使其成为首选 [12] 问题: 竞争格局如何,近年来如何演变,AI引入后有何影响,供应商的粘性有多重要 - 目前竞争对手与过去几年相似,新竞争对手是大科技公司。但OEM因品牌、数据和交互等因素,不太愿意将车内控制权交给大科技公司,公司作为值得信赖的供应商具有竞争优势 [13] 问题: 公司新技术在CES推出后,多久能应用于量产车,OTA连接增加对业务有何影响 - 与OEM合作将技术引入汽车的时间从12个月缩短至3 - 4个月。OTA连接和更新对业务很重要,可实现软件的空中改进和更新,解决了嵌入式软件更新困难的问题 [14][15] 问题: 汽车制造商客户采用技术的阻碍是什么,若合作不顺利或延迟,原因是什么 - 主要原因是汽车制造商车辆内软件复杂,推出新车型生产时间长。公司的Cerence XUI产品预计2025年底完成,2026年在OEM推出,部分组件已应用AI技术,可用于当前车型更新和未来车型规划 [17][18] 问题: 从长期看,汽车行业中联网和软件定义车辆的百分比以及PPU指标的发展方向如何 - 行业内软件占比增加,公司新产品可赋予更高价格,可通过提高产品价格、增加技术栈渗透率和提高连接采用率来增加PPU和收入 [19][20] 问题: 随着汽车技术进步,公司收入模式是否会根据客户对AI LLM功能的使用情况而演变 - 目前尚未实现,但存在潜在可能性。例如,利用LLM与外部传感器集成,可能为OEM带来更有利的收入模式,公司也可能从中获利,但目前处于早期阶段 [23][25] 问题: 公司与SOC提供商、一级供应商的关系如何,在价值链中处于什么位置,如何与不同合作伙伴合作 - 公司与NVIDIA、ARM等SOC提供商建立信任伙伴关系,提升软件执行性能,对平衡OEM的性能和连接成本很重要。与一级供应商合作,公司产品应用于几乎所有主要汽车制造商 [26][27] 问题: 不同地区市场对技术的采用情况如何,公司在各市场的定位如何 - 中国市场内销售不太成功,存在国内受支持的竞争对手等限制,但在中国制造海外销售、全球制造商对华销售方面表现良好。除中国外,欧洲和美国制造商对UI、AI产品的采用率相似 [28][29] 问题: 汽车制造商是否会按照传统方式从高端向低端推广技术,公司业务能否在大众市场车辆中快速采用 - 虽然某些功能在高端车型价格较高,但消费者对连接产品和AR产品的需求增加,将推动更广泛的采用 [30] 问题: 公司在非汽车领域的业务机会有哪些,最令人兴奋的是什么 - 公司关注运输领域(两轮车、卡车),也涉足Garmin手表、LG电视等领域。新CEO上任后,开始关注汽车外业务,宣布了与自助服务亭相关的语音合作关系,希望在保证盈利的前提下拓展业务 [33][34] 问题: 在非汽车垂直领域(如卡车、两轮车),公司如何利用汽车业务的优势 - 运输领域与汽车业务有协同效应,公司在这些领域看到了更高的价格点和执行能力 [35] 问题: 公司推出的汽车特定LLM的发展情况如何,在嵌入式应用方面的进展、定价与基于云的解决方案相比如何 - 公司凭借25年的汽车行业经验和语音技术积累,推出了汽车特定LLM(CALM),目前是小型语言模型,可在无连接情况下使用。新产品初始定价较高,随着嵌入式版本推出,许可证价格也将提高 [39][41] 问题: 公司去年采取了哪些提高运营效率的措施,未来如何进一步提高利润率 - 公司去年因市场情况不佳,对各部门进行了成本合理化调整,特别是人员相关成本。新CEO上任后,希望利用AI提高技术人员编码效率和整个组织的流程效率,同时通过减少法律实体和办公地点等方式降低成本。随着业务增长,公司具有运营杠杆,可保持或降低运营成本 [43][44][46] 问题: 公司业务增长时,推出新产品是否有增量成本,是否具有可扩展性 - 公司业务具有可扩展性,在组织内具有运营杠杆 [47] 问题: 公司与汽车制造商客户在定价和折扣方面的讨论进展如何 - 讨论仍在进行中,公司认为可通过降低现有产品价格,换取更多技术栈的应用,以帮助制造商降低成本,同时增加公司收入和毛利。新产品价格较高,可能会有一定折扣,但尚未最终确定 [50][52][53] 问题: 公司向嵌入式解决方案迁移时,是否会为消费者解锁更多便利功能,OEM是否会启用更多功能使技术应用于新领域 - 嵌入式解决方案可优化车内功能,但连接功能(如导航、查找餐厅、获取比分等)仍需联网。随着消费者对日常使用的期望,他们希望在车内也能实现类似交互,嵌入式LLM可提供更自然的交互体验 [55][56] 问题: 投资者应关注公司和行业的哪些重要指标 - 行业方面,应关注IHS整体销量。公司方面,应关注渗透率(需考虑中国市场情况)、连接率和调整后现金流(不包括专业服务,调整预付费用等),开票数据有助于了解未来连接收入情况 [57][58][59] 问题: 公司未来6 - 12个月的目标是什么 - 首要目标是完成Cerence XUI代理多模态平台,计划在2025年底完成,并于2026年初应用于车辆。同时,思考如何通过该产品提高价格、渗透率和收入,以及提高盈利能力 [61] 问题: 公司在AI方面的大合同执行情况如何,对增长指导和其他参与者有何影响 - 公司已赢得一些包含Cerence XUI平台组件的合同,如与JLR的合作,这些合同已实施并受到好评。收入影响主要在2026年末和2027年 [62][63]
《科学智能白皮书2025》发布,中国引领AI应用型创新领域
第一财经· 2025-05-26 21:27
全球AI科研发展趋势 - 中国AI论文引用量占全球40.2%,快速追赶美国(42.9%)[1][8] - 全球AI期刊论文数量十年激增近三倍,从30.89万篇增至95.45万篇,年均增长率14%[7] - 科学智能(AI4S)占比提升6个百分点,2020年后年均增长率从10%跃升至19%[7] 科学智能(AI4S)领域进展 - 报告覆盖7大科研领域、28个方向、近90个科学智能前沿问题及突破路径[1] - 大语言模型(LLMs)成为物质科学、生命科学等领域的通用科研工具[4] - 强化学习在工程控制、数学证明及物理模拟等复杂场景占主导地位[4] - 计算机视觉技术在生命科学和地球环境领域渗透显著[4] 国别科研表现对比 - 中国AI出版物总量从2015年6.01万篇增至2024年30.04万篇,占全球29%[7] - 印度AI出版物从2015年1.82万篇增至2024年8.51万篇,几乎与美国(8.57万篇)齐平[7] - 中国在专利、政策及临床试验中AI引用量占比达41.6%,全球领先[8] 细分领域竞争格局 - 中国在地球环境科学和工程交叉领域具有先发优势[9] - 欧盟与美国在AI与生命科学交叉领域保持优势,中国位居第三[9] - 印度在地球环境、工程和人文社科领域居全球第三[9] - 中美合作AI出版物2024年达1.22万篇,为2015年两倍[9] 科研影响力动态 - 美国高质量AI论文引用量2020年达30.22万次,保持领先[8] - 中国高质量AI论文引用量从2015年1.03万次跃升至2020年14.48万次[8] - 中国在AI应用型创新领域从"跟随者"转变为"引领者"[8]
让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板
机器之心· 2025-05-24 12:07
本文的共同第一作者为字节跳动算法工程师王安澜和廖蕾,本文的通讯作者为字节跳动算法工程师唐景群。 在文档理解领域,多模态大模型(MLLMs)正以惊人的速度进化。从基础文档图像识别到复杂文档理解,它们在扫描或数字文档基准测试(如 DocVQA、 ChartQA)中表现出色,这似乎表明 MLLMs 已很好地解决了文档理解问题。然而, 现有的文档理解基准存在两大核心缺陷 : WildDoc 选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍 摄效果等五个影响真实世界文档理解效果的因素,且可与现有的电子基准数据集表现进行对比。 为了严格评估模型的鲁棒性,WildDoc 构建了一致性评估指标(Consistency Score)。实验发现主流 MLLMs 在 WildDoc 上性能显著下降,揭示了现有模型在真实 场景文档理解的性能瓶颈,并为技术改进提供可验证的方向。本工作不仅填补了真实场景基准的空白,更推动文档理解研究向「实用化、泛化性」迈出关键一 步。 论文链接:https://arxiv.org/a ...
ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%
机器之心· 2025-05-17 00:31
该工作由南洋理工大学陶大程教授团队与武汉大学罗勇教授、杜博教授团队等合作完成。 近些年,多模态大语言模型(MLLMs)在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而,早期的 MLLMs 通常采用固定的分辨率(例如 LLaVA- v1.5 将输入图像缩放为),对于输入图像为高分辨率图像(例如 8K 分辨率)会导致图像变得模糊,损失大量有效的视觉信息。 为了解决上述问题,目前的解决方案分为三类: 1. 基于裁剪的方法 :对于高分辨率图像裁剪成多个子图,每个子图分别通过视觉编码器提取视觉特征后再进行拼接。然而对于 8K 的图像,假设采用 ViT-L/14 就 需要接近 300K 的 visual token 长度,这对于目前大语言模型(LLM)的长上下文建模能力是一个巨大的挑战。 2. 采用处理高分图像的视觉编码器 :使用能处理更高分辨率图像的视觉编码器代替基于 CLIP 训练的 ViT。然而,对于 8K 分辨率的图像,依旧会缩放到对应视觉 编码器能接受的输入分辨率 (例如 ConvNeXt-L 的分辨率为 )。 3. 基于搜索的方法 :这类方法不需要训练,通过将高分辨率图像构建成树结构,在树结构上进 ...