Workflow
视觉基础模型
icon
搜索文档
大模型究竟是个啥?都有哪些技术领域,面向小白的深度好文!
自动驾驶之心· 2025-08-06 07:32
大语言模型(LLM) - 大语言模型是基于海量文本数据训练的深度学习模型,核心能力在于理解并生成自然语言文本,参数量通常达数十亿至数千亿级别,训练数据量可达TB级[3] - 现代LLM核心特征包括大规模参数(如GPT-3有1750亿参数)、Transformer架构、预训练+后训练范式以及多任务适应性[6] - LLM核心能力包括理解和生成两方面,技术基础是Transformer神经网络架构特别是自注意力机制[6] Transformer架构 - Transformer是LLM核心技术基础,由Google于2017年提出,包含Encoder和Decoder两部分,关键创新是自注意力机制[9] - Encoder-only架构仅保留编码器部分,典型代表是BERT模型,适合文本理解任务[10] - Decoder-only架构是现代LLM主流选择,如GPT系列、Llama系列,适合文本生成任务[11] LLM核心能力 - 文本生成与创作:如GPT-4可生成技术文档,Claude 4在工程文档生成方面比GPT-4.1高42%[12] - 代码生成与辅助编程:Claude 4 Opus在SWE-bench测试中得分80.2%,Qwen2.5-Max中文代码采纳率达82%[12] - 知识问答与推理:Gemini 2.5 Pro凭借200万token上下文窗口在实时数据分析中表现优异[12] - 文本理解与转换:Llama 3.1 8B在德语医疗文本结构化任务中准确率达89.3%[13] - 多模态处理:前沿模型如Gemini 2.5 Pro支持文本、图像、视频多模态输入输出[14] 代表性LLM工作 - GPT系列:由OpenAI开发,GPT-3有1750亿参数,GPT-5预计将具备2000万token上下文窗口[15][16][20] - Llama系列:由Meta开发的开源模型,Llama 4首次采用MoE架构,包含三个版本[17][21] - Qwen系列:阿里巴巴开发的中国最具影响力开源大模型,已开源200多款模型[18][22] - DeepSeek系列:以创新架构设计和高效推理著称,DeepSeek-V3采用MoE架构[19][23] 视觉基础模型 - 视觉基础模型是通过大规模数据预训练、具备通用视觉理解或生成能力的深度学习模型[25] - 主流架构包括视觉Transformer(ViT)、CNN与Transformer混合架构如ConvNeXt和MobileViT[26][27] - 核心任务包括图像分类与识别、跨模态理解、目标检测与定位、图像分割等[27][29] 语音大模型 - 语音大模型是经过大规模语音数据预训练的大型神经网络模型,参数规模庞大,训练数据量达百亿甚至万亿级别[31] - 主流架构以Transformer为主,采用序列到序列结构,如Whisper模型[32] - 适用任务包括语音识别、语音翻译、语音到语音翻译、文本到语音合成等[36] 多模态大模型(MLLM) - 多模态大模型能同时处理和理解文本、图像、语音、视频等多种模态信息[39] - 主流架构为"预训练模态编码器+可训练模态连接器+大语言模型+模态解码器"组合模式[40] - 适用任务包括视觉问答、图文生成、跨模态检索、视觉定位与分割等[41] - 代表性工作包括LLaVA、Qwen2.5-VL、GPT-4o等[41][42] 推理大模型 - 推理大模型聚焦于通过优化提示方式、引入外部知识或改进推理流程提升大模型推理能力[43] - 主流架构以"基础模型+增强模块"为核心,不改变原模型主干结构[45] - 核心技术方向包括提示工程、上下文学习、思维链与慢思考、检索增强生成等[46] - 代表性工作包括自动提示优化(OPRO)、思维链(CoT)、DeepSeek-R1等[47][48]
巧妙!一个传统技术让国产视觉基础模型直接上大分
量子位· 2025-05-23 14:14
核心观点 - 格灵深瞳推出的视觉基础模型Glint-MVT在性能和应用效果上表现优异,平均准确率比OpenCLIP高2.3%,比CLIP高1.1% [2] - Glint-MVT创新性地引入间隔Softmax损失函数,通过虚拟类别构造和噪声抑制技术提升模型泛化能力 [13][26][28][29] - 基于Glint-MVT开发的下游模型Glint-RefSeg和MVT-VLM在图像分割、视频分割和图像理解任务中达到SOTA水平 [14][19][20][21][24] - 公司坚持从业务需求出发的研发逻辑,专注于视觉技术垂直深耕,避免盲目追求参数规模 [37][38][39][44] 技术亮点 - 采用间隔Softmax损失函数,通过类别间隔和特征紧凑性约束提升语义区分能力 [26] - 利用图像文本特征聚类构造100万虚拟类别替代人工标注,扩大数据规模 [28] - 训练时随机选取10%负类中心,降低类别冲突干扰并减少计算量 [29] - Glint-RefSeg融合大语言模型与SAM解码器技术,实现自然语言驱动的精准分割 [32][33] 性能表现 - 线性探测测试显示模型基本功扎实,平均准确率优于主流对比模型 [2] - 在复杂场景下能精准分割被遮挡目标,处理手部等细微部位效果突出 [7][8][21] - 可准确识别刁钻角度的文字信息,如运动服号码和颜色 [15][16] - 视频分割任务中能稳定跟踪快速移动目标,不受视角变化影响 [20][21] 应用场景 - 图像理解与分割:支持自然语言指令完成复杂分割任务 [4][5][12] - 视频分析:实现对动态目标的持续跟踪与分割 [19][20] - 具身智能:能理解场景语义并做出合理判断 [22][24] - 行业解决方案:已应用于银行安防等实际场景 [42] 研发战略 - 坚持从产业痛点出发的技术路线,注重实际应用价值 [37][38] - 采用"特种兵"式发展策略,专注视觉领域垂直创新 [44] - 主动拥抱开源但拒绝跟风,通过开放创新构建生态 [40] - 技术团队兼具学术实力与实战经验,多次获得国际赛事冠军 [41][42] 未来规划 - 即将推出MVT v1.5和MVT v2.0版本,拓展多模态与视频理解能力 [35] - 持续聚焦视觉大模型与多模态技术研发 [41] - 通过开源共享促进技术创新与生态建设 [40]