多模态大模型
搜索文档
图解Qwen3-VL多模态模型
自动驾驶之心· 2025-11-29 10:06
Qwen3-VL多模态模型架构分析 - 文章核心观点是通过源码解析Qwen3-VL多模态大模型的内部实现细节,重点阐述其如何整合处理视觉和文本信息[2][3] - Qwen3-VL模型将文本和图像作为输入进行处理的自回归AI模型,源码实现包含配置、多模态模型、图片处理和视频处理四大核心模块[4][5] 模型核心组件与处理流程 - 模型入口类Qwen3VLForConditionalGeneration负责整合输入数据,处理流程包括:接收pixel_value和input_ids输入、通过Qwen3VLModel处理多模态数据、经线性层lm_head输出logits、最终以统一格式输出结果[12][13][15][16] - Qwen3VLModel类实现多模态数据融合:通过get_image_features将图像转换为image_embeds,文本通过get_input_embeddings转为inputs_embeds,使用masked_scatter技术将视觉嵌入整合到文本序列中,最终输入大语言模型进行统一处理[18][20][21] 视觉编码器技术实现 - Qwen3-VL采用自研视觉编码器而非现有CLIP或SigLIP方案,通过Qwen3VLVisionPatchEmbed的3维卷积将图像转为hidden_states,结合位置编码后输入27层Attention模块的Qwen3VLVisionBlock进行处理[34][35][37][40] - 视觉处理使用Qwen2VLImageProcessorFast实现图像到pixel_value的转换,预处理过程包含图像分组、尺寸调整、归一化和特征网格重组等步骤,最终输出模型可处理的pixel_values张量[7][8][9][10] 多模态融合与位置编码机制 - 模型采用特殊标记<|im_start|>和<|im_end|>实现视觉与文本特征的精确对齐,通过get_rope_index方法计算旋转位置编码索引,支持图像和视频序列的时空位置信息编码[21][22][23][24] - 视觉特征嵌入过程严格校验占位符标记与特征数量匹配,确保多模态数据融合的准确性,最终生成包含视觉位置掩码和深度堆叠特征的统一表示[30][31][32][33]
游戏板块早盘震荡走强,游戏ETF(159869)现涨近1%
每日经济新闻· 2025-11-27 12:34
游戏板块市场表现 - 11月27日早盘游戏板块震荡走强,游戏ETF(159869)现涨近1% [1] - 巨人网络、恺英网络、游族网络、国脉文化、完美世界、冰川网络等个股涨幅居前 [1] - 富春股份、名臣健康、迅游科技等个股跌幅居前 [1] 行业基本面与前景 - 游戏行业第三季度延续上半年高景气态势,在龙头公司带动下行业收入和利润均延续高增长态势 [2] - 游戏版号实行"一月一批"的常态化发行节奏,行业优质内容供给节奏有望持续 [2] - 对已发售游戏的精细化运营有望拉长游戏流水贡献,延续产品动能 [2] - 行业龙头公司产品管线储备丰富,为后续业绩增长提供高确定性 [2] - 游戏板块具备AI、内容、商业化模式变革多点催化 [2] 技术创新与行业影响 - 谷歌发布Nano Banana Pro,体现了其在多模态大模型领域的深厚积累 [1] - Nano Banana Pro整合了Gemini 3 Pro的多模态理解能力及谷歌搜索知识库,可理解现实语义与物理逻辑 [1] - 对比上一代产品,Nano Banana Pro文本渲染能力提升,支持2K、4K高清分辨率,更能满足专业制作要求 [1] - 海内外大模型多模态能力持续提升,使用门槛和调用成本下降 [1] - 普通用户到专业创作者均有望借助提升的模型能力落地创意,营销、影视、游戏、电商等领域内容制作有望进一步降本增效 [1]
资深模型专家解读谷歌 Gemini
2025-11-26 22:15
涉及的行业或公司 * 行业为人工智能与大型语言模型领域 公司包括谷歌及其Gemini系列模型、OpenAI的GPT系列、Anthropic的Claude系列、阿里巴巴、蚂蚁集团等[1][2][4][5][7][9][10][14][15][20][22] * 同时涉及AI芯片领域 包括谷歌自研TPU和英伟达GPU的竞争[10][16][18][19] 核心观点和论据 谷歌Gemini 3 Pro模型的技术创新与性能 * Gemini 3 Pro被认为是全球最强的视觉理解模型 能够精确识别细颗粒度信息如黑板上的数学公式[1][2] * 模型采用Mamba理念优化Transformer 通过线性关系优化推理算力与序列长度关系 减少显存需求并缓解KV cache压力[1][2][3] * 基于GPU训练 采用自适应智能优化范式 从14TB数据中统一纯字母编码 避免跨模态对齐问题[1][4] * 训练过程采用分段式训练方法 结合sliding window机制、强化学习和test time等策略 使用GRPO、DAPO、对齐以及COLT冷启动等四段式优化策略[1][4] * 模型在21个维度中的20项测评中领先 标志着大模型从多模态发展到Agent时代 许多功能基于Agent方式调度[2] 多模态能力与数据处理 * Gemini 3 Pro是原生多模态大模型 统一编码处理文本、图片、音频、视频和代码等数据 通过一个Decode Only骨干网架构融合处理[1][5] * 多模态信号需要重新标注以确保输入输出一致性 例如传统银饰品类的数据需重新标注为跨模态数据[5][6] * 多模态数据标注难点在于不同类型数据间需精确匹配 需使用专门针对多模态对齐的自动化工具完成初步标注 然后由人工评测[6] 模型能力评估与行业比较 * 谷歌最新模型是新的SOTA标杆 展示全能型发展方向 涵盖文科、人文、社科、事实、多元、情商和策略能力以及多模态理解[1][7] * 在理科编程能力上 Claude 4.5仍保持最强位置 编程得分为80.9 高于GPT-3的76.2 谷歌模型未显著超越GPT-5.1及Claude 4.5[2][7] * 头部大模型开始从单一追求理科转向全面发展 包括文科及情商策略等多个维度[2][7] * 与阿里巴巴相比 谷歌在理科综合分数96分对92分 人文学科88分对81分 情商策略76分对68分 多模态理解85分对72分 均领先[14] 中文内容处理与区域市场差异 * 海外文生图模型如Banana、Sora和Biu在处理中文内容上存在问题 无法正确显示中文字符甚至出现乱码 源于开发过程忽略东方元素及相关数据[2][9][12] * 国内模型自2017年起专门添加大量中东方元素数据 包括各种字体如隶书、草书、宋体以及经济角色、旗袍和寺庙等建筑 因此能更准确生成包含复杂汉字和东方文化元素的图像[9] * 海外模型对中文支持不足并非技术障碍 而是因公司未投入足够资源且难以进入中国市场缺乏优化动力[12][13] 硬件生态与竞争格局 * 谷歌使用自研TPU进行训练具有成本较低、能效比更高、显存容量大达192GB、支持4.8TB大带宽等优势 推动行业形成新竞争阵营以降低对CUDA依赖[10][16] * 其他云服务提供商即使采购TPU也难以复制GPT-3方法 因涉及谷歌专有模型和复杂架构改造 改造过程需至少三个月且要求严格[17] * 英伟达组网规模一个Pod支持几千节点 而其他厂商如PoE可支持超过9000个节点 组网规模更大[18] * 企业选择TPU或Cuda需根据业务需求 与谷歌生态绑定紧选TPU 需更灵活扩展性则选Cuda[19] 应用方向与未来发展 * 国内外科技公司将生成式AI模型C端化 如蚂蚁集团推出面向金融场景的灵光产品 实现无代码Agent生成、多模态对话、零代码生成及实时视频分析等功能[20] * 知识图谱作为外部大脑可显著降低AI幻觉率 提供校验信息提高回答准确性 但大规模应用面临获取海量高质量数据成本高、需结合垂直行业细分等挑战[21] * 阿里巴巴"千问"APP下载量增长迅速 日均下载量达4-5倍增长 预计月底DAU接近200万 未来战略通过投流获客、阿里系APP导流等方式增加用户数 专注于Chatbot、AI创作和智能体三大核心功能[22] 其他重要内容 * 海外AI领域呈现谷歌、Grok和OpenAI三强争霸局面 谷歌领先地位预计维持两个季度左右 Grok最有可能接近谷歌[10][11] * 谷歌模型具有更高对话温度 能根据对话风格切换不同人设 而国内大模型如百度和元宝生成文字相对干涩 缺乏语言美感[14] * 在处理中文图像生成不清晰问题时 可通过明确指示系统检查图像中文字体来改进 未来版本需优化多语言支持和字符识别算法[8]
瑞芯微上线RK182X系列AI协处理器
巨潮资讯· 2025-11-26 21:10
产品发布与定位 - 公司于11月26日正式上线RK182X系列AI协处理器产品页面,该系列芯片面向AI应用,通过PCIe 2.0或USB 3.0接口与主处理器互联,主要承载端侧和本地化AI推理算力任务 [1] - 该系列芯片定位为高性能协处理器,适用于个人电脑、边缘服务器及专用AI终端等场景,为存量设备提供外挂式AI算力升级方案 [3] 技术规格与性能 - 芯片集成多核高算力NPU,支持3B/7B参数规模的LLM/VLM本地部署,具备处理文本、图像等多模态数据的能力 [3] - 芯片内置2.5GB或5GB高带宽DRAM,通过3D堆叠封装与逻辑芯片集成,理论带宽达1TB/s,在典型应用中每秒可生成超过100个Token [3] - 采用3D堆叠封装技术实现更高带宽与更紧凑的系统设计,有利于提升本地大模型推理吞吐 [3] 市场定位与产业趋势 - 产品契合当前端侧算力需求上升及多模态大模型落地的产业趋势,通过封装工艺、内存架构和NPU算力的组合创新,探索从通用SoC向专用AI协处理器延伸的路径 [4] - 该"轻量级升级"路径可降低企业和个人用户引入本地大模型的门槛,适用于传统PC、工控机及嵌入式设备的AI算力增配 [3] - 产品在PC加速卡、AI盒子及垂直行业终端中的导入进展需通过后续客户落地情况与公司公告验证 [4]
具身方向,论文“救援”来了!
具身智能之心· 2025-11-26 18:00
公司业务与服务定位 - 公司提供一站式论文辅导服务 专注于具身智能及相关前沿技术领域 旨在解决从选题到投稿的全流程学术难题 [1] - 服务覆盖从顶级会议CCF-A到CCF-C 以及SCI一区到四区、EI、中文核心、毕业论文和申博等多种学术产出需求 [1] - 公司提供1对1定制化辅导 核心方向包括多模态大模型、视觉语言动作、视觉语言导航、机器人抓取与导航、3D高斯泼溅、端到端具身智能体及具身合成数据生成等 [1] 核心团队与专业能力 - 导师团队来自CMU、Stanford、MIT等国内外名校的PhD及大厂研究员 具备顶级会议如ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR的审稿经验 [1] - 团队具备工业界与学术界双重视角 不仅关注论文发表 也关注技术的落地价值 例如机器人抓取的鲁棒性和导航的实时性优化 [3] 服务流程与价值主张 - 提供全流程闭环辅导 涵盖从选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略等关键环节 [2] - 公司为前10名咨询者提供免费匹配专属导师的服务 可进行深度会议并获得一对一的会议或期刊选投建议 [4]
具身智能之心技术交流群成立了!
具身智能之心· 2025-11-26 18:00
社群成立与目标 - 具身智能之心技术交流群正式成立,旨在促进相关技术领域的交流与合作 [1] - 社群主要关注方向包括视觉语言导航、遥操作、扩散策略、强化学习、多模态大模型等前沿技术领域 [1] 社群加入方式 - 感兴趣者可通过添加指定助理微信账号申请加入社群 [2] - 申请入群需按要求备注个人机构、姓名及研究方向信息以加速审核流程 [3]
七牛智能升5% 公司专注多模态大模型 上半年AI相关收入已达1.84亿元
智通财经· 2025-11-25 11:28
股价表现 - 股价上涨5%,报0.63港元 [1] 公司核心优势与业务战略 - 核心优势在于一体化MPaaS技术,拥有音视频技术、低代码平台、AI能力等关键技术 [1] - AIGC技术融入后,公司将专注多模态大模型,结合场景化开发赋能APaaS业务 [1] - 公司预计将加快海外业务拓展,提升国际市场占有率 [1] AI业务发展 - 上半年AI相关收入达1.84亿元,占总收入22.2% [1] - AI收入主要来源于AI推理服务和算力资源租赁 [1] - 平台开发者群体数量超169万,新增注册量持续增长 [1] - AI应用开发的推理算力需求攀升,AI相关用户快速增至15000人 [1]
港股异动 | 七牛智能(02567)升5% 公司专注多模态大模型 上半年AI相关收入已达1.84亿元
智通财经网· 2025-11-25 10:48
股价表现 - 七牛智能股价上涨5%,报0.63港元 [1] 核心业务与技术优势 - 公司核心优势在于一体化MPaaS技术,拥有音视频技术、低代码平台、AI能力等关键技术 [1] - AIGC技术融入后,公司将专注多模态大模型,结合场景化开发赋能APaaS业务 [1] 财务与运营数据 - 2025年上半年AI相关收入达1.84亿元,占总收入的22.2% [1] - AI收入主要来源于AI推理服务和算力资源租赁 [1] - 截至2025年8月,平台开发者数量超169万,新增注册量持续增长 [1] - AI应用开发的推理算力需求攀升,AI相关用户快速增至15000人 [1] 发展战略 - 公司预计将加快海外业务拓展,提升国际市场占有率 [1]
大模型技术学习过程梳理:Agent、RAG、通用大模型等......
自动驾驶之心· 2025-11-23 10:04
社区定位与目标用户 - 社区旨在为大模型技术领域的学习者提供交流平台,解决其在学术、应用和工程上遇到的问题 [5] - 目标用户包括从刚入门的研究生到已有基础希望进一步提升的学习者,社区内容设计可帮助小白快速入门,并支持进阶者系统性学习 [2][6] - 社区已构建包含技术路线分享、直播、问答、求职、赛事等多版块的闭环生态,致力于培养行业人才并提供展示机会 [3] 社区资源与合作伙伴 - 社区嘉宾团队正在快速扩张,已邀请来自上海交通大学、清华大学、北京大学、上海人工智能实验室、香港科技大学、香港大学等顶尖高校及科研机构的专家 [5][67] - 工业界合作伙伴涵盖阿里通义千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等头部公司 [5][67] - 社区内部已汇聚40多位学术界和工业界专家,未来计划打造为大模型前沿技术聚集地 [67] 核心技术路线覆盖 - 社区提供全面的大模型全栈学习路线图,核心领域包括RAG(检索增强生成)、AI Agent和多模态大模型 [5][6][12] - RAG技术路线细分为Graph RAG、Knowledge-Oriented RAG、多模态RAG、Reasoning RAG等子领域,并提供BenchMark、综述及开源仓库等资源 [13][19][21][22][24][26] - AI Agent技术路线涵盖前沿综述、Agent评测、强化学习、多模态Agent、Agent通讯、基座Agent汇总、自进化Agent及Multi-Agent等方向 [28][30][33][35][37][39][40][42][44] 多模态与模型优化技术 - 多模态大模型训练内容包含多模态大模型(MLLM)、视觉语言模型(VLM)、大模型微调、强化学习与RLHF、MoE(混合专家模型)等关键技术点 [46][49][51][52][53][54] - 模型部署方面提供大模型量化、推理及部署的详细技术路线,满足学习者部署自有模型的需求 [60][61][62][64] - 扩展技术领域包括VLM的提示适配器学习、LLM在3D世界中的应用以及科学大语言模型学习路线图 [55][56][58] 社区服务与未来规划 - 社区福利包括第一时间掌握学术进展与工业应用、与行业专家交流工作求职问题、获得岗位推荐及产业投资与项目对接机会 [10] - 未来计划通过不定期邀请国内外顶尖学术界和工业界专家进行直播分享,并允许内容反复观看 [66] - 社区将持续分享独家岗位招聘信息,赋能成员职业发展 [67]
基于Qwen3-VL的自动驾驶场景实测
自动驾驶之心· 2025-11-22 10:01
模型核心能力 - 在自动驾驶场景的实测中展现出稳健的基础感知能力和令人惊喜的开放式推理与动态场景理解能力,具备"老司机"潜质 [2] - 能够精准理解道路结构、交通参与者、天气状况、交通标志等场景信息 [85] - 具备深度的空间推理能力,可判断车辆相对位置、运动状态及车道关系 [85] - 展现出动态行为预测能力,能分析车辆意图并评估风险等级 [85] - 在多帧时序理解方面表现突出,能基于连续图像推断速度变化和交通流演变过程 [85] 技术测试维度 - 测试涵盖场景理解、空间推理、行为判断、风险预测等多个维度 [2] - 在场景理解任务中,模型能准确描述图片内容、判断天气状况、识别道路类型及交通参与者 [7][9][10][11][15][17][18] - 在空间推理任务中,模型可识别距离自车最近的车辆、判断前方车辆移动状态及旁边车辆的变道意图 [21][22] - 模型能够回答关于前方车辆数量、位置、自车所在车道及车道线数量等具体空间问题 [25] - 在行为决策方面,模型能基于当前情况给出加速、减速或保持速度的建议 [28] 安全与风险评估 - 模型在判断中多次强调"安全第一",体现出良好的驾驶伦理观和安全意识 [85] - 能够识别图中最大的潜在危险并进行说明 [29] - 具备按危险程度对交通参与者进行排序的能力,例如将右侧对向行驶的白色面包车列为最高风险 [38][42] - 能合理判断超车行为的安全性,在夜间、对向来车、能见度低等条件下强烈不建议超车 [48][49][50] - 可以模拟突发情况下的场景演变,如车辆突然爆胎后可能引发的连锁反应 [75][77][79] 行业应用前景 - 此次测试表明通用视觉语言模型在垂直领域落地具有更多可能性 [2] - 基于通用大模型的自动驾驶系统未来或可通过"常识推理+多模态理解"的方式实现更高效、更泛化的驾驶决策 [86] - 模型未经过专门的自动驾驶指令微调却能对复杂交通场景做出合理判断,显示出强大的基础能力 [2][86] - 尽管在极端复杂场景下的反应一致性等细节仍需优化,但模型已展现出更加智能、更具理解力的自动驾驶未来图景 [86]