dots.vlm1 - 财报，业绩电话会，研报，新闻

dots.vlm1

搜索文档

每日经济新闻· 2026-02-11 08:45

小红书AI产品战略 - 公司技术团队正在研发一款名为OpenStoryline的视频剪辑类AI产品，版本号为1.0.0，目前处于测试阶段，后续或会开源 [1] - 这是公司首次公开AI视频剪辑类产品，其AI动作偏向工具化、轻量化落地，更愿意在内容生产、搜索交互、剪辑创作等贴近自身业务的环节做微创新 [1] - OpenStoryline定位于基于AI智能体的视频剪辑产品，用户可通过上传图片并以对话方式进行剪辑，整体效果与即梦的小云雀、商汤的Seko 2.0类似 [3] AI战略布局与进展 - 公司AI战略布局正在缓慢拓宽，除视频剪辑外，早在2023年就传出筹备独立大模型团队的消息 [7] - 2024年，公司推出了AI搜索产品“点点”，并于2025年11月通过并购上海生动诗章科技有限公司，将“点点”的开发主体正式纳入集团体系 [7] - 2025年8月，公司技术团队开源了多模态大模型dots.vlm1，效果接近闭源SoTA模型（当前性能最优的模型）[7] - 2025年1月，公司正式上线语音“问一问”功能，该功能是公司推出的AI搜索助手，核心任务是帮用户查找信息、解答疑问 [8][9] 行业竞争与市场环境 - 公司新视频剪辑产品面临的竞争对手不容小觑，例如字节跳动旗下产品 [4] - 字节跳动自研大模型持续迭代，其AI视频生成模型Seedance 2.0于2月7日低调上架，目前尚未全面开放，但已获得行业知名人士的高度评价 [5][6] - AI助手正快速占据用户注意力，可能对内容社区形成冲击，例如豆包在2025年第三季度以1.72亿月活跃用户（MAU）位居榜首，而DeepSeek的MAU为1.45亿 [12] - 作为对比，公司在2025年8月的月活跃用户已超过3.5亿 [12] 视频业务战略方向 - 公司近期完成了重大的组织架构调整，新成立了Red&Live独立部门，全面聚焦短视频与互动直播业务（后经了解，该部门实际聚焦中视频，这将是公司今后的重点布局板块）[10][11] - 该部门整合了产品、运营、市场、生态等全链路团队，核心任务是通过短视频与互动直播，拉动用户增长、提升用户使用时长、实现破圈渗透 [10] - 公司向视频方向发力已是大势所趋，若能依托生活垂类的内容优势，借助AI降低视频创作门槛、提升内容供给效率，未来在提升老用户使用时长、吸引新用户等方面仍具备较大机会 [14] 核心价值与竞争壁垒分析 - 分析认为，AI助手在生活决策类信息检索、问答等场景会分流公司相当一部分用户需求，对平台的搜索使用、内容消费等形成挤压 [13] - 但公司的核心价值很难被通用AI助手完全替代，其社区氛围、UGC真实内容分享、场景化体验以及由此形成的情感共鸣，有望构成核心壁垒 [13] - 在真实用户场景化分享、互动以及消费决策入口上的价值体系，公司相较AI助手具备优势 [13] - 公司的护城河在于大量创作者基于真实体验产出的种草内容，具备原创、实时且高度个性化的特点，AI无法亲身使用与体验，只能通过搜集整理资料形成参考 [13]

AI大战烧到小红书：内测AI视频剪辑是进攻还是防御？

每日经济新闻· 2026-02-10 23:15

小红书AI视频剪辑产品OpenStoryline - 公司正在研发一款基于AI智能体的视频剪辑产品OpenStoryline，版本号为1.0.0，目前处于测试阶段，后续可能开源[1] - 该产品定位为通过上传图片并以对话方式进行剪辑，其整体效果与字节跳动的“小云雀”、商汤的“Seko 2.0”类似[2] - 分析认为，该产品若能推出，将有助于补足小红书视频创作工具的短板，通过结合平台穿搭、美妆等内容风格，形成从素材到成片的制作闭环，充实平台内容供给[2][3] 小红书的AI战略布局与特点 - 公司的AI布局更偏向工具化、轻量化落地，侧重于在内容生产、搜索交互、剪辑创作等贴近自身业务的环节进行微创新[2] - 公司AI战略布局正在拓宽，2024年推出了AI搜索产品“点点”，并于2025年11月通过并购将其开发主体纳入集团体系[6] - 2025年8月，公司技术团队开源了多模态大模型dots.vlm1，其效果接近当前性能最优的闭源模型[6] - 2025年1月，公司上线了语音“问一问”功能，定位为AI搜索助手，核心任务是帮助用户查找信息、解答疑问[8][9] 行业竞争格局与主要对手 - 公司新进入的AI视频剪辑赛道竞争激烈，主要竞争对手包括字节跳动旗下产品[4] - 字节跳动自研的AI视频生成模型Seedance 2.0于2025年2月7日低调上架，目前用户可免费试用，其效果获得了行业人士的高度评价[5] - 行业数据显示，2025年第三季度，豆包以1.72亿月活跃用户位居AI助手榜首，DeepSeek以1.45亿月活紧随其后[11] - 分析指出，AI助手在生活决策类信息检索等场景，会分流小红书相当一部分用户需求，对平台的搜索使用和内容消费形成挤压[11] 公司向视频业务发力的战略动向 - 公司近期完成了重大的组织架构调整，新成立了Red&Live独立部门，全面聚焦短视频与互动直播（后明确为聚焦中视频）业务，该部门由具备B站视频运营经验的高管管理[10] - 该部门的核心任务是通过短视频与互动直播，拉动用户增长、提升用户使用时长并实现破圈渗透[10] - 公司向视频方向发力已是大势所趋，截至2025年8月，小红书月活跃用户已超过3.5亿[11] 行业分析：小红书的护城河与AI挑战 - 分析认为，小红书的社区氛围、用户生成内容的真实分享、场景化体验及由此形成的情感共鸣，构成了其核心壁垒，难以被通用AI助手完全替代[11] - 行业观点指出，AI时代依然是创意和观点为主的内容竞赛，小红书基于创作者真实体验产出的原创、实时且高度个性化的内容，相较于AI生成的答案更具优势[12] - 分析建议，公司若能依托生活垂类的内容优势，借助AI降低视频创作门槛、提升内容供给效率，将在提升老用户使用时长和吸引新用户方面具备较大机会[12]

计算机行业周报：OpenAI发布GPT-5，AI创新不断加速-20250811

国元证券· 2025-08-11 11:45

行业投资评级 - 推荐|维持 [5] 市场回顾 - 本周(2025 8 4-2025 8 8)计算机（申万）指数下跌0 41%，位居涨跌幅榜尾部区域 [1][10] - 上证指数上涨2 11%，深证成指上涨1 25%，创业板指上涨0 49% [1][10] - 细分板块表现：计算机设备(+1 63%)、IT服务Ⅱ(+0 06%)、软件开发(-1 95%)，硬件板块表现较好 [1][12] - 个股方面，计算机板块上涨、回调和走平的个股数量分别为158、134和44，佳缘科技(63 29%)、航天智装(40 07%)、淳中科技(35 28%)涨幅分列前三 [12] 重大事件 - OpenAI发布GPT-5系列模型，包含GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本，输入/输出价格分别为每百万token 1 25美元/10美元 [3][21] - GPT-5在数学、编码、视觉感知和健康方面表现突出，支持"按需思考"功能，拥有4种人格模式 [3][21] - 小红书开源多模态大模型dots vlm1，视觉理解推理能力接近闭源领先模型 [15] - 通义千问发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型，支持256K上下文长度 [15] - Anthropic发布Claude Opus 4 1，在SWE-bench Verified基准测试中达到74 5%，相比Opus 4提升2个百分点 [15] - OpenAI重新开源模型，发布gpt-oss-120b和gpt-oss-20b两款推理模型，采用Apache 2 0许可证 [15][16] - 谷歌DeepMind发布通用世界模型Genie 3，支持实时交互生成720p画面 [18] - 华为开源三款盘古模型，规模分别为1B、7B和718B，其中Ultra MoE达7180亿参数 [18] 重点公告 - 智明达参与配套的互联网低轨06组卫星成功发射，预计下半年卫星领域项目加速推进，涉及AI的研发项目已有50余个 [2][18] - 迪普科技2025年上半年营业收入5 51亿元，同比增长9 59%，第二季度净利润同比增长40 20% [2][18] - 万兴科技筹划发行H股股票并在香港联合交易所上市 [2][18] - 数字认证控股股东将变更为北京数据集团，后者直接及间接合计持有其52 48%股份 [19] 投资观点 - 大模型产业创新持续加速，商业落地前景广阔 [3][21] - 建议关注在大模型、Agent等领域具备核心技术、拥有广泛付费客户、并在财务报表中逐步体现经营成绩的上市公司 [3][21]

大模型产业

软件与服务

GPT-5

Qwen3-4B-Thinking-2507

Qwen3-4B-Thinking-2507

Claude Opus 4.1

gpt-oss-120b

AI周报｜OpenAI发布大模型GPT-5；谷歌推出可交互的世界模型Genie 3

第一财经· 2025-08-10 12:13

OpenAI发布GPT-5 - OpenAI推出GPT-5，强调其幻觉率下降且减少对人类的"阿谀奉承" [1][2] - GPT-5在编程、数学、写作、健康、视觉智能等领域具备最先进性能，内置思维能力可提供专家级智能 [2] - 模型知道何时快速响应或长时间思考，免费用户需等待几天才能使用完整推理功能 [2] - 基准测试显示GPT-5得分超过o3和o4-mini，但与前代差距不大 [2] - 特斯拉CEO马斯克称Grok 4在ARC-AGI基准测试中击败GPT-5 [2] OpenAI开源策略转变 - 公司时隔六年再次开源gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数)两款MoE架构模型 [3] - gpt-oss-120b可在单张80GB GPU运行，gpt-oss-20b适配16GB内存消费级设备 [3] - 公司倾向于旗舰模型闭源策略，但承认强大开源模型的重要性 [3] Anthropic更新Claude模型 - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级，擅长处理复杂多步骤问题 [4] - 公司转向渐进式更新策略，未来几周将推出更多迭代 [4] - 新版本在代码编写和代理能力方面有实用改进 [4] 谷歌发布Genie 3世界模型 - Genie 3支持实时交互，可模拟水、光等自然现象及生态系统 [5] - 能以24帧/秒速度生成720p动态世界，视觉记忆追溯达1分钟 [5] - 模型存在动作空间有限、多智能体交互模拟困难等局限性 [5] 小红书开源多模态模型 - dots.vlm1基于DeepSeek V3打造，配备自研12亿参数视觉编码器NaViT [7] - 在视觉评测集表现接近Gemini 2.5 Pro等领先模型 [7] - 具备图文图表理解、表情包解析、产品配料表分析等能力 [7] xAI将开源Grok 2模型 - 马斯克宣布下周开源Grok 2，该模型以复杂问题处理和逻辑推理见长 [8] - 相比第一代在多个方面实现显著提升 [8] - X平台同步为订阅用户推出图片生成新功能 [8] AI应用市场格局 - 2025上半年AI搜索引擎(MAU 6.85亿)和AI综合助手(6.12亿)构成第一梯队 [9] - AI社交互动(1.26亿)和AI专业顾问(1.11亿)组成第二梯队 [9] - 近七成原生APP月活负增长，手机厂商预装助手和中长尾玩家增长乏力 [9] - DeepSeek月活从1.93亿降至1.62亿，流失用户主要转向百度(56%)和QQ浏览器(42.1%) [9] AMD季度财报 - Q2营收76.85亿美元(同比+32%)，净利润8.72亿美元 [10] - 数据中心收入32亿美元(同比+14%)未达预期 [10] - 贸易政策导致8亿美元库存及相关费用损失 [10] - 剔除影响后非GAAP毛利率为54%，AI收入预计将同比增长 [10] 谷歌AI搜索影响 - 公司否认AI搜索导致网站流量下滑，称总体点击量保持相对稳定 [11][12] - 反驳第三方报告关于流量急剧下降的结论，认为其方法存在缺陷 [12]

OpenAI发布最强AI模型GPT-5；英特尔CEO发全员信：回应辞职要求；微信员工回应“改手机日期可恢复过期文件” | Q资讯

搜狐财经· 2025-08-10 10:43

OpenAI发布GPT-5模型 - OpenAI发布新一代AI模型GPT-5，具备智能切换模型版本、更低幻觉率、更强代码能力和支持个性化设定等功能 [1] - GPT-5在SWE-bench Verified测试中得分74.9%，在Aider polyglot测试中得分88%，成为真正的编码协作伙伴 [3] - 该模型在前端Web开发任务中70%的表现优于OpenAI o3，能够生成高质量代码并处理修复漏洞、修改代码等复杂任务 [3] 英特尔CEO回应辞职传闻 - 英特尔CEO陈立武发表员工信，澄清关于他的不实传闻，暗示不会辞职 [4] - 陈立武强调拥有40多年行业经验，遵循最高法律和道德标准，将继续领导英特尔 [4] - 英特尔表示将在美国半导体研发和制造领域投资数十亿美元，包括在亚利桑那州新建晶圆厂 [4] - 知情人士透露，陈立武与部分董事会成员在公司战略和收购计划上存在分歧 [5] 微软裁员动态 - 微软在华盛顿州启动新一轮裁员，裁减约40个岗位，使该州自五月以来的裁员总数达到3160人 [6] - 此次裁员是微软全球裁员超过15000人计划的一部分，此前5月和7月分别裁减1985个和830个岗位 [6] 苹果iPhone17系列发布会 - 苹果iPhone17系列发布会预计于9月9日举行，将推出iPhone17、iPhone17 Air、iPhone17 Pro和iPhone17 ProMax [7] - 同期可能发布Apple Watch SE3、Apple Watch Series11、Apple Watch Ultra3和AirPods Pro 3 [7] 网易游戏服务器故障 - 网易旗下多款游戏突发登录异常，"网易游戏崩了"话题冲上微博热搜 [8] - 故障持续超过2小时，内部人士称宕机面积大导致排查难度大，服务器重启需要较长时间 [8] - 网易内部公告证实故障由机房网络问题引起，影响POPO部分服务 [8] 字节跳动校招计划 - 字节跳动启动2026校园招聘，计划发放超5000个offer，较2025年校招4000+规模显著扩招 [10] - 研发类岗位招聘数量同比增长23%，算法、前端、客户端增幅最大，非研发岗位计划招募1500余人 [10] - 招聘覆盖抖音、电商、火山引擎、飞书、剪映等业务团队，产品经理、数据分析等方向机会更多 [10] AI行业动态 - OpenAI发布两个开放权重AI模型GPT-oss-120b和GPT-oss-20b，支持文本生成和代码编写等任务 [13] - 谷歌DeepMind推出世界模型Genie 3，能根据文本提示生成可互动的3D环境，以720p分辨率24帧/秒实时渲染 [14] - 小红书开源多模态大模型dots.vlm1，基于DeepSeek V3打造，配备自研12亿参数视觉编码器NaViT [17] - dots.vlm1在MMMU、MathVision、OCR Reasoning等基准测试中表现接近Gemini 2.5 Pro等领先模型 [17] IT业界观点 - 英伟达否认其产品含有后门和关闭开关，强调30多年设计经验表明这类功能会带来安全隐患 [19] - GitHub CEO警告开发者必须拥抱AI否则改行，称AI工具已成为编程工作流程中不可或缺的合作伙伴 [20] - Stack Overflow调查显示80%开发者使用AI编程工具，但对准确性的信任度从40%降至29% [22]

萝卜快跑无人网约车被曝载客坠入施工沟槽；特斯拉餐厅开业12天：排长队、机器人故障、居民抗议三件套齐发丨AI周报

创业邦· 2025-08-09 18:08

全球AI产业动态 - 2025世界机器人大会在北京开幕，吸引200余家国内外企业参展，其中50家人形机器人整机企业创同类展会之最，首发新品100余款 [4] - 北京人形机器人产业规模占全国1/3，上半年营收增长近40%，专精特新小巨人企业数量全国首位 [5] - 全球首家具身智能机器人4S店Robot Mall在北京营业，展示7大类50多款机器人，计划11月升级2.0版本 [5] 国内AI技术进展 - 傅利叶发布全尺寸人形机器人GR-3，身高165cm，体重71kg，配备55个自由度，支持热插拔电池续航3小时 [10] - 阿里通义千问开源Qwen3-4B模型，在非推理领域超越GPT4.1-Nano，推理领域媲美Qwen3-30B-A3B [12] - 小米开源声音理解大模型MiDashengLM-7B，在22个评测集刷新SOTA，推理延迟仅为业界先进模型的1/4 [19] 企业战略与调整 - 阿里巴巴启动2026届秋招，计划发放超7000个offer，AI类岗位占比超60% [14] - 吉利汽车整合智驾团队，极氪1500人、吉利研究院1000人及迈驰智行500人并入重庆千里智驾，总规模达3000人 [14] - MiniMax副总裁魏瀚曈离职，将入职投资机构，其在职仅2个月 [15][16] 海外AI发展 - GPT-5正式发布，在文本、编程、数学等领域评分居首，采用集成模型无需切换，将免费向用户开放 [27][28] - OpenAI员工股票出售计划显示公司估值达5000亿美元，较上一轮3000亿美元增长66.7% [33] - ChatGPT周活跃用户将达7亿，同比增长4倍，付费商业用户从6月300万增至500万 [36][37] 投融资概况 - 本周全球AI融资事件29起，总融资规模670.66亿元人民币，平均融资金额33.53亿元人民币 [51] - 国内AI融资总额11.74亿元，灵心巧手完成数亿人民币天使轮融资 [60] - 海外AI融资总额658.92亿元，OpenAI完成83亿美元D+轮融资 [68][69]

Artificial Intelligence

具身智能

通用人工智能

Artificial Intelligence

Automotive

Semiconductor

Artificial Intelligence

具身智能

通用人工智能

Artificial Intelligence

Automotive

Semiconductor

特朗普：英特尔CEO必须立即辞职；GPT-5将免费提供给用户；宗馥莉公司投资10亿建新基地；微信重申不做“已读”功能丨邦早报

创业邦· 2025-08-08 08:08

AI模型与技术进展 - GPT-5正式发布，在文本、网页开发、视觉、高难度提示词、编程、数学、创意创作、长查询等领域均排名第一，Arena评分为1,481±11分，领先第二名Gemini 2.5 Pro（1,460分）[3][4] - GPT-5采用集成模型，无需手动切换模型，可自主决定深入思考时机，将免费向所有用户开放，并逐步向企业及教育用户推出[4] - 阿里通义千问发布小尺寸模型Qwen3-4B，在非推理领域超越GPT4.1-Nano，推理能力接近Qwen3-30B-A3B，已开源[18] - 小红书开源多模态大模型dots.vlm1，基于12亿参数视觉编码器和DeepSeek V3 LLM，视觉感知与推理达准SOTA水平[18] 企业动态与战略调整 - 宗馥莉旗下宏胜饮料投资10亿元建西安饮品新基地，新增多条产线生产纯净水、茶饮等，娃哈哈年初以来已关停18家分厂[5] - 盒马辟谣闭店传闻，称仅调整2%探索型业务门店，计划年内新开100家店，总门店数将超500家[11] - 广汽本田中方一把手换帅，高洪祥接替李进任执行副总经理，目前正交接[14] - 特斯拉解散Dojo超级计算机团队，约20名员工转至新公司DensityAI，剩余成员分配至其他项目[14] 自动驾驶与机器人 - 萝卜快跑无人网约车在重庆坠入施工沟槽，官方未回应事故原因[5] - 东风纳米06车型L2智能驾驶辅助被曝向右跑偏，公司称因端到端模型训练偏差，计划10月OTA更新优化[13][14] - 全球首家人形机器人4S店Robot Mall在北京开业，展示7大类50多款机器人，涵盖医疗、工业等场景，2.0版本预计11月推出[14] - 傅利叶发布全尺寸人形机器人GR-3，配备55个自由度，续航3小时，主打交互陪伴[16] 投融资与创业 - 陈天桥联手清华副教授代季峰筹备AI公司，聚焦商业决策、内容分发及老龄化服务，承诺半数利润分给团队[11] - 具身智能公司维他动力完成天使轮融资，首款伴随机器人年底上市[15] - 芝诺科技获数千万元Pre-A轮融资，专注合成生物学[15] - 灵心巧手完成数亿元天使轮融资，蚂蚁集团领投[15] 互联网与科技 - 微信官方重申不做"已读"功能，称避免增加社交压力[7] - 马斯克宣布Grok Imagine视频生成功能将免费向美国用户开放，未来几周持续优化[16] - 亚马逊广告报告显示2025年全球PC与主机游戏玩家达14.3亿，同比增长19%，日本PC/主机玩家增速为手游4倍[18] 行业数据与趋势 - 2025年中国电影总票房突破350亿元[19] - 美团揭露卖惨视频套路化现象，虚构故事引流私域卖课，已对违规账号固定证据并追责[11] - 本田4-6月净利润同比下滑50.2%至1966亿日元，受美国关税政策影响[15]

腾讯研究院· 2025-08-08 00:01

GPT-5系列模型 - OpenAI提前披露GPT-5四个版本：标准版gpt-5、轻量版gpt-5-mini、低延迟版gpt-5-nano和多模态复杂对话版gpt-5-chat [1] - 模型将分层开放：免费用户用基础版，Plus用户用更强推理版，Pro用户独享"研究级智能"的GPT-5 Pro [1] - 实测显示SimpleBench推理测试准确率达90%，需特定提示激活复杂思考，编程和视觉表现有提升但未达惊艳水平 [1] MiniMax语音模型 - 新一代Speech 2.5模型支持40种语言真人级生成，实现跨语种音色保留和口音复刻 [2] - 相比5月版本在多语种自然表达、音色复刻和语种覆盖三方面突破 [2] - 已被Vapi、Pipecat等海外平台及高途教育、喜马拉雅、网易等国内头部平台接入 [2] 小红书多模态模型 - 开源首个多模态大模型dots.vlm1，基于12亿参数NaViT视觉编码器和DeepSeek V3构建 [3] - 视觉理解能力接近Gemini 2.5 Pro和Seed-VL1.5 Thinking，能解数独、破解高考数学题等 [3] - 两个月内连续开源dots.llm1、dots.ocr、dots.vlm1三款模型，反映技术自研力度加大 [3] 面壁小钢多模态模型 - MiniCPM-V 4.0仅用4B参数在OpenCompass等榜单取得SOTA成绩，支持手机端稳定运行 [4] - 显存占用仅3.33GB，256并发下吞吐量达13856 tokens/s，远超Qwen2.5-VL和Gemma 3 [4] - 开源推理部署工具MiniCPM-V CookBook便于开发者简易部署 [4] 通义千问新模型 - 发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型，支持256K上下文 [5][6] - Qwen3-4B-Thinking在AIME25测评得81.3分，Agent能力超越Qwen3-30B-Thinking [6] - Qwen3-4B-Instruct全面超越GPT-4.1-nano，性能接近Qwen3-30B-A3B [6] 大模型对抗赛 - OpenAI的o3以4比0完胜o4-mini，展现100%准确率 [7] - Grok 4与Gemini 2.5 Pro常规赛2比2平，加赛逼和对手晋级 [7] - 决赛由Grok 4对阵o3，国际象棋冠军Magnus Carlsen等将解说 [7] Gemini教育功能 - 推出"引导式学习"模式，通过问题分解、视觉辅助和互动测验构建知识 [8] - 为美日等国大学生提供一年免费AI Pro计划（价值200美元） [8] - 承诺三年内向美国教育投入10亿美元 [8] 具身智能技术 - Skild AI推出端到端视觉感知控制方案，实现机器人稳定爬楼梯和复杂障碍通过 [9] - 采用纯视觉输入方法，通过单一神经网络实现"本能级"动作控制 [9] - 优势在于连贯运动切换和环境适应能力，可实时调整动作应对地形 [9] 理想汽车智驾 - 推出国内首个量产VLA模型，在视觉和行为间加入语言环节使决策更拟人 [10][11] - 系统每天通过"世界模型仿真系统"行驶30万公里迭代，4B模型实现10Hz帧率 [11] - 预计辅助驾驶明年达1000MPI里程碑 [11] AI应用平台趋势 - a16z认为AI应用平台将走向专业化而非赢者通吃，形成互补共存 [12] - 市场分化为原型制作、个人软件和生产级应用三类，70%用户仅活跃于单一平台 [12] - 未来三至五年每类别将出现2-3家主导企业 [12]

小红书开源多模态大模型dots.vlm1：解锁图文理解与数学解题新能力

搜狐财经· 2025-08-07 18:31

模型开源与性能表现 - 小红书开源多模态大模型dots.vlm1 基于DeepSeek V3架构并配备自研12亿参数视觉编码器NaViT [1] - 模型在MMMU测试中得分80.11 接近Gemini 2.5 Pro的84.22和Seed-VL1.5 thinking的79.89 [5] - 在MathVision测试中达69.64分超越Qwen2.5VL-72B的39.4分接近Gemini 2.5 Pro的72.34分 [5] - OCR推理能力达66.23分显著优于Qwen2.5VL-72B的38.02分接近Seed-VL1.5的63.42分 [5] - 文本推理能力与DeepSeek-R1-0528相当但在GPQA测试中72.78分低于Qwen3-235B-A22B-think-2507的81.1分 [4][5] 技术架构与训练 - 模型包含三大组件：12亿参数NaViT视觉编码器轻量级MLP适配器 DeepSeek V3 MoE大语言模型 [5] - 训练分三阶段：视觉编码器预训练使用图文对和纯图像数据 VLM预训练使用大规模多模态数据集 VLM后训练通过有监督微调增强泛化能力 [5] 应用场景与能力 - 能解析复杂英文图表并计算数据理解景区价目表规划购票方案 [6] - 可解读几何题图形颜色信息对emoji等视觉信息进行推理 [6] - 具备文物画作背景识别能力能分析产品配料表差异和表情包含义 [1] 开源战略与后续计划 - 模型已上传Hugging Face平台免费开放使用 [6] - 公司自6月6日起陆续开源OCR专用模型视觉模型及奖励模型等研究成果 [6] - 后续将扩大跨模态互译数据规模改进视觉编码器结构探索新神经网络架构 [6] - 计划采用强化学习方法缩小文本与多模态提示的推理能力差距 [6]