多模态模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态模型

搜索文档

普通人用Gemini CLI提效的 1 万种方法！藏师傅保姆级教程

歸藏的AI工具箱· 2025-07-02 17:08

产品定位 - 谷歌推出完全免费的命令行AI工具Gemini CLI，对标近期火爆的Claude Code [1] - 与Cursor等IDE工具的核心区别在于无界面、纯命令行操作，但支持自动执行任务和处理本地文件 [3][4] - 内置谷歌搜索/文件读写等工具，输入/tools可查看全部支持功能 [4] - 支持MCP工具扩展上下文能力 [6] 技术特性 - 多模态能力支持图片内容分析/批量重命名/打标 [38][39] - 可调用本地软件实现视频剪辑(ffmpeg)/文档转换(Pandoc)/图片处理(ImageMagick)等专业功能 [49][63][67] - 通过Homebrew一键安装第三方工具如yt-dlp实现视频下载 [60][61] - 支持将复杂操作封装成脚本实现一键执行，如deep_work.sh脚本可自动开关软件/切换系统模式 [43] 应用场景 - 知识管理：自动分析Obsidian笔记库并建立反向链接/生成索引文档 [34][35][36] - 内容创作：改写文章/生成博客及推特版本/自动制作PPT [31][32][33][46] - 多媒体处理：视频转GIF/添加水印/配乐/序列帧转换 [53][54][57][59] - 文件批处理：图片重命名/尺寸调整/拼接/格式转换 [39][65][66] 用户体验 - 非技术人员可通过自然语言交互完成专业操作，无需编程知识 [8][9] - 采用NPX安装方式降低使用门槛，仅需终端输入npx命令即可运行 [18][19] - 推荐配合Bob翻译软件解决英文界面问题 [24] - 操作限制在指定文件夹内执行避免系统风险 [15][16]

命令行工具

多模态模型

命令行工具

多模态模型

百度文心大模型4.5系列模型开源，国内首发平台GitCode现已开放下载！

财富在线· 2025-06-30 15:40

百度文心大模型4.5系列开源 - 百度文心大模型4.5系列正式开源并在GitCode平台首发上线，面向全球开发者、企业和研究机构免费提供[1] - 开源系列包含10款模型，涵盖47B和3B的混合专家(MoE)模型以及0.3B的稠密参数模型，最大模型总参数量达424B[3] - 采用创新多模态异构模型结构，通过跨模态参数共享实现知识融合，同时保留单一模态专用参数空间[3] 技术架构与性能 - 模型基于飞桨深度学习框架训练，预训练阶段FLOPs利用率达47%，在文本和多模态基准测试中达到SOTA水平[4] - 在指令遵循、世界知识记忆、视觉理解和多模态推理任务上表现突出[4] - 模型权重按Apache 2.0协议开源，配套飞桨产业级开发套件广泛兼容多种芯片[4] GitCode平台生态 - GitCode平台注册用户超620万，月活达120万，已成为国内重要开源社区[5] - 平台集成代码托管、版本控制、协作开发功能，提供开源组件库和开发工具[5] - 文心大模型与GitCode深度融合，推动AI开发模式变革和中国开源生态发展[5] 开发者活动 - GitCode与CSDN联合开展文心大模型实战测评与社区探讨系列活动[6]

多模态模型

文心大模型4.5系列

多模态模型

文心大模型4.5系列

百度文心大模型4.5系列正式开源，同步开放API服务

量子位· 2025-06-30 12:39

百度文心大模型4.5系列开源 - 公司正式宣布文心大模型4.5系列开源，同步提供API服务，涵盖10款模型，参数范围从0.3B到47B，覆盖文本和多模态任务[2] - 开源模型权重与代码完全开放，开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台下载使用[2] - 开源协议采用Apache 2.0，支持学术研究和产业应用[3][14] 模型技术特点 - 创新性提出多模态异构模型结构，适用于从大语言模型向多模态模型的持续预训练，提升多模态理解能力[5] - 使用飞桨深度学习框架进行高效训练和推理，模型FLOPs利用率达到47%[6][7] - 包含混合专家（MoE）模型和稠密型模型，参数丰富度高[4] 性能表现 - 文本模型在C-Eval、CMMLU、MMLU等基准测试中超越DeepSeek-V3、Qwen3等竞品，例如300B参数模型在C-Eval得分91.5，CMMLU得分91.2[8][10] - 多模态模型在视觉常识、多模态推理等评测中优于OpenAI o1，如VL-424B-A47B模型在MMBench-cn得分90.9，OCRBench得分872[12][13] - 轻量级21B文本模型效果与Qwen3相当，28B多模态模型达到同量级SOTA水平[13] 开发者支持 - 提供开箱即用的工具链，包括ERNIEKit开发套件和FastDeploy部署套件[17] - 飞桨平台广泛兼容多种芯片，降低后训练和部署门槛[15] - 实现框架层（飞桨）与模型层（文心）的"双层开源"[18] 公司AI战略布局 - 构建算力、框架、模型、应用四层全栈技术优势，飞桨为中国首个产业级开源深度学习平台[16][17] - 此次开源强化了公司在AI开源生态的领先地位，覆盖从学术到产业的完整链条[14][18]

大语言模型

多模态模型

Artificial Intelligence

文心大模型4.5系列

飞桨深度学习框架

大语言模型

多模态模型

Artificial Intelligence

文心大模型4.5系列

飞桨深度学习框架

老黄亲自挖来两名清华天才；字节 Seed 机器人业务招一号位；清华北大浙大中科大校友跳槽去Meta | AI周报

AI前线· 2025-06-29 14:09

英伟达人才招募 - 英伟达CEO黄仁勋亲自招募两位清华毕业的华人AI专家加入公司，其中朱邦华担任首席研究科学家，焦剑涛具体岗位未透露[1][2] - 两位学者此前联合创办生成式AI创企Nexusflow，并在种子轮融资中筹集1060万美元[2] OpenAI动态 - GPT-5预计7月上线，将支持语音、图像、代码和视频等多模态输入，具备深度推理能力[5] - OpenAI开始租用谷歌AI芯片，首次实质性使用非英伟达芯片[5] - 4位华人AI研究员从OpenAI跳槽至Meta，分别来自清华、北大、浙大和中科大[11][12] 特斯拉与Meta人才竞争 - 特斯拉AI工程师拒绝Meta高薪挖角，表示不愿离开马斯克团队[13] - Meta近期从OpenAI挖走多名顶尖研究员，包括3名曾在DeepMind工作的专家[13] 脑机接口进展 - Neuralink公布2025-2028年发展规划，计划逐步增加植入电极数量并拓展应用场景[14][15][16] - 目前已有7名受试者参与测试，平均每周使用设备50小时[17] - 第二代手术机器人效率提升11倍，电极植入深度可达50毫米以上[17] 机器人及具身智能 - 宇树科技员工约1000人，年度营收超10亿元，受益于具身智能行业发展[18] - 字节跳动Seed团队招募机器人业务负责人，成立独立公司加速布局[9] 大模型竞争 - 马斯克宣布将在7月4日后发布Grok 4大模型[6] - 谷歌发布Imagen4文生图模型，支持2K分辨率图像生成，定价0.04-0.06美元/张[27][28] - 谷歌推出离线机器人AI模型Gemini Robotics On-Device，具备本地视觉识别和动作执行能力[29] 智能硬件 - 小米发布首款AI眼镜，售价1999元起，配备1200万像素摄像头[30] - Solos推出AirGo V2智能眼镜，售价299美元，配备1600万像素摄像头[31][32] 企业动态 - 微软计划对Xbox游戏部门进行大规模裁员，可能涉及整个团队[23] - 阿里巴巴将饿了么和飞猪并入淘天集团，向大消费平台转型[24][25] - 饿了么AI助手"小饿"完成全国部署，日均服务量突破2000万次[33]

英伟达(US:NVDA)

多模态模型

多模态模型

拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

量子位· 2025-06-28 12:42

阿里多模态模型Qwen-VLo发布 - 全新多模态模型Qwen-VLo在原有基础上全面升级，具备三大核心能力：增强的细节捕捉、单指令图像编辑、多语言支持[2][11] - 模型支持任意分辨率和长宽比的输入输出，突破传统固定格式限制[2] - 新增对现有信息的注释功能（如检测、分割等），示例中成功用红色Mask分割香蕉边缘[12] 核心功能演示 - 连续生成能力：像"连续剧"一样精准生成系列图片，示例展示购物篮装货场景[4][6][7] - 单指令编辑能力：成功将北极熊喝可乐替换为喝牛奶，保持背景和主体高度一致[20][22][23] - 多步骤任务处理：完成草图→上色→加字→编辑汉字的全流程，人物主体稳定[36][37][42] 技术实现特点 - 采用渐进式生成机制：从上到下逐步构建图像，过程中持续优化预测内容[52][56] - 生成效率提升：特别适合广告设计和漫画分镜等长文本图像任务[57][58] - 与GPT-4o差异：官方强调其渐进生成是真实技术实现而非视觉障眼法[50][52] 用户实测表现 - 现实风格处理：成功将照片中的鸟替换为鸽子，但未理解网络热梗"蒜鸟"[26][28][30][32] - 文本编辑能力：在保持背景稳定的前提下，准确修改图像中的中英文内容[44][45] - 创意应用场景：网友实现动漫角色一键上色、定制宣传看板、制作梗图等功能[59][60][62]

多模态模型

多模态模型

月之暗面开源多模态Kimi-2506

快讯· 2025-06-23 08:27

月之暗面开源多模态Kimi-2506 金十数据6月23日讯，大模型平台月之暗面（MoonshotAI）对其开源的多模态模型Kimi-VL-A3B- Thinking进行了大升级，发布了2506版本。在性能表现上，Kimi-VL-A3B-Thinking-2506实现了更聪明且更省token的突破。在多模态推理基准测试中取得了更好的准确性：MathVision上达到56.9（提升 20.1），MathVista上为80.1（提升8.4），MMMU-Pro上是46.3（提升3.2），MMMU上为64.0（提升 2.1），同时平均所需的思考长度减少了20%。（AIGC开放社区） ...

多模态模型

Kimi-VL-A3B-Thinking-2506

多模态模型

Kimi-VL-A3B-Thinking-2506

小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测

理想TOP2· 2025-06-18 19:43

小米多模态模型MiMo-VL-7B性能评测 - MiMo-VL-7B模型在多项测试中表现优于Qwen2.5-VL-7B，尤其在表格识别和数学解题任务中[3][15][29][35] - Think版本模型性能显著优于No-Think版本，在表格识别准确率和数学解题正确率上差异明显[9][15][35][52] - 模型在简单表格识别任务中表现良好，但在中等复杂度表格识别上仍有不足[9][18][26] - 手写体OCR识别是明显短板，所有版本模型表现均不理想[46][52] - 图像识别基础能力完善，在基础视觉问答任务中表现稳定[61][64] 模型对比分析 - MiMo-VL-7B整体性能优于同参数规模的Qwen2.5-VL-7B，但与72B参数模型仍有差距[5][32][68] - 在数学解题任务中，RL-No-Think版本表现不稳定，出现明显错误[35][40] - 表格识别任务中，Think版本能更好处理合并单元格等复杂结构[15][18][26] - 模型继承了Qwen2.5-VL的ViT部分初始化参数，在视觉特征提取方面具有优势[4] 技术实现细节 - 测试采用vLLM框架在单卡4090上运行，支持最大长度12800[64][65] - 模型提供SFT和RL两个版本，均支持Think/No-Think模式[4][5] - 输入处理支持base64编码图像传输，可实现多模态交互[65][66] - 在语言理解任务中，Think模式能显著提升分析推理能力[53][56]

小米集团(HK:01810)

多模态模型

Artificial Intelligence

多模态模型

Artificial Intelligence

证券研究报告行业周报：2025年暑期档在即，字节发布豆包大模型1.6-20250615

国盛证券· 2025-06-15 15:53

报告行业投资评级 - 增持（维持）[6] 报告的核心观点 - 2025年传媒弹性方向看好AI应用、IP变现及并购重组，AI应用聚焦新应用的映射投资及部分较成熟应用的数据跟踪，重点关注多模态产业方向；IP变现聚焦有IP优势及全产业链潜力的公司，潮流玩具、影视内容等方向有机会；并购重组重点关注国企方向，在国资委明确国企市值考核的背景下，传媒国企诉求明显提升，部分国企资金优势明显[1] 根据相关目录分别进行总结投资聚焦行情概览 - 本周（6.9 - 6.13）中信一级传媒板块上涨1.38%，在新消费等主题带动下上涨[1][10] - 传媒板块本周涨幅前五：元隆雅图（42.9%）、川网传媒（33.5%）、粤传媒（31.8%）、巨人网络（21.9%）、中文在线（21.6%）；跌幅前五：歌华有线（ - 9.0%）、中国科传（ - 9.5%）、湖北广电（ - 9.8%）、大晟文化（ - 10.2%）、祥源文化（ - 15.9%）[13] - 教育&人服板块本周涨幅前五：豆神教育（13.2%）、中国科培（9.0%）、人瑞人才（6.0%）、粉笔（4.6%）、全通教育（4.1%）；跌幅前五：科锐国际（ - 5.9%）、开元教育（ - 6.3%）、宇华教育（ - 8.8%）、思考乐教育（ - 11.5%）、希望教育（ - 11.6%）[14] - 重点港股&中概股上市公司一周走势：泡泡玛特（11.4%）、快手（ - 1.9%）、猫眼娱乐（8.2%）、爱奇艺（2.4%）、腾讯控股（ - 1.0%）、心动公司（5.7%）、网易 - S（4.0%）、哔哩哔哩（6.8%）、阅文集团（4.8%）、腾讯音乐（2.6%）[14] 本周子板块观点 - 资源整合预期关注中视传媒、国新文化等[1][18] - AI关注荣信文化、奥飞娱乐等[1][18] - 游戏建议关注神州泰岳、恺英网络等[1][18] - 国企关注慈文传媒、皖新传媒等[1][18] - 教育关注学大教育等[1][18] - 港股关注阿里巴巴、腾讯控股等[1][18] 重点事件回顾 - 2025暑期档已汇聚60余部中外影片，国产影片类型丰富，进口大片也将登场，还启动系列活动及电影周，推出惠民观影举措[2][20] - 6月12日字节发布豆包大模型1.6，是国内首款支持多模态理解和256K上下文长度思考的SOAT模型，在多方面取得重大突破，家族成为行业领先顶尖模型[3][20] - OpenAI推出推理模型o3 - pro，回答更受专家认可，取代o1 - pro面向Pro/Team用户开放，o3降价80%引发争议，o3 - pro适合高价值难题求解[4][20] 子板块数据跟踪游戏 - 近期热门重点游戏包括《现代战舰》《问鼎三国 - 策略国战手游》等[21] - 展示腾讯、完美世界、三七互娱等公司核心游戏畅销榜排名变化情况[23] 院线 - 内地电影市场周总票房（6.7 - 6.13）约2.72亿元（不含服务费），票房排名前三的电影：《碟中谍8》（0.93亿），《时间之子》（0.43亿），《疾速追杀：芭蕾杀姬》（0.30亿）[22] 影视视频 - 2025年6月7日至13日全平台剧集收视播放量，《临江仙》《藏海传》《长安的荔枝》排名前三；综艺收视播放量《哈哈哈哈哈第五季》《奔跑吧第九季》《这是我的西游》排名前三[25]

腾讯控股(HK:00700)

多模态模型

豆包大模型 1.6

多模态模型

豆包大模型 1.6

火山引擎原动力大会即将召开，恒生互联网ETF（159688）大涨超3.7%，恒生科技ETF指数基金（513580）涨超2.8%

21世纪经济报道· 2025-06-09 10:58

港股市场表现 - 6月9日港股高开高走，恒生指数涨超1%，恒生科技指数涨幅扩大至2 33% [1] - 恒生科技ETF指数基金（513580）盘中涨幅达2 82%，持仓股中金蝶国际涨超6%，腾讯音乐-SW、美团-W、京东集团-SW等大涨 [1] - 恒生互联网ETF（159688）大涨3 77% [1] 字节跳动AI大会 - 6月11日字节将在北京召开火山引擎Force原动力大会·春，内容包括豆包大模型家族全面升级及多场分论坛 [1] - 主论坛内容涵盖火山引擎新品发布、AICoding、AIAgent [1] - 行业分论坛包括AI+金融、AI+汽车、AI+生态、AI+医药大健康专场 [1] - 6月12日为开发者交流日，大会涉及芯片、汽车、智能终端、软件应用等领域的企业合作伙伴 [1] 多模态AI动态 - 5月21日谷歌推出Veo 3视频生成模型，实现AI视频音画同步 [2] - 5月23日豆包上线视频通话功能，支持实时视频交流及屏幕分享 [2] - 6月6日快手宣布可灵AI ARR在2025年3月突破1亿美金，4月和5月月度付费金额均突破1亿人民币 [2] - 6月10日苹果WWDC 2025及6月11日字节Force 2025原动力大会·春召开，多模态模型和端侧AI产品有望加速落地 [2] 投资主线分析 - 投资主线降维为三个方向：Deepseek突破与开源引领的科技AI+、消费股估值修复和消费分层复苏、低估红利崛起 [2] - 红利回撤与AI产业趋势相关，AI产业趋势进展取决于应用端和消费端突破 [2] - 消费板块投资核心因子是估值，当前低估值、利率下行、政策催化下复苏周期抬头 [2] - 恒生互联网板块值得重视 [2]

多模态模型

Veo 3视频生成模型

多模态模型

Veo 3视频生成模型

中信建投：多模态产品密集更新，关注WWDC及字节火山大会进展

快讯· 2025-06-09 08:27

多模态动态更新 - 谷歌在2025I/O大会上推出Veo3视频生成模型，实现AI视频音画同步 [1] - 豆包上线视频通话功能，支持实时视频交流及屏幕分享 [1] - 快手宣布可灵AI ARR在2025年3月突破1亿美金，4月和5月月度付费金额均突破1亿人民币 [1] 行业会议展望 - 苹果WWDC2025和字节Force2025原动力大会即将召开 [1] - 多模态模型和端侧AI产品有望加速落地 [1]

多模态模型

Veo3视频生成模型

豆包视频通话功能

多模态模型

Veo3视频生成模型

豆包视频通话功能