多模态领域 - 财报，业绩电话会，研报，新闻

多模态领域

搜索文档

晚点独家丨爱诗科技完成 1 亿元 B+ 轮新融资，ARR 突破 4000 万美元

晚点LatePost· 2025-10-17 15:29

公司动态：爱诗科技 - 爱诗科技完成1亿元人民币B+轮融资，由复星锐正、同创伟业、顺禧基金共同投资，公司成立于2023年4月，累计融资总额超过1亿美元 [5] - 公司旗下产品PixVerse（海外版）和拍我AI总用户数超过1亿，月活跃用户超1600万，年度经常性收入达4000万美元 [5] - 公司创始人王长虎拥有近20年AI研究经历，曾任职于微软亚洲研究院和字节跳动，联合创始人谢旭璋有6年光源资本工作背景 [9] - 产品PixVerse网页端上线后，通过变身特效实现1000万新用户增长，2025年5月V4.5版本上线后用户规模达6000万，8月V5版本上线并推出Agent创作助手，用户规模达到1亿 [9] 行业竞争格局 - 在图片生成视频模型领域，全球前十名中前三名均为中国公司，分别是快手可灵、爱诗PixVerse和MiniMax海螺，OpenAI的Sora模型排名第31位 [10][11] - 在文字生成视频模型榜单中，OpenAI的Sora 2模型排名第11位 [10][11] - 字节跳动旗下的视频生成模型Seedance和Waver在榜单中分别位列第7和第8位，其产品即梦移动端日活目标为超过500万 [12] - 行业领先的大语言模型主要由美国公司如Google、OpenAI、Anthropic提供，但在视频、语音等多模态领域，中国公司模型已跻身全球顶尖行列 [11] 产品与技术进展 - OpenAI发布视频生成模型Sora 2及社交应用Sora App，新模型在物理模拟、音画同步与场景连贯性上有显著提升，用户可生成带声音的视频并在类TikTok内容流中分享 [7][8] - Sora App上线后迅速登顶美区App Store免费榜并连续7天位居第一，上线不到两周下载量突破100万，增长速度超过当年ChatGPT [8] - 爱诗科技针对移动端产品进行大量优化，包括人物一致性、画质可选项和生成速度，并通过特效模板如“变身”等带来上千万新增用户 [9][11] - OpenAI宣布Sora App和网页端用户可生成最长15秒视频，Pro用户可在网页端生成最长25秒视频，此前标准版为10秒，Pro版为15秒 [13] 市场趋势与潜力 - 视频生成移动App赛道市场容量极大，现有工具和产品短期内无法完全覆盖所有用户，抖音和TikTok月活超过20亿，每个短视频用户都是潜在AI视频创作者 [9] - 快手可灵核心目标聚焦专业创作者而非普通用户，自启动商业化以来截至今年2月累计营收已突破1亿元 [12] - 多模态领域被认为具有巨大的消费和娱乐潜力，尽管不是AGI演进的最主轴，但该领域的竞争烈度正在加剧 [4][13] - 行业公司在技术突破和应用体验两个维度并行推进，Google Veo3、快手可灵等侧重长时一致性和专业工作流，而字节即梦、爱诗等加强产品体验和新奇玩法 [12]

MiniMax开源首个视觉RL统一框架，闫俊杰领衔！推理感知两手抓，性能横扫MEGA-Bench

量子位· 2025-05-27 20:31

核心观点 - MiniMax开源V-Triune框架，首次实现视觉语言模型(VLM)在单个后训练流程中联合学习视觉推理和感知任务[1] - 基于V-Triune开发的Orsta模型系列(7B至32B)在MEGA-Bench Core基准测试中性能提升显著，最高达+14.1%[3][30] - 采用三层组件设计和动态IoU奖励机制，解决传统强化学习无法兼顾多重任务的痛点[2][22] 技术架构 - **样本级数据格式化**：支持自定义奖励设置和验证器，包含reward_model/verifier/data_source三个字段[12][13][14] - **异步客户端-服务器架构**：解耦奖励计算与主训练循环，通过专用验证器路由请求[15][17] - **数据源级指标监控**：追踪奖励值/IoU/mAP/响应长度/反思率等15项指标，确保训练稳定性[19][20][21] 动态IoU奖励机制 - 分三阶段调整阈值：初始10%步骤宽松标准，10%-25%逐步收紧，剩余步骤固定高精度要求[22][25] - 使用MathVerifyVerifier处理推理任务，DetectionVerifier处理感知任务[24] 训练优化 - 冻结ViT参数防止梯度爆炸[27] - 过滤伪图像特殊词元确保特征对齐[27] - 构建随机化CoT提示池降低提示依赖性[27] - 解耦测试阶段与主训练循环管理内存压力[27] 模型性能 - Orsta-7B在MEGA-Bench Core得分38.31，较基础模型提升+3.2[30] - Orsta-32B-0321版本得分25.94，较基础模型提升+14.1[30] - 感知任务mAP指标显著提高，验证方法有效性[30] 公司战略 - MiniMax持续布局多模态领域，已推出S2V-01视频模型、MiniMax-VL-01视觉模型及T2A-01语言模型[32][34] - Speech-02语音模型刷新全球权威测试榜单，打破行业垄断[34] - 计划探索原生生成理解统一大模型架构[35]

强化学习（RL）

多模态领域

Artificial Intelligence

Artificial Intelligence

V-Triune框架

Orsta模型