Workflow
多模态领域
icon
搜索文档
晚点独家丨爱诗科技完成 1 亿元 B+ 轮新融资,ARR 突破 4000 万美元
晚点LatePost· 2025-10-17 15:29
公司动态:爱诗科技 - 爱诗科技完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金共同投资,公司成立于2023年4月,累计融资总额超过1亿美元 [5] - 公司旗下产品PixVerse(海外版)和拍我AI总用户数超过1亿,月活跃用户超1600万,年度经常性收入达4000万美元 [5] - 公司创始人王长虎拥有近20年AI研究经历,曾任职于微软亚洲研究院和字节跳动,联合创始人谢旭璋有6年光源资本工作背景 [9] - 产品PixVerse网页端上线后,通过变身特效实现1000万新用户增长,2025年5月V4.5版本上线后用户规模达6000万,8月V5版本上线并推出Agent创作助手,用户规模达到1亿 [9] 行业竞争格局 - 在图片生成视频模型领域,全球前十名中前三名均为中国公司,分别是快手可灵、爱诗PixVerse和MiniMax海螺,OpenAI的Sora模型排名第31位 [10][11] - 在文字生成视频模型榜单中,OpenAI的Sora 2模型排名第11位 [10][11] - 字节跳动旗下的视频生成模型Seedance和Waver在榜单中分别位列第7和第8位,其产品即梦移动端日活目标为超过500万 [12] - 行业领先的大语言模型主要由美国公司如Google、OpenAI、Anthropic提供,但在视频、语音等多模态领域,中国公司模型已跻身全球顶尖行列 [11] 产品与技术进展 - OpenAI发布视频生成模型Sora 2及社交应用Sora App,新模型在物理模拟、音画同步与场景连贯性上有显著提升,用户可生成带声音的视频并在类TikTok内容流中分享 [7][8] - Sora App上线后迅速登顶美区App Store免费榜并连续7天位居第一,上线不到两周下载量突破100万,增长速度超过当年ChatGPT [8] - 爱诗科技针对移动端产品进行大量优化,包括人物一致性、画质可选项和生成速度,并通过特效模板如“变身”等带来上千万新增用户 [9][11] - OpenAI宣布Sora App和网页端用户可生成最长15秒视频,Pro用户可在网页端生成最长25秒视频,此前标准版为10秒,Pro版为15秒 [13] 市场趋势与潜力 - 视频生成移动App赛道市场容量极大,现有工具和产品短期内无法完全覆盖所有用户,抖音和TikTok月活超过20亿,每个短视频用户都是潜在AI视频创作者 [9] - 快手可灵核心目标聚焦专业创作者而非普通用户,自启动商业化以来截至今年2月累计营收已突破1亿元 [12] - 多模态领域被认为具有巨大的消费和娱乐潜力,尽管不是AGI演进的最主轴,但该领域的竞争烈度正在加剧 [4][13] - 行业公司在技术突破和应用体验两个维度并行推进,Google Veo3、快手可灵等侧重长时一致性和专业工作流,而字节即梦、爱诗等加强产品体验和新奇玩法 [12]
MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench
量子位· 2025-05-27 20:31
核心观点 - MiniMax开源V-Triune框架,首次实现视觉语言模型(VLM)在单个后训练流程中联合学习视觉推理和感知任务[1] - 基于V-Triune开发的Orsta模型系列(7B至32B)在MEGA-Bench Core基准测试中性能提升显著,最高达+14.1%[3][30] - 采用三层组件设计和动态IoU奖励机制,解决传统强化学习无法兼顾多重任务的痛点[2][22] 技术架构 - **样本级数据格式化**:支持自定义奖励设置和验证器,包含reward_model/verifier/data_source三个字段[12][13][14] - **异步客户端-服务器架构**:解耦奖励计算与主训练循环,通过专用验证器路由请求[15][17] - **数据源级指标监控**:追踪奖励值/IoU/mAP/响应长度/反思率等15项指标,确保训练稳定性[19][20][21] 动态IoU奖励机制 - 分三阶段调整阈值:初始10%步骤宽松标准,10%-25%逐步收紧,剩余步骤固定高精度要求[22][25] - 使用MathVerifyVerifier处理推理任务,DetectionVerifier处理感知任务[24] 训练优化 - 冻结ViT参数防止梯度爆炸[27] - 过滤伪图像特殊词元确保特征对齐[27] - 构建随机化CoT提示池降低提示依赖性[27] - 解耦测试阶段与主训练循环管理内存压力[27] 模型性能 - Orsta-7B在MEGA-Bench Core得分38.31,较基础模型提升+3.2[30] - Orsta-32B-0321版本得分25.94,较基础模型提升+14.1[30] - 感知任务mAP指标显著提高,验证方法有效性[30] 公司战略 - MiniMax持续布局多模态领域,已推出S2V-01视频模型、MiniMax-VL-01视觉模型及T2A-01语言模型[32][34] - Speech-02语音模型刷新全球权威测试榜单,打破行业垄断[34] - 计划探索原生生成理解统一大模型架构[35]