多模态大模型 - 财报，业绩电话会，研报，新闻 - Reportify

多模态大模型

搜索文档

生数科技完成数亿元A轮融资，下周将发布全新模型版本

凤凰网· 2025-09-19 14:42

公司融资情况 - 生数科技于9月19日宣布完成数亿元人民币规模的A轮融资 [1] - 本轮融资由博华资本领投，老股东百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、BV百度风投等持续跟投，并有建发新兴投资等产业合作方加码入场 [1] - 此前公司已完成包括天使轮、天使+轮、Pre-A轮在内的三轮融资，投资方包括启明创投、蚂蚁集团、百度战投、北京市人工智能产业投资基金、BV百度风投、锦秋基金、星连资本、达泰资本、卓源亚洲、卓源资本、中关村科学城等知名机构 [1] 资金用途与公司战略 - 新一轮融资将用于模型研发和技术创新，探索多模态大模型的智能上限和应用广度 [1] - 资金也将持续用于加强产品拓展、用户服务、产业合作和全球商业布局 [1] 产品与技术进展 - 十天前，生数科技发布了Vidu Q1参考生图模型，正面对标Google Nano Banana [1] - Vidu Q1新功能支持多达7张参考图同时输入，达到国内多图参考数量上限 [1] - 该模型在多主体一致和高还原度方面取得关键突破，能在多人、多场景生成中精准保持主体的面貌与特征 [1] - Vidu模型将于下周再次发布全新版本，专注图生视频领域的能力升级 [1]

多模态大模型

Artificial Intelligence

Vidu Q1参考生图模型

多模态大模型

Artificial Intelligence

Vidu Q1参考生图模型

生数科技完成数亿元A轮融资：刚发布正面对标Nano Banana的Vidu Q1参考生图

IPO早知道· 2025-09-19 10:37

公司融资与资金用途 - 公司完成数亿元人民币A轮融资 [2] - 融资由博华资本管理的梁溪数字产业基金领投老股东百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、卓源亚洲、BV百度风投等持续跟投建发新兴投资等产业合作方加码入场 [2] - 本轮融资将用于模型研发和技术创新探索多模态大模型的智能上限和应用广度同时将持续加强产品拓展、用户服务、产业合作和全球商业布局 [2] 公司核心技术与产品 - 公司专注于多模态大模型及应用的自主研发核心产品Vidu具备AI图像生成、视频生成与音频生成等多项能力 [2] - Vidu在全球上线全球首创「参考生」图片/视频概念在AI视频生成和AI生图领域快速覆盖全球200多个国家和地区的超3000万用户和6000家开发者及企业 [3] - 公司于2023年4月发布中国首个全面对标Sora的视频大模型产品Vidu 并于2024年7月正式全球上线 [3] 公司业务表现与市场地位 - Vidu上线8个月后其年度经常性收入突破2000万美元业务覆盖全球200多个国家和地区 [3] - 公司成为近年来AI赛道炙手可热且极具影响力的创新公司之一 [3] - 公司核心团队由来自清华大学、北京大学、帝国理工学院、卡耐基梅隆大学等全球顶尖高校的科研人才组成具备深厚的产业实践经验与出色的全球化技术落地能力 [2] 行业应用与投资者观点 - Vidu产品广泛应用于互联网、广告、电商、动漫、文旅、广电、教育、游戏及影视等行业领域 [2] - 梁溪数字产业基金将人工智能赛道作为重点投资方向认为公司在多模态领域的持续深耕以及Vidu产品的商业化落地与其前瞻布局高度契合 [3]

多模态大模型

Artificial Intelligence

Vidu Q1参考生图

多模态大模型

Artificial Intelligence

Vidu Q1参考生图

锦秋基金被投公司「生数科技」完成新一轮数亿元A轮融资 | Jinqiu Spotlight

锦秋集· 2025-09-19 10:17

融资与投资背景 - 生数科技于近日完成新一轮数亿元人民币规模的A轮融资，由博华资本领投，并获得百度战投、北京市人工智能产业投资基金、启明创投等老股东持续跟投及产业合作方加码[2][5] - 锦秋基金作为一家12年期的AI Fund，于2023年年中投资了生数科技，是其早期机构投资人[1][2] - 锦秋基金设有"Soil种子专项计划"，专为早期AI创业者提供资金支持，以帮助创新想法转化为实际应用[12] 公司概况与技术产品 - 生数科技成立于2023年3月，核心团队由来自清华大学、北京大学、帝国理工学院等全球顶尖高校及产业界的技术和产品人才组成[5] - 公司专注于多模态大模型及应用的自主研发，其核心产品Vidu具备AI图像生成、视频生成与音频生成等多项能力[5] - Vidu产品于2024年7月全球上线，全球首创「参考生」图片/视频概念，并在多主体一致性方面持续保持全球领先[5][8] 市场表现与用户数据 - Vidu产品已快速覆盖全球200多个国家和地区，拥有超3000万用户和6000家开发者及企业[5] - 通过Vidu累计生成的视频数量超过4亿，其核心功能参考生视频和参考生图的生成数量已超过1亿[5] - 在生成的内容中，商业内容素材生成量占比超过50%[5] 行业前景与战略规划 - 多模态生成技术在数字内容产业中的商业化进程正在加速，预计在未来三年内将重塑全球数字内容的生产方式，并全面渗透到各行各业[6] - 该技术领域展现出巨大的市场空间与全球性增长潜力[6] - 新一轮融资将用于模型研发和技术创新，探索多模态大模型的智能上限和应用广度，同时加强产品拓展、用户服务、产业合作和全球商业布局[6]

多模态大模型

Artificial Intelligence

多模态大模型

Artificial Intelligence

星动纪元招聘！具身多模态、强化学习等多个方向

具身智能之心· 2025-09-17 08:02

公司技术研发方向 - 公司正积极招聘多模态强化学习算法人才，负责前沿算法的研究、设计与实现，以解决实际应用中的复杂问题 [6] - 公司致力于多模态大模型的训练、微调和优化工作，旨在提升模型在不同任务上的性能表现 [6] - 公司专注于多模态数据的收集、处理、清洗与分析，以构建高质量的训练数据集 [6] - 公司探索具身智能领域的前沿多模态大模型算法，并构建该领域的模型基座，优化实现包括数据整理、预训练、后训练、指令微调、人类反馈强化学习、思维链等一系列算法能力 [15] - 公司推进多模态大模型在具身领域的应用落地，目标是构建通用机器人大脑和具身智能体 [16] 公司核心技术能力要求 - 要求深入理解强化学习基本原理，并熟悉PPO、GRPO、DAPO等主流强化学习算法 [6] - 要求深入理解多模态学习原理，熟悉多模态融合、跨模态对齐等技术 [6] - 要求深入理解大语言模型/大视觉模型的架构和训练原理，熟悉Transformer结构，了解预训练、微调、提示工程等技术 [6] - 要求具备扎实的计算机视觉或自然语言处理基础，了解ViT、DINO、LLaMA等主流模型，并拥有相关项目经验 [6] - 要求熟悉多模态领域算法，熟悉LLaVA、Qwen-VL等基础视觉语言模型 [19] - 要求熟悉自然语言处理领域算法，熟悉BERT、GPT、LLaMA等架构 [19] - 要求熟悉计算机视觉算法，包括但不限于ViT、DINO、SAM、GAN、Diffusion等架构 [19] 公司人才招聘偏好 - 优先考虑在NeurIPS、ICML、ICLR、CVPR、ACL、ECCV等顶级学术会议或期刊发表过相关论文的候选人 [6] - 优先考虑有开源项目贡献经验或在GitHub上有活跃个人项目的候选人 [6] - 优先考虑在CVPR、ICCV、NeurIPS、CoRL等顶级会议上发表过论文的候选人 [12] - 优先考虑拥有相关数据集构建、基准搭建、真机系统优化部署和开源项目贡献经历的候选人 [12] - 优先考虑以一作身份在ICML、ICLR、NeurIPS、ACL、EMNLP、CVPR、ECCV、ICCV等顶会/顶刊发表论文的候选人 [19] - 优先考虑有实际机器人项目经验的候选人 [19] 公司具体岗位职责 - 具身智能大模型算法岗位需参与前沿算法研究，支撑数据生成、模型训练优化、评测迭代等工作 [7] - 具身智能大模型算法岗位需跟踪最新研究进展，维护算法框架，并开发、集成和优化具身智能系统 [7] - 具身智能大模型算法岗位需协同工程团队推动真机部署和开源开放项目，加速算法落地应用 [7] - 多模态数据岗位负责多模态数据的收集、清洗、标注和格式化，涉及空间理解、通用感知、视觉定位、具身推理等类型 [14] - 多模态数据岗位需为模型训练设计数据格式标准，构建高效的数据处理流程并进行规模化生产 [14] - 多模态数据岗位需构建多模态感知评测体系和流程，以支持全面、准确、高效的模型评测 [14] - 多模态数据岗位需研究前沿多模态模型、大语言模型及特定领域模型，以理解模型能力边界 [14] 公司对候选人的工程与技能要求 - 要求熟练掌握Python、PyTorch等编程语言和深度学习框架，并具备较强的工程实现能力 [12] - 要求具备较好的英文科技文献阅读及算法复现能力 [12] - 要求熟悉多模态数据的清洗、标注、加载流程，并了解数据优化技术 [14] - 要求有使用大语言模型/多模态模型的经验，理解其能力边界和适用场景 [14] - 要求能够设计和优化提示词，以提升生成数据的质量和效率 [14] - 要求熟悉Pandas、NumPy等数据处理工具，并能完成完整的数据处理流程 [14] - 要求熟悉Python编程，了解Linux环境和常见开发工具 [14] - 要求候选人拥有计算机、人工智能、机器人、计算机视觉或多模态大模型等相关领域的硕士及以上学历 [12][19]

多模态大模型

具身智能系统

多模态大模型

具身智能系统

大模型初创公司出海，云计算护航丨创新场景

钛媒体APP· 2025-09-16 17:42

行业背景与市场动态 - 2024年初Sora的问世将AI视频生成赛道推向全球焦点，使该领域从“实验创意”阶段提升至战略高地[3] - 全球科技巨头纷纷入局AI视频生成赛道，吸引了大量资本和媒体关注[3] - 在短视频平台上，只有不到10%的用户会创作或发布视频，大部分用户存在拍摄和剪辑的心理门槛[4] 爱诗科技业务发展 - 公司自2023年创立以来一直布局海外AI视频市场，现已推出第六代视频大模型PixVerse[3] - 在短短两年间，用户量已突破6000万，成为全球用户规模最大、生成速度最快、质量最高的视频大模型之一[3] - 公司采用模块化提示词模式，降低用户使用门槛，使全体用户都能获得较好的使用体验[13] 技术架构与挑战 - 公司采用Diffusion+Transformer架构，需要处理大量视频、文本和元数据[6] - 面临三大技术挑战：海量训练数据的迁移与归集、实时数据处理能力提升、优化资源利用效率[4] - 多模态大模型对GPU显存和并行计算能力要求较高，需要处理跨模态数据交互和高性能缓存[13] - 由于全球化布局，数据分散在世界各地，需要解决跨区域数据传输和统一管理问题[5] 云计算合作解决方案 - 选择阿里云作为全球化云服务商，利用其在全球29个地域运营的89个可用区[9] - 通过阿里云多EIP和共享带宽提升公网下载速度，使用OSS实现全球数据加速分发和容灾备份[9] - 采用阿里云实时数仓Hologres支持PB级数据分析，满足实时数据和高并发需求[9] - 使用阿里云人工智能平台PAI进行大模型训练，实现灵活的细颗粒度资源管控和高效调度[10] 效率提升与成本优化 - 通过阿里云CADT实现分钟级GPU云服务器部署和业务上线，显著降低管理难度和时间成本[14] - 阿里云通过数据加载优化和ACCL通信库大幅提升GPU利用率，提高AI作业效率[13] - 采用标准化云资源调度系统，帮助公司实现全球资源调度，确保跨国业务体验一致性[11] - 云服务合作使公司能够以更小硬件成本获得更大算力供给，提升资源利用率[10] 未来合作规划 - 公司与阿里云将深化云资源合作，扩大在云计算、数据存储及大模型应用等多个领域的合作[15] - 合作目标是为全球AI视频生成用户提供更加稳定、高效的服务，推动技术持续发展[15]

多模态大模型

PixVerse（拍我AI）

阿里云实时数仓Hologres

阿里云人工智能平台PAI平台

多模态大模型

PixVerse（拍我AI）

阿里云实时数仓Hologres

阿里云人工智能平台PAI平台

登顶苹果应用榜！谷歌火遍全网的“纳米香蕉”，凭啥击败ChatGPT？

证券时报· 2025-09-16 15:51

谷歌Gemini应用市场表现 - 谷歌旗下AI应用Gemini在美区AppStore下载量超越ChatGPT，登顶免费榜第一名 [1][2] - 除美国外，Gemini在加拿大、印度、摩洛哥等国家同样实现下载榜登顶，打破ChatGPT长期垄断地位 [2] Nano Banana技术突破与用户增长 - 谷歌DeepMind发布新一代AI图像生成与编辑模型Gemini 2.5 Flash Image，代号Nano Banana，在图像质量、编辑控制和应用场景上有大幅改进 [4] - Nano Banana功能上线后累计完成超2亿次图像编辑，并带动超1000万新用户尝试Gemini应用 [4] - 技术层面实现四大提升：自然语言驱动图像编辑、角色一致性与场景融合、多图融合与世界知识注入、降低3D建模门槛 [4][5] - 用户体验范式重构，实现从复杂工具栏到一句自然语言、从渲染缓慢到秒级出图、从效果不稳定到跨图一致性等突破 [9] 资本市场反应与行业影响 - 受益于反垄断裁决结果好于预期及Nano Banana市场表现，谷歌股价持续上涨，市值冲上3万亿美元 [1][9] - 花旗集团分析师将谷歌母公司Alphabet目标价从225美元上调至280美元，理由是Gemini在广告与云业务中采用加速，产品开发周期更快 [9] - Nano Banana火爆点燃图像生成视频赛道战火，国内厂商如字节跳动Seed团队推出豆包图像创作模型Seedream 4.0，生数科技推出Vidu Q1参考生图功能正面对标 [10] - 华泰证券认为原生多模态模型架构获业界认可，多模态为主的产品商业化快于文本产品，多模态大模型和应用发展奇点将至 [10] 多模态AI投资机会 - 多模态在算力和应用两方面带来投资机会：算力侧，原生多模态模型需要更多算力，视频推理算力需求远大于文字 [11] - 应用侧，国内视频生成模型领先，广告、零售、创作、教育等领域均有AI化需求 [11]

多模态大模型

多模态大模型

明略科技CEO吴明辉即将出席2025腾讯全球数字生态大会

新浪财经· 2025-09-16 11:14

行业趋势 - 全球大模型技术加速演进，行业应用逐步走向纵深 [1] - 通用大模型在专有数据、行业知识方面存在局限性 [1] - 垂类大模型正成为企业AI落地的破局关键 [1] 公司动态 - 明略科技CEO吴明辉将于9月16日下午亮相腾讯全球数字生态大会“互联网AI应用专场” [1] - 公司将发表主题演讲《多模态大模型在营销场景的落地实践》 [1] - 演讲将分享明略科技最新技术突破与实战成果 [1]

垂类大模型

多模态大模型

Software and Services

垂类大模型

多模态大模型

Software and Services

论文解读之港科PLUTO：首次超越Rule-Based的规划器！

自动驾驶之心· 2025-09-16 07:33

PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务，而是直接对感知输出的结构化信息（如边界框、车道线等）进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数，主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向，需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速，去年的技术方案已不适合当前环境 [13] - VLA（视觉语言动作）范式是当前端到端自动驾驶的皇冠，上限高但难度大，行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点，多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史，涵盖从模块化方法到端到端的演变，分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识，包括大语言模型、扩散模型、强化学习、BEV感知等，这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端，分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA，包括基于感知的方法（UniAD、VAD、PARA-Drive）、基于世界模型的方法（Drive-OccWorld、OccLLaMA）、基于扩散模型的方法（DiffusionDrive、Diffusion Planner、DiffE2E）和基于VLA的方法（ORION、OpenDriveVLA、ReCogDrive） [22][24][26][29] - 第五章设置RLHF微调大作业，提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念，通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架，梳理端到端自动驾驶研究发展脉络，形成自己的研究体系 [16] - 理论结合实践，配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平，掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架，将所学应用到实际项目中 [37]

端到端自动驾驶

多模态大模型

端到端自动驾驶

多模态大模型

关于大模型和自动驾驶的一切

自动驾驶之心· 2025-09-16 07:33

大模型技术社区定位 - 平台专注于大模型RAG、大模型AI Agent、多模态大模型（预训练、微调、强化学习）和大模型部署推理优化等技术方向 [1] - 社区致力于构建国内最大的大模型技术社区持续为行业和个人输送人才及产业学术信息 [1] - 社区定位为培养未来领袖的地方强调内容质量和人才培养 [2] 社区发展目标 - 快速搭建相关技术模块吸引对大模型技术感兴趣的人群加入 [1] - 通过知识星球形式深化学习提供进一步技术交流平台 [1] - 借助自动驾驶VLA等热点技术趋势推动大模型技术普及 [1]

大模型AI Agent

多模态大模型

大模型部署推理优化

大模型AI Agent

多模态大模型

大模型部署推理优化

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

量子位· 2025-09-15 11:59

模型核心突破 - 推出开源视觉语言模型Mini-o3，能够进行长达数十个步骤的深度多轮视觉推理，在训练轮次限制仅为6轮的情况下，测试阶段可将思考轮数扩展到数十轮[1][2][13] - 模型通过恰当的数据、初始化方法和强化学习微调实现长周期视觉搜索能力，无需消耗大量训练周期资源[13] - 在多个视觉搜索基准测试中达到当前最佳水平，显著优于其他开源基线模型[15][43] 技术架构与训练方法 - 采用两阶段训练流程：第一阶段为冷启动监督微调，仅使用6个人工示范样本便生成约6000条高质量推理轨迹[19][22][24] - 第二阶段实施强化学习，关键创新包括将单张图像最大像素限制从1200万降至200万，使相同上下文容量内容纳更多交互轮次[25][26][27] - 提出超轮次掩码技术，避免对达到最大交互轮次的响应进行惩罚，平衡训练效率与测试扩展性，使测试推理轨迹能延伸至数十轮[28][34][35] 数据集构建 - 专门构建视觉探测数据集VisualProbe，包含4000个训练用视觉问答对和500个测试用问答对，涵盖简单、中等、困难三个难度级别[38] - 数据集特点包括小目标、众多干扰物体和高分辨率图像，这些特性使任务更具挑战性并自然要求迭代探索和试错[39][42] 性能表现 - 在VisualProbe数据集上，Mini-o3在困难、中等、简单任务准确率分别达到48.0%、50.4%、67.0%，显著超越GPT-40的11.2%、15.4%、47.5%[40] - 在V* Bench评估中取得88.2分，优于DyFot的81.2分和Chain-of-FocusT的88.0分[40] - 消融实验显示，移除RL数据导致模型在VisualProbe-Hard上性能下降约8.6分，验证了具有挑战性的RL样本对复杂推理轨迹的重要性[45] 行业影响 - 该技术方案为多轮交互式多模态模型的开发与强化学习应用提供实用指导，相关代码已全部开源[52][53] - 模型由字节跳动与香港大学团队联合开发，团队核心成员在大型多模态模型领域有深厚积累，曾发表多项重要研究成果[54][55][58][61]

多模态大模型

视觉语言模型

多模态大模型

视觉语言模型