Diffusion模型 - 财报，业绩电话会，研报，新闻

Diffusion模型

搜索文档

投中网· 2026-02-26 09:57

绿洲资本的投资策略与成立背景 - 公司成立于2019年10月，成立初期即遭遇疫情，但基于“做最坏打算”的策略，其第二支美元基金募集顺利，所有老投资人增加了认购[3] - 2022年，在美元加息、IPO市场停滞的背景下，行业“Down round”融资占比从8%上涨到20%，但公司选择坚守中国市场，相信新一代创始人[3][4] - 公司通过“摆龙门阵”（四川俚语，指天马行空的聊天）的交流方式，在2022年11月明确将AI作为核心投资方向，并预测了新一代GPT模型的发布[4][5] AI投资的决策与布局 - 公司在2022年敲定AI主题后，超过10个AI项目在2023年初完成投资，当时中国AI领域被广泛视为“拙劣的模仿者”，公司是坚定的“少数派”[7] - 投资决策基于对技术世界观变革的认知，例如从Stability AI的开源中看到“去噪”哲学与公司理念吻合，并深入研究Transformer模型[12][13] - 公司认为AI六小龙中，只有智谱AI和MiniMax成立于2022年之前，这种“时间戳”和“真正相信”的特质是支持的关键[14] 对创业者特质与筛选标准 - 公司坚信AI是年轻人的机会，投资原则之一是不投80前的创业者，并系统性投资了一批95后创业者[15] - 筛选创业者时，技术仅是因素之一，更看重综合能力，公司观察到商汤系出身的创始人普遍更重视公司运营[15] - 投资决策分为“心动”和“心安”两种，最看重的是让投资者感到“心安”的机会，这源于创业者展现的专注和对核心问题的坚持[27][28] - 公司认为年轻创业者最宝贵的特质是“没有被磨掉的勇气”，即敢于相信并实践“虚构”的愿景，而非仅仅停留在口头[30][31] 对AI行业趋势的核心判断 - 公司认为大语言模型和具身智能是相辅相成、共同指向AGI（通用人工智能）的两条路径，因此在2023年3月将两者列为同等重要的投资主题[18][20] - 实现AGI必须突破多模态，这包括视频、语音等虚拟模态，也包括温度、触觉等物理模态[20] - 基于多模态判断，公司在具身智能领域进行了系列投资，包括千寻智能（大脑）、逐际动力（小脑）、因克斯（一体化关节）及Hypershell（人类增强）等，且多为第一轮投资人[22] MiniMax的投资案例与启示 - MiniMax于2026年1月9日在港交所IPO，挂牌首日大涨109%，至2月20日总市值突破3000亿港元，成为最快突破该市值的科技型创新公司[7] - 创业者闫俊杰的特质（极度专注、不看竞争、情绪稳定）是打动投资人的关键，例如在融资艰难时，他因坚持“中国创新，走向全球”的原则而拒绝了某海外投资人的邀约[10][28][35] - MiniMax是亚洲首个成功落地MoE（混合专家模型）的团队，并坚持“只有极端数据才有价值”的反共识数据观，这些决策事后被证明正确[34] - 该案例给公司最大的启发是“专注的力量”，并认为这个时代对专注者的反馈正变得越来越快[40] 基金的投资方法论与教训 - 公司提出“参赞生命力”的理念，认为投资是陪伴创业者活出生命应有的状态，VC最好的状态是每天都能见到更有生命力的创业者[44] - 投资核心逻辑是“去掉噪声，等待信号”，警惕追逐热点，例如当前将消费电子领域“万物皆AI，AI皆硬件”的浪潮视为巨大噪音[50] - 最大的教训是AI时代对创业者的“专注度”要求更高，需警惕“先行者的诅咒”，即资源强的创业者因机会过多而分散精力，无法持续解决核心问题[46] - 公司在投资标准上明确选择“愿景驱动型”而非“资源驱动型”（攒局者）创业者，认为一个基金很难用两套标准投项目，因此必须做取舍并保持克制[48] 对AI未来的展望与公司定位 - 认为AI是社会变革，未来15-20年将走过工业革命150-200年的历程，核心是AI的主体性构建和人类自身的主体性构建两大问题[52] - 对于AI主体性构建，公司策略是继续投资AI和具身智能，并关注前沿科学；对于人类主体性构建，策略是通过内容创作等方式“参赞生命力”，帮助人们活出自己[52] - 公司定义自身的意义为：陪伴创业者活出愿景，激发更多人活出自己，那些活出来的地方就是绿洲[53]

自回归模型杀回图像生成！实现像素级精准控制，比Diffusion更高效可控

量子位· 2025-07-29 13:05

AI图像生成技术 - 当前AI图像生成领域Diffusion模型占据主导地位，但在精准控制方面存在不足[1] - 自回归模型(AR)成为新研究方向，MENTOR框架通过两阶段训练法实现像素级精准控制[2][3] - MENTOR在多模态图像生成中解决了模态失衡问题，仅需十分之一训练数据即超越Diffusion方法性能[2][5] 技术架构创新 - MENTOR采用统一的自回归架构，将多模态输入与输出图像token对齐[8][9] - 两阶段训练范式：第一阶段通过图像重建等任务建立多模态对齐，第二阶段通过指令微调提升跨模态推理能力[10][12] - 框架仅需3M训练数据和2.31B参数规模，在8张A100上训练1.5天即可完成[13][18] 性能表现 - 在DreamBench++测试中，MENTOR的CP-PF分数超越Emu2(37B参数)和DreamEngine(10.5B参数)[14][15] - 图像重建任务表现优异，在COCO和JourneyDB数据集上误差率仅0.1008和0.0867，显著低于其他模型[21] - 与Kosmos-G对比实验中，MENTOR在CP指标上提升0.40，PF指标提升0.13[19] 应用前景 - 框架具备通用性，可应用于文本引导图像分割、多图像融合生成等复杂任务[24] - 自回归范式为可控图像生成开辟新路径，未来有望通过更强大基础模型释放潜力[26] - 研究团队来自UIUC、清华大学、Adobe等机构，技术路线已获验证[2][26]

自回归模型

多模态图像生成

Artificial Intelligence

Artificial Intelligence

MENTOR

Diffusion模型

Emu2

TransDiffuser: 理想VLA diffusion出轨迹的架构

理想TOP2· 2025-05-18 21:08

文章核心观点 - 文章详细解释了Diffusion模型在自动驾驶轨迹生成中的应用，特别是理想汽车VLA（Vision-Language-Action）系统的技术架构和创新点 [1][4][6] - 理想汽车的VLA系统通过Diffusion模型生成驾驶轨迹，相比VLM（Vision-Language-Model）系统具有更强的拟人感和决策能力 [1][2][4] - TransDiffuser模型通过多模态感知信息融合和去相关优化机制，显著提升了轨迹生成的多样性和质量 [6][11][12] 什么是Diffusion - Diffusion是一种通过加噪和去噪过程学习数据分布的生成模型，核心思想类似于逆向拼图 [4] - 相比GAN和VAE等其他生成模型，Diffusion在生成质量和稳定性上具有优势 [4] - 理想汽车采用ODE采样器将Diffusion生成步骤从几十步减少到2-3步，大幅提升效率 [5] 理想VLA系统的技术特点 - VLA是一个具备快慢思考能力的单一系统，直接输出action token并通过Diffusion解码为轨迹 [4] - 系统能同时生成自车轨迹和预测其他交通参与者轨迹，提升复杂环境博弈能力 [5] - 当前系统输出轨迹而非直接控制信号，但未来可能演进到直接输出油门/方向盘信号 [3] TransDiffuser架构细节 - 模型采用编码器-解码器结构，融合图像/LiDAR/运动状态等多模态信息 [6][7] - 场景编码器处理前视图像（8视角）和LiDAR数据（5传感器），输出BEV/图像/点云特征 [7][10] - 去噪解码器基于DDPM算法，通过10步迭代生成覆盖4秒的8个waypoints轨迹 [9][11] - 在NAVSIM数据集上PDMS指标达到94.85，优于Hydra-MDP++等现有方法 [11] 关键创新点 - 无锚点轨迹生成：不依赖预设轨迹或词汇表，直接从感知数据生成轨迹 [11] - 多模态去相关优化：解决模式崩溃问题，提升轨迹多样性且计算开销低 [11][12] - 采用256批量大小分布在4个NVIDIA H20 GPU上进行训练 [10] 局限性与未来方向 - 模型微调存在困难，特别是感知编码器部分 [13] - 未来可能结合强化学习，并参考OpenVLA等先进模型架构 [13] - 直接输出控制信号（油门/方向盘）是更难的挑战，短期内难以实现 [3]