相机参数秒变图片！新模型打通理解生成壁垒，支持任意视角图像创作

核心技术突破 - 提出Puffin统一多模态模型，首次在统一框架下融合以相机为中心的理解与生成任务，解决了此前两类任务被独立研究、模型受限于固定视角的问题[1][2][11][12] - 模型具备“与相机共思”能力，通过将抽象相机参数转化为专业摄影术语和分析空间线索，弥合了视觉-语言-相机模态间的鸿沟，支持空间想象和灵活的跨视角应用[4][18][20][44] - 在生成任务网络设计中引入像素级相机透视场作为连续潜在变量，并结合共享的思维链机制，实现了对图像生成更精细的空间控制和更合理的空间结构生成[16][27][28] 模型架构创新 - 引入几何对齐的视觉编码器，通过语义教师网络与视觉教师网络的双重蒸馏获得，兼具几何保真度和强语义理解能力，克服了现有多模态大模型视觉编码器缺乏几何保真度的局限性[14] - 采用渐进式解冻与联合微调的分阶段优化策略，使模型在底/中层结构线索与高层语言推理之间建立紧密联系[14][15] - 设计连接模块，通过可学习的queries将文本描述和相机参数对应的LLM隐式状态映射为扩散模型可理解的条件信号[15] 数据集与基准建设 - 构建Puffin-4M大规模高质量数据集，包含约400万张图片-语言-相机三元组，弥补了多模态空间智能领域同时覆盖视觉、语言与相机模态的数据集稀缺的空白[29][30] - 数据集构建流程涵盖360°全景数据收集与预处理、2D透视图像渲染生成、场景描述与空间推理打标以及跨视角场景扩展四个阶段[32][33] - 开源Puffin-Gen和Puffin-Und两个评测基准数据集，分别为相机可控生成和相机理解提供更具挑战性和综合性的验证标准[34] 性能表现 - 在相机理解任务中，Puffin模型在Roll、Pitch、FoV等参数估计上全面超越现有方法，例如在Roll参数估计上达到0.32度误差和84.9%/93.4%/96.2%的1/5/10度AUC精度[36] - 与GPT-4o、Qwen-Image、Nano Banana等主流多模态模型相比，Puffin在Up Vector、Latitude、Gravity等几何参数估计上误差显著更低，例如Up Vector平均误差为11.94度，远低于GPT-4o的24.11度[38] - 模型在AIGC图像和真实世界摄影图像等多种场景中均表现出良好的鲁棒性和合理的空间生成能力[39][41] 应用前景 - 模型能够通过精确预测相机参数，在自然场景图像中辅助虚拟三维物体的插入，并可通过指令微调灵活扩展至空间想象、世界探索和摄影指导等跨视角任务[43][44] - 在世界探索任务中，对初始视角与生成视角进行三维重建可视化显示，生成结果在空间结构上保持了良好的一致性[44] - 未来计划进一步提升跨视角能力，并扩展至以相机为中心的视频生成与理解，促进在动态与沉浸式场景中的更广泛应用[45]