Workflow
扩散模型
icon
搜索文档
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 15:46
GPT-4o多模态图像生成技术突破 - GPT-4o原生多模态图像生成能力被开发出多种新玩法,包括将表情包转化为语义分割图和深度图[2][3][4] - 该技术对传统AI画图工具、设计师和计算机视觉研究领域产生颠覆性影响[6] - 在自动驾驶领域展现潜力,能识别特斯拉自动驾驶系统无法识别的伪装"隐形墙"[8] 技术实现路径争议 - 应用研究主管提出自动驾驶领域只需训练强大基础模型后微调即可实现[10] - 反对观点认为Stable Diffusion+ControlNet已具备同等能力[11] - 技术突破关键在于通过扩大基础模型规模实现意想不到的效果[12] 模型架构技术细节 - GPT-4o图像生成采用原生嵌入ChatGPT的自回归模型,与DALL·E的扩散模型不同[13][15] - 推测采用多尺度自回归组合技术,首先生成粗略图像再逐步填充细节[17] - 存在争议观点认为解码阶段可能仍使用扩散模型,参考Meta 24年8月论文提出的多模态模型同时预测token和扩散图像的方法[20][24] 行业活动信息 - 中国AIGC产业峰会将于4月16日在北京举行,汇聚百度、无问芯穹等AI领域企业[26]
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
量子位· 2025-03-28 18:01
技术核心与创新点 - 提出FlexWorld方法,通过合成和整合新的3D内容,逐步构建并扩展一个持久的3D表示,以解决从单张图像生成灵活视角3D场景的高度不适定问题[3][4] - 方法包含两个核心组件:一个强大的视频到视频扩散模型,用于从粗糙场景渲染生成完整的视角图像;一个几何感知的3D场景扩展过程,用于提取并整合新的3D内容到全局结构中[5] - 采用多段视频逐步构建具有更大可探索区域的场景,在内容不足区域通过微调的视频模型补完场景视频,并通过场景融合阶段优化整体场景表征[11] 技术实现细节 - 视频模型选用CogVideoX-5B-I2V作为基座模型进行微调,构建了基于同一场景密集重建提供的深度信息的训练对,使模型在推理时能支持更大转角的相机运动[13] - 场景融合过程一方面通过高斯优化将多段视频内容融合进持久化3D表征,另一方面通过密集立体模型和深度融合策略,将视频关键帧作为初始三维高斯加入表征以充分利用先验[14] - 场景扩展过程通过相机轨迹规划、场景整合和细化步骤,逐步从单张图像构建出支持360°旋转和缩放等灵活视角观察的3D场景[5] 性能与应用前景 - FlexWorld在生成大幅度相机变化控制下的视频中展现出出色的视觉质量和较高的空间一致性,生成的视频可直接用于3D重建[6][15] - 该方法能够生成支持360度旋转、前进和后退等视角进行探索的3D场景,在虚拟现实内容创作和3D旅游等领域具有重要应用潜力[8][15] - 该技术在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值[1]
活动报名:我们凑齐了 LCM、InstantID 和 AnimateDiff 的作者分享啦
42章经· 2024-05-26 22:35
活动概述 - 活动主题聚焦文生图与文生视频领域的研究与应用落地 [2] - 三位核心嘉宾的研究方向覆盖多模态生成、扩散模型、一致性模型及视频生成技术 [3] - 活动形式为线上会议 时间为北京时间6月1日13:00-14:00 美西时间5月31日22:00-23:00 [3] 研究影响力 - LCM、InstantID和AnimateDiff三项研究在文生图与文生视频领域实现重大突破 具有全球影响力 [4] - 相关技术已被大量创业者应用于实际产品开发 推动行业落地进程 [4] 嘉宾阵容 - 骆思勉(清华交叉信息研究院)研究方向包括多模态生成与扩散模型 代表工作LCM/LCM-LoRA/Diff-Foley [3] - 王浩帆(CMU硕士)专注一致性生成 开发InstantStyle/InstantID/Score-CAM等工具 [3] - 杨策元(香港中文大学博士)主攻视频生成技术 [3] - 特邀AI产品经理Hidecloud担任Panel主持 增强产学研对话 [4] 活动亮点 - 首次集结三项突破性研究的原创作者同台交流 [4] - 定向邀请数十位AI创业者参与 聚焦技术商业化实践 [4]