Workflow
扩散模型
icon
搜索文档
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 15:46
GPT-4o多模态图像生成技术突破 - GPT-4o原生多模态图像生成能力被开发出多种新玩法,包括将表情包转化为语义分割图和深度图[2][3][4] - 该技术对传统AI画图工具、设计师和计算机视觉研究领域产生颠覆性影响[6] - 在自动驾驶领域展现潜力,能识别特斯拉自动驾驶系统无法识别的伪装"隐形墙"[8] 技术实现路径争议 - 应用研究主管提出自动驾驶领域只需训练强大基础模型后微调即可实现[10] - 反对观点认为Stable Diffusion+ControlNet已具备同等能力[11] - 技术突破关键在于通过扩大基础模型规模实现意想不到的效果[12] 模型架构技术细节 - GPT-4o图像生成采用原生嵌入ChatGPT的自回归模型,与DALL·E的扩散模型不同[13][15] - 推测采用多尺度自回归组合技术,首先生成粗略图像再逐步填充细节[17] - 存在争议观点认为解码阶段可能仍使用扩散模型,参考Meta 24年8月论文提出的多模态模型同时预测token和扩散图像的方法[20][24] 行业活动信息 - 中国AIGC产业峰会将于4月16日在北京举行,汇聚百度、无问芯穹等AI领域企业[26]
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
量子位· 2025-03-28 18:01
FlexWorld团队 投稿 量子位 | 公众号 QbitAI 从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。 这一任务本质上是高度不适定的:单一的2D图像无法提供足够的信息来消除完整3D结构的歧义,尤其是在极端视角(如180°旋转)下,先前 被遮挡或缺失的内容可能会引入显著的不确定性。 生成模型,特别是扩散模型,为解决这一问题提供了一种潜在的技术路径。尽管现有方法通常依赖预训练的生成模型作为新视角合成的先验, 但它们仍面临显著挑战。 例如,基于图像的扩散方法容易累积内容误差,基于视频的扩散方法则难以处理可能生成的动态内容构建静态3D场景的影响。最近的研究尝 试通过在视频扩散模型中引入点云先验来提升一致性,虽然取得了一定进展,但在可扩展性方面仍存在局限,尤其是在大视角变化下的表现有 待提升。 针对上述问题,人大高瓴李崇轩、文继荣团队、北师大王一凯团队与字节跳动的研究员提出了一种新方法FlexWorld,用于从单张图像生成灵 活视角的3D场景。 与现有方法不同,FlexWorld通过合成和整合新的3D内容,逐步构建并扩展一个持久的3D表示 ...
活动报名:我们凑齐了 LCM、InstantID 和 AnimateDiff 的作者分享啦
42章经· 2024-05-26 22:35
活动概述 - 活动主题聚焦文生图与文生视频领域的研究与应用落地 [2] - 三位核心嘉宾的研究方向覆盖多模态生成、扩散模型、一致性模型及视频生成技术 [3] - 活动形式为线上会议 时间为北京时间6月1日13:00-14:00 美西时间5月31日22:00-23:00 [3] 研究影响力 - LCM、InstantID和AnimateDiff三项研究在文生图与文生视频领域实现重大突破 具有全球影响力 [4] - 相关技术已被大量创业者应用于实际产品开发 推动行业落地进程 [4] 嘉宾阵容 - 骆思勉(清华交叉信息研究院)研究方向包括多模态生成与扩散模型 代表工作LCM/LCM-LoRA/Diff-Foley [3] - 王浩帆(CMU硕士)专注一致性生成 开发InstantStyle/InstantID/Score-CAM等工具 [3] - 杨策元(香港中文大学博士)主攻视频生成技术 [3] - 特邀AI产品经理Hidecloud担任Panel主持 增强产学研对话 [4] 活动亮点 - 首次集结三项突破性研究的原创作者同台交流 [4] - 定向邀请数十位AI创业者参与 聚焦技术商业化实践 [4]