Workflow
OpenAI 复制吉卜力,大模型正在吞噬一切产品?
晚点LatePost·2025-03-27 22:45

GPT-4o文生图功能的技术突破 - GPT-4o整合了文本、视觉、音频等多模态数据训练,具备生成文本、图像、音频和视频的复合能力[14][16] - 采用自回归技术生成图像,区别于主流扩散模型,实现从左到右、从上到下的顺序生成[16] - 文本-图像对齐能力显著提升,能准确理解复杂提示词中的多对象关系和属性描述[17][18] - 可能采用组合-分解式生成方案,分步生成元素后融合,避免传统端到端模型的颜色混淆等问题[18] 产品体验与行业影响 - 操作门槛大幅降低,用户可用自然语言指令修改图像,无需复杂提示词工程[12] - 图像细节一致性优于竞品,文字生成准确率提升,修改图片时能保持画面逻辑[6][8] - 直接冲击Stable Diffusion等开源模型的插件生态,部分创业公司的调优工作流被替代[12][20] - 资深设计师反馈复杂工程化流程被简单对话界面取代,AI领域呈现"模型碾压工作流"趋势[21] 行业竞争格局变化 - Midjourney等垂直领域公司面临挑战,其基于CLIP模型构建的审美优势可能被大模型覆盖[21] - 技术演进方向决定生态主导权归属,持续进步的大模型可能成为终极产品形态[22] - YC孵化项目中25%采用Vibe Coding模式,95%代码由大模型生成,反映开发范式转变[20] - 编程领域已显现类似趋势,GitHub Copilot年收入破1亿美元,但面临基础模型能力上移的挤压[19][20]