GPT Image 2 - 财报，业绩电话会，研报，新闻

GPT Image 2

搜索文档

原生理解生成统一：商汤开源SenseNova U1，用统一架构终结「缝合怪」多模态

机器之心· 2026-04-28 21:27

文章核心观点 - 商汤科技发布并全面开源了其原生理解生成统一模型系列 SenseNova U1 Lite，该模型通过创新的 NEO-Unify 架构，在较小的参数规模（8B）下实现了高效、连贯的图文理解与生成能力，尤其在信息图生成和连续性图文创作方面表现突出，为行业提供了一个可替代 OpenAI GPT Image 2 的高效、低门槛选择 [3][4][8][69][71] 模型发布与定位 - 商汤发布的是 SenseNova U1 系列的轻量版 SenseNova U1 Lite，包含 SenseNova-U1-8B-MoT 和 SenseNova-U1-A3B-MoT 两个版本 [10] - 该模型完全开源，代码托管于 GitHub，模型权重在 Hugging Face 提供下载，不受使用次数束缚 [4][12][69] - 模型定位为国产开源模型，旨在为国内用户提供一个更低门槛、更易体验的选择，以应对类似 GPT Image 2 等海外模型的使用门槛 [2][3] 技术架构与核心优势 - 模型采用名为 NEO-Unify 的原生多模态统一架构，将视觉和语言信息在同一个内部空间中进行协同计算，解决了传统多模态模型中理解与生成之间的断层问题 [8][58] - 该架构的优势在于信息路径更短、效率更高，减少了模块间信息转换的损耗，让小规模模型能释放更高的有效能力 [59][60][61] - 模型仅需 8B 参数，就能实现与许多商业闭源模型类似的效果，体现了架构带来的计算效率提升 [8][61] 性能表现与基准测试 - 在图像理解与生成基准测试中，SenseNova-U1-8B-MoT 在通用理解、空间理解等多个测试中取得领先成绩，甚至超过了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大规模模型 [11] - 在信息图生成（Infographics）的一项测试中，SenseNova U1 Lite 获得 39.8 的高分，领先于 Qwen-Image 等模型 [14] - 在文字渲染（Text Rendering）测试中，SenseNova U1 Lite 的成绩几乎全面领先，证明了其在视觉化文字上的精准度 [14] - 在视觉推理（VBVR (UMM)）测试中，模型获得 60.5 的高分，超过对比模型如 Nano-Banana 的 49.6 分 [16] - 在基于人类意图的视觉修改（WISE）测试中，模型取得 69.0 的优异成绩，领先于 Qwen-Image 的 63.0 分 [16] - 在 GEdit-Bench 测试中得分为 7.47，在同量级开源模型中处于顶尖位置 [17] 实际应用与功能演示 - 模型实现了业内首个连续性的图文创作输出能力，能在同一套推理过程中让图像和文字同步生成，保证了逻辑连贯与风格统一 [9][21][24] - 能够高效生成复杂高密度信息图，将论文摘要、操作流程等高密度信息重新组织，以直观的视觉结构呈现 [34][39][54] - 实际演示案例包括：生成故事连环画、电影运镜教程图解、短发造型信息图、占星术海报、论文图解、武侠江湖禁忌图、柠檬用途指南、名著信息图、刺绣入门指南、城市明信片等，展示了其在多样化、高信息密度场景下的强大处理能力 [23][30][35][37][39][41][46][47][49][51] 效率与实用性 - SenseNova-U1-8B-MoT 在生成速度上表现突出，延迟大约只有 15 秒 / 2K 图，是所有对比模型中生成速度最快的一个，同时在平均得分上接近主流商业模型（约67分） [62] - 模型在低延迟条件下保持了较高的生成质量，体现出很强的单位时间产出能力，更接近实际生产中对快速、稳定、高质量出图的需求 [62] - 其小参数、高效率的特点，有助于开发者在资源受限的环境下享受高效的多模态能力 [70] 行业影响与开源意义 - 商汤此次全面开源在架构层面有实质创新、且跑通了理解-生成-统一路线的模型，意味着这套方法可供学术界审视、开发者社区打磨，并为产业伙伴提供直接可用的基础设施 [69] - 在行业普遍追求生成质量时，商汤押注于“统一”本身，其全面开源使得这条技术路径变得开放和可及 [71]

Artificial Intelligence

日日新SenseNova U1系列原生理解生成统一模型

Artificial Intelligence

日日新SenseNova U1系列原生理解生成统一模型

SenseNova U1 Lite

腾讯研究院AI速递 20260428

腾讯研究院· 2026-04-28 00:16

一、OpenAI入局AI手机 - OpenAI正与联发科、高通合作开发手机处理器，立讯精密拿下独家协力设计与制造合同，预计2028年量产 [1] - OpenAI意在掌控操作系统与硬件，让AI Agent突破苹果权限沙箱限制，初期瞄准全球每年3至4亿台高端手机市场 [1] - 这是其音箱、眼镜、耳机硬件矩阵的最后拼图，已挖角苹果20多位硬件大牛，旨在走出一条不同的AI硬件路径 [1] 二、Anthropic推出AI桌宠硬件 - Anthropic工程师发起开源项目Claude-Desktop-Buddy，官方参考硬件采用深圳M5Stack的M5StickC Plus，搭载乐鑫ESP32芯片 [2] - 该硬件通过蓝牙连接电脑，可显示Claude工作状态并一键审批操作，内置18种ASCII小动物形象，复刻了Claude Code源码泄露的宠物系统 [2] - M5Stack被选中得益于深圳供应链优势与文档质量，海外同类硬件成本是国内3至4倍，公司使命是为AI世界准备基础设施 [2] 三、DeepSeek大幅降价 - DeepSeek-V4全系两款模型的输入缓存命中价格降至首发价的1/10，Flash版为每百万tokens输入0.02元，Pro版为0.025元 [3] - 叠加4月25日Pro版输入价格75%的降幅，缓存未命中价格为每百万tokens 3元、输出为6元，限时优惠持续至5月5日23点59分 [3] - 此次降价被视为抢占市场份额、开启token缓存价格战，促使开发者评估将工作流从Claude或GPT迁移至DeepSeek [3] 四、阿里发布视频生成模型 - 阿里ATH团队推出HappyHorse 1.0视频生成模型与创作平台，采用原生多模态架构与音视频联合生成方案，已开启灰测 [4] - 该模型支持多模态视频生成与视频编辑两大核心功能，在画面质感、运镜流畅度、人物面部真实感等方面表现突出 [4] - 主打广告、电商、短剧、社媒及国际化出海场景，包月会员720P 5秒视频低至2.2元，并有限时全场7折优惠 [4] 五、百度发布智能体新版本 - 百度文库网盘联合推出通用智能体GenFlow 4.0，月活用户突破1亿，月任务交付达2亿次，一年内迭代了四个版本 [5] - Office Agent全面升级，PPT、Excel、Word三大Agent支持自然语言生成与一键排版，新增记忆中心实现自主思考与项目记忆 [5] - 深度兼容OpenClaw支持手机电脑协作与定时任务，团队版Agent军团将于5月底发布，可将团队工作流压缩至13分钟 [6] 六、灵光App上线世界模型功能 - 灵光App正式上线体验世界模型功能，首次将世界模型搬到手机端，支持随时随地一图生成3D世界 [7] - 用户上传一张图片即可选择生成图中世界，或输入第一人称视角探索指令，几秒内即可生成可探索的虚拟世界 [7] - 进入后通过摇杆控制进退，以第一人称视角漫步操作，体验类似游戏般的世界探索方式 [7] 七、小红书发布AI治理主张 - 小红书首次公布AI治理主张，欢迎创作者使用AI突破创意瓶颈，让AI成为创意放大器 [7] - 鼓励创作者如实标识AI相关内容，对于未主动标注的AI内容，平台将统一添加标识，严守真实底线与安全红线 [7] - 平台将持续建设AI内容识别与治理能力，并上线针对AI笔记贴条提示的申诉通道，反对AI造假与侵权 [7] 八、OpenAI图像模型取得突破 - OpenAI发布GPT Image 2，上线12小时同时登顶文生图、单图编辑、多图编辑三大分榜，盲测胜率达93%，领先第二名Banana 2达241分 [8] - 该模型采用从零重构的通用模型架构，被定位为首个具备原生思考能力的图像模型，文字渲染准确率推至99% [8] - 随着DALL-E 2与3将于5月12日退役，API高质量出图价格为0.21美元/张，图像生成进入推理时代，对扩散模型路线形成冲击 [8] 九、a16z对AI投资的观点 - a16z联合创始人Marc Andreessen认为，风险投资中机会成本错误远比成本错误更危险，错过下一个Google意味着失去千亿美元价值 [9] - 识别顶尖创始人需关注智力、勇气与原始驱动力三要素，伟大创始人能在童年痕迹或天赋中显现非做成不可的决心 [9] - AI价值约99%将归属使用者形成消费者剩余，技术高度民主化但人才高度集中于硅谷 [9]

生成式AI

Artificial Intelligence

Artificial Intelligence

计算机行业周报：板块小幅下跌，DeepSeek-V4预览版上线

国元证券· 2026-04-27 12:35

行业投资评级 - 行业评级为“推荐” [5] 核心观点 - 报告核心观点是建议关注国产算力生态的发展，特别是具备显著竞争优势的公司 [3][19] - 这一观点基于DeepSeek-V4预览版上线，其技术方案（细粒度专家并行）已在英伟达GPU和华为昇腾NPU上完成验证，表明国产算力深度参与了此次大模型的研发 [3][19] 市场回顾与指数表现 - 本周（2026.4.20-2026.4.24），计算机（申万）指数小幅下跌0.27%，结束了前两周的反弹 [1][10] - 同期，上证指数上涨0.70%，深证成指上涨0.37%，创业板指下跌0.29% [1][10] - 细分板块方面，申万二级行业指数涨跌幅分别为：计算机设备(+1.14%)、IT服务Ⅱ(+0.60%)、软件开发(-2.00%) [1][12] - 个股方面，计算机板块上涨、下跌和走平的个股数量分别为90、227和18只 [12] - 本周涨幅前三的个股为：皖通科技(21.45%)、品高股份(19.18%)、宏景科技(17.61%) [12] 重点公司公告摘要 - **卓易信息**：2025年实现营业收入3.35亿元，同比增长3.67%；归母净利润0.80亿元，同比增长142.79% [2][17] - **虹软科技**：2025年实现营业收入9.23亿元，同比增长13.22%；归母净利润2.58亿元，同比增长46.25% [2][17] - **中科创达**：2025年实现营业收入77.78亿元，同比增长44.45%；归母净利润4.50亿元，同比增长10.47% [2][17] - **智明达**：2026年第一季度实现营业收入1.08亿元，同比增长34.32%；归母净利润0.18亿元，同比增长114.44% [17] - **同花顺**：2026年第一季度实现营业收入10.53亿元，同比增长40.81%；归母净利润2.56亿元，同比增长112.58% [18] 行业重大事件与技术进展 - **DeepSeek-V4预览版上线**：模型拥有百万字超长上下文，在Agent能力、世界知识和推理性能上实现国内与开源领域领先 [3][19] - **模型性能**：DeepSeek-V4-Pro性能比肩顶级闭源模型 [3] - **Agent能力**：在Agentic Coding评测中达到当前开源模型最佳水平，内部使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式 [3][21] - **世界知识**：在世界知识测评中大幅领先其他开源模型，稍逊于顶尖闭源模型Gemini-Pro-3.1 [3][21] - **推理性能**：在数学、STEM、竞赛型代码测评中超越所有已公开评测的开源模型，比肩世界顶级闭源模型 [3][21] - **技术创新**：采用全新的注意力机制（token维度压缩结合DSA稀疏注意力），实现领先的长上下文能力并降低计算需求 [19] - **国产算力验证**：其细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证 [3][19] - **高德发布ABot具身智能技术基座**：由世界模型、导航模型、操作模型和Harness架构构成，并宣布开源全栈能力 [15] - **OpenAI发布GPT-Rosalind生命科学推理模型**：目标加速药物研发进程，首批向安进、莫德纳等机构开放 [15] - **阿里发布Qwen3.6-Max-Preview模型**：智能体编程能力显著提升，在Artificial Analysis榜单中登顶刷新国产模型表现 [15] - **OpenAI推出GPT Image 2**：能精准生成中文内容，解决乱码问题，展现出深厚的世界知识，可复刻复杂UI界面 [17] - **谷歌发布第八代TPU**：首次将训练（TPU 8t）与推理（TPU 8i）拆分为独立芯片，TPU 8t训练性能较上代提升2.7倍 [17] - **字节发布Seed3D 2.0**：从单张图像生成高质量3D模型，几何生成与纹理材质两项核心指标均取得SOTA（当前最佳） [17] - **Block组织架构变革**：CEO Jack Dorsey认为AI可直接取代中层管理，公司裁员40%，目标将组织层级压缩至2-3层 [15]

计算机行业周报：板块小幅下跌，DeepSeek-V4预览版上线-20260427

国元证券· 2026-04-27 10:41

行业投资评级 - 报告对计算机行业的投资评级为“推荐” [5] 核心观点 - 报告核心观点认为，DeepSeek-V4预览版上线并开源，其性能在多个维度达到国内与开源领域领先水平，并已实现国产算力深度参与，建议关注国产算力生态的发展，特别是具备显著竞争优势的公司 [3][19] 市场回顾与指数表现 - 本周（2026.4.20-2026.4.24），计算机（申万）指数小幅下跌0.27%，结束了前两周的反弹 [1][10] - 同期，上证指数上涨0.70%，深证成指上涨0.37%，创业板指下跌0.29% [1][10] - 细分板块方面，申万二级行业指数涨跌幅分别为：计算机设备(+1.14%)、IT服务Ⅱ(+0.60%)、软件开发(-2.00%) [1][12] - 个股方面，本周计算机板块上涨、下跌和走平的个股数量分别为90、227和18只，涨幅前三名为皖通科技(21.45%)、品高股份(19.18%)、宏景科技(17.61%) [12] 行业重大事件 - **高德发布ABot具身智能技术基座**：由世界模型、导航模型N系列、操作模型M系列和Harness架构构成“三位一体”，其ABot-World在WorldArena榜单超过Veo 3.1达10%，并宣布开源全栈能力 [15] - **OpenAI发布生命科学推理模型GPT-Rosalind**：目标加速平均10-15年的药物研发进程，在蛋白质化学推理、基因组学分析等方面表现更强，首批向安进、莫德纳等机构开放 [15] - **阿里发布下一代旗舰模型Qwen3.6-Max-Preview**：智能体编程能力显著提升，SkillsBench提升9.9分，SciCode提升10.8分，在Artificial Analysis榜单中登顶刷新国产模型表现 [15] - **Block CEO Jack Dorsey认为AI可直接取代中层管理**：公司因此裁员40%，并以“公司世界模型”和“客户世界模型”为核心重构组织，目标将层级压缩至2-3层 [15] - **OpenAI推出GPT Image 2并向所有ChatGPT用户开放**：能精准生成中文内容，彻底解决中文乱码问题，可完整复刻数字产品的UI界面，具备替代级生产力 [17] - **谷歌发布第八代TPU**：首次将训练与推理拆分为TPU 8t和TPU 8i两款独立芯片，TPU 8t训练性能较上代提升2.7倍，TPU 8i单位价格性能提升80% [17] - **字节发布Seed3D 2.0**：可从单张图像生成高质量3D模型，几何生成与纹理材质两项核心指标均取得SOTA，API已上线火山引擎 [17] 重点公司公告 - **卓易信息2025年年报**：实现营业收入3.35亿元，同比增长3.67%；归母净利润0.80亿元，同比增长142.79%；扣非归母净利润0.43亿元，同比增长191.13%；经营活动现金流量净额1.20亿元 [2][17] - **虹软科技2025年年报**：实现营业收入9.23亿元，同比增长13.22%；归母净利润2.58亿元，同比增长46.25%；扣非归母净利润2.14亿元，同比增长37.51%；经营活动现金流量净额2.08亿元 [2][17] - **中科创达2025年年报**：实现营业收入77.78亿元，同比增长44.45%；归母净利润4.50亿元，同比增长10.47%；扣非归母净利润3.44亿元，同比增长96.43%；经营活动现金流量净额6.80亿元 [2][17] - **智明达2026年一季报**：实现营业收入1.08亿元，同比增长34.32%；归母净利润0.18亿元，同比增长114.44%；扣非归母净利润0.16亿元，同比增长94.80% [17] - **同花顺2026年一季报**：实现营业收入10.53亿元，同比增长40.81%；归母净利润2.56亿元，同比增长112.58%；扣非归母净利润2.50亿元，同比增长122.58% [18] 投资观点详述 - **DeepSeek-V4技术亮点**：拥有百万字超长上下文，在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先 [3][19] - **模型版本**：分为deepseek-v4-pro和deepseek-v4-flash两个版本 [3][19] - **性能表现**： - **Agent能力**：DeepSeek-V4-Pro在Agentic Coding评测中达到当前开源模型最佳水平，内部使用体验优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式 [3][21] - **世界知识**：在世界知识测评中大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1 [3][21] - **推理性能**：在数学、STEM、竞赛型代码的测评中，超越所有已公开评测的开源模型，比肩世界顶级闭源模型 [3][21] - **技术创新**：开创全新注意力机制，在token维度进行压缩，结合DSA稀疏注意力，实现全球领先的长上下文能力并大幅降低计算和显存需求 [19] - **国产算力参与**：DeepSeek-V4将细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证，国产算力深度参与 [3][19]

DeepSeek-V4 Pro API限时2.5折；豆包“提前查到2026山东事业编成绩”，最新回应；微博考核全体研发AI能力；某大模型泄露用户简历｜AI周报

AI前线· 2026-04-26 13:03

行业趋势与竞争格局 - 大模型竞争已全面从预训练主导的Chat时代转向后训练主导的Agent时代，顶尖团队的预训练与后训练算力投入比例已从过去的5:1收窄至1:1 [13][14] - 国内已有包括Kimi、MiMo在内的多家公司具备1T参数以上的基座模型，中美在预训练阶段的差距“基本上已经没有”，国内顶尖模型与国际前沿模型的代差仅约两三个月 [13] - 1T参数规模是实现接近顶尖Agent水平的“入场券” [14] - AGI预计将在两年内实现，当前进度已完成约20%，今年有望推进至60%到70% [13] 公司战略与组织动态 - 微博要求全体研发参加AI能力考试，考试内容为开发前后端系统，未通过者将接受集中培训 [2] - 字节跳动部分部门已开始实施A to A端到端全代码流程，由AI全程写代码，人类负责审核，并将AI代码贡献率纳入部门OKR进行考核 [3] - 自动驾驶公司Momenta在IPO前夕进行人员调整，据传感知算法部门“137人走人”，大部分为技术岗，此举或为优化财务报表以节省上亿元人力成本 [18][19] - 苹果公司宣布蒂姆·库克将于9月1日卸任CEO，转任执行董事长，由硬件工程高级副总裁约翰·特努斯接任，这是苹果自2011年以来首次CEO换届 [27] - Meta开始跟踪员工的工作方式（如击键和鼠标点击）以训练AI模型，此举引发部分员工不满 [22] 大模型发布与性能 - OpenAI发布迄今最智能的AI模型GPT-5.5，其核心突破在于大幅升级的Agent能力，能自主规划并执行多步骤复杂任务，在多项测试中表现卓越 [33][34] - OpenAI发布新一代图像生成模型GPT Image 2，这是首个具备“思考”能力的图像模型，在文字准确率、分辨率、生成速度等方面实现突破，支持4096×4096分辨率，单张图像生成仅需3秒 [36] - 月之暗面发布并开源最强代码模型Kimi K2.6，其在多项测试中表现持平或优于GPT-5.4、Claude Opus 4.6等，并能不间断编码长达13小时，编写超过4000行代码 [42][43] - 小米发布最强大模型MiMo-V2.5系列，包括旗舰推理模型MiMo-V2.5和全模态Agent模型V2.5-Pro，新模型在达到相同性能时可比竞品节省42%至50%的Token消耗 [40][41] - 腾讯发布并开源混元Hy3 preview语言模型，这是一款主打快慢思考融合的MoE模型，总参数295B，激活参数21B，最大支持256K上下文 [38][39] - 阿里巴巴发布Qwen3.6-Max预览版，在权威评测中登顶最佳国产模型，并宣布其AI视频生成项目HappyHorse-1.0将于4月27日开放测试 [44] - 字节跳动发布更高精度的新一代3D生成大模型Seed3D 2.0，采用MoE架构以生成更丰富的纹理细节 [46] - 谷歌发布基于Gemini 3.1 Pro的新一代自主研究Agent Deep Research与Deep Research Max，支持搜索专业数据库并原生生成图表 [48] 融资、投资与估值 - 亚马逊宣布向Anthropic追加50亿美元投资，并额外提供总计6吉瓦（GW）的Trainium芯片算力，累计投资达130亿美元，未来还计划追加200亿美元 [23] - 据彭博社报道，谷歌计划向Anthropic投资最高400亿美元，其中100亿美元现金将立即注入，后续300亿美元将根据业绩目标跟进 [25] - 深度求索（DeepSeek）在融资前的估值据传为3000亿人民币（约合440亿美元） [9] - SpaceX获得一项权利，允许其在今年晚些时候以600亿美元收购AI编程公司Cursor，或就双方GPU算力合作支付100亿美元 [26] 商业化与定价策略 - 深度求索为DeepSeek-V4-Pro模型API开启限时2.5折优惠，优惠期截至2026年5月5日，折后价格为每百万tokens输入（缓存命中）0.25元、输入（缓存未命中）3元、输出6元 [4][6] - 微软GitHub Copilot将于6月1日起从按“请求次数”计费转向按Token计费，例如选用GPT-5.4模型，每百万输入Token需支付2.50美元，每百万输出Token支付15美元 [20] - 小米升级模型订阅计划Token Plan，取消4倍的Credits计费方式，计费不区分上下文长度，并新增夜间专属优惠及自动续费模式 [41] - 蚂蚁灵光App推出“灵光圈”功能，并启动“灵光闪应用创作者激励计划”，将投入1亿元专项基金扶持创作者，每天最高激励100万元 [50] 技术合作与生态适配 - DeepSeek-V4系列获得广泛生态支持，英伟达Blackwell平台已适配其Pro与Flash版本，在GB200 NVL72上开箱即用性能超150 tokens/sec/user，此外PPIO、华为云、中国联通、天数智芯、寒武纪等均完成集成或适配 [6] - OpenAI的GPT-5.5运行于英伟达GB200 NVL72机架级系统，英伟达内部已有超1万名员工使用该技术 [35] - 亚马逊与Anthropic深化合作，Anthropic将在2026年前使用Trainium芯片训练并部署Claude模型，预计在2026年上半年获得5GW算力，未来10年内将向AWS投入超过1000亿美元 [23][24] - 特斯拉车机语音服务将接入豆包大模型与DeepSeek模型，均通过火山引擎接入 [52] 安全与风险事件 - 某大模型被曝泄露用户真实简历，用户在使用翻译功能时收到陌生人完整个人信息，专家指出这更接近数据隔离失效等工程问题，而非典型的“AI幻觉” [12] - 一名程序员为使用公司算力“干私活”，违规登录服务器并删除了超过89 TB的AI训练数据和多个文生3D模型，给公司造成20余万元经济损失，最终被判处有期徒刑五年十个月 [16][17] - 有网友称通过豆包大模型提前查到了2026年山东事业编成绩，官方回应称是工作人员测试成绩查询端口时被无意中访问到，发现后已及时关闭 [10][11] 其他行业动态 - 爱奇艺公布AI选角专利，可通过AI模型为影视作品智能推荐演员组合，其CEO连发博文回应“AI艺人库”争议，称不存在未经艺人同意将其纳入的情况 [28] - 谷歌发布第八代TPU芯片家族，首次分为训练芯片TPU 8t与推理芯片TPU 8i，在大规模训练场景下，TPU 8t单位美元性能较上一代提升高达2.7倍 [49] - 索尼AI研发的乒乓球机器人Ace在遵循国际规则的正式比赛中击败多名人类精英选手，这是AI机器人首次在需要物理互动的竞技体育中击败专业人类选手 [29] - 火山引擎宣布，其Seedance 2.0 API服务现已支持1080P全高清视频生成，为模型原生能力 [52]

今天起，GPT Image 2 要把全体设计师送走了

程序员的那些事· 2026-04-23 11:01

GPT Image 2的技术突破与行业影响 - OpenAI发布的GPT Image 2模型在图像生成质量上实现了重大飞跃，被普遍认为已超越竞争对手Nano Banana 2，重回该领域巅峰 [1][5] - 模型能够生成照片级写实的图像，达到真假难辨的程度，例如生成雪豹照片、热闹夜市、龙卷风等场景，效果极为逼真 [2][8][9][11] - 该模型解决了长期困扰AI生图的“文字渲染”难题，能生成字符清晰准确、无错字乱码的文本图像，例如精准还原《兰亭集序》等千古名篇的真迹质感 [36][37][38][39][43] - 其图像生成具有极高的稳定性和一致性，首次尝试即可产出形状清晰、文本可读、细节完整的图像，而以往需要10到15个版本迭代才能达到类似效果 [54][55] - 模型展现出对复杂视觉构思和特定美学风格的深刻理解，例如能精准生成吉卜力工作室风格的地图、达芬奇风格的示意图，以及《半条命1》GoldSrc引擎风格的内部场景 [49][51][69][70][71] 对创意与设计行业的颠覆 - 该模型强大的设计能力，使得专业海报、UI设计、信息图等能在几秒内生成，可能导致设计师、影视后期等行业面临失业风险 [4][56][75][82][84][87] - 在游戏开发行业，模型能生成完美的2D素材，结合代码生成能力，可能将游戏开发从依赖数千人团队、动辄五年周期的重资产模式，转变为独立开发者或单人可实现的即时个性化体验，大幅降低开发成本 [72] - 在影视与动画行业，模型能力可能扫平前期置景、后期CGI和特效渲染等主要成本环节，使电影和动画制作从资本密集型产业转变为想象力密集型产业 [73][74] - 模型为科研领域提供了强大工具，例如其生成的完整细胞图像已达到可为学术论文配图的水准 [60] 内容生成与版权的新范式 - 模型目前可以生成许多版权角色和公众人物图像，例如动漫人物、奥特曼、马斯克等，但像宝可梦、蝙蝠侠等特定角色仍会被拒绝生成 [21][23][25] - 用户利用模型生成了大量融合不同IP（知识产权）的梗图和创意内容，例如将《海贼王》角色融入《英雄联盟》比赛，或将海绵宝宝做成黑暗严肃的龙与地下城画风游戏，展现了强大的跨次元内容创作能力 [28][30][32][34] - 数字内容的生产成本被推向接近零的水平，这将重塑甚至重建许多依赖内容创作的行业 [53][72] 对社会信任体系的冲击 - 模型生成图像的高度逼真性，使得“有图有真相”的互联网信任基石被动摇，未来任何地方出现的图片、视频、音频都可能不再百分百可信，互联网的信任体系面临洗牌与重建 [5][14][87]

AI图像生成

Artificial Intelligence

GPT Image 2

Nano Banana 2

AI图像生成

Artificial Intelligence

GPT Image 2

Nano Banana 2

半壁华人！GPT Image 2团队曝光：无锡才俊带队，13人4个月封神

量子位· 2026-04-23 08:00

GPT Image 2 模型的技术突破与团队背景 - 模型底层架构已被彻底重构，被团队负责人神秘地描述为“通用模型”或“图像领域的GPT”，但未明确是否采用扩散或自回归技术 [1][2] - 模型实现了从“画得出来、画得清楚、画得好看”到“画得准”的跨越，正在消除用户意图与模型产出之间的差距 [29][30][68] - 该突破性成果由一支仅13人的核心团队在四个月内完成，从GPT Image 1.5（2024年12月底）到GPT Image 2仅用了四个月 [4][6] 核心团队成员的技术专长与贡献 - **研究负责人陈博远**：博士期间的研究“Diffusion Forcing”将逐token扩散与因果下一个token预测结合，融合了自回归与扩散模型的优势；在谷歌实习期间开发的指令微调技术被Gemini 2.0采用；2025年6月加入公司后负责所有图像生成模型的训练 [12][17][18] - **成员Jianfeng Wang**：负责提升模型的指令遵循与世界知识理解能力，使模型能精准生成不同时间（如2:25、3:30）的时钟，并理解复杂空间布局指令；此前在微软工作近9年，并与公司在DALL-E-3项目上有合作 [20][22][26][27][29] - **成员Yuguang Yang**：负责生成高精度复杂信息图表和PPT，例如可将75页的GPT-3论文自动总结为7张幻灯片，旨在为科研人员节省大量时间 [31][33][43] - **成员Weixin Liang**：在Meta实习期间的研究“Mixture-of-Transformers”通过模态解耦的MoE和解耦注意力，显著降低了多模态模型预训练的计算成本 [59][60] - **团队负责人Gabriel Goh**：自2019年加入公司，从DALL-E开始全程参与了多模态系列研究，早期研究聚焦于可解释性和凸优化 [52][53][54] - **其他关键成员**：包括来自Luma AI参与过Dream Machine训练的Ayaan Haque、来自谷歌参与过Imagen3和Gemini的Bing Liang、以及团队中的提示词大师Kiwhan Song [64][65][67] 模型展现的具体能力与数据 - **空间与度量理解**：通过构建互联网规模的3D空间推理VQA数据集（包含1000万图像、20亿QA对），使模型能从单张2D图像输出米制距离、尺寸、方位等精确数值，该能力已应用于具身智能领域 [14][15] - **多语言文本渲染**：能够精准无误地生成包含不同语言（如韩文、孟加拉语）文字的海报 [18] - **复杂指令遵循**：能够精准执行包含多个对象复杂空间布局（如苹果在中心、杯子在右边）的指令 [26] 公司的研发文化与团队构成 - 公司文化倡导自下而上的涌现式研究，不限制专业、欢迎跨界，能持续吸引有个性的人才 [70] - 团队成员的背景高度多元化且跨界，例如Yuguang Yang本科学习工程，博士研究计算化学物理与机器学习，曾从事量化分析、Alexa语音研究、Bing搜索理解等工作 [36][37][38][39][40] - 成功的研发模式通常始于小团队取得突破，随后公司倾斜更多资源进行扩大 [71]

Diffusion Forcing

具身智能

Artificial Intelligence

GPT Image 2

Diffusion Forcing

具身智能

Artificial Intelligence

GPT Image 2

投中信息杨晓磊：这不是资金短缺的年代，而是选择的年代

投中网· 2026-04-22 19:57

文章核心观点 - 当前中国创投市场正处于一个“K型曲线”分化的时代，共识很强但分化巨大，机会与风险并存 [3][8] - 市场呈现两极平行世界：AI、芯片、生物技术等硬科技赛道融资火热、估值高企，而大量存量企业则陷入长期融资荒 [3] - 政策支持硬科技、二级市场估值溢价以及资本回流共同推动了资金向特定赛道聚集，导致市场出现结构性泡沫与极端分化 [4][31] - 在K型时代，专业人才被视为核心的避险资产和撬动发展的杠杆，中国因其人才储备、产业链和政策支持，在K型上行曲线中充满机遇 [52][54] K型曲线的市场特征 - 市场呈现典型的幂律分布：头部项目能帮助基金回本，但约70%的项目尚未退出，存量巨大 [3][33] - 科技领域出现强烈K型分化：二级市场AIGC概念股估值远超老牌科技股，一级市场头部未上市公司的动向直接影响已上市公司估值 [17] - 不同行业体感截然不同：与AI、具身智能等新质生产力相关的产业在扩张，而落后产能则在痛苦地去库存 [23] - 融资环境分化严重：SaaS、文娱、传媒等行业融资极其困难，自2016年以来有超过5万家企业再未获得融资 [35] 驱动分化的核心力量 - 政策转向明确支持硬科技与新质生产力，从“市场化”转向“市场化”加“统筹发展与安全” [13] - 二级市场对科技创新给予持续高估值溢价，推动了资金向一级市场相关赛道聚集 [4][17] - 资本供给充沛：高净值人群与机构资本回流，保险资金、外资、主权基金及“国家队”（如发改委大基金、社保科创基金）等大量资金入场 [31] - 美联储降息周期、美元疲软及全球去美元资产风险化，促使资金流向中国资产，外资证券投资在2025年全面回流 [13][15] AI重塑产业与投资逻辑 - AI正在重塑二级市场的定价逻辑，涉及算力基础设施（AIDC）、核心资源类公司的估值倍数被重估 [21] - AI应用将冲击以摩擦成本为基础的服务业（如法律、会计、SaaS），目标是替代人力、消除成本 [24] - 中美AI发展路径不同：美国呈现“模型即应用”、赢家通吃的局面；中国因拥有制造业和供应链，机会相对分散，在应用层创业机会更多 [24] - 算力短期内短缺导致成本上涨（如Code plan涨价），但长期看成本将下降，预计应用层将迎来爆发 [45] 上行曲线的关键赛道与机会 - **AI与算力**：被视为市场最大热点和驱动力，模型能力趋稳，应用层发展潜力巨大 [45] - **医疗健康**：中国在全球创新药研发管线中占比达32%，合成生物、脑机接口、高端器械等领域出现真实产业爆发 [27] - **前沿科技**：商业航天、具身智能等赛道已模糊触及商业化边缘 [27] - **政策重点领域**：“十五五”规划中明确的具身、航天、脑机、核聚变等方向估值水涨船高 [31] 私募股权市场的现状 - 市场估值高企，存在由产业趋势和资金供给过剩共同推动的泡沫 [31] - 二级市场的优异表现（如两大GPU/大模型公司上市）正向反馈至一级市场，带动未上市模型公司估值跳涨 [31] - 项目制基金重现市场，头部项目对股东背景和资金体量要求更高 [31][49] - 投资策略调整：机构更关注存退比，追求快速实现DPI以改善流动性；对中等规模退出机会采取“能退尽退”策略 [49] 一线投资人的观察 - 多数投资人对2025年市场持乐观态度，主要基于政策支持和资金充沛 [41] - 存在担忧声音：在经济基本面变化不大的情况下创投市场异常火热，可能隐含较高风险 [41] - 募资环境整体好转，但市场化资金（如上市公司出资）显著减少：2024-2025年出资基金数量仅为疫情期间的70%左右，认缴规模从3400亿人民币降至不足1500亿人民币 [43] - 投资共识强于募资，投资人需在估值高企的环境中调整策略，面临类似“德扑桌上首张牌开出后众人全押”的决策困境 [45] K型时代的机遇与选择 - 专业深度人才被视为AI时代唯一的避险资产和撬动基建的杠杆 [52] - 中国创业环境具备四大优势：顶尖人才储备、全球最强产业链支持、本土用户给予更多试错机会、资金变多且政策支持 [54] - 接受市场分化的现实，根据自身判断选择是否进入K型上行曲线，市场存在泡沫被视为有生命力的表现 [4][54] - 创投行业作为桥梁，其回报速度取决于产业发展，上行曲线机会是指数级的，并由AI与政策作为最大杠杆 [54]

猿大侠· 2026-04-20 12:11

文章核心观点 - OpenAI最新发布的生图模型GPT Image 2在图像生成的真实度上实现了质的飞跃，其生成的图片在细节、文字和整体构图上已能达到以假乱真的水平，标志着“有图为证”时代的终结[13][14][15][16] - 该模型能力的提升，特别是对文字信息的准确生成，极大地拓展了其在设计、电商、游戏等实际生产场景中的应用潜力，使得内容创作门槛大幅降低[33][34][35][36][37] - 该技术可能被整合进OpenAI的编程工具Codex，用于实现端到端的UI设计，将图像生成与编程逻辑垂直整合，从而提升前端开发体验并可能指向一个超级应用的雏形[55][56][57][62][63][64][65] - 模型能力的突破性进展也引发了对于虚假信息、电信诈骗等网络安全和社会问题的深层担忧，AI生成内容正悄然通过图灵测试的奇点，虚拟与现实的边界将日益模糊[70][71][72][73][74][75] 根据相关目录分别进行总结 GPT Image 2的技术能力与突破 - **图像真实度达到新高度**：生成的图片（如马斯克直播带货、GTA-6游戏截图、时尚海报）第一眼难以被识别为AI作品，需要仔细审视才能发现[17][18][19][20][21] - **复杂文字生成能力显著提升**：能够生成逻辑正确、信息密度高的文字内容，例如韩文日记、汉语字典页面、产品定价表等，解决了以往AIGC在文字方面的短板[26][28][29][30][31][51] - **细节还原精准**：在生成游戏截图（如《我的世界》风格）时，能完美还原血条、饥饿值、经验值等状态栏以及资产形态[25] 应用场景与商业潜力 - **设计领域应用广泛**：模型能生成包含产品信息、活动详情的海报，使得游戏海报、电商海报等设计工作实现“零门槛”，普通用户也能轻松制作[34][35][36][37] - **赋能电商与内容创作**：生成的素材质量可与全球顶尖品牌对齐，为个人副业或电商运营提供了强大的工具[44] - **与编程工具结合潜力巨大**：该能力若与Codex结合，可实现无需准备参考图和数据资产的端到端UI设计，大幅提升前端开发效率与体验[55][62][63][65] 对OpenAI产品战略的潜在影响 - **补强多模态能力**：Image 2的出现证明了多模态路线对OpenAI的价值，可能用于增强其综合产品能力[65] - **推动超级应用整合**：Codex通过内置浏览器和接入图像生成模型（如GPT-image-1.5/2），正朝着整合ChatGPT、Codex、Atlas的超级应用雏形发展[56][57][58][60][61] - **提升UI设计能力**：强大的图像模仿能力有望解决GPT在UI设计上的短板，基于图片生成进行开发将更可靠[47][64][65] 行业影响与社会隐忧 - **颠覆内容验证基础**：AI生图已达到99%的人都无法辨别的以假乱真程度，“有图为证”的信任基础被瓦解[16][71] - **加剧网络安全风险**：技术可能被用于制造电信诈骗素材、视频谣言等，与日常生活息息相关的安全威胁增大[72] - **通过技术奇点**：AI生图的图灵测试正在悄然通过奇点，意味着虚拟与现实将加速融合，社会将进入一个难以简单区分真伪的新阶段[73][74][75]

量子位· 2026-04-19 12:31

文章核心观点 - OpenAI最新发布的图像生成模型GPT Image 2在生成质量上实现了巨大飞跃其生成的图像与文字内容已达到以假乱真的程度标志着AI生成内容进入新阶段对设计、电商、前端开发等多个行业将产生深远影响 [14][15][16][71][72] AI图像生成技术进展 - GPT Image 2生成的图像第一眼难以被识别为AI作品需要仔细观察才能发现其并非真实照片或人工设计 [16][17][18] - 模型在复杂场景还原上表现卓越例如能生成与《我的世界》游戏界面完全一致的截图包括血条、饥饿值等状态栏 [24] - 模型在文字生成方面取得关键突破生成的文字内容逻辑正确且无乱码例如能生成内容连贯的韩文日记和排版复杂的汉语字典页面 [25][28][29][30] - 该技术使得生成高质量的商业素材（如时尚海报、电商海报、游戏海报）门槛大幅降低普通用户也能轻松制作 [22][36][41][44] 对特定行业的影响与应用 - **设计行业**：模型能生成可直接使用的商品展示图其质量可与全球顶尖品牌素材对齐对专业设计师构成潜在挑战 [41][44] - **电商行业**：AI生成的上架素材质量极高为零基础用户从事电商副业提供了强大工具 [36][44] - **前端设计与开发**：模型强大的UI模仿能力（如生成高度逼真的OpenAI官网或Windows桌面截图）与编程工具结合可能彻底改变前端开发流程实现从描述到UI的端到端生成 [46][48][53][56][63][64][66] OpenAI的产品战略方向 - OpenAI可能正通过Codex等工具将图像生成与编程能力进行垂直整合旨在打造一个集成了ChatGPT、Codex、Atlas等功能的超级APP [57][58][66] - 公司已将浏览器功能内置并接入了GPT-image-1.5 使得在编程环境中直接生成并应用UI素材成为可能提升了开发效率 [59][61][63][64] - 尽管视频生成模型Sora进展暂缓但多模态技术路线在UI设计等特定领域展现出明确价值与整合潜力 [66] 技术普及与社会影响 - 该模型目前并未向ChatGPT Plus会员开放公众可通过LM Arena等平台尝试 [66][68] - AI生成内容已达到能欺骗绝大多数人的水平 “有图为证”的时代可能终结这将对社会信息验证、防范电信诈骗和虚假视频谣言等提出严峻挑战 [16][72][73][74][75]

Artificial Intelligence

多模态

Artificial Intelligence

GPT Image 2

Codex

Artificial Intelligence

多模态

Artificial Intelligence

GPT Image 2

Codex

Previous Next