Workflow
GPT Image 2
icon
搜索文档
原生理解生成统一:商汤开源SenseNova U1,用统一架构终结「缝合怪」多模态
机器之心· 2026-04-28 21:27
文章核心观点 - 商汤科技发布并全面开源了其原生理解生成统一模型系列 SenseNova U1 Lite,该模型通过创新的 NEO-Unify 架构,在较小的参数规模(8B)下实现了高效、连贯的图文理解与生成能力,尤其在信息图生成和连续性图文创作方面表现突出,为行业提供了一个可替代 OpenAI GPT Image 2 的高效、低门槛选择 [3][4][8][69][71] 模型发布与定位 - 商汤发布的是 SenseNova U1 系列的轻量版 SenseNova U1 Lite,包含 SenseNova-U1-8B-MoT 和 SenseNova-U1-A3B-MoT 两个版本 [10] - 该模型完全开源,代码托管于 GitHub,模型权重在 Hugging Face 提供下载,不受使用次数束缚 [4][12][69] - 模型定位为国产开源模型,旨在为国内用户提供一个更低门槛、更易体验的选择,以应对类似 GPT Image 2 等海外模型的使用门槛 [2][3] 技术架构与核心优势 - 模型采用名为 NEO-Unify 的原生多模态统一架构,将视觉和语言信息在同一个内部空间中进行协同计算,解决了传统多模态模型中理解与生成之间的断层问题 [8][58] - 该架构的优势在于信息路径更短、效率更高,减少了模块间信息转换的损耗,让小规模模型能释放更高的有效能力 [59][60][61] - 模型仅需 8B 参数,就能实现与许多商业闭源模型类似的效果,体现了架构带来的计算效率提升 [8][61] 性能表现与基准测试 - 在图像理解与生成基准测试中,SenseNova-U1-8B-MoT 在通用理解、空间理解等多个测试中取得领先成绩,甚至超过了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大规模模型 [11] - 在信息图生成(Infographics)的一项测试中,SenseNova U1 Lite 获得 39.8 的高分,领先于 Qwen-Image 等模型 [14] - 在文字渲染(Text Rendering)测试中,SenseNova U1 Lite 的成绩几乎全面领先,证明了其在视觉化文字上的精准度 [14] - 在视觉推理(VBVR (UMM))测试中,模型获得 60.5 的高分,超过对比模型如 Nano-Banana 的 49.6 分 [16] - 在基于人类意图的视觉修改(WISE)测试中,模型取得 69.0 的优异成绩,领先于 Qwen-Image 的 63.0 分 [16] - 在 GEdit-Bench 测试中得分为 7.47,在同量级开源模型中处于顶尖位置 [17] 实际应用与功能演示 - 模型实现了业内首个连续性的图文创作输出能力,能在同一套推理过程中让图像和文字同步生成,保证了逻辑连贯与风格统一 [9][21][24] - 能够高效生成复杂高密度信息图,将论文摘要、操作流程等高密度信息重新组织,以直观的视觉结构呈现 [34][39][54] - 实际演示案例包括:生成故事连环画、电影运镜教程图解、短发造型信息图、占星术海报、论文图解、武侠江湖禁忌图、柠檬用途指南、名著信息图、刺绣入门指南、城市明信片等,展示了其在多样化、高信息密度场景下的强大处理能力 [23][30][35][37][39][41][46][47][49][51] 效率与实用性 - SenseNova-U1-8B-MoT 在生成速度上表现突出,延迟大约只有 15 秒 / 2K 图,是所有对比模型中生成速度最快的一个,同时在平均得分上接近主流商业模型(约67分) [62] - 模型在低延迟条件下保持了较高的生成质量,体现出很强的单位时间产出能力,更接近实际生产中对快速、稳定、高质量出图的需求 [62] - 其小参数、高效率的特点,有助于开发者在资源受限的环境下享受高效的多模态能力 [70] 行业影响与开源意义 - 商汤此次全面开源在架构层面有实质创新、且跑通了理解-生成-统一路线的模型,意味着这套方法可供学术界审视、开发者社区打磨,并为产业伙伴提供直接可用的基础设施 [69] - 在行业普遍追求生成质量时,商汤押注于“统一”本身,其全面开源使得这条技术路径变得开放和可及 [71]
腾讯研究院AI速递 20260428
腾讯研究院· 2026-04-28 00:16
一、OpenAI入局AI手机 - OpenAI正与联发科、高通合作开发手机处理器,立讯精密拿下独家协力设计与制造合同,预计2028年量产 [1] - OpenAI意在掌控操作系统与硬件,让AI Agent突破苹果权限沙箱限制,初期瞄准全球每年3至4亿台高端手机市场 [1] - 这是其音箱、眼镜、耳机硬件矩阵的最后拼图,已挖角苹果20多位硬件大牛,旨在走出一条不同的AI硬件路径 [1] 二、Anthropic推出AI桌宠硬件 - Anthropic工程师发起开源项目Claude-Desktop-Buddy,官方参考硬件采用深圳M5Stack的M5StickC Plus,搭载乐鑫ESP32芯片 [2] - 该硬件通过蓝牙连接电脑,可显示Claude工作状态并一键审批操作,内置18种ASCII小动物形象,复刻了Claude Code源码泄露的宠物系统 [2] - M5Stack被选中得益于深圳供应链优势与文档质量,海外同类硬件成本是国内3至4倍,公司使命是为AI世界准备基础设施 [2] 三、DeepSeek大幅降价 - DeepSeek-V4全系两款模型的输入缓存命中价格降至首发价的1/10,Flash版为每百万tokens输入0.02元,Pro版为0.025元 [3] - 叠加4月25日Pro版输入价格75%的降幅,缓存未命中价格为每百万tokens 3元、输出为6元,限时优惠持续至5月5日23点59分 [3] - 此次降价被视为抢占市场份额、开启token缓存价格战,促使开发者评估将工作流从Claude或GPT迁移至DeepSeek [3] 四、阿里发布视频生成模型 - 阿里ATH团队推出HappyHorse 1.0视频生成模型与创作平台,采用原生多模态架构与音视频联合生成方案,已开启灰测 [4] - 该模型支持多模态视频生成与视频编辑两大核心功能,在画面质感、运镜流畅度、人物面部真实感等方面表现突出 [4] - 主打广告、电商、短剧、社媒及国际化出海场景,包月会员720P 5秒视频低至2.2元,并有限时全场7折优惠 [4] 五、百度发布智能体新版本 - 百度文库网盘联合推出通用智能体GenFlow 4.0,月活用户突破1亿,月任务交付达2亿次,一年内迭代了四个版本 [5] - Office Agent全面升级,PPT、Excel、Word三大Agent支持自然语言生成与一键排版,新增记忆中心实现自主思考与项目记忆 [5] - 深度兼容OpenClaw支持手机电脑协作与定时任务,团队版Agent军团将于5月底发布,可将团队工作流压缩至13分钟 [6] 六、灵光App上线世界模型功能 - 灵光App正式上线体验世界模型功能,首次将世界模型搬到手机端,支持随时随地一图生成3D世界 [7] - 用户上传一张图片即可选择生成图中世界,或输入第一人称视角探索指令,几秒内即可生成可探索的虚拟世界 [7] - 进入后通过摇杆控制进退,以第一人称视角漫步操作,体验类似游戏般的世界探索方式 [7] 七、小红书发布AI治理主张 - 小红书首次公布AI治理主张,欢迎创作者使用AI突破创意瓶颈,让AI成为创意放大器 [7] - 鼓励创作者如实标识AI相关内容,对于未主动标注的AI内容,平台将统一添加标识,严守真实底线与安全红线 [7] - 平台将持续建设AI内容识别与治理能力,并上线针对AI笔记贴条提示的申诉通道,反对AI造假与侵权 [7] 八、OpenAI图像模型取得突破 - OpenAI发布GPT Image 2,上线12小时同时登顶文生图、单图编辑、多图编辑三大分榜,盲测胜率达93%,领先第二名Banana 2达241分 [8] - 该模型采用从零重构的通用模型架构,被定位为首个具备原生思考能力的图像模型,文字渲染准确率推至99% [8] - 随着DALL-E 2与3将于5月12日退役,API高质量出图价格为0.21美元/张,图像生成进入推理时代,对扩散模型路线形成冲击 [8] 九、a16z对AI投资的观点 - a16z联合创始人Marc Andreessen认为,风险投资中机会成本错误远比成本错误更危险,错过下一个Google意味着失去千亿美元价值 [9] - 识别顶尖创始人需关注智力、勇气与原始驱动力三要素,伟大创始人能在童年痕迹或天赋中显现非做成不可的决心 [9] - AI价值约99%将归属使用者形成消费者剩余,技术高度民主化但人才高度集中于硅谷 [9]
计算机行业周报:板块小幅下跌,DeepSeek-V4预览版上线
国元证券· 2026-04-27 12:35
行业投资评级 - 行业评级为“推荐” [5] 核心观点 - 报告核心观点是建议关注国产算力生态的发展,特别是具备显著竞争优势的公司 [3][19] - 这一观点基于DeepSeek-V4预览版上线,其技术方案(细粒度专家并行)已在英伟达GPU和华为昇腾NPU上完成验证,表明国产算力深度参与了此次大模型的研发 [3][19] 市场回顾与指数表现 - 本周(2026.4.20-2026.4.24),计算机(申万)指数小幅下跌0.27%,结束了前两周的反弹 [1][10] - 同期,上证指数上涨0.70%,深证成指上涨0.37%,创业板指下跌0.29% [1][10] - 细分板块方面,申万二级行业指数涨跌幅分别为:计算机设备(+1.14%)、IT服务Ⅱ(+0.60%)、软件开发(-2.00%) [1][12] - 个股方面,计算机板块上涨、下跌和走平的个股数量分别为90、227和18只 [12] - 本周涨幅前三的个股为:皖通科技(21.45%)、品高股份(19.18%)、宏景科技(17.61%) [12] 重点公司公告摘要 - **卓易信息**:2025年实现营业收入3.35亿元,同比增长3.67%;归母净利润0.80亿元,同比增长142.79% [2][17] - **虹软科技**:2025年实现营业收入9.23亿元,同比增长13.22%;归母净利润2.58亿元,同比增长46.25% [2][17] - **中科创达**:2025年实现营业收入77.78亿元,同比增长44.45%;归母净利润4.50亿元,同比增长10.47% [2][17] - **智明达**:2026年第一季度实现营业收入1.08亿元,同比增长34.32%;归母净利润0.18亿元,同比增长114.44% [17] - **同花顺**:2026年第一季度实现营业收入10.53亿元,同比增长40.81%;归母净利润2.56亿元,同比增长112.58% [18] 行业重大事件与技术进展 - **DeepSeek-V4预览版上线**:模型拥有百万字超长上下文,在Agent能力、世界知识和推理性能上实现国内与开源领域领先 [3][19] - **模型性能**:DeepSeek-V4-Pro性能比肩顶级闭源模型 [3] - **Agent能力**:在Agentic Coding评测中达到当前开源模型最佳水平,内部使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式 [3][21] - **世界知识**:在世界知识测评中大幅领先其他开源模型,稍逊于顶尖闭源模型Gemini-Pro-3.1 [3][21] - **推理性能**:在数学、STEM、竞赛型代码测评中超越所有已公开评测的开源模型,比肩世界顶级闭源模型 [3][21] - **技术创新**:采用全新的注意力机制(token维度压缩结合DSA稀疏注意力),实现领先的长上下文能力并降低计算需求 [19] - **国产算力验证**:其细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证 [3][19] - **高德发布ABot具身智能技术基座**:由世界模型、导航模型、操作模型和Harness架构构成,并宣布开源全栈能力 [15] - **OpenAI发布GPT-Rosalind生命科学推理模型**:目标加速药物研发进程,首批向安进、莫德纳等机构开放 [15] - **阿里发布Qwen3.6-Max-Preview模型**:智能体编程能力显著提升,在Artificial Analysis榜单中登顶刷新国产模型表现 [15] - **OpenAI推出GPT Image 2**:能精准生成中文内容,解决乱码问题,展现出深厚的世界知识,可复刻复杂UI界面 [17] - **谷歌发布第八代TPU**:首次将训练(TPU 8t)与推理(TPU 8i)拆分为独立芯片,TPU 8t训练性能较上代提升2.7倍 [17] - **字节发布Seed3D 2.0**:从单张图像生成高质量3D模型,几何生成与纹理材质两项核心指标均取得SOTA(当前最佳) [17] - **Block组织架构变革**:CEO Jack Dorsey认为AI可直接取代中层管理,公司裁员40%,目标将组织层级压缩至2-3层 [15]
计算机行业周报:板块小幅下跌,DeepSeek-V4预览版上线-20260427
国元证券· 2026-04-27 10:41
行业投资评级 - 报告对计算机行业的投资评级为“推荐” [5] 核心观点 - 报告核心观点认为,DeepSeek-V4预览版上线并开源,其性能在多个维度达到国内与开源领域领先水平,并已实现国产算力深度参与,建议关注国产算力生态的发展,特别是具备显著竞争优势的公司 [3][19] 市场回顾与指数表现 - 本周(2026.4.20-2026.4.24),计算机(申万)指数小幅下跌0.27%,结束了前两周的反弹 [1][10] - 同期,上证指数上涨0.70%,深证成指上涨0.37%,创业板指下跌0.29% [1][10] - 细分板块方面,申万二级行业指数涨跌幅分别为:计算机设备(+1.14%)、IT服务Ⅱ(+0.60%)、软件开发(-2.00%) [1][12] - 个股方面,本周计算机板块上涨、下跌和走平的个股数量分别为90、227和18只,涨幅前三名为皖通科技(21.45%)、品高股份(19.18%)、宏景科技(17.61%) [12] 行业重大事件 - **高德发布ABot具身智能技术基座**:由世界模型、导航模型N系列、操作模型M系列和Harness架构构成“三位一体”,其ABot-World在WorldArena榜单超过Veo 3.1达10%,并宣布开源全栈能力 [15] - **OpenAI发布生命科学推理模型GPT-Rosalind**:目标加速平均10-15年的药物研发进程,在蛋白质化学推理、基因组学分析等方面表现更强,首批向安进、莫德纳等机构开放 [15] - **阿里发布下一代旗舰模型Qwen3.6-Max-Preview**:智能体编程能力显著提升,SkillsBench提升9.9分,SciCode提升10.8分,在Artificial Analysis榜单中登顶刷新国产模型表现 [15] - **Block CEO Jack Dorsey认为AI可直接取代中层管理**:公司因此裁员40%,并以“公司世界模型”和“客户世界模型”为核心重构组织,目标将层级压缩至2-3层 [15] - **OpenAI推出GPT Image 2并向所有ChatGPT用户开放**:能精准生成中文内容,彻底解决中文乱码问题,可完整复刻数字产品的UI界面,具备替代级生产力 [17] - **谷歌发布第八代TPU**:首次将训练与推理拆分为TPU 8t和TPU 8i两款独立芯片,TPU 8t训练性能较上代提升2.7倍,TPU 8i单位价格性能提升80% [17] - **字节发布Seed3D 2.0**:可从单张图像生成高质量3D模型,几何生成与纹理材质两项核心指标均取得SOTA,API已上线火山引擎 [17] 重点公司公告 - **卓易信息2025年年报**:实现营业收入3.35亿元,同比增长3.67%;归母净利润0.80亿元,同比增长142.79%;扣非归母净利润0.43亿元,同比增长191.13%;经营活动现金流量净额1.20亿元 [2][17] - **虹软科技2025年年报**:实现营业收入9.23亿元,同比增长13.22%;归母净利润2.58亿元,同比增长46.25%;扣非归母净利润2.14亿元,同比增长37.51%;经营活动现金流量净额2.08亿元 [2][17] - **中科创达2025年年报**:实现营业收入77.78亿元,同比增长44.45%;归母净利润4.50亿元,同比增长10.47%;扣非归母净利润3.44亿元,同比增长96.43%;经营活动现金流量净额6.80亿元 [2][17] - **智明达2026年一季报**:实现营业收入1.08亿元,同比增长34.32%;归母净利润0.18亿元,同比增长114.44%;扣非归母净利润0.16亿元,同比增长94.80% [17] - **同花顺2026年一季报**:实现营业收入10.53亿元,同比增长40.81%;归母净利润2.56亿元,同比增长112.58%;扣非归母净利润2.50亿元,同比增长122.58% [18] 投资观点详述 - **DeepSeek-V4技术亮点**:拥有百万字超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先 [3][19] - **模型版本**:分为deepseek-v4-pro和deepseek-v4-flash两个版本 [3][19] - **性能表现**: - **Agent能力**:DeepSeek-V4-Pro在Agentic Coding评测中达到当前开源模型最佳水平,内部使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式 [3][21] - **世界知识**:在世界知识测评中大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1 [3][21] - **推理性能**:在数学、STEM、竞赛型代码的测评中,超越所有已公开评测的开源模型,比肩世界顶级闭源模型 [3][21] - **技术创新**:开创全新注意力机制,在token维度进行压缩,结合DSA稀疏注意力,实现全球领先的长上下文能力并大幅降低计算和显存需求 [19] - **国产算力参与**:DeepSeek-V4将细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证,国产算力深度参与 [3][19]
DeepSeek-V4 Pro API限时2.5折;豆包“提前查到2026山东事业编成绩”,最新回应;微博考核全体研发AI能力;某大模型泄露用户简历|AI周报
AI前线· 2026-04-26 13:03
行业趋势与竞争格局 - 大模型竞争已全面从预训练主导的Chat时代转向后训练主导的Agent时代,顶尖团队的预训练与后训练算力投入比例已从过去的5:1收窄至1:1 [13][14] - 国内已有包括Kimi、MiMo在内的多家公司具备1T参数以上的基座模型,中美在预训练阶段的差距“基本上已经没有”,国内顶尖模型与国际前沿模型的代差仅约两三个月 [13] - 1T参数规模是实现接近顶尖Agent水平的“入场券” [14] - AGI预计将在两年内实现,当前进度已完成约20%,今年有望推进至60%到70% [13] 公司战略与组织动态 - 微博要求全体研发参加AI能力考试,考试内容为开发前后端系统,未通过者将接受集中培训 [2] - 字节跳动部分部门已开始实施A to A端到端全代码流程,由AI全程写代码,人类负责审核,并将AI代码贡献率纳入部门OKR进行考核 [3] - 自动驾驶公司Momenta在IPO前夕进行人员调整,据传感知算法部门“137人走人”,大部分为技术岗,此举或为优化财务报表以节省上亿元人力成本 [18][19] - 苹果公司宣布蒂姆·库克将于9月1日卸任CEO,转任执行董事长,由硬件工程高级副总裁约翰·特努斯接任,这是苹果自2011年以来首次CEO换届 [27] - Meta开始跟踪员工的工作方式(如击键和鼠标点击)以训练AI模型,此举引发部分员工不满 [22] 大模型发布与性能 - OpenAI发布迄今最智能的AI模型GPT-5.5,其核心突破在于大幅升级的Agent能力,能自主规划并执行多步骤复杂任务,在多项测试中表现卓越 [33][34] - OpenAI发布新一代图像生成模型GPT Image 2,这是首个具备“思考”能力的图像模型,在文字准确率、分辨率、生成速度等方面实现突破,支持4096×4096分辨率,单张图像生成仅需3秒 [36] - 月之暗面发布并开源最强代码模型Kimi K2.6,其在多项测试中表现持平或优于GPT-5.4、Claude Opus 4.6等,并能不间断编码长达13小时,编写超过4000行代码 [42][43] - 小米发布最强大模型MiMo-V2.5系列,包括旗舰推理模型MiMo-V2.5和全模态Agent模型V2.5-Pro,新模型在达到相同性能时可比竞品节省42%至50%的Token消耗 [40][41] - 腾讯发布并开源混元Hy3 preview语言模型,这是一款主打快慢思考融合的MoE模型,总参数295B,激活参数21B,最大支持256K上下文 [38][39] - 阿里巴巴发布Qwen3.6-Max预览版,在权威评测中登顶最佳国产模型,并宣布其AI视频生成项目HappyHorse-1.0将于4月27日开放测试 [44] - 字节跳动发布更高精度的新一代3D生成大模型Seed3D 2.0,采用MoE架构以生成更丰富的纹理细节 [46] - 谷歌发布基于Gemini 3.1 Pro的新一代自主研究Agent Deep Research与Deep Research Max,支持搜索专业数据库并原生生成图表 [48] 融资、投资与估值 - 亚马逊宣布向Anthropic追加50亿美元投资,并额外提供总计6吉瓦(GW)的Trainium芯片算力,累计投资达130亿美元,未来还计划追加200亿美元 [23] - 据彭博社报道,谷歌计划向Anthropic投资最高400亿美元,其中100亿美元现金将立即注入,后续300亿美元将根据业绩目标跟进 [25] - 深度求索(DeepSeek)在融资前的估值据传为3000亿人民币(约合440亿美元) [9] - SpaceX获得一项权利,允许其在今年晚些时候以600亿美元收购AI编程公司Cursor,或就双方GPU算力合作支付100亿美元 [26] 商业化与定价策略 - 深度求索为DeepSeek-V4-Pro模型API开启限时2.5折优惠,优惠期截至2026年5月5日,折后价格为每百万tokens输入(缓存命中)0.25元、输入(缓存未命中)3元、输出6元 [4][6] - 微软GitHub Copilot将于6月1日起从按“请求次数”计费转向按Token计费,例如选用GPT-5.4模型,每百万输入Token需支付2.50美元,每百万输出Token支付15美元 [20] - 小米升级模型订阅计划Token Plan,取消4倍的Credits计费方式,计费不区分上下文长度,并新增夜间专属优惠及自动续费模式 [41] - 蚂蚁灵光App推出“灵光圈”功能,并启动“灵光闪应用创作者激励计划”,将投入1亿元专项基金扶持创作者,每天最高激励100万元 [50] 技术合作与生态适配 - DeepSeek-V4系列获得广泛生态支持,英伟达Blackwell平台已适配其Pro与Flash版本,在GB200 NVL72上开箱即用性能超150 tokens/sec/user,此外PPIO、华为云、中国联通、天数智芯、寒武纪等均完成集成或适配 [6] - OpenAI的GPT-5.5运行于英伟达GB200 NVL72机架级系统,英伟达内部已有超1万名员工使用该技术 [35] - 亚马逊与Anthropic深化合作,Anthropic将在2026年前使用Trainium芯片训练并部署Claude模型,预计在2026年上半年获得5GW算力,未来10年内将向AWS投入超过1000亿美元 [23][24] - 特斯拉车机语音服务将接入豆包大模型与DeepSeek模型,均通过火山引擎接入 [52] 安全与风险事件 - 某大模型被曝泄露用户真实简历,用户在使用翻译功能时收到陌生人完整个人信息,专家指出这更接近数据隔离失效等工程问题,而非典型的“AI幻觉” [12] - 一名程序员为使用公司算力“干私活”,违规登录服务器并删除了超过89 TB的AI训练数据和多个文生3D模型,给公司造成20余万元经济损失,最终被判处有期徒刑五年十个月 [16][17] - 有网友称通过豆包大模型提前查到了2026年山东事业编成绩,官方回应称是工作人员测试成绩查询端口时被无意中访问到,发现后已及时关闭 [10][11] 其他行业动态 - 爱奇艺公布AI选角专利,可通过AI模型为影视作品智能推荐演员组合,其CEO连发博文回应“AI艺人库”争议,称不存在未经艺人同意将其纳入的情况 [28] - 谷歌发布第八代TPU芯片家族,首次分为训练芯片TPU 8t与推理芯片TPU 8i,在大规模训练场景下,TPU 8t单位美元性能较上一代提升高达2.7倍 [49] - 索尼AI研发的乒乓球机器人Ace在遵循国际规则的正式比赛中击败多名人类精英选手,这是AI机器人首次在需要物理互动的竞技体育中击败专业人类选手 [29] - 火山引擎宣布,其Seedance 2.0 API服务现已支持1080P全高清视频生成,为模型原生能力 [52]
今天起,GPT Image 2 要把全体设计师送走了
程序员的那些事· 2026-04-23 11:01
GPT Image 2的技术突破与行业影响 - OpenAI发布的GPT Image 2模型在图像生成质量上实现了重大飞跃,被普遍认为已超越竞争对手Nano Banana 2,重回该领域巅峰 [1][5] - 模型能够生成照片级写实的图像,达到真假难辨的程度,例如生成雪豹照片、热闹夜市、龙卷风等场景,效果极为逼真 [2][8][9][11] - 该模型解决了长期困扰AI生图的“文字渲染”难题,能生成字符清晰准确、无错字乱码的文本图像,例如精准还原《兰亭集序》等千古名篇的真迹质感 [36][37][38][39][43] - 其图像生成具有极高的稳定性和一致性,首次尝试即可产出形状清晰、文本可读、细节完整的图像,而以往需要10到15个版本迭代才能达到类似效果 [54][55] - 模型展现出对复杂视觉构思和特定美学风格的深刻理解,例如能精准生成吉卜力工作室风格的地图、达芬奇风格的示意图,以及《半条命1》GoldSrc引擎风格的内部场景 [49][51][69][70][71] 对创意与设计行业的颠覆 - 该模型强大的设计能力,使得专业海报、UI设计、信息图等能在几秒内生成,可能导致设计师、影视后期等行业面临失业风险 [4][56][75][82][84][87] - 在游戏开发行业,模型能生成完美的2D素材,结合代码生成能力,可能将游戏开发从依赖数千人团队、动辄五年周期的重资产模式,转变为独立开发者或单人可实现的即时个性化体验,大幅降低开发成本 [72] - 在影视与动画行业,模型能力可能扫平前期置景、后期CGI和特效渲染等主要成本环节,使电影和动画制作从资本密集型产业转变为想象力密集型产业 [73][74] - 模型为科研领域提供了强大工具,例如其生成的完整细胞图像已达到可为学术论文配图的水准 [60] 内容生成与版权的新范式 - 模型目前可以生成许多版权角色和公众人物图像,例如动漫人物、奥特曼、马斯克等,但像宝可梦、蝙蝠侠等特定角色仍会被拒绝生成 [21][23][25] - 用户利用模型生成了大量融合不同IP(知识产权)的梗图和创意内容,例如将《海贼王》角色融入《英雄联盟》比赛,或将海绵宝宝做成黑暗严肃的龙与地下城画风游戏,展现了强大的跨次元内容创作能力 [28][30][32][34] - 数字内容的生产成本被推向接近零的水平,这将重塑甚至重建许多依赖内容创作的行业 [53][72] 对社会信任体系的冲击 - 模型生成图像的高度逼真性,使得“有图有真相”的互联网信任基石被动摇,未来任何地方出现的图片、视频、音频都可能不再百分百可信,互联网的信任体系面临洗牌与重建 [5][14][87]
半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神
量子位· 2026-04-23 08:00
GPT Image 2 模型的技术突破与团队背景 - 模型底层架构已被彻底重构,被团队负责人神秘地描述为“通用模型”或“图像领域的GPT”,但未明确是否采用扩散或自回归技术 [1][2] - 模型实现了从“画得出来、画得清楚、画得好看”到“画得准”的跨越,正在消除用户意图与模型产出之间的差距 [29][30][68] - 该突破性成果由一支仅13人的核心团队在四个月内完成,从GPT Image 1.5(2024年12月底)到GPT Image 2仅用了四个月 [4][6] 核心团队成员的技术专长与贡献 - **研究负责人陈博远**:博士期间的研究“Diffusion Forcing”将逐token扩散与因果下一个token预测结合,融合了自回归与扩散模型的优势;在谷歌实习期间开发的指令微调技术被Gemini 2.0采用;2025年6月加入公司后负责所有图像生成模型的训练 [12][17][18] - **成员Jianfeng Wang**:负责提升模型的指令遵循与世界知识理解能力,使模型能精准生成不同时间(如2:25、3:30)的时钟,并理解复杂空间布局指令;此前在微软工作近9年,并与公司在DALL-E-3项目上有合作 [20][22][26][27][29] - **成员Yuguang Yang**:负责生成高精度复杂信息图表和PPT,例如可将75页的GPT-3论文自动总结为7张幻灯片,旨在为科研人员节省大量时间 [31][33][43] - **成员Weixin Liang**:在Meta实习期间的研究“Mixture-of-Transformers”通过模态解耦的MoE和解耦注意力,显著降低了多模态模型预训练的计算成本 [59][60] - **团队负责人Gabriel Goh**:自2019年加入公司,从DALL-E开始全程参与了多模态系列研究,早期研究聚焦于可解释性和凸优化 [52][53][54] - **其他关键成员**:包括来自Luma AI参与过Dream Machine训练的Ayaan Haque、来自谷歌参与过Imagen3和Gemini的Bing Liang、以及团队中的提示词大师Kiwhan Song [64][65][67] 模型展现的具体能力与数据 - **空间与度量理解**:通过构建互联网规模的3D空间推理VQA数据集(包含1000万图像、20亿QA对),使模型能从单张2D图像输出米制距离、尺寸、方位等精确数值,该能力已应用于具身智能领域 [14][15] - **多语言文本渲染**:能够精准无误地生成包含不同语言(如韩文、孟加拉语)文字的海报 [18] - **复杂指令遵循**:能够精准执行包含多个对象复杂空间布局(如苹果在中心、杯子在右边)的指令 [26] 公司的研发文化与团队构成 - 公司文化倡导自下而上的涌现式研究,不限制专业、欢迎跨界,能持续吸引有个性的人才 [70] - 团队成员的背景高度多元化且跨界,例如Yuguang Yang本科学习工程,博士研究计算化学物理与机器学习,曾从事量化分析、Alexa语音研究、Bing搜索理解等工作 [36][37][38][39][40] - 成功的研发模式通常始于小团队取得突破,随后公司倾斜更多资源进行扩大 [71]
投中信息杨晓磊:这不是资金短缺的年代,而是选择的年代
投中网· 2026-04-22 19:57
文章核心观点 - 当前中国创投市场正处于一个“K型曲线”分化的时代,共识很强但分化巨大,机会与风险并存 [3][8] - 市场呈现两极平行世界:AI、芯片、生物技术等硬科技赛道融资火热、估值高企,而大量存量企业则陷入长期融资荒 [3] - 政策支持硬科技、二级市场估值溢价以及资本回流共同推动了资金向特定赛道聚集,导致市场出现结构性泡沫与极端分化 [4][31] - 在K型时代,专业人才被视为核心的避险资产和撬动发展的杠杆,中国因其人才储备、产业链和政策支持,在K型上行曲线中充满机遇 [52][54] K型曲线的市场特征 - 市场呈现典型的幂律分布:头部项目能帮助基金回本,但约70%的项目尚未退出,存量巨大 [3][33] - 科技领域出现强烈K型分化:二级市场AIGC概念股估值远超老牌科技股,一级市场头部未上市公司的动向直接影响已上市公司估值 [17] - 不同行业体感截然不同:与AI、具身智能等新质生产力相关的产业在扩张,而落后产能则在痛苦地去库存 [23] - 融资环境分化严重:SaaS、文娱、传媒等行业融资极其困难,自2016年以来有超过5万家企业再未获得融资 [35] 驱动分化的核心力量 - 政策转向明确支持硬科技与新质生产力,从“市场化”转向“市场化”加“统筹发展与安全” [13] - 二级市场对科技创新给予持续高估值溢价,推动了资金向一级市场相关赛道聚集 [4][17] - 资本供给充沛:高净值人群与机构资本回流,保险资金、外资、主权基金及“国家队”(如发改委大基金、社保科创基金)等大量资金入场 [31] - 美联储降息周期、美元疲软及全球去美元资产风险化,促使资金流向中国资产,外资证券投资在2025年全面回流 [13][15] AI重塑产业与投资逻辑 - AI正在重塑二级市场的定价逻辑,涉及算力基础设施(AIDC)、核心资源类公司的估值倍数被重估 [21] - AI应用将冲击以摩擦成本为基础的服务业(如法律、会计、SaaS),目标是替代人力、消除成本 [24] - 中美AI发展路径不同:美国呈现“模型即应用”、赢家通吃的局面;中国因拥有制造业和供应链,机会相对分散,在应用层创业机会更多 [24] - 算力短期内短缺导致成本上涨(如Code plan涨价),但长期看成本将下降,预计应用层将迎来爆发 [45] 上行曲线的关键赛道与机会 - **AI与算力**:被视为市场最大热点和驱动力,模型能力趋稳,应用层发展潜力巨大 [45] - **医疗健康**:中国在全球创新药研发管线中占比达32%,合成生物、脑机接口、高端器械等领域出现真实产业爆发 [27] - **前沿科技**:商业航天、具身智能等赛道已模糊触及商业化边缘 [27] - **政策重点领域**:“十五五”规划中明确的具身、航天、脑机、核聚变等方向估值水涨船高 [31] 私募股权市场的现状 - 市场估值高企,存在由产业趋势和资金供给过剩共同推动的泡沫 [31] - 二级市场的优异表现(如两大GPU/大模型公司上市)正向反馈至一级市场,带动未上市模型公司估值跳涨 [31] - 项目制基金重现市场,头部项目对股东背景和资金体量要求更高 [31][49] - 投资策略调整:机构更关注存退比,追求快速实现DPI以改善流动性;对中等规模退出机会采取“能退尽退”策略 [49] 一线投资人的观察 - 多数投资人对2025年市场持乐观态度,主要基于政策支持和资金充沛 [41] - 存在担忧声音:在经济基本面变化不大的情况下创投市场异常火热,可能隐含较高风险 [41] - 募资环境整体好转,但市场化资金(如上市公司出资)显著减少:2024-2025年出资基金数量仅为疫情期间的70%左右,认缴规模从3400亿人民币降至不足1500亿人民币 [43] - 投资共识强于募资,投资人需在估值高企的环境中调整策略,面临类似“德扑桌上首张牌开出后众人全押”的决策困境 [45] K型时代的机遇与选择 - 专业深度人才被视为AI时代唯一的避险资产和撬动基建的杠杆 [52] - 中国创业环境具备四大优势:顶尖人才储备、全球最强产业链支持、本土用户给予更多试错机会、资金变多且政策支持 [54] - 接受市场分化的现实,根据自身判断选择是否进入K型上行曲线,市场存在泡沫被视为有生命力的表现 [4][54] - 创投行业作为桥梁,其回报速度取决于产业发展,上行曲线机会是指数级的,并由AI与政策作为最大杠杆 [54]
马斯克来抖音卖老干妈了??
猿大侠· 2026-04-20 12:11
文章核心观点 - OpenAI最新发布的生图模型GPT Image 2在图像生成的真实度上实现了质的飞跃,其生成的图片在细节、文字和整体构图上已能达到以假乱真的水平,标志着“有图为证”时代的终结[13][14][15][16] - 该模型能力的提升,特别是对文字信息的准确生成,极大地拓展了其在设计、电商、游戏等实际生产场景中的应用潜力,使得内容创作门槛大幅降低[33][34][35][36][37] - 该技术可能被整合进OpenAI的编程工具Codex,用于实现端到端的UI设计,将图像生成与编程逻辑垂直整合,从而提升前端开发体验并可能指向一个超级应用的雏形[55][56][57][62][63][64][65] - 模型能力的突破性进展也引发了对于虚假信息、电信诈骗等网络安全和社会问题的深层担忧,AI生成内容正悄然通过图灵测试的奇点,虚拟与现实的边界将日益模糊[70][71][72][73][74][75] 根据相关目录分别进行总结 GPT Image 2的技术能力与突破 - **图像真实度达到新高度**:生成的图片(如马斯克直播带货、GTA-6游戏截图、时尚海报)第一眼难以被识别为AI作品,需要仔细审视才能发现[17][18][19][20][21] - **复杂文字生成能力显著提升**:能够生成逻辑正确、信息密度高的文字内容,例如韩文日记、汉语字典页面、产品定价表等,解决了以往AIGC在文字方面的短板[26][28][29][30][31][51] - **细节还原精准**:在生成游戏截图(如《我的世界》风格)时,能完美还原血条、饥饿值、经验值等状态栏以及资产形态[25] 应用场景与商业潜力 - **设计领域应用广泛**:模型能生成包含产品信息、活动详情的海报,使得游戏海报、电商海报等设计工作实现“零门槛”,普通用户也能轻松制作[34][35][36][37] - **赋能电商与内容创作**:生成的素材质量可与全球顶尖品牌对齐,为个人副业或电商运营提供了强大的工具[44] - **与编程工具结合潜力巨大**:该能力若与Codex结合,可实现无需准备参考图和数据资产的端到端UI设计,大幅提升前端开发效率与体验[55][62][63][65] 对OpenAI产品战略的潜在影响 - **补强多模态能力**:Image 2的出现证明了多模态路线对OpenAI的价值,可能用于增强其综合产品能力[65] - **推动超级应用整合**:Codex通过内置浏览器和接入图像生成模型(如GPT-image-1.5/2),正朝着整合ChatGPT、Codex、Atlas的超级应用雏形发展[56][57][58][60][61] - **提升UI设计能力**:强大的图像模仿能力有望解决GPT在UI设计上的短板,基于图片生成进行开发将更可靠[47][64][65] 行业影响与社会隐忧 - **颠覆内容验证基础**:AI生图已达到99%的人都无法辨别的以假乱真程度,“有图为证”的信任基础被瓦解[16][71] - **加剧网络安全风险**:技术可能被用于制造电信诈骗素材、视频谣言等,与日常生活息息相关的安全威胁增大[72] - **通过技术奇点**:AI生图的图灵测试正在悄然通过奇点,意味着虚拟与现实将加速融合,社会将进入一个难以简单区分真伪的新阶段[73][74][75]
马斯克来抖音卖老干妈了??
量子位· 2026-04-19 12:31
文章核心观点 - OpenAI最新发布的图像生成模型GPT Image 2在生成质量上实现了巨大飞跃 其生成的图像与文字内容已达到以假乱真的程度 标志着AI生成内容进入新阶段 对设计、电商、前端开发等多个行业将产生深远影响 [14][15][16][71][72] AI图像生成技术进展 - GPT Image 2生成的图像第一眼难以被识别为AI作品 需要仔细观察才能发现其并非真实照片或人工设计 [16][17][18] - 模型在复杂场景还原上表现卓越 例如能生成与《我的世界》游戏界面完全一致的截图 包括血条、饥饿值等状态栏 [24] - 模型在文字生成方面取得关键突破 生成的文字内容逻辑正确且无乱码 例如能生成内容连贯的韩文日记和排版复杂的汉语字典页面 [25][28][29][30] - 该技术使得生成高质量的商业素材(如时尚海报、电商海报、游戏海报)门槛大幅降低 普通用户也能轻松制作 [22][36][41][44] 对特定行业的影响与应用 - **设计行业**:模型能生成可直接使用的商品展示图 其质量可与全球顶尖品牌素材对齐 对专业设计师构成潜在挑战 [41][44] - **电商行业**:AI生成的上架素材质量极高 为零基础用户从事电商副业提供了强大工具 [36][44] - **前端设计与开发**:模型强大的UI模仿能力(如生成高度逼真的OpenAI官网或Windows桌面截图)与编程工具结合 可能彻底改变前端开发流程 实现从描述到UI的端到端生成 [46][48][53][56][63][64][66] OpenAI的产品战略方向 - OpenAI可能正通过Codex等工具 将图像生成与编程能力进行垂直整合 旨在打造一个集成了ChatGPT、Codex、Atlas等功能的超级APP [57][58][66] - 公司已将浏览器功能内置 并接入了GPT-image-1.5 使得在编程环境中直接生成并应用UI素材成为可能 提升了开发效率 [59][61][63][64] - 尽管视频生成模型Sora进展暂缓 但多模态技术路线在UI设计等特定领域展现出明确价值与整合潜力 [66] 技术普及与社会影响 - 该模型目前并未向ChatGPT Plus会员开放 公众可通过LM Arena等平台尝试 [66][68] - AI生成内容已达到能欺骗绝大多数人的水平 “有图为证”的时代可能终结 这将对社会信息验证、防范电信诈骗和虚假视频谣言等提出严峻挑战 [16][72][73][74][75]