Workflow
Nano Banana Pro
icon
搜索文档
一夜变天:GPT-Image-2流出,昔日王者Nano Banana Pro要被拉下神坛?
机器之心· 2026-04-05 11:03
文章核心观点 - OpenAI新一代多模态图像生成模型GPT-Image-2疑似泄露,其多项性能指标表现卓越,尤其在文字渲染和世界知识理解方面被认为超越了主要竞争对手谷歌的Nano Banana Pro,引发了行业和社区的广泛关注与积极评价 [1][2][4][6][12][24][25] 模型发布与测试动态 - 距离上一代GPT-Image-1.5发布已近4个月,GPT-Image-2的泄露消息在海外社区引发热议 [1][2] - 公司曾在Chatbot Arena以多个代号(如“maskingtape-alpha”、“gaffertape-alpha”和“packingtape-alpha”)对新模型进行测试,但相关测试目前已下线 [3][6] - 该模型已开始向部分ChatGPT用户逐步开放测试 [24] 模型性能表现 - **文字渲染能力**:模型在文字渲染能力上表现“强得惊人” [4] - **世界知识理解**:模型在世界知识理解方面表现突出,整体水平被认为可能超过谷歌的Nano Banana Pro [6] - **复杂场景生成与理解**:模型能够对信息密度极高的整张网页进行约90%的还原与理解,被认为是一次“范式转变” [14] - **图像编辑保真度**:相比前代V1.5,模型在图像编辑过程中出现偏离原图的问题得到显著改善,编辑后图像与原图几乎无“可察觉的差异” [19] - **图像超分辨率与修复**:模型可将低分辨率图片提升为高清效果,并能去除背景纹理、滤镜及水印等干扰元素,处理后图像质量“明显优于原图” [32] - **真实感与细节**:模型在生成精细的人体解剖学前视图等复杂图像时表现出色 [8],其生成的YouTube风格图片“几乎和真实效果无法区分” [12] - **特定问题改进**:新一代模型有望解决前代存在的“黄色滤镜”问题 [17] 与竞争对手的比较 - 模型在多个方面被评价为对谷歌的Nano Banana Pro实现了“彻底碾压”和“超越” [25] - 模型的出现意味着DeepMind“终于迎来了真正意义上的竞争对手” [30] - 行业期待其与谷歌下一代产品Nano Banana Pro 2的正面对比表现 [30] 社区反响与行业影响 - 社区对模型表现“非常认可”,认为其“简直要碾压一切”,标志着过去被嘲笑的时代已经过去 [12][24] - 模型在生成特定人物(如奥特曼)图像的真实感上成为区分新旧版本的特征之一 [21] - 模型能生成具有话题性的内容,如奥特曼与马斯克的“和解”图像 [27] - 行业对模型正式版的登场充满期待 [34]
AI Stocks Worth Adding to Your Portfolio for Healthy Returns
ZACKS· 2026-03-12 01:56
人工智能行业概览与增长动力 - 人工智能技术通过机器学习、深度学习等技术模仿人类智能,正在变革机器人、医疗、金融等多个行业,成为提升组织敏捷性、生产力和运营效率的核心驱动力 [2] - 全球人工智能支出预计在2026年达到2.5万亿美元,较2025年增长44% [3] - 人工智能模型的持续演进得益于对大型语言模型开发的强劲投入 [4] 关键市场参与者与产业链 - 微软、Alphabet和Meta Platforms等美国科技巨头在推动人工智能技术进步方面处于前沿 [3] - 英伟达和美光科技提供强大的人工智能芯片支持行业发展,OpenAI与AMD及英伟达的交易反映了对人工智能芯片不断增长的需求 [3] - Alphabet的Tensor处理单元正获得市场关注,半导体设备及测试解决方案提供商如KLA和Teradyne也受益于强劲的人工智能及高性能计算需求 [3] 人工智能模型与应用进展 - 微软支持的OpenAI推出了GPT-5聊天模型,在自然语言理解和生成能力方面有重大改进 [4] - Alphabet推出了基于Gemini 3 Pro构建的Nano Banana Pro,以扩展其生成式人工智能布局,并将人工智能融入其搜索业务以吸引更多用户 [4] - Meta Platforms专注于将人工智能整合到其平台中,以提升用户参与度,这些举措共同推动了广告收入增长 [4] 美光科技投资要点 - 公司受益于对高带宽内存的激增需求以及DRAM价格的强劲复苏,在2026财年第一季度,DRAM收入占其总销售额的79%以上 [6] - 人工智能服务器需求上升导致尖端DRAM供应稀缺,可能推动价格上涨,这将支持公司的利润扩张和盈利能力 [6] - 公司凭借其HBM3E解决方案利用人工智能热潮,该方案正越来越多地被主要超大规模云服务商和企业客户采用 [6] - 公司有望成为人工智能相关基础设施支出激增的主要受益者,人工智能个人电脑是其增长计划的重要组成部分 [7] - 与英伟达、AMD和英特尔等合作伙伴关系的扩展,使公司能够获取更大的人工智能基础设施市场份额,与主要云和企业客户深化关系确保了稳定的收入流 [7] Teradyne投资要点 - 公司受益于强劲的人工智能相关需求,该需求推动了云人工智能建设的重大投资 [8] - 其半导体测试业务,特别是系统级芯片和内存测试部门,表现出可观的同比增长,2025年SoC测试收入同比增长23%,由网络和VIP计算驱动 [9] - 计算业务已成为公司最大的收入组成部分,在2025年同比增长90%,这反映了公司战略转向利用高性能计算中人工智能驱动的需求 [9] - 公司预计半导体测试市场将强劲增长,特别是计算领域,由于人工智能数据中心的快速建设和边缘人工智能的增长,该领域预计将显著扩张 [10] - 公司预计计算领域将在2026年驱动其收入的很大一部分,人工智能应用预计在2026年第一季度贡献高达70%的收入 [10] 英伟达投资要点 - 公司一直是人工智能热潮的主要受益者,这推动了对其图形处理单元和计算解决方案的强劲需求 [11] - 其数据中心业务受益于用于训练和推断大型语言模型的Blackwell GPU计算平台出货量增加 [11] - 对Blackwell GPU计算平台的需求是关键催化剂,因为云提供商和企业正在扩展其人工智能基础设施 [11] - 公司在人工智能芯片开发领域的领导地位使其数据中心业务部门有望实现持续的收入增长 [12] - 公司对2027财年第一季度的展望保持乐观,预计第一季度收入将同比增长77%至780亿美元,反映了人工智能驱动需求的持续势头 [12]
高中生AI创业,现在只招龙虾员工:每月成本2800
量子位· 2026-03-08 14:45
公司概况 - 一家由无代码基础的高中毕业生创立的“全龙虾公司”,即完全由AI代理(昵称为“龙虾”)运营的营销公司 [1][26] - 公司实现了零真人员工,但拥有完整的组织架构,涵盖设计、开发、研究、内容、运营等部门,各AI代理各司其职 [5][6] - 公司每月运营成本仅为400美元,已积累超过450名付费用户 [2][7] 成本结构与技术栈 - 每月400美元成本主要分配为:250美元用于Claude Max订阅,150美元用于各类API调用额度 [8] - 采用混合AI模型策略:6个核心“龙虾”使用Claude以保证质量,其余任务使用低成本API以控制开支 [9] - 运行环境基于一台16GB内存与512GB存储的Mac Mini,用于运行OpenClaw环境 [10] 组织架构与运营流程 - **总调度(贾维斯)**:基于Opus 4.6,通过Claude Max OAuth运行,作为团队大脑自动将不同任务(如YouTube URL、研究报告)精准分配给对应的AI,全程无需人工干预 [12][13] - **研究部门(Atlas)**:作为信息雷达,利用Brave Search、X API、FireCrawl等多种API每小时扫描全网进行深度研究,并将碎片化信息整合成行业报告 [15] - **内容部门**:由文案撰写员Scribe(基于GLM 5,每3小时产出一篇优质文章)和潮流侦察员Trendy(每2小时扫描X、Reddit等平台的热门趋势)组成黄金搭档 [16][17] - **设计部门**:承包所有视觉需求,使用Nano Banana Pro进行图片设计,Higgsfield等工具进行视频制作,并结合Claude Code进行动态图形和动画设计 [19][20] - **技术开发与质量保障**:高级开发人员Clawed每晚11点自动审查代码库并提交优化请求,能在Claude Code中并行启动多个AI协作;质检员Sentinel每2小时对代码请求进行二次审查并监控漏洞 [21][22][23][24] - **增长部门**:由Atlas和Scribe合作,通过深度研究挖掘Reddit等平台用户真实需求后,创作针对性营销内容以精准触达目标用户 [24] - **运营部门**:Clipper负责视频剪辑、发布排期及多平台分发;Ryder作为创始人私人助理处理日常琐事 [24] - 整套AI协作体系可实现公司24小时不间断运转 [25] 创始人背景与公司管理 - 创始人仅为高中毕业生,无大学学历,在创业前无任何代码基础,甚至不了解GitHub、IDE、终端等概念 [26][27] - 管理AI团队的核心在于“提示词”,创始人通过大量提示词头脑风暴为每个AI制定精准详细的工作指令、标准及协作逻辑 [29][30][31] - 创始人自建了可视化任务控制中心,可实时监控任务进度并根据业务需求随时调整指令 [31][32] - 对于未来规模扩张,创始人表示无意雇佣真正的开发人员,而是希望雇佣那些“拥有自己AI团队”的高效管理者 [34] 行业现象与趋势 - 此案例展示了极低成本的AI代理创业模式,将AI工具应用于代码开发、内容创作、视频剪辑、行业研究、营销推广等专业领域 [6][37] - 在社交媒体上引发了用户创建并管理AI代理团队(“龙虾军团”或“赛博朝廷”)以完成各类任务的风潮 [35][37][39]
海外华人15人团队打造,统一理解与生成的图像模型,超越Nano banana登顶图像编辑
机器之心· 2026-03-06 14:16
文章核心观点 - Luma AI公司发布其首个统一图像理解与生成模型Uni-1,该模型采用decoder-only自回归Transformer架构,将理解与生成能力整合于单一模型,旨在让AI具备“思考”能力[1][2] - 在RISEBench推理式生成基准上,Uni-1取得当前最优成绩,并在ODinW-13开放词汇密集检测等理解任务上展现出强劲竞争力[10][83] - 该模型通过“推理式生成”技术,在处理复杂指令时先进行结构化内部推理,再执行渲染,其生成训练被证明能显著提升模型的细粒度理解能力[79][80][81] - 与谷歌、OpenAI等大公司依赖巨量资源的路径不同,Luma AI凭借小规模精英团队和更聪明的架构设计,试图在资源有限的条件下实现超越规模优势的结果[95][97][98][99] 模型技术架构与性能 - **统一架构设计**:Uni-1采用decoder-only自回归Transformer架构,将文本token和图像token表示在同一个交错序列中,实现了对时间、空间和逻辑的联合建模,使文本和图像既可作输入也可作输出[79] - **性能基准表现**:在评估生成模型推理能力的RISEBench基准测试中,Uni-1取得当前最优成绩,该基准覆盖时间、因果、空间和逻辑四个推理维度[81] - **理解能力验证**:在传统上由专门理解模型主导的ODinW-13开放词汇密集检测基准上,Uni-1取得了有竞争力的成绩,验证了“生成训练提升理解能力”的技术假说[83] 模型具体能力展示 - **中文文字渲染**:在生成包含“新春快乐”、“马年大吉”等中文文字的马年新春贺卡任务中,Uni-1在文字完整性、排版合理性和视觉风格一致性上均优于对比模型GPT Image 1.5和Google Nano Banana Pro[18] - **信息图理解与生成**: - 在将公益海报提取为信息图的任务中,Uni-1准确还原了文字内容并保持了正确的层级结构,而对比模型存在混淆层级或内容不完整的问题[22] - 在生成关于“水钟与古代计时”的密集文字信息图任务中,Uni-1在布局规划、文字清晰度和图文配合方面表现优于其他模型[28] - 在生成“种子到植物生命周期”平铺式信息图时,Uni-1准确呈现了完整生命周期阶段,并正确展示了植物形态的渐变关系[36] - **参考图引导生成**: - 在需要融合4张参考图(两只猫、一位真人、Luma AI logo)合成会议场景的任务中,Uni-1准确保留了每个参考对象的身份特征并实现了合理构图[39] - 在处理5张不同参考图(3只动物、一个logo和学术礼帽)融合为连贯场景的任务中,Uni-1展现了精确的多源参考信息控制能力[43] - **草稿引导编辑与转化**: - 在将外套设计草稿与面料材质参考结合生成写实产品概念图的任务中,Uni-1准确映射了面料纹理,生成了具有商业可用度的渲染图[50] - 在将粗略漫画分镜草稿转化为精细漫画插图的任务中,Uni-1完整保留并精细化了所有细部信息,体现了对草稿语义的深层理解[59] - **风格迁移与角色一致性**: - 在将现代女性发型迁移至《蒙娜丽莎》画像并保留油画风格的任务中,Uni-1在风格一致性和迁移准确性上取得了平衡[63] - 在生成展示同一角色从童年到老年在钢琴前的6帧故事板任务中,Uni-1全程维持了角色身份特征的一致性、叙事连贯性和时间逻辑[69] - **多轮交互编辑**:在对泰迪熊照片进行连续三轮编辑的任务中,Uni-1精准执行了每一轮指令,并保持了各轮之间主体身份和空间关系的连贯,展现了统一架构在理解和生成协同上的优势[73] - **专业视觉任务**:在根据三张面部照片生成标准UV贴图的任务中,Uni-1在面部特征对齐、对称性和肤色一致性方面优于对比模型[76] 行业背景与竞争格局 - **行业技术路线演变**:当前视觉AI领域,图像理解与图像生成长期是两条独立的技术路线,Uni-1代表了从“分治”到“统一”的技术趋势[78] - **主要竞争者动态**:谷歌近期推出了主打“又快又便宜”的Nano Banana 2模型,并在社交平台引发关注[5] - **资源路径差异**:谷歌、OpenAI、Meta等大公司依赖巨量资源堆砌模型上限,而Luma AI等初创公司则尝试通过更聪明的架构设计以小博大[97][98][99] 公司团队与未来规划 - **核心团队**:Uni-1由不到15人的核心研究团队开发,由两位华人学者领衔[85] - 首席科学家宋佳铭,其发明的DDIM算法被Stable Diffusion、DALL・E等广泛采用,引用量超过万次,并曾获ICLR 2022 Outstanding Paper Award[86][87][88] - 研究负责人William Shen(沈博魁),研究横跨计算机视觉、机器人、图形学和生成模型,曾获CVPR Best Paper Award提名,其创立的公司被Luma AI收购[90][91][94] - **未来规划**:Uni-1是Luma迈向统一多模态智能的第一步,后续统一框架将从静态图像扩展到视频、语音和交互式世界模拟等模态,旨在构建能完成“看、说、推理、想象”的多模态系统[98]
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
量子位· 2026-03-06 11:36
公司及产品介绍 - Luma AI公司发布了一个全新的统一图像理解与生成模型,名为Uni-1,该模型正面对标谷歌的Nano Banana Pro和OpenAI的GPT Image 1.5 [1] - Uni-1模型具备多种能力,包括角色姿态迁移、故事板生成、草稿转漫画、多参考图场景合成、UV贴图生成、带有文字的贺卡海报生成等 [3] - 实现这一惊艳效果的Uni-1模型,其研发团队规模不到15人,且是一支华人研究团队 [8] 技术能力与性能表现 - 在多项权威任务评测中,Uni-1的表现不仅能够对标Nano Banana Pro和GPT Image 1.5,部分任务的表现更是达到世界领先水平 [6] - 在中文文字渲染任务中,Uni-1生成的马年新春贺卡文字内容完整、排版合理,而GPT Image 1.5出现了文字混乱,Nano Banana Pro的文字渲染也有明显瑕疵 [11][12] - 在多参考图场景合成任务中,Uni-1能够精确还原每张参考图的身份特征,并将它们合理地组织进同一个会议场景,而竞品模型则存在直接将参考图“贴”到场景或融合失败的问题 [15][16] - 在信息图提取任务中,Uni-1准确还原了实拍海报的完整布局、所有文字、正确配色及细节,而竞品模型出现了文字缺失、颜色错误或logo问题 [21] - 在草稿转漫画任务中,Uni-1完美地将粗糙草稿意图转化为专业漫画,精准还原了分格构图、对话气泡及所有细节 [26] - 在生成6帧故事板的任务中,Uni-1展现了跨帧角色一致性和时间叙事能力,在6帧画面中保持了角色身份、钢琴、透视和画风的一致性 [31] - 在UV贴图生成任务中,Uni-1生成的结果在面部对齐、左右对称和肤色一致性上明显优于GPT Image 1.5和Nano Banana Pro,显示出对三维空间结构的深层理解 [37][38][39] - 在RISEBench基准测试(评估时间、因果、空间和逻辑推理)上,Uni-1取得了世界最优成绩 [48] - 在开放词汇密集检测(ODin W-13)基准上,Uni-1也展现出了强劲的竞争力,在一个传统上由纯理解模型主导的领域不输专门模型 [50] 团队背景与技术路径 - 团队的研究负责人之一是宋佳铭,其发明的DDIM(Denoising Diffusion Implicit Models)论文被引用超过万次,并获得ICLR 2022 Outstanding Paper Award,该技术是众多扩散模型图像生成工具的基础 [41][42] - 另一位研究负责人是沈博魁,其代表作获得了CVPR 2018 Best Paper Award,并入选RSS 2022 Best Student Paper Finalist [44] - 团队选择的技术路线与大厂不同,不是把图像理解和生成分开,而是采用decoder-only自回归Transformer架构,在一个统一框架内同时建模时间、空间和逻辑,让模型同时具备理解和生成能力 [45][46] - 公司发现生成训练能显著提升模型的理解能力,这与人类的认知规律高度一致 [47] - 在推理式生成任务中,Uni-1会在合成图像前进行结构化的内部推理,即先分解指令、规划构图,然后再渲染输出 [48] 行业意义与未来展望 - Uni-1的成功表明,统一模型可能是下一代视觉AI的发展方向,当理解和生成由同一个模型完成,许多过去需要复杂流程的任务可以在一个模型内优雅解决 [51] - 这一成就证明顶尖的AI研究不一定需要万人团队和无限算力,在正确的技术路线上,优秀的人才密度可以弥补资源的差距 [52] - Luma AI表示,Uni-1只是第一步,下一阶段计划将统一框架从静态图像扩展到视频、语音、交互式世界模拟,最终目标是构建能够“看、说、推理、想象”的统一多模态系统 [52][53]
Nano Banana 2免费上线,超Pro版本100分登顶竞技场,API价格还对半砍了
36氪· 2026-02-27 17:50
产品发布与市场地位 - 谷歌旗下AI图像生成模型Nano Banana 2正式发布,其定位为在保持“Flash级”极速生成的同时,提供“Pro级”的专业能力[4] - 根据2026年2月25日的Text-to-Image Arena排行榜数据,Nano Banana 2(模型名:gemini-3.1-flash-image-preview)在“产品、品牌与传播”类别中综合排名第一,得分为1324分[3] - 在竞技场总榜中,Nano Banana 2的得分超越其前代专业版Nano Banana Pro(得分1264分)达100分,确立了新的领先地位[2][3][16] 技术性能与功能升级 - 生成速度大幅提升,实测生成单张图片仅需几秒钟[4] - 主体一致性能力增强,在单个工作流程中最多可保持5个角色的一致性和最多14个物体的保真度[8] - 指令遵循能力得到增强,能够更严格地执行复杂的文本提示[10] - 支持广泛的生成规格,图像分辨率覆盖从512像素到4K,并支持控制各种长宽比[12] - 视觉保真度升级,提供更生动的光照、更丰富的纹理和更清晰的细节[12] - 整合了网络搜索功能,可结合实时信息来增强生成内容的质量[6] 定价策略与商业模式 - Nano Banana 2提供免费使用 tier[6] - 其付费API(型号:gemini-3.1-flash-image-preview)的定价已公布,图像生成按分辨率收费[14] - 生成一张1K分辨率的图像成本为0.067美元(约合人民币0.46元),此价格比Nano Banana Pro便宜了一半[15] - 服务包含每月5,000次提示词的免费网络搜索增强额度,超出部分按每1,000次搜索查询14美元收费[15] 市场整合与行业影响 - 谷歌已将Nano Banana 2集成到其搜索服务和广告业务中[18] - 市场反馈积极,有观点认为该模型凭借强大的免费功能和极低的付费成本“再一次提高了标准”[19] - 极低的生成成本引发了关于其对设计行业潜在影响的讨论,有评论惊叹“设计师的时代要结束了”[21] - 用户已开始基于Nano Banana 2开发创新应用,例如将其与视频生成模型(如Seedance 2.0)结合使用[22][24]
谷歌Nano Banana 2来了,设计师时代结束了?
第一财经· 2026-02-27 13:54
产品发布与迭代 - 谷歌于北京时间2月27日发布了其最新的图像生成模型 Nano Banana 2 (Gemini 3.1 Flash Image) [1] - 该模型是谷歌团队目前最好的图像生成和编辑模型,兼具了速度和此前Pro版的性能,同时价格也更便宜 [1] - 相比初代Nano Banana,Nano Banana 2大幅缩小了速度与画质的差距,能生成高质量、照片级的逼真图像 [16] 性能与基准测试 - 根据AI基准测试机构Artificial Analysis的数据,Nano Banana 2在文生图榜单中排名第一,在图像编辑榜单中排名第三 [1] - 大模型竞技场LMArena发布的排行榜同样显示,Nano Banana 2拿下全球第一,文生图测试得分为1280分,超越了GPT Image 1.5 (1268分) 和 Nano Banana Pro (1220分) [4] - 在谷歌AI Studio平台,Nano Banana 2输出每张1k图片的单价为0.067美元,输入为0.5美元,而Nano Banana Pro对应的价格是0.134美元和2美元,价格便宜一半 [4] 技术特性与功能 - 模型具备先进的世界知识、精确的文本渲染和翻译、主题一致性、精确的指令执行和视觉保真度提升等功能 [4] - 模型可以呈现生动的光照、更丰富的纹理、更清晰的细节 [4] - 在单个工作流中,最多能保持五个角色的形象相似性,以及最多14个对象的特征一致性 [16] - 模型支持高级文本渲染和本地化,能够直接在图像中生成或翻译多种语言的文本 [13] 应用案例与客户反馈 - 谷歌创建了名为“Window Seat”的程序进行演示,用户可指定世界上任一地区的窗户位置,模型能生成逼真画面并根据实时天气数据更新景色 [5] - 谷歌开发了“全球广告本地化器”演示应用,可将英语版本的图像广告翻译成不同语言(如日文、法语等)以适应国际市场 [13] - AI应用开发公司HubX通过集成Nano Banana 2,实现了74%–76%的延迟降低,人脸编辑工作流速度提升了4倍,同时没有牺牲专业级画质 [16] - 有博主测评显示,无论是人物表情控制、还是文本生成和排版,Nano Banana 2都比Pro版本有很大提升 [16] 当前局限性与挑战 - 有测试发现,Nano Banana 2在生成图像时存在位置错误、中文字体标注错误等问题 [6] - 模型输出水平不稳定,例如在网页版中连广州塔的位置都绘制错误 [11] - 或许是由于参数量较小的原因,Nano Banana 2对人体结构、复杂度动作、物体结构认知不足,在一些复杂场景(如人体倒立)上会有问题 [16] - 有评论认为当前AI生图的不真实感仍然较重,生成并不准确 [4]
Nano Banana 2发布!速度更快,4K直出,接入谷歌全线产品
Founder Park· 2026-02-27 12:07
产品发布与核心性能 - 谷歌发布了最新图像生成模型Nano Banana 2,该模型基于Gemini 3.1 Flash Image,在生成速度、多语言文字处理和实时联网能力上均有大幅提升,并能直接生成4K图像 [2] - 在Artificial Analysis的文生图基准测试中,Nano Banana 2位列全球第一,在图像编辑能力上排名第三,仅次于GPT Image 1.5和Nano Banana Pro [4][5] - 在Image Arena的文生图排名中,Nano Banana 2以1279 Elo得分问鼎榜首,其图像编辑实力仅次于GPT Image [6] - 谷歌官方测评显示,Nano Banana 2在开启特定功能后,在整体偏好、视觉质量和信息图表准确性三个维度上全面超越了GPT-Image 1.5、Grok Imagine Image Pro等竞品以及其前代产品Nano Banana Pro [7] - 模型的API定价为每千张图像67.0美元,输出价格约为0.0672美元/张,仅为Nano Banana Pro价格(134.0美元/千张)的一半 [6][9] 核心技术优势:世界知识与文本渲染 - Nano Banana 2的核心优势之一是具备“世界知识”,它全面接入了Gemini的知识库和实时网络搜索,能够基于真实信息进行图像生成 [11] - 该模型能根据真实存在的物体(如建筑)进行网络搜索获取视觉参考,再按照指定风格渲染,确保准确性,例如准确生成克洛·吕斯城堡的立体主义风格图像 [12][22][23] - 基于世界知识,模型能够直接生成信息图表、将笔记转化为示意图以及进行数据可视化,例如生成水循环科普信息图和云类型对比三联画 [13][14][16][18][19] - 谷歌通过“Window Seat”应用展示了此能力,模型可结合知识库、网络图像搜索及实时天气数据,生成基于真实地理和气象信息的飞机窗外风景 [25][26][27] - 模型的第二大优势是强大的文本渲染和翻译能力,解决了AI图像生成中文字渲染不清晰的问题,生成的文字准确清晰,适用于营销海报、贺卡等场景 [28][29] - 模型具备“一键本地化”能力,可将整个广告概念(包括文字和视觉元素)转换成目标市场(如印度)的语言和风格,谷歌为此推出了“Global Ad Localizer”演示工具 [30][31][32] 图像质量与生成能力提升 - 模型在主体一致性上实现大幅提升,在一个工作流中最多能保持5个角色的特征一致,以及14个对象的高保真度 [34][35] - 例如,能生成包含14个风格各异但特征保持一致的角色的农场场景,以及保证3个角色在6张连续叙事图中服装和外貌始终一致 [36][37][38][42][44] - 通过“Pet Passport”应用,用户上传宠物照片后,模型能在保持宠物外观高度一致的前提下,将其置于全球不同著名地标中 [45][46][47] - 模型的指令遵循能力更加精准,能更好地捕捉用户提示中的微妙细节 [48] - 支持从512px到4K的多种分辨率,新增512px层级以优化低延迟和高负载场景;新增4:1、1:4、8:1和1:8等极端宽高比,原生适配各种广告和内容格式 [49] - 为开发者提供可配置的“思考级别”功能,调整模型生成前的推理深度,在高级或动态模式下可显著提升输出质量和指令遵循度 [51][52][53] - 视觉质量全面提升,包括更生动的光影、更丰富的纹理和更锐利的细节 [54][55] 应用生态与市场整合 - Nano Banana 2已全面接入谷歌全线产品,包括Gemini App、Google搜索(含AI Mode和智能镜头)、AI Studio、Gemini API、Vertex AI、Google Antigravity等 [101][102][107][109] - 在Gemini App中,Nano Banana 2将在Fast、Thinking和Pro模型中全面取代Nano Banana Pro,用户仍可手动切换回旧版模型 [104] - 在Flow平台中,Nano Banana 2成为默认模型,所有用户可免积分使用 [110] - 该模型也已集成到Google Ads中,在创建广告系列时会自动提供智能建议 [113]
Nano Banana 2,泄露
36氪· 2026-02-26 07:26
谷歌AI图像生成模型Nano Banana 2传闻 - 过去48小时,谷歌最新图片生成模型Nano Banana 2(又名Gemini 3.1 Flash Image预览版)成为AI开发者圈热议话题,关于其发布的帖子在社交平台X上层出不穷,4K图片四处流传[1] - 如果Nano Banana 2发布,其相对于Nano Banana Pro在性能和价格上会有多大程度的升级引起产业高度关注[3] 传闻中的产品特征 - 根据X平台多方自媒体互证,Nano Banana 2具备4K图像生成能力、更快速度、价格比Nano Banana Pro更低等特征[3] - 如果泄露信息属实,Nano Banana 2或许会结合前两代产品的优势:Flash系列的速度和价格优势,以及接近或优于 Nano Banana Pro的视觉质量[15] - 其生成图像或许会具备原生4K分辨率、更出色的多角色场景处理能力,以及在人体结构、反射、光照等方面更一致的细节表现,据测试人员称,所有这些都实现了闪电般的生成速度,远超以速度慢著称的Pro版[15] - 如果泄露的信息属实,Nano Banana 2或许会是一款超高速、支持4K图像生成、价格比Nano Banana Pro版更低,画质却与之不相上下的模型[16] 发布动态与证据线索 - TestingCatalog News称,谷歌正在为即将发布的Gemini 3.1 Flash镜像预览版做准备,基于Gemini 3 Flash的Nano Banana 2(Flash)模型已于去年12月进行了测试,但随后推迟发布了,或许很快将发布[4] - 一位名为Legit的开发者发布推文称,一个新的匿名模型anon-bob-2已经上线,它很可能是竞技场Arena.ai上的新款Nano Banana Flash模型,由Gemini 3.1 Flash Image驱动[8] - 有用户在谷歌云的企业级AI平台Vertex AI网站上,发现输入Gemini-3后下拉页面出现了Gemini 3.1 Flash Image模型的名字[11] - 另一位X平台用户称,Nano Banana 2(Gemini 3.1 Flash Image预览版)已以匿名用户anon-bob-2的身份活跃于竞技场Arena.ai的图像对战模式[13] - 据Stable Diffusion博客推测,原定于2025年12月进行的(Nano Banana 2)内部测试因质量校准问题而被推迟,现在模型已准备就绪,图像功能可能就在未来几天或几周内发布[15] - 截至发稿,谷歌尚未就此发布任何官方公告[15] 行业竞争格局 - 近一段时间,字节Seedream 5.0、阿里Qwen-Image-2.0、智谱GLM-Image等国产模型相继发布,在指令遵循、图像质量、文字渲染等发面发力,或许都能够与谷歌新图像模型掰腕子,AI图像生成竞赛将再度升级[17]
过了个年,AI 圈变天了?但没人告诉你为什么
歸藏的AI工具箱· 2026-02-25 12:28
AI Agent技术栈的演进与核心变化 - 2026年初AI领域的关键变化在于AI从一个问答工具转变为能自主执行任务的劳动力,其工作模式从“用户提问-AI回答-用户执行”转变为“用户描述意图-Agent自主拆解任务、调度子Agent、连接工具、并行探索、判断质量并交付成品”[17] 第一层:大脑(模型能力)的质变 - 2026年2月5日,Anthropic和OpenAI同日发布Claude Opus 4.6和GPT-5.3 Codex新模型,编程能力显著提升,GPT-5.3 Codex在多个权威编程测试刷新纪录且资源消耗更少[19][20] - 新模型开始具备“判断力”和“品味”,能自主判断并组合使用工具,而非机械地按指令调用[21][22][23] - 模型持续工作能力大幅增强,METR机构测试显示AI独立完成专家级任务的时长从一年前的约10分钟,增长至2025年11月的近5小时,且该数字约每4到7个月翻一倍[25][26][27] - 上下文窗口显著扩大,Claude Opus 4.6和DeepSeek等模型已支持100万token的上下文窗口,足以容纳整个大型项目的代码和文档[29][30] - AI开始参与自身创建过程,GPT-5.3 Codex是首个参与自身创建过程的模型,OpenAI用其早期版本调试训练、管理部署和诊断测试,Anthropic CEO表示AI在写公司“大部分的代码”,且反馈循环在“逐月加速”[31][32][33] 第二层:手脚(执行与连接能力)的扩展 - Agent从云端对话框转向本地运行,以Claude Code为代表的新一代编程Agent运行在用户本地电脑终端,可直接读取本地所有文件和数据,使用户数据与模型解绑,上下文归属用户而非厂商[38][39][40][41][42][43][44] - MCP(Model Context Protocol)协议成为连接外部服务的关键基础设施,该开源协议由Anthropic推出,并得到Anthropic、OpenAI、Google三家在2025年底联合推动,实现了外部服务(如GitHub、Slack、数据库)的即插即用连接[47] - Skills(技能包)机制改变了Agent能力获取方式,社区可将专业知识打包成可共享的Skill(如前端开发、数据分析),Agent按需加载,其能力上限由社区而非开发公司决定[49][50][53][54][55][56] - Agent开始具备个性化记忆,Claude Code通过项目级CLAUDE.md文件记忆项目规范,而OpenClaw工具则通过SOUL.md、USER.md、MEMORY.md等本地纯文本文件管理Agent人格和用户长期记忆,实现了“主权AI”[59][60][61][62][63][64][65] - Agent能够调用本地命令行工具,如ffmpeg、ImageMagick、git等,抹平了使用这些强大专业工具的技术门槛,用户只需描述需求[67][68][69][70][71][72] - Agent获得操作图形界面的能力,OpenClaw可以让Agent像人一样操作手机和电脑上的图形界面应用,并具备心跳机制(HEARTBEAT.md)以实现定时任务和主动提醒[75][77][78][79][80][81] - 电动汽车被视为Agent进入物理世界的首个大规模载体,其具备的电池、传感器和自动驾驶基础,结合Agent后可执行取餐、取快递等任务[84][85][86][87][88][89] - 多模态能力成熟,如Google的Nano Banana Pro能理解复杂描述并生成图表,字节的Seedance 2.0能根据分镜脚本和参考图“拍”出视频,这些能力可通过API或Skills接入Agent体系[91][92] 第三层:组织(多智能体协作)的形成 - Multi-Agent(多智能体)体系突破单Agent对话瓶颈,实现“一群人协作”[96][97][98] - SubAgent(子智能体)机制允许主Agent创建临时子Agent处理专门子任务,子任务完成后提交摘要即消失,有助于保持主Agent上下文清洁并节省成本(探索任务可分配至更便宜的小模型)[100][101][102][103][104][105][106] - Agent Teams功能实现多Agent持续协作,一个主Agent作为Team Lead可创建并管理多个具备专长和独立上下文的Teammate,并行工作并相互协调[109] - Anthropic安全团队的压力测试显示,16个Claude Opus 4.6实例组成的Agent Team,在无人类干预下,花费约2万美元、近2000个会话周期,从零开始用Rust编写了一个能编译Linux内核的C语言编译器,产出10万行代码,它们通过Git文件锁机制协调工作以防冲突[110][111] - 行业正建立协作标准,Google联合50多家企业推出A2A(Agent-to-Agent)协议,旨在让不同厂商的Agent能够相互通信协作[114] - Git Worktree技术被用于并行探索,允许从同一代码起点创建多个独立工作空间,由不同Agent Team同时尝试不同解决方案,大幅缩短决策时间[116][117] - Agent具备主动工作机制,可设置为“值班模式”自动检查问题、尝试修复并生成报告,实现全年无休工作[120][122] 第四层:进化(经验传承与自我强化) - GEP(基因组进化协议)等开放协议旨在解决Agent经验无法保存和传递的问题,成功的任务解决方案可被打包成“基因胶囊”,供其他Agent直接继承,避免重复探索[127][128] - 案例显示,来自游戏策划领域的“命名隔离策略”基因胶囊,被后端工程师的Agent继承后,成功解决了一次变量命名冲突的编译问题,体现了跨领域经验复用的潜力[129] - 经验传承大幅降低整体成本,一个Agent解决问题的经验可供其他Agent以极低成本(几美分)继承,使得整个Agent网络越用越强[132][133] 技术叠加产生的乘数效应与生产力变革 - 四层技术(更强的大脑、更灵活的手脚、可协作的组织、可进化的经验)叠加产生乘数效应,使个人生产力发生质变,案例显示个人借助该体系一周完成的产品,在过去需要大厂一个小组工作一个月[6][134][136][137] - 个人加Agent体系可覆盖程序员、设计师、运维、数据分析、视频制作等多个职能[95] - 使用Agent与仅使用AI聊天是两回事,前者是让AI替用户干活[167] 行业生态与竞争格局变化 - 公司规模可能变小,一个人加Agent团队可完成过去需六七个角色协作的任务,成本更低、速度更快,OpenClaw项目(一个人的周末项目,3个月获20万GitHub Star后被OpenAI收购)即是例证[150][151][152][153][154] - 管理大量协作Agent的工具(如GitHub前CEO创办的Entire公司所做)本身成为一个重要的产品方向[143][144] - 行业竞争基础变化,知识经济时代的人口素质优势可能被Agent时代的能源与算力效率优势所取代[164] 对工作角色与能力要求的冲击 - 大厂年薪几十万至百万的白领角色(如写报告、做PPT、整理数据、协调沟通)因其工作本质是信息格式转换,而面临被Agent替代的风险[11][12][13][14] - 教育体系面临挑战,当前教育侧重培养的“执行能力”可能迅速过时,未来更需要培养“判断能力”(如定义问题、评估方案),而AI能力约每4到7个月翻一倍,加剧了这一错配[155][156] - 中间层知识工作者(大厂白领、中层管理)处境最危险,因其工作易被替代且转型困难,而AI在所有认知领域同步进步,使得转行学习新技能的缓冲空间变小[157][158] - 内容行业将重新洗牌,Agent降低内容生产成本后,“能做”不再值钱,值钱的是“品味、判断力、独特视角”等定义内容价值的能力[159][160][161][162][163] 尚未解决的关键问题 - Agent管理复杂,同时运行多个Agent导致验收工作量大、需跨领域判断,且Token消耗易失控[138][139][140][141] - 安全与信任机制未完善,Agent操作权限(读文件、发消息、部署代码)与人类确认边界尚未厘清[145][146] - Agent的经济身份与责任归属缺失,涉及消费Token、调用付费API、赚取收益等行为时,缺乏结算、认证与责任划分的基础设施[147]