Workflow
人工智能图像生成
icon
搜索文档
里昂:予美图公司(01357)14.1港元目标价 评级“跑赢大市”
智通财经网· 2025-12-16 14:23
智通财经APP获悉,里昂发布研报称,即使部分由于竞争对手推出人工智能图像生成工具导致股价波 动,其测试显示美图公司(01357)的美图设计室(DesignKit)在定价、指令与图像一致性、综合工作流程及 可编辑功能上维持竞争优势,相信美图今年可录9.5亿元人民币净利润。该行目前予美图14.1港元目标价 及"跑赢大市"投资评级。 ...
里昂:予美图公司14.1港元目标价 评级“跑赢大市”
智通财经· 2025-12-16 14:22
里昂发布研报称,即使部分由于竞争对手推出人工智能图像生成工具导致股价波动,其测试显示美图公 司(01357)的美图设计室(DesignKit)在定价、指令与图像一致性、综合工作流程及可编辑功能上维持竞争 优势,相信美图今年可录9.5亿元人民币净利润。该行目前予美图14.1港元目标价及"跑赢大市"投资评 级。 ...
OpenAI神秘生图AI爆出,实测不敌谷歌一根香蕉,网友:就这?
36氪· 2025-12-11 10:50
就在今天,OpenAI两款神秘图像模型,悄然登陆Design Arena和LM Arena平台展开测试。 Chestnut(栗子) Hazelnut(榛子) 这周重头戏即将上演!OpenAI神秘生图模型GPT Image 2内部代码流出,将随GPT-5.2一同上线。另一边,谷歌Flash版「香蕉」和Gemini 3 Flash也准备 好了。 没蹲到GPT-5.2? 别急,OpenAI的「王炸」已经在路上了! 这两款模型,据称是GPT Image 2。有网友猜测,它将随着下一代旗舰模型GPT-5.2于本周亮相。 与谷歌Nano Banana Pro相比,它们具备了类似的世界知识,可生成画质相近的名人自拍,特别擅长在图像中嵌入代码。 下图中,它可以生成手写风格的白板字(但logo好像不是最新的),还能在生图时直出代码。 另有实测过的开发者们,纷纷表示OpenAI生图质量,还是比不上谷歌Nano Banana Pro。 尤其是人物面部生成效果,看起来比较假。 对此,他们认为,GPT Image 2可能仍基于GP-4o完成的训练,不过相较于上一代还是提升了不少。 神秘生图模型上线,打不过Nano Banana? 那么 ...
德国一家50人AI公司,逼谷歌亮出底牌!成立一年半估值飙到230亿
创业邦· 2025-12-09 11:39
公司概况与融资里程碑 - 公司Black Forest Labs (BFL) 于2024年在德国成立,是一家专注于AI图像生成的公司 [9] - 公司在成立一年半内完成B轮3亿美元融资,估值达到32.5亿美元 [6][22] - B轮融资由Salesforce Ventures和Anjney Midha (AMP) 联合领投 [6] 创始团队与技术渊源 - 联合创始人团队(罗宾·隆巴赫、安德烈亚斯·布拉特曼、帕特里克·埃塞尔)曾是Stable Diffusion核心技术的研究者与缔造者 [9] - 团队因对前公司Stability AI的管理动荡和财务困境失望而集体出走并创立BFL [10][11] - Stability AI在2024年第一季度营收不足500万美元,亏损超过3000万美元,并陷入财务危机 [10] 核心产品与技术突破 - 核心产品为FLUX系列图像生成与编辑模型,基于“流匹配”架构,取代了行业主流的扩散模型 [24] - 最新模型FLUX.2能生成高达400万像素(4K)的图像,并实现“像素级精准控制” [6] - 模型具备强大的多参考图融合能力,可同时输入多达10张参考图,实现“零样本角色迁移”,解决了角色一致性的行业痛点 [6] - FLUX.1模型拥有120亿参数,基于新型“整流流变换器”架构,在图像细节、提示词遵循、生成文字和描绘人手方面表现突出 [15][24] 商业化策略与生态合作 - 商业模式清晰划分为开源模型构建影响力与企业级API服务实现商业闭环两个维度 [24] - 通过开源FLUX.1 Schnell和FLUX.1 Dev版本吸引开发者与构建生态,同时通过闭源的FLUX.1 Pro专业版及API服务获取核心收入 [25] - 企业级API主要服务于有稳定、大批量生成需求的企业客户,并被集成到各大行业巨头的产品中 [25] - 关键生态合作包括:模型被整合进马斯克旗下xAI的聊天机器人Grok [21];被欧洲AI巨头Mistral AI的聊天机器人Le Chat采用 [21];技术被Adobe和Canva集成到产品工作流中 [34];与英伟达共同推出针对RTX GPU优化的FLUX.1 Kontext NIM微服务 [34];华为云曾发布flux适配其Ascend NPU的开源开发任务 [36][40] 市场定位与竞争格局 - 公司CEO称BFL已成为谷歌在人工智能图像领域的主要竞争对手 [7] - 公司避开与Midjourney等在消费者订阅端的直接竞争,转而深耕产业链底层与上游的企业服务 [24] - 在全球AI竞赛由美国主导、依赖巨额资本投入的背景下,BFL以仅50人的小团队,凭借技术深度和精准的生态位选择取得了成功 [41][43] - 行业对比:OpenAI在2025年上半年营收约43亿美元,但同期亏损高达135亿美元,预计2024-2029年间将产生1430亿美元的负自由现金流 [42][43]
Nano Banana Pro和顶级设计Agent Lovart会擦出怎样的火花?
歸藏的AI工具箱· 2025-11-22 20:50
产品发布与促销活动 - 谷歌推出基于Gemini 3优化后的Nano Banana Pro模型,能力大幅提升并解决多语言问题[2] - Lovart公司于11月21日至11月23日期间推出Nano Banana Pro全员免费使用活动,在此期间订阅Basic及以上会员可享受365天0积分无限量使用权[3] - 现有Basic以上等级会员自动获得365天Banana Pro 0积分权益,Nano Banana(NB1)、Seedream 4、Midjourney v7等模型同步享受365天0积分无限量使用[3] 技术应用与功能实现 - 通过画布内Image Generator功能可直接选择模型、上传图片和选择分辨率,避免调用其他模型导致的积分消耗[5] - 支持@指定模型功能,在Agent输入框@Nano Banana Pro后跟提示词可实现定向模型调用[7] - 右侧Agent输入框提供模型选择图标,可预设目标模型实现直接需求输入[9] 图像生成技术创新 - 实现动漫角色与写实场景的多角色结合,通过多步可控步骤保持环境写实风格仅人物动漫化[11][13] - 采用先生成写实环境照片再添加动漫人物的两阶段生成方式,有效避免环境动漫化问题[14][15] - 支持真人场景与动漫人物混合生成,增强视觉反差感[17] 实时数据集成应用 - Nano Banana Pro具备检索实时信息能力,可根据经纬度生成具体位置的实景图像[19] - 集成当地实时时间氛围和天气信息,如黄石公园案例中准确呈现夜晚场景和零下四度刚下雪的天气条件[20] - 经纬度定位准确率较高,测试中仅出现一次定位偏差案例[20] 个性化图像生成方案 - 结合谷歌地图经纬度信息实现个性化打卡照片生成,根据所在地风格自动匹配人物服装[22][23][26] - 提供两种水印生成方式:Agent输入框生成前端渲染水印或Image Generator直接生成模型水印[26] - 依托模型强大的一致性保持能力,生成人像相似度极高[28] 文档处理与PPT生成 - Lovart实现比NotebookLM更强大的PPT生成能力,支持整套PPT一键生成[30] - 提供多种风格模板:手绘板书风格、迪特拉姆斯极简风格、英雄联盟UI风格、渐变色便当盒风格、赛博手绘风格[30][32][39][41][45] - 采用分页生成模式确保风格一致,生成图片分辨率高于NotebookLM,文本信息更清晰[30][47] 技术协同效应 - 模型能力提升与Agent功能形成相辅相成关系,模型越强Agent能力相应增强[48] - Lovart平台使Nano Banana Pro在批量生成、一致性保持和多能力调用方面获得显著能力放大[48] - 优化重点在于区分必要功能与模型自主能力,实现"少即是多"的技术适配策略[48]
Nano Banana Pro上线!集成Gemini 3与Veo 3,谷歌不给竞争对手喘息机会
量子位· 2025-11-21 00:01
产品核心升级 - 模型整合了Gemini 3 Pro的多模态理解能力以及谷歌搜索的知识库,能理解现实语义与物理逻辑[4] - 图像生成质量提升,最多支持14张输入图片进行混合,并能保持角色和场景的一致性[7] - 强化文本渲染能力,可将图片中的英文文字翻译成中文、韩文等语言,同时保持原有设计风格[9][13] 技术功能与性能 - 支持2K、4K高清分辨率及多种宽高比,从社交媒体方形图片到电影级2.76:1超宽画幅均可应对[32] - 支持自由调整图像的光线、镜头、对焦、色彩调校等物理属性和构图[33] - 与Google Search深度集成,可基于庞大知识库和实时信息生成准确的图表、地图和信息图[19][20] 应用场景与工作流 - 可实现从创意到生产的完整工作流,营销团队可快速设计生成营销素材,实现创意快速迭代[12][16] - 在Gemini 3高级推理加持下,能生成针对性强、专业的信息图,帮助用户快速将复杂知识可视化,如生成胰岛素-葡萄糖反馈回路解释图或生态系统营养级信息图[25][27][28][30] - 可指定角色生成主题定制化图片,并与Veo 3视频生成模型整合,可将生成的图像作为关键帧继续生成视频[37][39][40] 市场发布与集成策略 - 发布策略覆盖从开发者到普通用户,普通用户可通过Gemini应用使用,免费用户有配额限制,订阅用户享有更高配额[42] - 开发者可通过Gemini API在Google AI Studio和Vertex AI使用,企业用户可享受预配置吞吐量、按需付费及高级安全过滤器[42] - 模型将集成至第三方设计工具如Adobe Photoshop和Figma,并在新的AI开发平台Google Antigravity中集成[43][44] 定价与可用性 - Gemini 3 Pro Image预览版定价为每张图像0.139美元(1K/2K分辨率)和0.24美元(4K分辨率)[43] - Gemini 2.5 Flash Image通用版定价为每张图像0.039美元(1024x1024像素)[43] 内容安全与验证 - 在Gemini app中推出AI图像验证功能,依托SynthID数字水印技术,用户可查询图像是否由谷歌AI生成或编辑[46] - 在Gemini app、Vertex AI、Google Ads、Flow等平台生成的图像中将嵌入C2PA元数据,提供可追溯来源和创作信息的数字档案[48][49]
Nano Banana 2突然现身,能画公式解数学题,监控画面都能伪造
36氪· 2025-11-11 10:14
Nano Banana 2代产品能力 - 预览版展示的能力远超第一代,在处理复杂提示方面表现突出,包括精确的文本渲染、超逼真的场景以及精细模拟的完整桌面界面[4] - 产品在真实性、生成速度和自然交互控制方面进行全面升级,能够生成极其复杂的用户界面,文字渲染无破绽[6] - 对物理常识与遵循提示词的细节表现良好,例如能同时准确绘制出指向特定时间的时钟和一杯斟满的红酒[8] - 具备一定的世界知识与逻辑推理能力,在解决数学问题的对比测试中,第二代的结果给人印象深刻,而第一代渲染出的公式基本无法理解[12] 第一代Nano Banana的市场表现与核心优势 - 第一代产品于2025年8月中旬匿名出现在AI模型测评平台LMArena,凭借出色的图像编辑能力迅速登顶排行榜[15] - 上线不到10天,用户编辑了超过2亿张图片,为Gemini应用带来了1000万新用户,并一度帮助Gemini超越ChatGPT成为苹果免费应用榜首[16] - 核心优势在于强大的图像编辑和理解能力,包括自然语言编辑与角色一致性,解决了AI图像编辑中常见的“身份漂移”问题[17] - 基于谷歌TPU v5架构优化,平均响应时间仅为1.3秒,单张图片生成成本约0.039美元,仅为DALL-E 3的十分之一[19] - 增加了多图像融合与风格迁移功能,支持将多张不同图片无缝融合成一张连贯的图像,或将一张图的风格应用到另一张图的物体上[21] 公司战略与产品整合 - 谷歌加速将Nano Banana整合进其核心产品生态,除了在Gemini应用和AI Studio中提供服务外,已开始测试将其集成到Google Photos、搜索、智能镜头和画圈搜索中[19]
谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
创业邦· 2025-11-10 11:38
产品发布与市场热度 - 谷歌下一代AI图像生成模型Nano Banana 2(NB2)已在第三方平台Media IO上以预览版本现身,预计将在本月中下旬正式发布[2] - 初代Nano Banana因出色的图像生成和编辑能力在全球范围内掀起创意狂欢,NB2的首测表现被评价为更加出色[4] - 虽未正式发布,但NB2的一大波惊艳实测已席卷全网,显示出极高的市场关注度[10] 核心技术性能提升 - 生成分辨率达到原生2K,并可选4K超分,生成速度更快,复杂场景仅需10秒[7] - 文字渲染更锐利,提示词响应更精准,在文本渲染、信息图表、世界知识、图表、指令遵循方面表现非常出色[7][10] - 生成速度显著提升,复杂场景生成仅需10秒[7] 多模态与复杂任务处理能力 - 具备强大的多模态理解能力,可基于纯文本生成完整的Windows 11桌面及YouTube博主主页,细节表现堪称疯狂[9][15][17] - 能够解决复杂学术问题,例如输入积分问题图片后,可在白板上展示完整的解题步骤,甚至能处理高阶微分问题[11][12] - 能够生成具有旧羊皮纸质感的老式地图等复杂图像[13] 图像生成质量与一致性 - 在人物生成上高度一致性再次树立新标杆,精准捕捉和还原人物特征,效果逼真至肉眼无法识别[6][19] - 二次元生成能力突出,可纯文本直出动漫,涵盖吉卜力系、热血少年等多种风格,并能保持高度的角色一致性[30][33][36][41] - 能够生成堪比真人手写体的文字,以及伪造难以辨认真伪的监控录像图像[48][51][52] 创意应用与场景拓展 - 可生成各种创意图像,如玻璃汉堡(反光、质感、透明度表现精准)和将整片海洋变成粉色并准确反射光线[53][54] - 在抽象艺术生成上表现远超上一代,能精准呈现如《弹丸论破》全体角色出庭的官方风格电影感插画等复杂场景[62][63][64][67] - 应用场景广泛,包括一键生成奔驰汽车宣传图、PS车辆涂装等,被评价为达到顶级水平[58][59]
谷歌Gemini凭“纳米香蕉”逆袭,马斯克“苹果偏袒OpenAI”言论遭打脸
环球网资讯· 2025-09-17 12:01
核心观点 - 谷歌Gemini应用凭借新图像模型“纳米香蕉”登上苹果应用商店排名榜首,将OpenAI的ChatGPT挤到第二位,这一事实对特斯拉CEO埃隆·马斯克关于苹果偏袒OpenAI、存在不公平竞争的指控构成了有力反驳 [1][4] 应用商店排名争议 - 马斯克因不满苹果应用商店排名情况起诉苹果,指控苹果与OpenAI的紧密合作导致其他人工智能公司难以脱颖而出,违反反垄断法,当时xAI旗下的Grok排名上升但仍未达预期 [4] - 事实显示,在苹果与OpenAI合作后,DeepSeek和Perplexity曾登上应用商店排名榜首,而谷歌Gemini本周也凭借新模型登上榜首 [4] 谷歌Gemini表现 - 谷歌新推出的图像生成模型“纳米香蕉”能根据用户上传的照片准确生成新图像,尽管生成图像仍带有一定AI风格,但相比其他模型已十分出色,该特性使其在社交媒体上迅速走红 [4] - 应用分析公司Appfigures最新数据指出,Gemini在9月份的下载量环比增长高达45% [4] 行业竞争动态 - 谷歌Gemini应用登上苹果应用商店榜首,将OpenAI的ChatGPT挤到第二位,表明人工智能应用在苹果应用商店中的排名竞争激烈且存在动态变化 [4]
Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
量子位· 2025-06-16 18:30
Midjourney视频生成模型 - 视频生成效果展示包括跑步动作、人物和空间转换非常丝滑[2] - 挖蛋糕场景逼真,勺子上有倒影等细节[3] - 多人物动作和视角切换流畅[14] - 小猫动作和人手动作具有物理真实感[16] - 小狗滑滑板场景展示[18] - 小猫美甲精细,手部纹路和指纹细节突出[21] - 叠毯子场景中手部发力和褶皱表现真实,但毯子自动缩回存在不合理性[24] - 爬楼梯场景中花朵从右手飘到左手存在逻辑问题[27] - 视频生成模型在物理真实感、纹路细节、动作平滑度上表现优秀[26] - 缺乏音频功能,与Veo 3相比无法生成乐器声音[28][29][30] Midjourney图像模型V7更新 - 图像模型V7不断更新,支持语音生图功能[37] - 从3月开始呼吁用户参与图像评分以完善V7[38] - 4月发布V7 alpha版本,包含Relax和Turbo模式[39][40] - 手部纹理生成逼真[41] - 旗舰功能"草稿模式"可将提示栏改为对话模式,支持语音输入生成图像[44][45][47] - 草稿模式生成成本减半,渲染速度提升10倍[49] - 快速模式优化耗时从40秒降至18秒[50] - 图像生成速度整体提升40%,快速模式渲染时间从36秒减至22秒,Turbo模式从13秒减至9秒[51][52][53] 公司动态与市场反应 - 视频生成演示引发Reddit热议,点赞量达2.5k[5][6] - 用户评价视频效果"与现实无法区分"[9] - 公司会议展示视频生成功能,强调"动画化图片"作为差异化优势[33] - 动画风格是Midjourney的强项[34] - 定价策略考虑用户需求,展现诚意[35][36]