Workflow
原生多模态
icon
搜索文档
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 09:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
猿大侠· 2025-08-31 12:11
模型发布与市场反响 - 谷歌匿名发布的图像编辑模型nano-banana在LMArena平台突然爆火后由官方确认为Gemini 2 5 Flash Image模型[5][7][8] - 该模型在国内外社交平台引发大规模试玩热潮 尤其在手办生成领域形成刷屏现象[2][4][9] 核心功能与技术特性 - 支持通过文本提示词生成1/7比例写实风格手办 需指定亚克力底座 电脑屏幕显示ZBrush建模过程及TAMIYA风格包装盒等细节[10][11] - 采用原生多模态架构 实现图像理解与生成的深度整合 通过交错式生成技术支持多轮复杂编辑 可分解包含50个编辑要求的任务[61][63][64] - 创新性使用文本渲染作为核心评估指标 该指标具备客观可量化特性 能持续指引模型改进并带来意外性能提升[55][56][58][59] 实际应用表现 - 能够识别动漫角色名称(如艾伦耶格尔)并生成对应手办 对非全身像参考图可能产生局部异常但整体效果逼真[13][15][16] - 支持宠物照片转手办 生成效果引发用户主动寻求购买链接 并可结合3D打印实现实体化[18][20][21] - 真人照片需使用全身图生成 包括动态姿势 需额外提示词添加支撑结构防止模型漂浮[24][26][28][29] 多元化应用场景 - 支持三图联合创作 通过姿态控制实现角色互动(如搭肩比心 战斗动作)[33][44][46] - 可生成漫展场景下的真人化二次元角色 效果接近真实cosplayer生图[41][42][48][51] - 结合视频生成模型创作连贯动画 仅需火柴人草图即可驱动完整动作[36][37] 模型优化路径 - 团队通过社交平台系统性收集用户失败案例构建评估基准 新版本需通过真实场景测试[65][66] - 针对Imagen 2 0存在的像素级编辑偏差 角色一致性不足及图像质感不自然等问题进行专项优化[68][69][70] 生态建设与访问方式 - 谷歌计划举办为期2天的Nano Banana Hackathon活动 提供免费API额度及奖品激励[72][73] - 模型可通过AI Studio Gemini API或直接集成至Gemini使用 支持中文提示词但建议英文以降低错误率[11][73][75]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
量子位· 2025-08-29 12:21
文章核心观点 - 谷歌Gemini 2.5 Flash Image模型(匿名代号nano-banana)因卓越的图像生成能力爆火 尤其在手办生成领域引发社交媒体创作热潮 [5][7][9] - 该模型通过原生多模态架构和交错式生成技术实现复杂图像编辑 其文本渲染能力成为核心性能评估指标 [57][64][66] - 模型改进基于对前代产品Imagen 2.0用户反馈的系统性收集与测试 解决了像素级编辑 角色一致性和图像质感三大痛点 [68][71][73] 技术特性 - 采用文本渲染作为核心评估指标:提供客观可量化的性能衡量标准 解决传统人类偏好评估的主观性与高成本问题 [58][59][61] - 原生多模态架构实现深度整合:图像理解与生成能力协同工作 支持视觉信号与世界知识的正向迁移 [64][65] - 交错式生成技术支持多轮复杂编辑:可分解包含6-50个编辑要求的提示词 通过连续对话历史理解实现精细化输出 [66][67] 应用场景实测 - 手办生成效果显著:使用英文提示词生成1/7比例实体模型 支持动漫角色 宠物及真人全身像转换 需搭配圆形透明亚克力底座等细节描述 [10][13][25] - 多图结合控制姿态:支持同时参考3张图片进行创作 包括控制角色战斗姿势和双人互动动作 [34][47][49] - 跨次元转换能力:将二次元插画转换为真人cosplay照片 背景可设置为漫展等特定场景 [43][51][54] 生态发展计划 - 举办Nano Banana Hackathon黑客马拉松:提供2天免费API额度 获奖者可获得开发者积分及Gemini相关奖品 [75][76] - 开放多平台体验通道:用户可通过AI Studio Gemini API或直接集成至Gemini使用该模型 [76][78][80]
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 17:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
腾讯张正友:具身智能必须回答的三个「真问题」
机器之心· 2025-08-10 12:31
腾讯具身智能开放平台Tairos发布 - 公司发布具身智能开放平台Tairos,以模块化方式提供大模型、开发工具和数据服务,旨在为行业提供通用支撑体系 [2] - 该平台基于Robotics X实验室七年技术积累,涵盖多模态四足机器人Max、轮腿机器人Ollie、灵巧手TRX-Hand等自研项目 [2] - 平台化路径是对行业挑战的回应,也预示未来生态布局,在技术路线尚无定论背景下具有战略意义 [2] 分层架构的技术路线选择 - 分层架构是当前更务实路径,源于效率与现实权衡,将人类对智能结构的先验知识注入模型架构 [5][6] - SLAP³架构包含多模态感知模型、规划大模型和感知行动联合大模型,边界动态变化 [7][8] - 感知行动联合大模型(小脑)负责快速反应(系统1),感知和规划大模型(系统2)处理复杂任务 [9] - 底层经验通过记忆库机制反哺上层模型,实现闭环学习 [11] 具身智能的第一性原理 - 核心问题是探究"身体"与"大脑"如何实现有机融合,而非简单将AI大模型适配到机器人 [17] - 真正具身智能需深刻理解身体形态、环境物理规律和任务目标 [18] - 动作规划本质是稀疏、第一人称的生成过程,与稠密、第三人称的视频生成存在本质区别 [20][21] 行业创新与商业化平衡 - 行业呈现爆发式发展,需要处理短期利益与长远目标的关系 [23] - 创新定力体现为放弃短期商业化诱惑,专注根本性科学问题探索 [24] - 生态繁荣需要不同角色贡献,初创团队选择确定性高场景是务实生存策略 [24]