产品发布与定位 - 谷歌近期密集发布多款AI产品,包括Gemini 3、Antigravity以及通过Vertex AI上线的Nano Banana Pro模型(模型名为gemini-3-pro-image-preview)[1] - 该模型被评估不仅具备图像生成能力,其生成质量稳定,并显示出初步的推理能力,超越了单纯的“画图工具”范畴[1][26] 多模态理解与生成能力 - 在生成包含现实人物(如Sam Altman、Elon Musk)与动漫角色的视频会议画面时,模型能高度还原真实人物特征,并保留二次元角色的原有质感,实现跨次元融合[2][5] - 模型展现出对场景语义的理解,例如在视频会议画面中为人物添加对应公司logo,并在模拟聊天框中生成与人物身份相关的话题讨论[5] - 模型能够遵循复杂指令细节,如正确执行动漫角色“转头”的动作要求,并理解视频会议画面的镜像效应[5] 多语言与文化内容处理 - 模型能根据提示词生成英文、中文、日文和俄文四种不同语言的菜单,在版式、标题和分类词还原上表现良好[7][8][10] - 对于提示词中明确指定的文字内容,模型基本能准确还原,但其自主生成的文字部分(如中文菜单的具体菜品名)可能出现字体虚化或难以辨认的情况[10] - 模型具备一定的中国文化特定知识,能生成看手相所需的生命线、感情线和智慧线,并能正确指出足底穴位“涌泉穴”的位置,尽管存在将智慧线和感情线画反的误差[13][14][16][18] 逻辑推理与问题解决能力 - 模型展现出解数学题的潜力,在代数题和复杂几何题的测试中,其提供的答案经GPT5验证被认为是正确的[20][22][24] - 模型被认为采用“推理+生成”的流程,其内部可能构建了粗糙的世界观,用于理解场景、人物关系及物理几何结构,而非简单的纹理映射[26] - 这种能力边界使其向“世界模型”方向演进,具备在生成图像前先进行逻辑推理的潜力,例如先解题再展示过程[27]
Nano Banana Pro 要上天