让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

公司产品发布与核心特性 - 谷歌发布了首个原生多模态嵌入模型Gemini Embedding 2，其核心变化在于将文本、图像、视频、音频和文档全部映射进同一个统一的嵌入空间[1] - 该模型支持多种数据类型的混合输入（例如图像+文本），并能捕捉不同媒体间的复杂语义关系，从而更准确地理解现实世界信息[4][5] - 模型在评测中整体性能较上一代提升，为多模态嵌入任务树立了新的性能基准，在文本、图像和视频任务中均超越现有领先模型，实现SOTA[6][7] 技术规格与性能数据 - 模型处理能力具体为：文本支持最多8192个token；图像每次请求最多处理6张，支持PNG和JPEG；视频支持最长120秒的MP4和MOV格式；音频可原生嵌入，无需中间文本转录；文档可直接嵌入最多6页的PDF[8] - 在多项基准测试中表现优异：多语言文本任务（MTEB）平均得分69.9，代码任务（MTEB）平均得分84.0；文本-图像检索任务（TextCaps recall@1）得分89.6；图像-文本检索任务（TextCaps recall@1）得分97.4；文本-文档检索任务（ViDoRe v2 ndcg@10）得分64.9；文本-视频检索任务（MSR-VTT ndcg@10）得分68.0；语音-文本检索任务（MSEB mrr@10）得分73.9[9] 技术原理与行业意义 - Gemini Embedding 2首次彻底打通了多模态数据，实现了“跨模态语义对齐”，使得不同模态（如文字“猫”与猫的照片）在统一嵌入空间中的向量距离极度接近[18][19] - 该技术能大幅简化多模态流程，使RAG检索、语义搜索、情感分析、数据聚类等应用场景直接受益[21][22] - 该模型为AI Agent（如OpenClaw/龙虾）提供了关键的语义基础，使其能直接理解屏幕像素区域、图标、按钮等视觉信息，而不仅限于识别文字，为Agent代替人类操作电脑奠定基础[23][25][26][28][29] 技术实现与部署 - 模型采用Matryoshka Representation Learning（MRL）方法，允许嵌入向量在保持语义信息的同时进行动态维度缩减，开发者可根据预算和算力自由决定信息密度分布[30][32] - 模型的默认输出维度为3072维，但开发者可根据需求缩减至例如1536维或768维，以在性能与存储成本间取得平衡[32] - 除了通过API调用，模型也支持通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具调用[32] 产品发布与可用性 - Gemini Embedding 2目前已经通过Gemini API和Vertex AI展开公测[11] - 该模型被视为为下一代AI应用，包括多模态Agent和具身智能机器人，提供了关键的基础设施[32]