让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间
量子位·2026-03-11 13:35

公司产品发布与核心特性 - 谷歌发布了首个原生多模态嵌入模型Gemini Embedding 2,其核心变化在于将文本、图像、视频、音频和文档全部映射进同一个统一的嵌入空间[1] - 该模型支持多种数据类型的混合输入(例如图像+文本),并能捕捉不同媒体间的复杂语义关系,从而更准确地理解现实世界信息[4][5] - 模型在评测中整体性能较上一代提升,为多模态嵌入任务树立了新的性能基准,在文本、图像和视频任务中均超越现有领先模型,实现SOTA[6][7] 技术规格与性能数据 - 模型处理能力具体为:文本支持最多8192个token;图像每次请求最多处理6张,支持PNG和JPEG;视频支持最长120秒的MP4和MOV格式;音频可原生嵌入,无需中间文本转录;文档可直接嵌入最多6页的PDF[8] - 在多项基准测试中表现优异:多语言文本任务(MTEB)平均得分69.9,代码任务(MTEB)平均得分84.0;文本-图像检索任务(TextCaps recall@1)得分89.6;图像-文本检索任务(TextCaps recall@1)得分97.4;文本-文档检索任务(ViDoRe v2 ndcg@10)得分64.9;文本-视频检索任务(MSR-VTT ndcg@10)得分68.0;语音-文本检索任务(MSEB mrr@10)得分73.9[9] 技术原理与行业意义 - Gemini Embedding 2首次彻底打通了多模态数据,实现了“跨模态语义对齐”,使得不同模态(如文字“猫”与猫的照片)在统一嵌入空间中的向量距离极度接近[18][19] - 该技术能大幅简化多模态流程,使RAG检索、语义搜索、情感分析、数据聚类等应用场景直接受益[21][22] - 该模型为AI Agent(如OpenClaw/龙虾)提供了关键的语义基础,使其能直接理解屏幕像素区域、图标、按钮等视觉信息,而不仅限于识别文字,为Agent代替人类操作电脑奠定基础[23][25][26][28][29] 技术实现与部署 - 模型采用Matryoshka Representation Learning(MRL)方法,允许嵌入向量在保持语义信息的同时进行动态维度缩减,开发者可根据预算和算力自由决定信息密度分布[30][32] - 模型的默认输出维度为3072维,但开发者可根据需求缩减至例如1536维或768维,以在性能与存储成本间取得平衡[32] - 除了通过API调用,模型也支持通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具调用[32] 产品发布与可用性 - Gemini Embedding 2目前已经通过Gemini API和Vertex AI展开公测[11] - 该模型被视为为下一代AI应用,包括多模态Agent和具身智能机器人,提供了关键的基础设施[32]