声音克隆产品

搜索文档
多模态都是假的:最强模型数不清手指、认不出雷碧
虎嗅· 2025-07-22 15:21
多模态AI技术现状 - 当前多模态模型在视觉识别上存在显著局限,无法真正"看见"图像,仅能处理数字化后的张量数据(如224x224彩色图转化为150528个数值的矩阵)[9] - 视觉识别依赖人工标注的图-文配对数据(如服装图+黑卫衣标签),通过将图像分块为16x16网格并生成嵌入向量来建立高维指纹[12][13] - 听觉模态发展相对成熟,因音频波形作为一维时间序列更易处理,且数据获取成本较低[9] 图像识别机制与局限 - 模型通过统计概率输出结果,当训练数据中某种模式(如五指手掌)占比过高时,会强烈偏向该模式(六指手掌被识别为五指的概率达99%)[14][15] - 图像识别本质是图向量与文向量的映射匹配,文字标签权重可能压倒视觉特征(如"雷碧"包装因文字识别被纠正为"雪碧")[26][27] - 任务粒度影响输出,手部识别通常以判断"是否手部"为目标,而非精确计数手指数量[18] 数据偏差与行业应用挑战 - 训练数据仅覆盖真实世界的"主干道路",长尾场景(六指手、工业缺陷)需额外投入采样与合成数据[30][31] - 医疗等复杂领域面临模糊边界(相似症状对应不同疾病)、动态演化(病情突变)等超出当前模型架构的问题[32] - 基础模型在缺乏特定领域数据(如医学伦理)时,堆砌算力会导致"严密而精准的错误"[34] 技术本质与发展路径 - AI本质是概率驱动的规律统计器,其"视觉能力"完全依赖标注数据构建的概率世界[16][38] - 行业应用需通过补充场景数据、重塑任务目标来校准模型,医疗影像等垂直领域需定制化解决方案[36][40] - 当前多模态模型能力边界受限于训练数据覆盖范围,突破需持续注入更贴近真实世界的样本[39][41]