视觉AI

搜索文档
多模态都是假的:最强模型数不清手指、认不出雷碧
虎嗅· 2025-07-22 15:21
多模态AI技术现状 - 当前多模态模型在视觉识别上存在显著局限,无法真正"看见"图像,仅能处理数字化后的张量数据(如224x224彩色图转化为150528个数值的矩阵)[9] - 视觉识别依赖人工标注的图-文配对数据(如服装图+黑卫衣标签),通过将图像分块为16x16网格并生成嵌入向量来建立高维指纹[12][13] - 听觉模态发展相对成熟,因音频波形作为一维时间序列更易处理,且数据获取成本较低[9] 图像识别机制与局限 - 模型通过统计概率输出结果,当训练数据中某种模式(如五指手掌)占比过高时,会强烈偏向该模式(六指手掌被识别为五指的概率达99%)[14][15] - 图像识别本质是图向量与文向量的映射匹配,文字标签权重可能压倒视觉特征(如"雷碧"包装因文字识别被纠正为"雪碧")[26][27] - 任务粒度影响输出,手部识别通常以判断"是否手部"为目标,而非精确计数手指数量[18] 数据偏差与行业应用挑战 - 训练数据仅覆盖真实世界的"主干道路",长尾场景(六指手、工业缺陷)需额外投入采样与合成数据[30][31] - 医疗等复杂领域面临模糊边界(相似症状对应不同疾病)、动态演化(病情突变)等超出当前模型架构的问题[32] - 基础模型在缺乏特定领域数据(如医学伦理)时,堆砌算力会导致"严密而精准的错误"[34] 技术本质与发展路径 - AI本质是概率驱动的规律统计器,其"视觉能力"完全依赖标注数据构建的概率世界[16][38] - 行业应用需通过补充场景数据、重塑任务目标来校准模型,医疗影像等垂直领域需定制化解决方案[36][40] - 当前多模态模型能力边界受限于训练数据覆盖范围,突破需持续注入更贴近真实世界的样本[39][41]
「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
机器之心· 2025-07-19 13:49
Meta挖角「CV铁三角」与多模态AI演进 - Meta近期高薪挖走OpenAI苏黎世办公室的「CV铁三角」(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai),三人曾在GoogleBrain/DeepMind共事并主导多项视觉AI里程碑研究 [4][5] - 「CV铁三角」的五项核心成果构成多模态AI基础框架: - **S4L(2019年5月)**:通过自监督+半监督学习减少图像分类对人工标注的依赖 [5] - **BiT(2019年12月)**:验证视觉领域大规模预训练→微调范式的可行性,被CLIP/SAM等沿用 [6] - **ViT(2020年10月)**:首次将纯Transformer应用于视觉任务,打破CNN垄断并实现跨模态特征关联 [6][7] - **MLP-Mixer(2021年5月)**:用双层MLP替代卷积/自注意力机制,简化架构同时保持性能 [7] - **PaLI系列(2022年9月起)**:谷歌多模态统一尝试,将图像+语言任务转化为文本生成 [7] - 研究轨迹覆盖从图像分类到多语言对话,为Omni-LLM全模态模型奠定技术路径 [5][7] Multi-Agent协作与RAG技术争议 - 检索增强生成(RAG)被质疑为过渡方案,需与持续状态memory机制互补以支持动态上下文迁移 [2] - 多智能体环境需解决多层级memory架构设计挑战,包括语义漂移、上下文污染及优先级管理 [2] Perplexity挑战谷歌搜索霸权 - Perplexity通过AI原生浏览器突破流量限制型AI瓶颈,创始人Aravind Srinivas构建资源效率型产品护城河 [3] - 谷歌因现有搜索业务模型限制,难以推出非流量受限的AI产品 [3] 行业动态统计 - 本期通讯覆盖30项AI&Robotics要闻,含技术进展10项、国内动态8项、国外动态12项 [3]
显示一航班遭劫持?飞常准回应
第一财经· 2025-05-06 21:36
航空与科技 - 飞常准显示国航CA929航班发出"7500告警",但航班全程安全,告警原因待核实 [1] - 微软Skype正式停止运营,核心功能迁移至微软另一款通信软件 [1] - 马斯克的SpaceX火箭公司得克萨斯州总部所在地成为新城市"星舰基地",占地4.6平方公里 [1] 科技与互联网 - 雷军卸任小米之家商业公司执行董事改任董事,经营范围新增智能家庭消费设备销售等 [2] - 宇树科技"人形机器人"外观专利获授权,设计要点在于形状 [4] - Kimi长思考模型API正式发布,具有多模态推理能力和通用推理能力 [5] - 商汤与中国移动香港、香港中文大学法律学院就视觉AI、大模型等领域达成合作 [6] - OpenAI重组生变,非营利组织保持主导地位,撤回去年12月提出的重组计划 [7] - 阿里巴巴旗下丹鸟物流注册资本由9839万增至4.98亿人民币 [20] 汽车行业 - 赛力斯新能源汽车4月销量31,488辆同比增长12.99%,问界M9 1-4月累计销量36,439辆同比增长41.19% [8] - 理想L系列智能焕新版发布会定档5月8日,将发布理想L7智能焕新版蓝灰色 [9] - 极氪突发高管调整,林杰分管极氪品牌国内营销服整体工作 [10] - 小马智行与Uber达成战略合作,Robotaxi服务将在下半年接入Uber平台 [11] - 玛莎拉蒂中国公司完成工商变更,DAVIDE GRASSO卸任法定代表人 [12] - 特斯拉Model 3和焕新Model Y超95%零件产自中国 [13] - 特斯拉4月在英新车销量同比下降62%,为两年多来最低水平 [14] - 福特预计关税将带来15亿美元损失,第一季度净收入下降64%至4.71亿美元 [14] 零售与消费 - 上海乐高乐园年卡1399元起、酒店3588元起,5月7日开售 [15] - 胖东来1-4月销售和田玉商品4177件,销售金额2959.2175万元,平均毛利率不超过20% [16] - 胖东来官网小程序关闭,创始人于东来连续发文邀请质疑者考察 [16] - 永辉超市发布公开信支持胖东来,反对为博取流量而践踏商业道德底线的行为 [17] - 茶百道五一期间整体销售额环比增幅50%,多家门店销量增幅超17倍 [18] - 奈雪的茶五一假期部分门店订单量激增300%,部分商圈门店单日订单量突破千杯 [19] - 国内多家金店足金饰品价格突破千元,周大福1026元/克,老凤祥1025元/克 [19] 金融与新能源 - 瑞信与美国司法部达成协议,将支付5.11亿美元解决税务问题 [21] - 宁德时代在杭州、雅安成立新能源科技新公司,注册资本均为500万元 [21]
商汤与中国移动香港、香港中文大学法律学院就视觉AI、大模型等领域达成合作
快讯· 2025-05-06 11:49
合作方与领域 - 商汤与中国移动香港有限公司签署合作备忘录,涉及视觉AI、大模型等领域[1] - 商汤与香港中文大学法律学院签署合作备忘录,涉及视觉AI、大模型等领域[1] 合作内容 - 合作聚焦于视觉AI技术的研究与应用[1] - 合作涉及大模型技术的开发与落地[1] 合作时间 - 合作备忘录于近期签署[1]