Workflow
多模态AI
icon
搜索文档
「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
机器之心· 2025-07-19 13:49
Meta挖角「CV铁三角」与多模态AI演进 - Meta近期高薪挖走OpenAI苏黎世办公室的「CV铁三角」(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai),三人曾在GoogleBrain/DeepMind共事并主导多项视觉AI里程碑研究 [4][5] - 「CV铁三角」的五项核心成果构成多模态AI基础框架: - **S4L(2019年5月)**:通过自监督+半监督学习减少图像分类对人工标注的依赖 [5] - **BiT(2019年12月)**:验证视觉领域大规模预训练→微调范式的可行性,被CLIP/SAM等沿用 [6] - **ViT(2020年10月)**:首次将纯Transformer应用于视觉任务,打破CNN垄断并实现跨模态特征关联 [6][7] - **MLP-Mixer(2021年5月)**:用双层MLP替代卷积/自注意力机制,简化架构同时保持性能 [7] - **PaLI系列(2022年9月起)**:谷歌多模态统一尝试,将图像+语言任务转化为文本生成 [7] - 研究轨迹覆盖从图像分类到多语言对话,为Omni-LLM全模态模型奠定技术路径 [5][7] Multi-Agent协作与RAG技术争议 - 检索增强生成(RAG)被质疑为过渡方案,需与持续状态memory机制互补以支持动态上下文迁移 [2] - 多智能体环境需解决多层级memory架构设计挑战,包括语义漂移、上下文污染及优先级管理 [2] Perplexity挑战谷歌搜索霸权 - Perplexity通过AI原生浏览器突破流量限制型AI瓶颈,创始人Aravind Srinivas构建资源效率型产品护城河 [3] - 谷歌因现有搜索业务模型限制,难以推出非流量受限的AI产品 [3] 行业动态统计 - 本期通讯覆盖30项AI&Robotics要闻,含技术进展10项、国内动态8项、国外动态12项 [3]
A股突发!开盘20%涨停!688585,8连板!
证券时报网· 2025-07-18 11:25
市场整体表现 - A股三大指数集体高开并小幅上涨,脑机接口、医药商业、多模态AI、短剧游戏板块活跃,光伏、多元金融板块走低 [1] - 港股恒生指数和恒生科技指数均涨逾1%,蔚来涨近6%,农夫山泉涨近5%,京东集团涨超4%,阿里巴巴、快手涨逾3% [3] 板块及个股表现 白酒板块 - 白酒股震荡走高,皇台酒业一度涨超5%,泸州老窖、山西汾酒、洋河股份、舍得酒业、酒鬼酒、古井贡酒等涨幅居前 [2] 盐湖提锂板块 - 盐湖提锂板块持续拉升,富淼科技20cm涨停,金圆股份、盛新锂能涨停,天齐锂业、赣锋锂业、亿纬锂能、西藏矿业跟涨 [4] - 广期所碳酸锂主力合约早盘涨超4%,报70700元/吨 [4] - 多晶硅期货主力合约2508大涨7.49%,收盘报45700元/吨,创上市以来新高 [4] 小金属板块 - 小金属板块震荡走高,东方锆业涨停,中矿资源、浩通科技、盛和资源、锡业股份、贵研铂业、西部材料跟涨 [5] AI智能体概念 - AI智能体概念股开盘活跃,南兴股份"一"字涨停,酷特智能、掌阅科技、立方控股、鼎捷数智、延华智能涨幅居前 [5] - OpenAI发布ChatGPT Agent,具备自主思考和行动能力,可完成超复杂任务 [5] 上纬新材 - 上纬新材连续8个交易日20cm涨停 [1][6] - 智元机器人计划以21亿元通过"协议转让+主动要约"方式收购公司控制权,交易完成后控股股东将变更为智元机器人及其管理团队共同持股的主体 [6] - 公司最新市盈率为105.71倍,显著高于行业市盈率23.78倍 [7] - 股份转让交易尚需股东会审议及相关监管批准,存在不确定性 [7] ETF表现 食品饮料ETF (515170) - 跟踪中证细分食品饮料产业主题指数,近五日涨0.70%,市盈率20.01倍,最新份额56.6亿份(减少1050万份),主力资金净流入1722.4万元 [10] 游戏ETF (159869) - 跟踪中证动漫游戏指数,近五日跌3.16%,市盈率43.26倍,最新份额54.6亿份(增加3700万份),主力资金净流出1149.8万元 [10] 科创半导体ETF (588170) - 跟踪上证科创板半导体材料设备主题指数,近五日跌0.49%,最新份额2.4亿份(增加200万份),主力资金净流出676.2万元 [10] 云计算50ETF (516630) - 跟踪中证云计算与大数据主题指数,近五日涨8.58%,市盈率108.74倍,最新份额4.7亿份(减少600万份),主力资金净流出175.8万元 [11]
滚动更新丨A股三大股指集体高开,光伏产业链全线回调
第一财经· 2025-07-18 09:38
市场开盘表现 - 沪指涨0 08%至3519 48点 深成指涨0 27%至10902 72点 创业板指涨0 46%至2279 67点 [3][4] - 恒生指数涨1 06%至24757 83点 恒生科技指数涨1 31%至5520 07点 [5][6] 板块动态 - **活跃板块**:脑机接口 医药商业 多模态AI 短剧游戏 [1][4] - AI智能体概念股领涨:南兴股份涨停 酷特智能 掌阅科技等涨超5% 受OpenAI发布ChatGPT Agent驱动 [2] - 医药商业板块强势:浙江震元 人民同泰涨停 药易购 英特集团跟涨 [2] - **走低板块**:光伏 多元金融 [1][4] 个股及事件驱动 - 华检医疗涨近15% 启动全球首个医疗创新药RWA交易所生态及稳定币计划 [5] - 协鑫科技涨超14% 拟与太保资管香港合作推进RWA全球发行 [5] 资金与汇率 - 央行开展1875亿元7天期逆回购操作 利率1 4% 当日到期847亿元 [6] - 人民币中间价调贬37个基点至7 1498 创2025年5月27日以来最大调贬幅度 [6]
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI
机器之心· 2025-07-17 17:31
文章核心观点 - 提出AI驱动的视觉生成模型评估新范式Evaluation Agent,可替代人工专家进行定制化、高效、可解释的模型评估[3][4][41] - 该框架通过自然语言交互实现动态评估规划,显著提升评测效率(耗时仅为传统方法10%)[13][25][28] - 支持开放式用户查询,能针对"风格迁移""摄影参数理解"等复杂需求生成专业分析报告[9][31][32] 技术框架设计 核心优势 - **可定制性**:根据用户自然语言描述自动规划评估方案(如古风视频测试)[11][12][21] - **高效率**:多轮交互式评估使样本量减少90%(如SD3.0评测仅需25样本 vs 传统12000样本)[13][25][28] - **可解释性**:输出自然语言报告,包含模型局限性与改进建议[14][41] - **可扩展性**:开放架构支持图像/视频生成任务及新评估工具集成[15][39] 工作流程 1. **提案阶段**:Plan Agent解析用户需求生成评估路径[20][21][26] 2. **执行阶段**:PromptGen Agent生成专属测试提示,视觉模型产出样本[22][27] 3. **动态交互**:多轮反馈优化评估方案(平均3-4轮/任务)[23] 性能验证 效率对比 - **视频模型评估**: - VideoCrafter-2评估耗时24分钟(传统4261分钟)[25] - 样本量减少98%(23样本 vs 4355样本)[25] - **图像模型评估**: - SDXL评估耗时8分钟(传统1543分钟)[28] - 样本量减少99%(26样本 vs 12000样本)[28] 开放式评估能力 - 构建开放式用户评估问题数据集,覆盖风格迁移/摄影概念等复杂维度[33][34] - 可处理"保持原风格生成艺术变体"等抽象查询,生成分步骤验证方案[32][38] 未来发展方向 - 扩展至3D生成/AIGC视频编辑等复杂任务[39] - 增强多模态评估能力(文本/音频/视频跨模态)[39] - 引入强化学习优化评估精准度[39] - 开发基于评估结果的生成模型个性化推荐系统[43]
亚马逊新动作!Kiro 入局,AI 编程赛道谁将笑到最后?
搜狐财经· 2025-07-17 00:35
公司动态 - 亚马逊旗下AWS部门正式推出AI编程工具Kiro,采用"规范驱动开发"理念,聚焦需求澄清、系统设计和任务拆解阶段,而非直接生成代码 [1][3] - Kiro可自动生成数据流示意图和任务清单,降低后期维护成本,减少技术债务 [3] - 与亚马逊此前推出的Q Developer相比,Kiro支持完整软件开发生命周期,且作为独立品牌发布,无需AWS账户即可使用 [4] - Kiro目前仅支持英文,底层模型先用Anthropic,未来将接入其他模型 [4] 行业竞争 - 微软和GitHub是AI编程领域先行者,GitHub Copilot基于GPT-3和GPT-4模型,已升级为"智能编程伙伴" [5] - 创业公司Cognition AI开发的Devin是全球首个AI程序员智能体,估值达40亿美元,高盛正测试并计划大规模部署 [5] - Anysphere成立三年估值达99亿美元,OpenAI曾提出收购但被拒绝 [5] - 2024年全球生成式AI编程助手市场规模为2590万美元,预计2030年达9790万美元,微软、谷歌等企业30%代码已由AI生成 [4] 技术趋势 - AI编程工具正从代码生成转向全生命周期管理,强调需求分析和系统设计 [3][4] - 多模态AI和自主智能体发展将推动编程自然化和自动化,AI编程企业价值持续攀升 [6] - 科技巨头加速布局AI编程市场,收购与投资热潮或刚开始 [6]
中金2025下半年展望 | 消费电子:AI重构创新边界
中金点睛· 2025-07-16 07:49
消费电子行业2025下半年展望 核心观点 - 端侧AI多终端落地及逐步下沉将引领消费电子行业成长,重点关注AI手机硬件升级及加速渗透、AI可穿戴新终端形态创新、光学行业重启升规升配三大投资机会 [1] 手机市场展望 - 2H25手机市场需求平稳,IDC预计2025年全球智能手机出货量增速为0.6%,未来5年CAGR为1.4% [4] - 1Q25全球智能手机出货量同比增长1.5%,但同比增速连续三个季度下滑 [14] - 美国市场1Q25智能手机出货量同比增长12%,主因苹果提前拉货 [19] - 1Q25消费电子板块收入同比增长21%,利润同比增长2% [23] 光学行业 - 2024年全球手机镜头出货量同比增长4%至44.6亿颗,预计2025/2026年分别达到45.6/46.0亿颗,同比增长2.2%/0.9% [27] - 2025年手机光学升级趋势持续,重点关注传感器大像面化、玻塑混合镜头加速应用、模组结构升级等创新趋势 [4] - 2024年港股光学厂商盈利能力明显修复,2025年行业盈利能力或将继续改善 [31] AI手机 - Canalys预计2025年全球AI手机渗透率将达34%,2027年提升至50% [5] - 端侧模型精简和次旗舰SoC加持推动AI手机向中端价格带机型渗透 [37] - iPhone 17系列多个零部件及模组有望实现升级,有望带动超过10个产业链环节迎来升级 [39] - 安卓旗舰AI手机在芯片、导热材料、电池、声学、结构件等领域迎来升级 [40] AI可穿戴设备 - AR/MR产品有望成为多模态AI更优载体,2024年AI眼镜品牌百花齐放,轻量化成为发展趋势 [5] - 苹果Vision Pro树立行业发展标杆,苹果在AR眼镜有较多研发及专利布局 [41] - 全球手持智能影像设备市场规模向600亿元迈进,GoPro/影石/大疆三足鼎立 [45] AI Agent - AI Agent在AI手机及AIPC端有望加速落地,长期将改变人机交互方式 [5] - 中国创业公司Monica推出通用型AI Agent Manus,采用"多代理"模式 [50] - AI Agent有望成为互联网核心,聚合流量并进行内容分发 [52] - 手机及互联网厂商竞相布局AI Agent,竞争格局百花齐放 [54] 创新终端 - 消费级3D打印设备产销量五年内实现4.8倍/14.4倍的高速增长 [42] - 国内消费级3D打印机均价从2017年的0.38万元/台降至2022年的0.22万元/台 [44] - 运动相机中高端市场由GoPro和大疆主导,全景相机市场影石一家独大 [45]
Meta低调收购AI语音克隆初创公司Play AI,加码生成式AI赛道布局
环球网资讯· 2025-07-15 11:23
公司收购动态 - Meta Platforms完成对人工智能语音克隆技术公司Play AI的全资收购 交易条款未披露 [1] - Play AI此前累计融资约2350万美元 远低于Meta 1 8万亿美元的市值 被视为生成式AI领域的"精准补强"战略 [1] - Meta近年大型收购案对比:2022年收购VR健身应用Within Unlimited耗资4亿美元 2014年收购WhatsApp达190亿美元 [3] 被收购方技术能力 - Play AI核心产品为基于深度学习的语音克隆平台 可实现高保真语音合成 多语言实时转换及情感化语音生成 [3] - 该技术仅需3秒音频样本即可复刻人类语音 支持跨平台API调用 [3] - 应用领域包括有声书制作 虚拟客服 游戏角色配音等 [3] - 公司持有17项语音克隆相关专利 [4] 战略整合方向 - Play AI技术将整合至Meta的AI基础设施 重点赋能元宇宙平台Horizon Worlds 智能眼镜Ray-Ban Meta及WhatsApp的语音交互功能 [3] - 收购旨在对抗苹果Siri(支持21种语言实时翻译)和谷歌Gemini(语音生成能力被评为"接近人类水平")的市场优势 [3] - Meta通过收购快速获得专利技术及工程团队 避免自主研发的时间成本 [4] 行业市场数据 - 2024年全球AI语音市场规模达127亿美元 预计2030年突破450亿美元 [4] - Meta已构建覆盖文本(收购Lobster) 图像(收购Scenic) 语音的多模态AI能力 [4]
【公告全知道】稀土永磁+人形机器人+低空经济+风电!公司配合具身机器人电机转子研发并有小批量交付
财联社· 2025-07-14 22:28
稀土永磁+人形机器人+低空经济+风电 - 公司配合具身机器人电机转子研发并有小批量交付 [1] - 公司布局低空飞行器磁钢研发 [1] 数字货币+跨境支付+互联网金融+多模态AI - 公司是香港首批提供虚拟资产交易系统的供应商 [1] - 公司上半年净利同比预增超7倍 [1] 军工+无人机+机器人+芯片 - 公司已获批多款完整装备系统总体产品的外贸出口立项 [1]
中美AI差距有多大,AI竞争焦点在哪?《全球人工智能科研态势报告》全球首发
钛媒体APP· 2025-07-03 18:36
全球AI科研态势 - 报告基于2015-2024年96961篇AI领域文献分析,由联合国工业发展组织与东壁科技数据联合发布,采用东壁指数评价体系 [2] - 全球AI科研演进分为四个阶段:初始起步期(2015-2016年论文量4421→3628篇)、快速发展期(2017-2019年突破万篇)、成熟高峰期(2020-2023年达17074篇)、波动调整期(2024年回落至14786篇) [5][6] - 技术路径从传统机器学习(2015-2017)→深度学习/计算机视觉(2018-2020)→大语言模型/生成式AI(2021-2023)→可解释性AI/多智能体系统(2024-) [6] 中美AI人才对比 - 全球AI人才57.7%集中在中美两国,美国6.3万人领先,中国5.2万人以28.7%年复合增速追赶 [7][8] - 美国形成"人才旋转门"机制(高校企业流动率37%),中国互通率不足15% [10] - 华人学者在美表现突出:全球百人榜中20位在美学者里华人占10位,女性榜11位在美学者含3位华人女性 [3] 机构与企业表现 - 顶尖机构榜:中国占38席(中科院2386人才/4639篇论文),美国35席(总论文35117篇/被引228万次) [7] - 美国企业学术产出优势显著:谷歌(2895篇)+微软(1582篇)+Meta(1419篇)总量是中国TOP3企业(腾讯1354+阿里1034+华为885)的1.8倍 [9][10] - 中国企业应用导向突出:计算机视觉论文比美国高40.8%,知识图谱高50.1%,在自动驾驶/移动支付等场景落地强劲 [11] 技术发展趋势 - 深度学习关键词频率十年增长84倍,2018-2023年均增速217%,2024年进入平台期(增速30%) [14] - 计算机视觉形成"目标检测(78%热词)-语义分割-视觉应用"闭环,语义理解类关键词2022年后年均增45% [14] - Transformers技术2022年后崛起,工程化关键词如特征提取/优化持续升温 [15] 区域与性别特征 - 亚太创新中心崛起:北京/上海/深圳/新加坡/首尔进入全球20大人才聚集区,微软在华部署714人占其全球AI人才29% [13] - 中国AI女性人才占比仅9.3%(美国20.1%),头部企业女性占比6.1%远低于谷歌/微软的18.7% [12][13]
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 12:46
模型性能与突破 - GLM-4.1V-9B-Thinking在28项评测中拿下23个SOTA,成为10B参数级别效果最好的视觉语言模型(VLM)[3] - 在18项评测中,该模型性能可与8倍参数量的Qwen-2.5-VL-72B竞争甚至超越[3] - 核心突破在于引入思维链(Chain-of-Thought)推理机制和课程采样强化学习(RLCS)[4] 实际应用表现 - 成功解析西班牙超现实主义画家达利的《记忆的永恒》,识别画作中违背物理规律的视觉符号[11] - 准确解答高考数学真题,在多个大模型易翻车的题目中给出简洁精准答案[12][15] - 处理看时钟和日期问题时表现接近人类水平(时间判断存在1分钟偏差)[16][19] - 具备看手相等生活场景应用能力[20][22] 技术架构创新 - 视觉编码器采用AIMv2-Huge架构,使用三维卷积处理视频,静态图片通过复制模拟视频输入[26] - 新增二维旋转位置编码,支持宽高比超200:1的画面和4K以上分辨率[27] - 语言解码器升级为三维旋转位置编码,增强空间关系理解能力[28] - 多层感知机适配器作为视觉与语言模块的桥梁[28] 训练方法论 - 预训练阶段采用双通道并行,12万步训练,批量大小1536,输入长度8192,覆盖图文混合/OCR/定位等多类型数据[31] - 监督微调阶段使用高质量思维链数据,输入长度扩展至32768,批量32,强化复杂因果关系推理[36] - 课程采样强化学习(RLCS)结合RLVR和RLHF,采用由简至难的课程学习策略[40] 商业化进展 - 获得浦东创投集团和张江集团10亿元投资,近期将完成首次交割[5] - 模型已在Github/ModelScope/Hugging Face开源,同步上线MaaS平台API接口[41][42] 核心能力清单 - 超长视频解析(2小时时长分析)[32] - 智能读图问答与理科解题(数学/物理)[32] - 图文识别转换(OCR/表格结构化)[32] - 专业文档处理(金融/政务关键信息提取)[32] - 图像定位标注与GUI界面操作[32] - 看图写代码(前端网页自动生成)[32]