多模态智能体

搜索文档
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
机器之心· 2025-06-26 08:30
背景与动机 - AI在科学研究中的角色从"分析器"转变为具备执行能力的"新型合作者",能够操作计算机完成真实科研任务[3] - 科研场景的复杂性(软件多样性、长周期任务、跨模态信息)使得AI完成科研任务比解答科学问题更困难[4] - 现有智能体系统在通用任务上有进展,但缺乏真实科研环境与评估基准来推动从"会说会写"到"会做"的转变[4] 科研任务挑战 - 现有评测集中在日常场景和通用软件,复杂性未触及真实科研工作[5] - 科学评测任务仍停留在QA和静态代码编写,未涉及非标准I/O流、复杂界面逻辑等真实挑战[5] - 需要可靠环境和多模态多领域评测基准来评估科学任务自动化程度[5] ScienceBoard基建 - 基于Ubuntu虚拟机搭建,集成6个科学领域开源软件,支持CLI/GUI双通道交互[13][16] - 定义通用动作空间,包括GUI操作、CLI命令执行、流程控制等,实现跨软件跨模态通用执行接口[15][17][18] - 配备自动初始化脚本和评估函数,确保评测可复现性和执行级评估[16] 评测集构建 - 收录169个真实科研任务,横跨6个领域(生物化学、天文模拟、地理信息系统等)[23] - 任务类型涵盖基础设置、科学模拟、图形绘制、数据查询、文档撰写、复合工作流等[23] - 任务划分为四类难度:Easy(54%)、Medium(28%)、Hard(17%)和Open Problems[28] 实验评估结果 - 商业大模型(GPT-4o、Claude 3.5)平均成功率仅15%,开源模型表现不稳定[27] - 专门设计的GUI Action Models在长任务和跨模态任务上明显受限[27] - 模块化设计(规划与执行解耦)显著提升成功率,尤其在复杂界面和长操作链任务中[32][33] 未来方向 - 智能体需要结合领域知识,通过Manual和Tutorial进行任务相关学习[34] - 构建"科研AI团队",由planner、GUI模型、领域专家模型按需组合[34] - 为实验室层面智能化探索打下基础,推动AI科学家从数字概念走向现实[35] 研究意义 - 首个聚焦科学探索的多模态智能体评测框架,提供真实可交互环境和程序化评估机制[37] - 揭示当前模型在复杂科研工作流中成功率显著低于人类,为全自动化AI科学家提供起点[37]
售41.87万元起,2025款奥迪A7L上市;阿里云与比亚迪合作,Mobile-Agent将接入比亚迪座舱丨汽车交通日报
创业邦· 2025-06-10 18:26
极氪车辆防追尾提示专利 - 极氪智能科技与吉利控股集团公布"车辆防追尾的提示方法及其系统及车辆"专利 该专利通过获取当前车辆实际车速与前方车辆实时车距 控制后方显示装置动态显示 给予后方车辆安全间隙变化提醒 缓解驾驶紧张情绪 [1] 阿里云与比亚迪合作 - 阿里云与比亚迪深度合作 通义大模型已在多个业务场景应用 Mobile-Agent将接入比亚迪车机 实现对阿里生态App的操控 采用全视觉解决方案 结合Qwen-VL视觉识别与推理能力 构建多模态智能体 可智能感知座舱屏幕并操作UI [1] 领克01焕新版上市 - 领克01焕新版推出3款车型 官方指导价14.98万至18.18万元 上市专享价11.88万至15.08万元 新增磨砂质感夜影蓝车身配色 配备新造型黑色轮辋 并对后视镜壳、车门把手等细节进行黑化处理 提升运动感与个性化特征 [1] 2025款奥迪A7L上市 - 2025款奥迪A7L推出7款车型 售价41.87万元至66.62万元 与老款保持一致 取消部分配置车型的双拼配色 车身尺寸5076毫米×1908毫米×1429毫米 轴距3026毫米 定位中大型轿车 [3]
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
量子位· 2025-06-04 13:21
多模态Agent验证码能力研究 核心观点 - 当前最先进的多模态Agent在验证码解题任务中表现远逊于人类,人类平均成功率93.3%,而SOTA模型仅5%-40% [2][3] - 验证码是Agent实际部署的关键瓶颈,但主流评估基准(如AgentBench、VisualWebArena)刻意回避含验证码的网页场景 [4][7] - Open CaptchaWorld平台填补研究空白,提供20类225个真实交互式验证码,系统性评估Agent的视觉-语言-动作协同能力 [5][6][9] 平台设计特点 - **多样性覆盖**:包含点击顺序、滑块对齐、图像选择等20类商用级验证码,模拟电商/票务等高价值场景 [9] - **交互真实性**:所有验证码部署于网页环境,要求Agent通过截图观察、点击拖动等动作完成端到端操作 [11] - **新评估指标**:提出CAPTCHA Reasoning Depth量化解题复杂度,补充传统静态图像分类评估的不足 [11] 模型性能分析 - **成功率对比**:OpenAI-o3以40%成功率领先,但远低于人类的93.3%,GPT-4o等模型表现更差 [11][3] - **行为缺陷**:Agent普遍存在"过度分解任务"现象,如序列点击任务中拆解为十余步操作,效率低下且易出错 [24][25] - **成本效率**:OpenAI-o3成本最高但性价比低,Gemini2.5-Pro和GPT-4.1在25%成功率下成本更优 [28][29][30] 数据集构建方法 - **四阶段流程**:图像素材构建→验证码生成→推理深度估计→标准注释生成,确保多样性与交互真实性 [14][15][17][19][20] - **视觉多样性**:通过调整目标位置、观察角度等参数生成泛化性强的样本 [16] - **语言指令配套**:结合自然语言描述与网页前端组件实现真实交互逻辑 [18] 行业启示 - **评估盲区突破**:揭示现有Benchmark忽略验证码的局限性,推动真实场景测试标准 [4][7][33] - **技术优化方向**:需提升Agent在动态交互中的抽象与规划能力,平衡性能与成本效率 [25][31] - **未来挑战**:验证码设计需随Agent能力进化同步更新,形成技术对抗循环 [34]
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 12:11
多模态智能体发展趋势 - 大型推理模型正发展原生智能体能力,包括调用外部工具(如浏览器搜索)和编写/执行代码进行图像操作,实现「图像中的思考」[1] - 开源社区在纯文本智能体(函数调用/工具集成)进展显著,但多模态智能体的图像理解/操作及评估体系仍处早期阶段[1] Visual-ARFT核心能力 - 赋予视觉语言模型(LVLMs)「工具智能体」能力,支持看图理解、动脑推理、动手操作[2] - 具体功能:编写执行Python代码读取图像文本、通过互联网搜索回答多模态多跳问题[2][4] - 训练方法全面开源,含代码、数据和模型[1][5] 技术实现与训练策略 - 基于强化微调(GRPO算法),设计rule-based verifiable reward驱动模型探索工具使用[7] - 仅需几十至1.2k训练数据即可实现多模态智能体能力训练[7] - 任务流程结构化:<think>思考→<search>检索→<code>编程→<answer>结论,形成可解释推理路径[9] 任务场景与评测基准 - 针对两类高难度任务:Agentic Search(多跳问题检索整合)和Agentic Coding(复杂图像修复/分析)[12] - 推出MAT-Bench评测基准,含150道MAT-Search(人工标注)和200道MAT-Coding(自动化构建)任务[9][12] 性能表现 - 在MAT测试中,Visual-ARFT加持的Qwen2.5-VL显著超越baseline和GPT-4o[13] - Qwen2.5-VL-7B+Visual-ARFT在MAT-Coding的Hard任务F1达25.38(较baseline提升13.84)[13] - MAT-Search平均分提升10.28,部分子任务超越GPT-4o达18.56[13] - OpenAI-o3表现断层领先,MAT-Coding的F1达72.99[13] 泛化能力验证 - 在Out of Domain的MultihopQA测试(如HotpotQA、MuSiQue)中,仅用几十条数据训练的模型性能显著提升[14]
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 23:42
2024年伊始,我们还在为大模型的"百亿参数竞赛"惊叹,转眼间,"小而强大"的多模态架构已如雨后春笋般涌现。 从Meta Chameleon到Qwen2.5-Omni,从DeepSeek Janus-Pro再到Gemma 3,新一代模型不仅参数更小、推理更强,还涌现出如多模态推理、智能体能力、长视频理解等 突破性进展。与此同时,"多模态检索增强生成(RAG)" "多模态智能体"等全新范式也初具雏形。 每一次模型发布、每一个技术节点,都在不断刷新我们对"视觉+语言"这一领域可能性的想象空间。 Hugging Face团队回顾并解析了过去一年视觉语言模型领域的关键事件与最新趋势: 这一年最值得关注的关键进展包括: 整体来看,过去一年视觉语言模型领域主要呈现出如下发展趋势: 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,无论你关心的是模型结构的突破、能力的进阶,还是新基准的建立和实际落地的工具,这文章都将为你提供一个不 错的起点。 01 新模型趋势 在本节中,我们将探讨新型 VLM。虽然有些是全新的,但其他则是先前研究的改进版本。 任意到任意 (Any-to-any) 模型 任意到任意模型,顾名思义,是 ...
陆家嘴财经早餐2025年3月11日星期二
Wind万得· 2025-03-11 06:44
文章核心观点 文章围绕全球金融市场、宏观经济、国内股市、金融、楼市、产业、海外市场等多个领域展开,涵盖市场行情、政策动态、企业经营等信息,反映各领域现状与发展趋势 热点聚焦 - 北美实行夏令时,摩根士丹利与高盛下调美国经济增长预期,周一美国三大股指重挫,道指跌2.08%,标普500指数跌2.7%,纳指跌4%,高盛、英伟达等领跌,中概股普遍下跌 [2] - 周一港股调整,南向资金净买入296.26亿港元创历史新高,科技龙头是加仓重点,2025年以来累计净买入超3435亿港元,机构认为港股估值低应关注盈利匹配性 [2] - AI Agent产品Manus基座模型公布,联合创始人季逸超称使用Claude与阿里Qwen微调模型,团队有开源传统将开源部分内容 [2] - 市场传言字节跳动向寒武纪下单4万颗580芯片价值10亿元,字节跳动称消息不实,寒武纪表示以官网信息为准 [3] 环球市场 - 欧洲三大股指全线下跌,德国DAX指数跌1.69%,法国CAC40指数跌0.9%,英国富时100指数跌0.92% [5] - 亚太主要股指涨跌互现,日经225指数涨0.38%,印度SENSEX30指数跌0.29%等 [5] - 国际油价全线下跌,美油4月合约跌1.67%,布油5月合约跌1.69% [5] - 国际贵金属期货普遍收跌,COMEX黄金期货跌0.71%,COMEX白银期货跌1.08% [5] - 伦敦基本金属涨跌不一,LME期铜跌1.25%,LME期锡涨0.53%等 [6] - 芝加哥期货交易所农产品期货主力合约涨跌不一,大豆期货跌1.15%,玉米期货涨0.64%等 [6] - 美债收益率全线走低,2年期美债收益率跌9.98个基点 [6] - 欧债收益率收盘涨跌不一,英国10年期国债收益率涨0.2个基点 [7] - 纽约尾盘,美元指数涨0.03%,非美货币多数下跌,离岸人民币对美元跌198个基点 [7] 宏观 - 十四届全国人大三次会议3月11日闭幕,下午3时表决多项决议草案 [10] - 中国2月金融数据将发布,机构预期2月信贷增速或回落,社融增速或回升 [10] - 央行3月10日开展965亿元7天期逆回购操作,利率1.5%,当日净回笼5亿元 [11] - 财政部、央行3月10日进行1500亿元1个月期国库现金定存招投标,中标利率2.08% [11] - 深圳市国资委统筹调配10万平方米产业空间,小微科创企业可享2年免租优惠 [12] - 合肥2024年末常住人口达1000.2万人,跻身千万人口城市行列 [12] 国内股市 - A股三大指数震荡走弱,上证指数跌0.19%,市场成交额1.54万亿元,AI医疗概念股领涨,AI软硬件方向下挫 [14] - 香港恒生指数跌1.85%,恒生科技指数跌2.52%,蜜雪集团涨近11% [14] - 深交所理事长沙雁表示深化创业板改革,优化相关机制,促进资源向新领域集聚 [14] - 高盛认为中国股市开局佳,牛市将放缓,未来获利回吐压力或显现 [14] - 香港联交所新增泰国证券交易所为认可证券交易所,泰交所上市公司可申请在港第二上市 [14] - 北方华创拟16.87亿元受让芯源微9.49%股份,还将增持争取控制权 [15] - 零跑汽车2024年Q4毛利率达13.3%,净利润0.8亿元,提前一年单季度盈利,发布新车B10预售价10.98 - 13.98万元 [15] - 蔚来进行组织变革,聚焦可实现价值创造项目 [15] - 网易数智称停服蜂巢模块服务,其他业务不受影响 [15] - 中国台湾加权指数跌0.52%,台积电2月销售额2600.1亿元新台币,同比增长43.1% [16] - 多家公司发布公告,如胜宏科技预计Q1净利润同比增长272.12% - 367.54%等 [17][18] 金融 - 抖音打击“非法荐股”等违法证券活动,采取封禁账号等措施,严重者报案 [20] - 中国人寿和新华保险出资500亿元的鸿鹄基金投资落地,金融监管总局批复设立二期 [20] - 南方基金上报南方润泽科技数据中心REITs,为首只数据类公募REITs项目 [20] 楼市 - 上海楼市成交突出,3月8日二手房网签1432套,3月1 - 8日成交7572套,日均约940套 [22] - 深圳2025年第10周二手房录得1812套,环比增长11.6%,市场持续回暖 [22] - 苏州市住建局出台“三低一宽”金融产品,叠加人才房票政策降低购房门槛 [22] 产业 - 广东省发布政策推动人工智能与机器人产业发展,探索“监管沙盒”模式,加快立法 [24] - 广州成立产业办推进人工智能工作,重点在生命健康等行业 [25] - 2月全国乘用车零售138.6万辆,同比增长26%,新能源乘用车零售68.6万辆,同比增长79.7%,渗透率49.5% [25] - 乘联分会预计2025年汽车报废更新500万辆,以旧换新1000万辆,新能源车产销1600万辆,销售额超2万亿元 [25] - 中国信通院启动多模态智能体技术规范编制,3月13日召开研讨会 [25] - 存储芯片厂商闪迪4月1日起产品涨价超10%,后续或有额外涨幅 [25] - 2月挖掘机销售19270台,同比增长52.8%,国内销量11640台,同比增长99.4% [25] - 智元发布通用具身基座大模型智元启元大模型(GO - 1) [26] - 字节豆包开源优化技术,提升大模型训练效率1.7倍,节省成本40% [26] - 上海出台电动汽车充换电设施补贴政策,功率补贴上限600元/千瓦、300元/千瓦 [27] - 2024年全球智能眼镜出货量同比增长210%,突破200万台 [28] 海外 - 特朗普称4月2日对加墨部分商品关税“可能增加”,将对加拿大木材和乳制品征新关税,或对乳制品征250%对等关税 [30] - 加拿大安大略省对输美电力征25%关税,不列颠哥伦比亚省下架美国酒精饮品 [30] - 摩根士丹利和高盛下调美国经济增长预期,分别从1.9%、2.2%调至1.5%、1.7% [30] - 日本1月基本工资同比涨3.1%,名义工资增速2.8%,实际工资降1.8%,央行加息预期强化 [30] - 日本1月经常项目逆差2576亿日元,进口增17.7%,出口增2.1%,贸易逆差2.94万亿日元 [31] - 德国1月出口环比降2.5%,进口环比升1.2% [32] - 德国1月季调后工业产出环比升2%,同比降1.6% [33] - 欧元区3月Sentix投资者信心指数 - 2.9 [34] 国际股市 - 中概股普遍下跌,纳斯达克中国金龙指数跌3.59%,极氪、知乎等热门中概股跌幅明显 [36] - 摩根士丹利分析师警告关税和财政支出减少影响企业收益,美股市或再跌5%,标普500指数上半年或至5500点,年底回升至6500点 [36] - 瑞银下调特斯拉2025年Q1交付预期至36.7万辆,同比降5%,环比降26%,下调目标价至225美元 [37] - 丰田汽车停工生产线增至4条,复工时间未定 [38] - 极氪全尺寸SUV极氪9X将亮相上海车展并上市,光辉车型预计售价100万起 [38] - 苹果、Meta可能因违反欧盟法案面临适度罚款,本月出决定 [38] - 苹果将对iPhone等软件重大升级,改变操作系统外观,简化用户操作 [38] - 应用材料将季度股息提高15%至46美分,增加100亿美元股票回购授权 [39] - ServiceNow将以28.5亿美元收购人工智能公司Moveworks [39] - 甲骨文2025财年Q3每股收益、营收、净利润未达预期,预计下一财年收入增长15%,盘后股价涨超3% [39] 商品 - 国内商品期货夜盘多数下跌,豆粕、棕榈油跌近2%,菜粕涨6.99%,基本金属期货涨跌不一 [41] - 郑商所调整菜粕期货部分合约最小开仓下单量为10手 [41] - 3月10日国产电池级碳酸锂价格持平报7.51万元/吨 [42] - 波罗的海干散货指数涨1.71%报1424点,连续三日上涨 [42] 债券 - 现券期货延续弱势,10年期、30年期国债收益率创新高,国债期货全线下跌,资金平衡,银行“二永债”收益率上行 [44] - 中证转债指数涨0.19%,万得可转债等权指数涨0.25%,近五成转债上涨,部分转债涨幅或跌幅超2% [44] - “H21旭辉01”付息不确定拟延宽限期,鹏元撤销美的集团评级,“23大连万达MTN001”回售登记,“25中电金投MTN001”取消发行 [44] 外汇 - 周一在岸人民币对美元16:30收盘报7.2649,较上一交易日下跌267个基点,夜盘收报7.2595,中间价调贬28个基点 [46] 重要经济日程 - 3月11日有日本GDP终值、英国零售销售等多项经济数据公布 [48][49] - 当日有十四届全国人大三次会议闭幕等多项重要事件,还有新股上市、申购,公司财报发布等 [49]