Workflow
Gemini2.0
icon
搜索文档
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
量子位· 2025-05-22 22:29
大模型数学能力评估 - 人类在小学数学题测试中平均得分93.30%,显著优于所有AI模型 [1][17] - 闭源模型Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)表现最佳但未突破50%准确率 [1][17] - 开源模型整体表现低于闭源模型且参差不齐,可能与架构差异、多模态整合程度或训练数据质量有关 [17] VCBench基准特点 - 专为评估具备显式视觉依赖性的多模态数学推理任务设计,面向小学1-6年级数学问题 [4][5] - 强调vision-centric而非knowledge-centric,与儿童学习路径相符 [8][9][10] - 平均每个问题包含3.9张图像,显著高于现有基准,要求模型整合多图视觉线索 [12] 模型能力差异分析 - 大模型在逻辑推理类问题表现较好,但空间几何表现差,显示视觉和几何感知严重不足 [17] - 单图场景下模型表现平均比多图提升42.3%,Emu2-Chat单图性能飙升281.5% [22] - 思维链(CoT)对多步逻辑推理任务提升显著(Qwen-VL-Max在reasoning任务提升40%),但对感知型任务效果有限 [24] 错误类型分布 - 视觉感知错误占比最高(超50%),Gemini2-Flash达62%,是当前多模态模型主要瓶颈 [27][29] - 计算错误率4-7%,上下文误解错误率3-6%,Gemini2-Flash(3%)和Claude(4%)表现最佳 [27] - Claude逻辑错误率最高(33%),GPT-4o答案整合错误率最高(23%) [27][29]
推动人工智能产业迈向更高水平
经济日报· 2025-05-05 06:13
文章核心观点 - 人工智能是引领科技革命和产业变革的战略性技术,我国高度重视其发展,在技术创新与商业应用驱动下产业规模持续增长,虽已初步形成产业形态,但产业化仍需破解多重难题,需发挥场景优势加速应用创新 [1] 人工智能引领技术创新和产业变革 - 人工智能指模拟、延伸和扩展人类智能的技术,发展需数据、算法和算力支撑,经历“两落三起” [2] - 20世纪50 - 70年代是初期探索与理论奠基阶段,因计算能力及算法局限,70年代陷入低谷;80年代“专家系统”兴起,因依赖人工编写规则、计算资源有限,90年代初遭遇第二次瓶颈;21世纪得益于互联网等发展,技术迎来突破,深度学习成主流方向,在多领域广泛应用 [3] - 2020年大规模预训练模型兴起,高性能计算芯片、云计算等发展使训练和部署超大规模模型成为可能,大模型扩展能力边界,具身智能将人工智能扩展到物理世界 [4] - 人工智能未来发展方向是通用人工智能,可能从外延式转向内涵式发展,拓展类脑计算;其技术创新突破,嵌入多领域,赋能传统行业,成为推动科技、产业和经济发展的关键力量 [5] 人工智能产业形态初步形成 - 人工智能产业分为核心产业和融合应用产业,二者相互促进,推动形成相对完整产业体系,技术创新、产业投资和应用场景不断发展 [6] - 美国在人工智能领域领先,以技术创新为引领,按“通用基础模型—行业垂直模型”扩展,形成“技术优势—市场扩张—生态垄断”正向循环 [7] - 欧盟在行业数据资源和立法标准制定方面有优势;日本重点推动人工智能与制造业融合;但二者在技术创新与产业应用方面落后于美国 [8] - 我国人工智能发展注重整体布局与产业协同,结合制造业优势,应用优先,通过算法创新实现突破,产业从技术跟跑转为并跑和领跑 [9] 协同创新人工智能产业链 - 2017 - 2024年我国人工智能核心产业规模从180亿元跃升至6000亿元,企业超4700家,论文和专利量居全球第一,产业体系初步构建,产业链转向协同创新 [10] - 国内科技龙头企业布局人工智能,推出自研大模型并接入业务系统;初创企业不断涌现;企业主要集中在北京等地,北京产业优势突出 [11] - 部分企业深耕细分赛道,构建定制化服务平台,人工智能与细分产业结合助力转型升级,部分细分领域有成功案例 [11] - 语音助手、智能客服是大模型最先适配场景,目前大模型付费订阅模式不成熟;企业服务领域智能客服应用拓宽深化,2023年市场规模39.4亿元 [12][13] - 金融领域利用人工智能提升服务水平,降低不良贷款率,提高理财产品转化率 [13] - 智能制造领域大模型渗透全链条,推动制造业升级,但存在前期投入成本高问题,未来突破后或加速普惠应用 [14] - 矿产开采领域人工智能在多环节应用,提升效率、优化成本、保障安全 [15] - 智能网联汽车领域人工智能应用广泛,缩短设计周期,催生新业态,2024年末L2级组合辅助驾驶功能乘用车新车销售占比达57.3%,领航辅助驾驶功能新车渗透率为13.2% [15] 产业化之路需破解多重难题 - 我国在核心技术攻关和产业生态构建方面有待突破,算力基础未完全自主可控,算法底层框架依赖开源体系,前沿领域缺乏原创性突破,技术适配性不足 [16] - 产业生态建设中,中小企业协同发展生态未形成,专有服务平台建设滞后,资本层面投资放缓,2024年美国投资额约641亿美元,我国约为55亿美元 [17] - 大模型研发投入大、收益不确定,行业应用多在试点阶段,形成商业闭环面临挑战,头部企业持续投入与收益平衡成关键 [18] 发挥场景优势加速应用创新 - 强化顶层设计,将人工智能产业发展纳入“人工智能 +”战略部署,整合资源,挖掘应用场景,实施示范工程 [19] - 攻克关键核心技术,支持基础科研和大模型攻关,建设自主可控软件工具系统,鼓励龙头企业联合开发核心算法模型 [19] - 完善产业体系,加大产业主体和平台建设力度,引导行业主体参与布局,加强基础设施建设,完善监管制度和应用标准 [20] - 构建协同创新产业生态,打造“AI + 千行百业”生态,建设创新工程中心,强化需求侧管理,鼓励企业创新商业模式 [21]
巨头抢滩AI智能体,资本沸腾了
投中网· 2025-03-12 12:49
AI Agent市场概况 - AI Agent技术实现从"被动应答"向"主动执行"的范式跃迁,Manus验证了通用型AI Agent在复杂场景下的商业化可行性[8] - 2024年全球AI Agent市场规模约51亿美元,预计2030年达471亿美元,复合年增长率44.8%[9] - AI Agent通过"规划-验证-执行"架构将大模型认知能力转化为生产力工具,突破传统大语言模型无法闭环执行任务的局限[8][11] 技术突破与应用场景 - AI Agent具备人类思维范式,能理解指令隐含需求并执行复杂任务(如结合季节/活动推荐酒店)[11][12] - 多模态技术突破将扩展应用至医疗诊断、自动驾驶等高价值领域,未来可能通过多智能体系统(MAS)实现专业化分工协作[12][13][14] - 典型案例包括Manus在GAIA基准测试表现优异,OpenAI推出月费2万美元的"博士水平"Agent服务科研场景[18][28][30] 行业竞争格局 - 科技巨头密集布局:谷歌发布Gemini2.0及ProjectAstra,微软推出Copilot Studio平台,阿里千问QwQ-32B集成智能体能力[17][18] - 开源社区涌现OpenManus、OWL等产品,推动技术民主化[18] - 资本市场反应剧烈:Manus发布当日A股超150只概念股涨停,酷特智能等个股涨幅超20%[20][21] 现存技术挑战 - AI幻觉问题突出:GPT-4.5在SimpleQA测试中准确率62.5%但幻觉率7.1%,医疗领域3%误诊率可能造成30万例误诊[31][32] - 数据孤岛制约通用能力,金融/医疗等领域数据割裂导致跨场景迁移困难[33] - 伦理监管滞后,自主决策涉及隐私泄露、责任归属等未解决问题[33]