Workflow
Gemini 2.0
icon
搜索文档
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
36氪· 2025-07-04 18:47
Gartner 高级分析师 Anushree Verma 表示:"目前大多数代理型 AI 项目仍处于早期实验或概念验证阶 段,其背后的主要驱动因素是炒作,而这些技术往往被错误地应用。这可能使企业忽视 AI 代理大规模 部署所需的真正成本与复杂性,导致项目迟迟无法落地。企业需要穿透炒作迷雾,制定更为审慎和战略 性的决策,明确在哪里、以及如何采用这一新兴技术。" 2025 年 1 月,Gartner 对 3412 名网络研讨会参与者进行了一项民意调查,发现 19% 的组织报告在代理 型 AI 方面进行了大量投资,42% 的组织进行了保守投资,8% 的组织根本没有投资,31% 的组织正在 等待或不确定。 更为值得关注的是,Gartner 发现了一种普遍存在的"代理清洗"趋势,即供应商将现有的人工智能助 手、聊天机器人或机器人流程自动化 (RPA) 工具重新包装成"代理人工智能",而实际上并没有提供真 正的代理功能。Gartner 估计,在数千家声称提供代理解决方案的供应商中,只有约 130 家真正提供了 真正的代理功能。 当人工智能在大模型能力突破、推理能力提升以及多模态技术进步的推动下走向新阶段,"Agentic ...
2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%
量子位· 2025-06-16 18:30
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge) 两天完成人类12年工作 —— 医学研究领域中,系统评价 (SRs) 作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法 的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程—— otto-SR 。 结合 GPT-4.1 和 o3-mini 进行筛选和数据提取,仅花费两天时间就完成了传统方法需要12年才能完成的Cochrane系统评价更新。 用于系统综述自动化的智能工作流程 团队引入了一种基于LLM的端到端工作流程 otto-SR ,支持从初始检索到数据分析,完全自动化和人机协作的系统综述流程。 otto-SR首先会收集从原始检索中识别的RIS格式的引用文献,GPT-4.1随即会作为独立评审员进行筛选。 筛选出的文章集合将输入o3-mini-high模型进行数据提取,其中PDF格式将会由Gemini 2.0 flash处理并转换为结构化Markdown文件,并用 于下游任务。 具体而言,可以细分为筛选和提取 ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
KRIS-Bench团队 投稿 量子位 | 公众号 QbitAI 人类在学习新知识时,总是遵循从"记忆事实"到"理解概念"再到"掌握技能"的认知路径。 AI是否也建立了"先记住单词,再理解原理,最后练习应用"的这种知识结构呢? 测评一下就知道了! 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了 KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark)。 首创地 从知识类型的视角 ,对图像编辑模型的推理能力进行系统化、精细化的评测。 借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。 基于认知分层的三大知识范畴 KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从 "物体计数变化"到"化学反应预测 ...
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位· 2025-06-09 13:24
这一全新基准测试 MMA R 来自上海交通大学、 南洋理工大学、伦敦玛丽皇后大学、字节跳动、2077AI开源基金会等研 究机构。 MMAR 是什么?它有多难? MMAR团队 投稿 量子位 | 公众号 QbitAI 用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着?面对 1000 道多步骤音频推理题时, 30 款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎 猜。 就连表现最好的开源模型Qwen-2.5-Omni,准确率也只有 5 6 .7% ;而闭源选手Gemini 2.0 Flash则以 65.6% 的成绩 一骑绝尘,遥遥领先全场。 MMAR全称是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。 简单来说,它是一个包含 1000个高质量问题 的音频理解评估基准,每个问题都要求模型具备多步骤的深度推理能力。 我们先来看个例子: 问题是:理发师能否听懂英文? 在这段音频中,被理发的人用英语反复强调自己想要的理发效果,另一个人将其翻译成中文来帮助他强调,这说明理发师 不能听懂英 ...
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 11:52
奥特曼使用大模型的方法,竟然是错的? 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 来自沃顿商学院等机构的最新研究发现,备受奥特曼喜爱的 "直接回答"提示,竟然会显著降低模型准确率 。 不过另一方面,这项研究也发现, 在提示词中加入思维链(CoT)命令同样不好用 —— CoT提示对于推理模型非但没有效果提升,反而会增加时间和计算成本。 而一些前沿的非推理模型,CoT提示可以带来效果提升,但答案的不稳定性也随之增加了。 研究团队使用GPQA Diamond数据集,针对现在主流的推理和非推理模型,分别在启用和不启用CoT的情况下进行了测试。 结果就是对于推理模型,CoT的作用十分有限,比如对于o3-mini,CoT带来的准确率提升只有4.1%,但时间却增加了80%。 非推理模型的结果则要复杂一些,但总之要不要用CoT,也需要对收益和投入进行仔细权衡。 所以CoT到底该不该用呢? 实际上,这项研究针对的是用户提示词中的CoT命令,并不包括系统提示词设定,更 不是CoT本身 。 CoT提示词作用有限,甚至还有反效果 结果, 对于非推理模型,CoT提升相比于直接回答,所有模型的平均评分和"51%正确"指标都有 ...
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位· 2025-06-03 14:21
西风 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福最新大模型医疗任务全面评测, DeepSeek R1 以66%胜率拿下第一 ! 歪国网友纷纷被惊艳住了,原因在于该评测 重 点聚焦临床医生的 日常工作场景 ,而非仅局限于传统医疗执照考试题。 要评测就要全 方 位。 31页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型,DeepSeek R1以66%胜率、0.75宏观平均分 领先。 为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。 团队构建了 含35个基准测试的综合评估框架 ,覆盖 22个子类别 医疗任务。 整个评测的分类体系还经过了临床医生验证, 由29名来自14个医学专科的执业医师共同参与开发 。 光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心 (CRFM) 、微软的研究人员均在列。 | Accuracy | Efficiency | General information | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- ...
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI 杯子在我的左边还是右边? 这个对人类来说非常简单的问题,连GPT-4o这样级别的视觉语言大模型 (VLMs) 也可能答错。 ViewSpatial-Bench评估集中 包含5700个问答对,涵盖相机视角与人类视角两种框架下的五种空间定位识别任务 。 究其根本,还是 当前的视觉语言大模型在大规模图文数据中学习到的空间信息往往是片段化的,仅限于静态视角的理解,缺乏多维度、多视 角的空间推理能力 。 因此,当面对需要多视角空间推理的任务时,这些模型们就频频卡壳。 但是,具备稳健的空间推理能力与视角理解能力的AI系统,才能真正成为与人类协作的智能体。 为此,来自浙江大学、电子科技大学和香港中文大学的研究团队提出了 首个系统评估VLM多视角多任务下的空间定位能力的基准体系 —— ViewSpatial-Bench,涵盖五种不同的任务类型,从相机和人类视角出发,全面评估模型的空间推理能力。 同时还并配备了能够生成精确方向标签的自动化3D标注流水线。通过高效的3D方向标注生成流程,实现了超过5700个问答对,覆盖丰富的 3D场景。 通过在多视角空间数据集上的 ...
胡泳:超级能动性——如何将人类潜能提升到新高度
腾讯研究院· 2025-05-28 16:34
核心观点 - AI正处于变革初期,其影响可能超过印刷机与汽车等重大发明,将重塑工作方式和社会结构 [1] - AI的核心潜力在于实现"超级能动性",即通过人机协作大幅提升人类生产力与创造力 [4][5] - 当前AI技术呈现五大创新方向:智能推理、代理式AI、多模态功能、硬件升级和透明度提升 [8] - 90%企业领导者预期AI将在3年内推动营收增长,但70%企业转型面临失败风险 [26] 技术进展 智能与推理能力 - GPT-4在美国律师考试中进入前10%考生行列,医师资格考试正确率达90% [9][10] - 大语言模型上下文窗口显著扩展:Gemini 1.5 Pro可处理200万词元(2024年6月) [8] - OpenAI的o1模型具备类人推理逻辑,可进行目标导向的任务规划 [10] 代理式AI - 英伟达CEO黄仁勋称代理式AI为"万亿美元机会",预测2025年将出现数字员工 [12] - Salesforce推出Agentforce平台,可构建自主AI智能体处理产品发布等复杂任务 [13] 多模态功能 - Gemini Live实现带情感色彩的类人对话,Sora可将文本转化为视频 [15] - 谷歌PaLM-E模型结合视觉与语言控制机器人,Flamingo模型实现跨模态推理 [17] 硬件创新 - 英伟达H100 GPU加速大模型训练,2025年Cosmos世界模型将整合RTX芯片 [19] - 量子计算与神经形态芯片可能带来革命性突破,边缘计算提升实时响应能力 [20][21] 行业应用挑战 实施障碍 - 五大关键挑战:领导层战略对齐(分歧率70%)、成本不确定性、人才短缺、供应链脆弱性、模型可解释性 [26][27] - AI透明度指数显示Anthropic得分提升15分至51分,亚马逊提升3倍至41分(2023-2024) [23] 转型策略 - 推荐"迭代部署"模式:小步快跑开发,社会共建治理 [29] - 仅1%企业达到AI成熟水平,需结合自上而下战略与自下而上员工创新 [33] 企业战略思考 领导者维度 - 需重新构想成本中心为价值创造部门,通过AI建立差异化竞争力 [34] - 建议设立AI价值与风险负责人角色,统一跨部门目标 [27] 员工维度 - AI原生员工需掌握提示工程等新技能,企业需建立持续学习机制 [32][33] - 工作设计应鼓励自下而上的创新,如黑客松等实验形式 [33]
2025Q1人工智能现状分析:中国
搜狐财经· 2025-05-25 11:21
中国人工智能实验室发展 - 中国人工智能实验室在数量和质量上均有显著提升 正逐步缩小与美国实验室的差距 [1] - DeepSeek的R1模型和阿里巴巴的Qwen系列已接近OpenAI的o1级智能水平 性能表现突出 [1] - 多家中国实验室推出高性能推理模型 该类模型在回答前进行"思考" 提升了文本理解和生成能力 [9] 大型科技公司动态 - 阿里云、腾讯、百度等公司利用资金和技术优势 快速推出前沿模型如Qwen 2.5和豆宝1.5 Pro [2] - 阿里巴巴的Qwen系列和DeepSeek的R1模型开放权重 促进技术共享和生态发展 [1] 行业挑战与应对 - 美国对NVIDIA H100/A100等高端GPU的出口管制对中国AI硬件供应造成压力 [2] - 中国公司积极开发国产芯片或使用合规硬件作为替代方案 [2] 初创企业表现 - MiniMax、智浦等初创公司在医疗、自动驾驶等垂直领域推出创新模型 获得市场认可 [2] 技术竞争格局 - 2024年末中国顶尖实验室密集发布高性能模型 智能水平差距从85缩小至80(基于Artificial Analysis基准测试) [9] - 美国实验室中Google Gemini 2.0和Meta模型正快速逼近OpenAI的GPT-4 Turbo [9] - OpenAI的o3模型在2024年引领GPT-4之外的智能飞跃 推理模型和数据质量成为性能提升关键杠杆 [9] 市场趋势 - 中国AI领域投入持续增加 大型企业和初创公司共同推动技术进步 [3] - 行业预计未来几年中国将在部分AI细分领域实现超越 带来新的商业机会 [3]