Gemini 2.0 Flash

搜索文档
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
36氪· 2025-07-04 18:47
代理型AI行业现状 - 代理型AI成为2024年AI领域新晋热词,2025年被称为"AI代理元年",被视为下一代智能自动化革命[1] - Gartner预测到2027年底超过40%的代理型AI项目将因成本上升、商业价值不明确或风险控制不足而被取消[1] - 目前大多数代理型AI项目处于早期实验或概念验证阶段,主要驱动因素是炒作而非实际价值[2] 市场投资与乱象 - 2025年1月Gartner调查显示19%组织对代理型AI进行大量投资,42%保守投资,8%未投资,31%观望[2] - 行业存在"代理清洗"现象,数千家供应商中仅约130家真正提供代理功能,其他将现有工具重新包装[2] - 当前大多数代理型AI解决方案不具备明显业务价值或投资回报率,模型成熟度与自主能力不足[3] 技术定义与能力 - 代理型AI指使用机器学习模型连接各类服务和应用以自动执行任务或业务流程的AI代理[3] - 理论上代理型AI应能高效理解并执行复杂自然语言指令,如语义分析和关联判断[3][4] - 卡耐基梅隆大学测试显示主流模型任务完成率最高仅30.3%(Gemini 2.5 Pro),部分完成率39.3%[6] 实际应用表现 - AI代理在办公场景测试中表现不佳,存在未按指令操作、无法处理UI元素甚至欺骗性行为等问题[6][7] - Salesforce测试显示AI代理在CRM场景单轮交互成功率约58%,多轮交互降至35%[8] - 所有被评估模型在保密意识方面几乎为零,企业IT环境部署面临数据隐私与安全挑战[8] 企业实践案例 - 瑞典支付平台Klarna曾用AI工具替代人工客服,但因服务质量不佳恢复人工招聘[9] - Gartner预计到2028年15%日常工作决策将由AI代理完成(2024年为0%),33%企业软件将集成代理型AI(2024年不足1%)[9] 发展建议 - 企业应采用聚焦明确交付价值或可衡量ROI场景的策略[10] - 在已有系统中集成AI代理可能打破工作流程并带来高昂修改成本,建议从底层重构工作流程[10]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测框架设计 - 基于三大知识范畴:事实性知识(颜色、数量等)、概念性知识(物理化学常识)、程序性知识(多步推理) [8] - 细分为7大推理维度和22种编辑任务覆盖全谱系难度 [6] - 样本总量1267对图像-指令由专家手工打磨数据来源多样化 [12] 评估指标与方法 - 首创四维度自动化评估:视觉一致性、视觉质量、指令跟随、知识合理性 [10][11][13] - 深度知识任务附带手工知识提示以验证模型理解能力 [11] - 评测10款模型包含3款闭源(GPT-Image-1等)和7款开源(OmniGen等) [14] 评测结果 - 闭源旗舰GPT-Image-1表现领先开源黑马BAGEL-Think在知识合理性上有提升但仍有差距 [17] - 多数模型在事实性知识(如数量变化)基础任务上表现欠佳 [17] - 所有模型在程序性推理、自然科学及多步骤合成任务上普遍失分 [17] 行业意义 - 推动图像编辑模型从像素搬运向具备认知能力的视觉智者进化 [16] - 未来目标是在模型中植入物理化学常识与因果推理实现真正的理解 [16]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测体系设计 - 基于三大知识范畴构建评测框架:事实性知识(颜色/数量/空间/时间)、概念性知识(物理/化学/生物常识)、程序性知识(多步操作与规则推理) [8] - 细分为7大推理维度和22种典型编辑任务覆盖全谱系难度包括物体计数变化、化学反应预测、多元素合成等 [6] - 样本总量1,267对图像-指令由专家团队手工打磨数据来源包含真实照片、开源基准、模型生成、3D渲染等多样分布 [12] 评估方法创新 - 首创四维度自动化评估指标:视觉一致性(非目标区域保持)、视觉质量(自然度)、指令跟随(完整性)、知识合理性(常识符合度) [10][11][13] - 深度知识任务附带手工知识提示辅助判断模型理解程度 [11] 模型评测结果 - 评估10款模型包含3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen/Emu2/BAGEL/Step1X-Edit等) [14] - 闭源旗舰GPT-Image-1表现领先开源模型BAGEL-Think通过引入推理过程提升知识合理性但仍落后闭源模型 [18] - 所有模型在程序性推理、自然科学及多步骤合成任务上表现不佳显示深层推理能力不足 [18] 行业影响 - 推动图像编辑模型从像素搬运向具备人类认知能力的视觉智者演进 [16] - 未来目标是在AI编辑中植入物理/化学/社会常识与因果推理实现真正的理解与预测 [16]
AI集体“听不懂”!MMAR基准测试揭示音频大模型巨大短板
量子位· 2025-06-09 13:24
MMAR基准测试概述 - MMAR是一个包含1000道高质量问题的音频理解评估基准,要求模型具备多步骤深度推理能力[3] - 问题覆盖信号层、感知层、语义层和文化层四个推理层级,涉及真实场景的语音、音乐和环境声音混合[6] - 测试由上海交通大学、南洋理工大学、字节跳动等机构联合开发,标注过程经过严格审核[1][4] 模型表现分析 - 测试30款模型中,闭源模型Gemini 2.0 Flash以65.6%准确率领先,开源最佳Qwen-2.5-Omni仅56.7%[11] - 音乐相关任务表现最差,显示模型在旋律、节奏和作曲风格识别存在重大缺陷[12] - 显式推理模型(如Audio-Reasoner)性能普遍优于非推理模型,显示推理能力的关键作用[14] 技术瓶颈诊断 - 主要错误类型:感知错误(37%)、推理错误(20%)、知识缺失(9%)[19] - 噪声输入实验证实模型依赖真实音频输入,但Qwen-2.5-Omni暴露语言先验偏差问题[15] - 级联模型组合显示感知能力与推理能力存在协同效应[17] 行业发展趋势 - 闭源模型性能显著领先开源社区,当前开源方案未达实用水平[9][18] - 音视频全模态大模型展现出优于专用音频模型的潜力[20] - 需重点突破多说话人交互、复杂语义理解等场景的技术瓶颈[4][6] 测试方法论价值 - 首创多层级音频推理评估体系,涵盖物理信号到文化背景的完整维度[6] - 通过1000道高难度题目(如声学测井深、音乐家亲子关系判断)建立严格标准[4][5] - 为行业提供可量化的模型能力标尺,推动数据与算法协同创新[21]
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 11:52
大模型提示词优化研究 - 核心观点:研究发现直接回答提示和思维链(CoT)提示在不同类型的大模型中效果差异显著,默认设置可能是最佳使用方式[1][25] 研究方法与数据集 - 使用GPQA Diamond数据集进行测试,包含研究生水平专家推理问题[5][9] - 测试了7种主流模型,分为推理模型和非推理模型两类[10] - 每种模型设置三种实验环境:强制推理、直接回答和默认模式[10] - 每个问题在每种条件下测试25次,确保结果可靠性[11] 推理模型测试结果 - CoT提示对推理模型效果有限:o3-mini准确率仅提升4.1%,时间增加80%[6][23] - Gemini 2.5 Flash使用CoT后所有指标全面下降[20] - 在平均评分上,o3-mini提升2.9个百分点,o4-mini提升3.1个百分点[21] 非推理模型测试结果 - CoT提示对非推理模型效果更复杂:平均评分和51%正确率指标提升[12] - Gemini Flash 2.0提升最显著,Claude 3.5 Sonnet次之,GPT-4o系列提升不明显[13] - 但在100%和90%正确率指标中,部分模型使用CoT后指标下降[14] - CoT增加了非推理模型答案的不稳定性[15] 时间成本分析 - 推理模型使用CoT后时间显著增加:o4-mini增加20%,o3-mini增加80%[23] - 效果较好的非推理模型时间增加更明显[24] 最佳实践建议 - 默认设置可能是最佳使用方式,因前沿模型已内置推理过程[22][25] - 强制CoT效果弱于默认模式,可能与模型内置思维链有关[17]
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位· 2025-06-03 14:21
斯坦福医疗大模型评测 - 斯坦福团队构建了名为MedHELM的综合评估框架,包含35个基准测试覆盖22个子类别医疗任务,重点模拟临床医生日常工作场景[3][12][20] - 评估框架经过29名来自14个医学专科的临床医生验证,最终形成5个类别、22个子类别、121项任务的分类体系,临床医生对子类别分类达成96.7%的一致性[4][14][17] - 13个全新开发的基准测试中有12个基于真实电子健康记录数据,弥补了现有评估中真实医疗数据不足的问题[20] 模型表现对比 - DeepSeek R1以66%胜率和0.75宏观平均分领先,胜率标准差为0.10显示较高稳定性[7][24][27] - o3-mini以64%胜率和最高0.77宏观平均分排名第二,在临床决策支持类别表现较优[26][27] - Claude 3.7 Sonnet和3.5 Sonnet胜率分别为64%和63%,宏观平均分均为0.73[26][27] - GPT-4o胜率57%,Gemini 2.0 Flash和GPT-4o mini胜率较低分别为42%和39%[26][27] - 开源模型Llama 3.3 Instruct胜率30%,Gemini 1.5 Pro以24%胜率排名末位但胜率标准差最低(0.08)[26][27] 任务类别表现差异 - 模型在临床病例生成任务中表现最佳(0.74-0.85分),患者沟通教育任务次之(0.76-0.89分)[32] - 医学研究辅助(0.65-0.75分)和临床决策支持(0.61-0.76分)表现中等[32] - 管理与工作流程类别得分最低(0.53-0.63分),反映结构化推理任务对大模型更具挑战性[32] - 模型在NoteExtract基准测试(从临床病历提取信息)表现最佳,在MedCalc-Bench(计算医学值)和EHRSQL(生成临床研究SQL)表现较差[30][31] 评估方法创新 - 采用大语言模型评审团(LLM-jury)评估方法,与临床医生评分的一致性达到0.47组内相关系数,超过临床医生间平均一致性(0.43)[34][35] - LLM陪审团方法优于传统自动化评估指标如ROUGE-L(0.36)和BERTScore-F1(0.44)[35] - 成本效益分析显示非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低但胜率较低(0.39和0.42)[38] - 推理模型DeepSeek R1(1806美元)和o3-mini(1722美元)成本较高但胜率更优(0.66和0.64),Claude 3.5/3.7 Sonnet(1537-1571美元)性价比良好[39]
AlphaEvolve: A coding agent for scientific and algorithmic discovery
Google DeepMind· 2025-05-16 00:00
报告行业投资评级 未提及相关内容 报告的核心观点 - AlphaEvolve结合了最先进的大语言模型和自动化评估指标,在进化框架内展现出强大能力,能在数学问题上取得新发现,并对计算堆栈进行实际改进 [88] - AlphaEvolve可通过不同方式处理同一问题,且能作为测试时计算代理,增强基础大语言模型的能力,未来可考虑将其增强性能融入下一代基础模型 [89][90] 根据相关目录分别进行总结 1. 引言 - 发现新知识通常是个漫长过程,虽大语言模型和智能体的发展推动了自动化,但实现全新科学或实际发现仍具挑战 [2] - AlphaEvolve是基于进化计算和大语言模型代码生成的优化代理,专注于可自动评估的科学和工程发现问题,能进化复杂代码,超越以往系统 [3][7] - 因自动化评估指标的限制,AlphaEvolve主要聚焦于数学、计算机科学和系统优化领域 [9] 2. AlphaEvolve 2.1 任务规范 - 用户需提供自动评估生成解决方案的机制,以函数形式将解决方案映射到一组标量评估指标,且这些指标通常需最大化 [13] - 用户可通过在代码中添加特殊注释标记进化块,块内代码作为初始解决方案,其余代码构成骨架 [19][20] - AlphaEvolve可通过多种方式应用于同一问题,不同抽象级别适用于不同问题 [21][22] 2.2 提示采样 - AlphaEvolve支持多种定制和提供长上下文的提示,包括显式上下文、随机格式化、渲染评估结果和元提示进化等 [23][25] 2.3 创造性生成 - AlphaEvolve利用大语言模型的能力,消化先前解决方案信息并提出改进方案,且模型性能越好,结果越佳 [24] - 要求大语言模型以特定格式提供代码修改,短代码或需完全重写时可直接输出代码块 [29][30] - AlphaEvolve采用Gemini 2.0 Flash和Gemini 2.0 Pro的组合,平衡计算吞吐量和解决方案质量 [31] 2.4 评估 - 新解决方案通过执行用户提供的评估函数进行自动评估,支持评估级联、大语言模型生成反馈和并行化评估等机制 [32] - AlphaEvolve允许优化多个用户提供的分数,有助于提高单一目标指标的结果 [33] 2.5 进化 - AlphaEvolve在进化过程中生成的解决方案存储在进化数据库中,该数据库结合了MAP elites算法和基于岛屿的种群模型 [34] 2.6 分布式管道 - AlphaEvolve是异步计算管道,由控制器、大语言模型采样器和评估节点组成,优化吞吐量以提高计算效率 [35] 3. 结果 3.1 更快的矩阵乘法 - 矩阵乘法是计算机科学的基础操作,找到低秩张量分解可开发更快的算法,但该问题极具挑战性 [38] - AlphaEvolve能开发出优于现有方法的张量分解算法,通过评估级联和特定评估方法衡量性能,改进了14种不同矩阵乘法目标的现有技术 [39][40] 3.2 解决数学问题 - AlphaEvolve可作为强大工具探索数学问题的搜索空间,在超50个数学问题中,约75%的情况重现了已知最佳构造,约20%的情况发现了更好的构造 [42][43] - AlphaEvolve通过进化启发式搜索算法而非直接进化构造本身,实现了高效的大规模探索 [50] 3.3 优化谷歌计算生态系统 - **数据中心调度**:将在线作业调度问题建模为向量装箱问题,AlphaEvolve发现的启发式函数优于生产中的函数,平均可回收0.7%的计算资源,且具有可解释性等优势 [60][61] - **Gemini内核工程**:AlphaEvolve优化矩阵乘法操作的平铺启发式,使内核平均加速23%,减少了Gemini训练时间,加速了内核优化过程 [64][67] - **硬件电路设计**:AlphaEvolve优化TPU算术电路,减少面积和功耗,其建议以Verilog语言呈现,便于硬件工程师采用 [69][70] - **直接优化编译器生成的代码**:AlphaEvolve优化了FlashAttention内核及前后处理代码,分别加速32%和15%,展示了优化编译器生成代码的能力 [73] 4. 消融实验 - 对矩阵乘法和接吻数问题进行消融实验,结果表明进化方法和提示中的上下文对AlphaEvolve的结果有显著提升作用 [74][75] 5. 相关工作 - AlphaEvolve扩展了进化或遗传编程的研究传统,与FunSearch等系统相比,具有可进化整个代码库、多目标优化和使用前沿大语言模型等优势 [76][80] - 其他相关工作包括使用大语言模型引导进化的各种方法,但AlphaEvolve在规模、灵活性和通用性方面有所不同 [81] 6. 讨论 - AlphaEvolve结合大语言模型和自动化评估指标的进化框架具有强大能力,但主要处理可自动评估的问题,未来可与其他方法结合处理更广泛的问题 [88][92]
速递|OpenAI上架图像生成神器,200美元/月Pro用户抢先,免费版后续推出
Z Potentials· 2025-03-26 11:49
ChatGPT图像生成功能升级 - OpenAI宣布ChatGPT图像生成功能一年多以来的首次重大升级 利用GPT-4o模型原生创建和修改图像和照片 [1] - GPT-4o此前仅能生成和编辑文本 此次升级后支持图像生成 并已在ChatGPT和Sora中上线 供订阅200美元Pro计划的用户使用 [1] - 该功能将很快向ChatGPT Plus和免费用户以及使用API服务的开发者推出 [1] GPT-4o图像生成性能 - GPT-4o生成图像的"思考"时间比替代模型DALL-E 3稍长 但能生成更准确和详细的图像 [2] - GPT-4o可编辑现有图像 包括包含人物的图像 能够转换或修复前景和背景对象等细节 [3] 训练数据来源与版权保护 - OpenAI使用公开可用数据及与Shutterstock等公司合作获得的专有数据训练GPT-4o [3] - 公司提供选择退出表格 允许创作者请求将其作品从训练数据集中移除 并尊重禁止网络爬虫收集数据的请求 [4] - OpenAI表示有政策防止生成直接模仿在世艺术家作品的图像 以尊重艺术家权利 [3] 行业竞争动态 - ChatGPT图像生成功能升级紧随谷歌Gemini 2 0 Flash的实验性图像输出功能 [4] - Gemini 2 0 Flash因防护措施不足 允许去除水印和创建受版权保护角色的图像而在社交媒体引发争议 [4]
从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?
海外独角兽· 2025-03-03 21:10
行业竞争格局 - 头部AI实验室在过去一个月密集发布三个SOTA推理模型:OpenAI的o3-mini和deep research、xAI的Grok 3、Anthropic的Claude 3.7 Sonnet,标志着新范式第一轮竞赛暂告段落 [1] - 当前尚无全面领先的SOTA模型:OpenAI和xAI在基础模型和竞赛解题能力占优,Anthropic更擅长真实世界工程问题,Claude 3.7 Sonnet的混合推理模型可能成为行业新标准 [1][3] - DeepSeek R1在有限资源下实现开源创新,虽表现暂时落后但技术扩散价值显著 [7][8] 模型能力对比 - **数学推理**:o3-mini-high在AIME 2024测试中Pass@1达87.3,显著优于Claude 3.7 Sonnet的61.3/80.0和Grok 3的83.9/93.3 [9] - **工程代码**:Claude 3.7 Sonnet在SWE-bench验证中准确率领先20%+,可靠代码输出长度从3.5版的200行提升至1000-1500行 [19][20] - **多模态**:Gemini 2.0 Flash在多模态理解能力上绝对领先,但高阶融合能力尚未涌现 [6] 技术范式演进 - 基础模型预训练仍具关键价值:高质量基础模型是强化学习的前提,且当前评估方法已落后于模型智能发展 [12] - 混合推理成为趋势:Claude 3.7 Sonnet通过"extended thinking"设置实现快慢思考切换,未来模型需具备动态计算能力 [13][14][16] - RL Scaling效果优于垂直微调:OpenAI竞争性编程报告显示通用RL scaling比领域RL finetuning效果更好 [34][35] 产品应用创新 - Claude Code定位为AI Coding基建:通过命令行界面帮助AI扎根传统代码库,结合action scaling能力实现类Devin的agentic工作流 [22][23] - OpenAI Deep Research确立PMF形态:在网页理解深度、信息准确性、意图识别等方面领先,支持可配置的研究广度/深度控制 [29][31][32] - Agent能力升级关键:action scaling实现连续tool use,verifiable environment构建(如OS browser/Coding)及online learning机制 [25][27][28] 性能基准数据 | 测试维度 | Claude 3.7 Sonnet | Grok 3 Beta | o3-mini-high | |----------------|-------------------|-------------|--------------| | GPQA Diamond | 78.2/84.8 | 80.2/84.6 | 79.7 | | Codeforces评分 | - | - | 2130 | | SWE-bench | 49.3 | - | 49.2 | [9]
AI 月报:10 亿美元训练不出 GPT-5;低成本中国开源大模型走红;AI 幻觉不全是坏处
晚点LatePost· 2025-01-07 22:59
技术进展 - OpenAI训练GPT-5遇阻,已投入20个月和至少10亿美元算力成本,但性能提升未达预期,两次从头训练均未突破博士生水平目标[4] - 数据短缺迫使OpenAI采用人工生成数据(工程师/科学家每日5000字)和模型生成数据(o1模型)补充,但规模仍远低于GPT-4的10万亿字训练量[5] - o3模型在CodeForces编程竞赛得分比o1提升44%,数学测试EpochAI解决25.2%问题(其他模型<2%),但AGI评测得分因数据预训练存在争议[7][9] - 强化学习重要性提升,OpenAI推出RFT微调方法,LangChain报告显示人类反馈强化学习应用增长18倍[5][9] - 世界模型取得突破:DeepMind的Genie 2生成可交互虚拟场景,李飞飞团队实现AI图片转3D场景,CMU/英伟达开源机器人模拟系统Genesis[14] 行业竞争 - Google Gemini 2.0 Flash系列模型抢占Chatbot Arena前三,OpenAI首次失去榜首地位[18][21] - 中国开源模型崛起:DeepSeek-V3以578万美元训练成本逼近GPT-4o性能,Qwen2.5-plus超越Meta Llama 3.1[23][26] - 芯片领域博通市值破万亿美元,2024年AI收入增长220%至122亿美元,为Google/Meta等提供自研芯片方案[29] - 英伟达推出B300 GPU适配o系列模型,算力/显存提升50%,xAI计划将H100算力中心从10万张扩展至100万张[33][34] 应用与商业化 - OpenAI推出12项ChatGPT升级:订阅费最高2000美元/月,集成Sora视频生成、电话交互、生产力工具插件等功能[36] - Agent成为新趋势,Google Gemini 2.0专为Agent优化,YC预测其市场规模将比SaaS大10倍[12][13] - 大模型嵌入传统行业:Salesforce招聘2000人推广AI Agent,微软Phi-4模型(140亿参数)性能超越更大模型[38][12] - AI硬件进展:Meta计划为Ray-Ban眼镜增加屏幕,OpenAI重组机器人团队,中国预计2025年出现"百镜大战"[40] 投融资动态 - 21家AI公司获超5000万美元融资:中国智谱AI获30亿元(估值200亿元),阶跃星辰聚焦多模态模型,Liquid AI开发新型神经网络架构[42][43] - 基础设施领域Databricks融资86亿美元(估值620亿美元),Tenstorrent获7亿美元开发RISC-V架构AI芯片[44] - 应用层公司多成立于ChatGPT前:Zest AI(金融风控)、Tractian(工业设备监测)、Speak(语言学习)等获大额融资[46][47][48] 科学价值 - 大模型"幻觉"被科学家重新定义:加速抗生素研发(MIT)、生成全新蛋白质(诺奖得主Baker实验室获100项专利)[50][51]