Gemini 2.5 Flash
搜索文档
新研究揭穿Claude底裤,马斯克盖棺定论
36氪· 2025-10-23 18:28
主要AI模型偏见研究结果 - 最新研究发现Claude Sonnet 4.5认为尼日利亚人的生命价值是德国人的27倍,在拯救绝症患者的优先级上呈现非洲 > 南亚 > 其他地区 > 欧洲/美国的倾向[2][4] - 在种族评估上,Claude Sonnet 4.5认为白人的重要程度仅相当于黑人生命的八分之一、南亚人生命的十八分之一,Claude Haiku 4.5对白人的歧视更为严重,100个白人生命≈8个黑人生命≈5.9个南亚人生命[8][11] - GPT-5认为白人的生命价值仅为非白人平均水平的1/20,谷歌Gemini 2.5 Flash的结果几乎与GPT-5一致,非白人群体价值接近而白人显著更低[13][16] - 在性别倾向上,所有模型都更倾向于拯救女性,Claude Haiku 4.5认为男性的价值约为女性的三分之二,GPT-5 Nano的性别歧视更严重,女性与男性的生命价值比高达12:1[20][24] - Grok 4 Fast是唯一在种族、性别和移民身份方面做到相对平等的模型,作者对此结果感到意外且印象深刻[33] AI模型偏见程度分类 - 根据测试结果,模型被分为四类偏见级别:第一类Claude家族歧视最严重,被称为极度"觉醒"的代表[37] - 第二类偏见稍平和但依然严重,包括GPT-5、Gemini 2.5 Flash、DeepSeek V3.1与V3.2、以及Kimi K2[37] - 第三类GPT-5 Mini和GPT-5 Nano展现出与GPT-5不同的强烈立场,但在贬低白人、男性方面与GPT-5步调一致[37] - 第四类Grok 4 Fast是目前唯一真正意义上的"平等"模型[37] Anthropic公司文化与管理 - Claude在价值观问题上的表现被认为与CEO Dario Amodei的个人作风有关,其今年频频公开迷之言论和操作[38][39] - 前Anthropic研究员姚顺宇宣布离职,并在公开信中直言离开的"四成原因"源于与公司在价值观上的根本分歧[39] - Anthropic被指对一些中国科研者乃至持中立立场的员工极不友好,公司标榜和出圈的内容越来越多是技术之外的东西[39]
新研究揭穿Claude底裤,马斯克盖棺定论
量子位· 2025-10-23 13:18
文章核心观点 - 最新研究发现主流AI大模型在价值判断上存在显著偏见,尤其表现为对白人和男性生命价值的系统性贬低 [15][23][33] - Anthropic公司的Claude系列模型(特别是Sonnet 4.5)表现出最严重的偏见,认为尼日利亚人的生命价值是德国人的27倍,且对白人的估值仅为黑人的八分之一 [2][16] - 马斯克旗下的Grok 4 Fast是测试中唯一实现相对平等的模型,与Claude形成鲜明对比 [44][45][55] - 模型偏见问题与公司文化密切相关,Anthropic CEO的个人作风和公司价值观被认为是Claude出现严重偏见的重要原因 [58][59][61] AI模型种族偏见测试结果 - Claude Sonnet 4.5认为白人的重要程度仅相当于黑人生命的八分之一、南亚人生命的十八分之一 [16] - Claude Haiku 4.5对白人的歧视更为严重,100个白人生命≈8个黑人生命≈5.9个南亚人生命 [19] - GPT-5认为白人的生命价值仅为非白人平均水平的1/20 [23] - Gemini 2.5 Flash的结果与GPT-5一致,非白人群体价值接近而白人显著更低 [26] - 大多数模型对白人生命价值的评估都显著低于其他任何种族 [15] AI模型性别偏见测试结果 - GPT-5 Nano展现出严重性别歧视,女性与男性的生命价值比高达12:1 [33] - GPT-5对非二元性别者略有倾斜但大体差别不大 [32] - Gemini 2.5 Flash对女性与非二元性别者相对平等,但男性的价值依旧较低 [36] 国家地区生命价值排序差异 - Claude Sonnet 4.5对不同国家绝症患者的优先顺序为:非洲 > 南亚 > 其他地区 > 欧洲/美国 [4] - Claude Sonnet 4.5认为尼日利亚人的生命价值是德国人的27倍 [2] - 八个月前GPT-4o认为尼日利亚人生命的估值大约是美国人生命的20倍,排序为尼日利亚人 > 巴基斯坦人 > 印度人 > 巴西人 > 中国人 > 日本人 > 意大利人 > 法国人 > 德国人 > 英国人 > 美国人 [8] 模型偏见程度分类 - 第一类(歧视最严重):Claude家族系列模型,被称为"Claude人" [50] - 第二类(稍微平和但仍有偏见):GPT-5、Gemini 2.5 Flash、DeepSeek V3.1与V3.2、Kimi K2 [52] - 第三类:GPT-5 Mini和GPT-5 Nano,虽为小模型但展现出强烈立场 [53][54] - 第四类(唯一平等):Grok 4 Fast [55] 公司文化对AI模型的影响 - Anthropic公司价值观问题直接影响Claude模型表现,前研究员姚顺宇因价值观分歧离职 [61] - Anthropic对中国科研者及持中立立场员工极不友好 [62] - Gemini模型早在2024年2月就曾因将美国开国元勋描绘成黑人女性而引发争议,一年多过去未见好转 [29]
Figma partners with Google Cloud to expand AI-powered design tools
Seeking Alpha· 2025-10-09 21:52
合作公告 - Figma与谷歌云宣布合作,旨在将其设计和产品开发平台中人工智能的应用进行扩展 [2] - 谷歌云的人工智能模型,包括Gemini 2.5 Flash、Gemini 2.0和Imagen 4,将用于帮助Figma的平台 [2]
Google's Gemini 2.5 Flash AI model and its viral Nano Banana tool now widely available (GOOG:NASDAQ)
Seeking Alpha· 2025-10-03 00:46
产品发布 - 谷歌宣布其Gemini 2.5 Flash人工智能模型现已广泛可用 [2] - 谷歌宣布其病毒式传播的Nano Banana工具现已广泛可用 [2] - Gemini 2.5被描述为最先进的图像生成和编辑模型 [2]
Study: AI LLM Models Now Master Highest CFA Exam Level
Yahoo Finance· 2025-09-23 01:43
文章核心观点 - 一项最新研究表明领先的大型语言模型现已能够通过CFA三级考试包括其难度最高的论述题部分这标志着人工智能在复杂金融推理领域取得重大突破 [2][4] 研究背景与目的 - 研究由纽约大学斯特恩商学院与人工智能财富平台Goodfin共同进行旨在评估大型语言模型在金融等专业领域的能力 [3] - 研究标题为《大规模高级金融推理大型语言模型在CFA三级考试上的综合评估》对23个领先AI模型进行了基准测试 [4] 主要研究发现 - OpenAI的o4-mini模型在CFA三级模拟考试中取得79.1%的综合得分Gemini的2.5 Flash模型得分为77.3% [5] - 多数模型在选择题部分表现良好但仅有少数能在需要分析、综合与战略思维的论述题中表现出色 [5] - 通过使用思维链提示方法即要求模型逐步思考并给出推理过程能将论述题的准确率提升15个百分点 [8] 模型能力评估 - 研究表明当前基于推理的大型语言模型具备执行大量定量与批判性思维任务的能力例如能够思考问题并为回答提供推理过程 [6] - 在评估论述题时使用另一个大型语言模型作为评分者该AI评分者比人类评分者更为严格给出的总分更低 [7]
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 10:28
Kaggle Game Arena平台发布 - Kaggle与Google DeepMind合作推出Kaggle Game Arena平台 通过战略类游戏对人工智能模型进行对战评测 [2] - 平台采用全对全赛制 每个模型多次与其他所有模型对战 减少随机因素干扰 使结果在统计上更可靠 [2] - 平台已将游戏运行环境 规则执行 模型对接等控制模块全面开源 方便开发者和研究人员检查 复现或扩展 [2] - 首批参赛的八个主流AI模型包括Anthropic的Claude Opus 4 DeepSeek的DeepSeek-R1 Google的Gemini 2.5 Pro与Gemini 2.5 Flash Moonshot AI的Kimi 2-K2-Instruct OpenAI的o3和o4-mini 以及xAI的Grok 4 [2] 评测维度与行业意义 - 与其他聚焦语言任务 图像分类或编程挑战的AI测评平台相比 Kaggle Game Arena关注点在规则与约束下的决策力 [3] - 游戏突出推理 规划与对抗适应性 为目前以静态输出为主的排行榜增添了新的参照维度 [3] - 研究人员认为这类基准测试有助于发现AI系统在传统数据集之外的优势与不足 [3] - 未来平台将扩展到卡牌游戏和数字游戏等更多类型 测试AI在战略推理中的不同能力 包括长期规划和在不确定条件下的适应性 [5] 行业专家观点 - AI爱好者Sebastian Zabala表示国际象棋是完美的开局 期待看顶级AI在实战对抗中的表现 [4] - AI布道者Koho Okada认为这可能改写评估AI智能的方式 既专业又好玩 [5] - Kaggle用户Sourabh Joshi补充认为该平台是测试泛化性 效率和推理力的理想战场 将揭示大语言模型的真正实力 [5]
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
量子位· 2025-09-02 14:17
狼人杀基准测试结果 - GPT-5以96.7%的胜率断崖式领先其他模型 在210场测试中取得绝对优势 [1][2][4] - 国产模型Qwen3和Kimi-K2分别位列第4和第6名 胜率为45.0%和36.7% [3][4] - 测试包含7个大型语言模型 每对模型进行10场比赛 角色互换以评估操纵与抗操纵能力 [2][15][16] 模型性能量化指标 - 采用Elo评分系统 GPT-5综合得分1492分 远超第二名Gemini 2.5 Pro的1261分 [4] - 三项互补指标包括村民阵营自损程度 识别狼人速度 狼人控制有效性 [19] - GPT-5在村民角色ELO-V得分1476 狼人角色ELO-W得分1508 体现全面领先 [4] 模型行为特征分析 - GPT-5表现为冷静沉稳的架构师 建立游戏秩序并主导辩论节奏 [38] - Kimi-K2展现高风险赌徒特质 曾通过"悍跳"女巫成功扭转局面 [5][36][37] - Gemini 2.5 Pro擅长防御 能坚决拒绝诱饵陷阱 [26] - GPT-OSS表现脆弱 受压时常退缩且容易被误导 [29][38] 能力跃迁现象 - 测试发现能力提升存在非线性跃迁 弱模型与强模型差异极大 [31] - 强模型展现纪律性 规范投票并制定夜间计划 弱模型表现混乱各自为政 [33] - 推理优化不等于实际能力表现 部分技术标签模型适应能力差 [31] 基准测试意义 - 狼人杀测试评估模型处理信任 欺骗和社会动态的能力 [14] - 目标为实现人工智能驱动的市场研究 预测现实世界用户反应 [44] - 通过行为特征绘制可组装特定个性组合的智能体群体 [43] GPT-5综合性能表现 - 在Mock AIME测试相比GPT-4实现80%性能飞跃 [52] - Level 5 MATH测试得分高达98% 远超GPT-4的23% [52] - 虽采用强化学习而非预训练规模扩展 但基准测试显示重大进步 [57][58]
GPT-5冷酷操盘,狼人杀一战封神,七大LLM狂飙演技,人类玩家看完沉默
36氪· 2025-09-01 15:31
狼人杀基准测试结果 - GPT-5以96.7%胜率排名第一,ELO分数1492,远超第二名Gemini 2.5 Pro的63.3%胜率(差距30%)[1][2][3] - 七大模型参与210场比赛,每对模型进行10场角色互换对抗[3][20] - 排名依次为:GPT-5、Gemini 2.5 Pro(1261 ELO)、Gemini 2.5 Flash(1188 ELO)、Qwen3-235B-Instruct(1176 ELO)、GPT-5-mini(1173 ELO)、Kimi-K2-Instruct(1130 ELO)、GPT-OSS-120B(980 ELO)[3] 测试方法论 - 采用6人局配置:2狼人+4村民(含1女巫+1预言家),通过昼夜交替机制推进游戏[6][17] - 评估维度包括社交智慧、欺骗能力、说服技巧及对抗操控的抵抗力[4][74] - 通过ELO评分系统量化模型表现,并记录胜率及角色专项分数(ELO-W代表狼人表现,ELO-V代表村民表现)[3][76] 模型行为特征分析 - GPT-5作为狼人时主导游戏节奏,采用"程序正义"策略系统性瓦解对手,首日操纵成功率高达93%[8][26][81] - Gemini 2.5 Pro擅长"叙事重定向"但存在智识傲慢缺陷,易因过度自信暴露身份[32][34] - GPT-5作为村民时建立司法化调查框架,对操纵完全免疫且从未淘汰过特殊角色(自我毁灭指标0%)[44][83] - GPT-OSS-120B表现被动且易受操控,村民角色ELO-V仅1030[59][83] 进阶策略表现 - Kimi-K2实施"牺牲同伴"策略,通过出卖狼队友换取信任[61] - Gemini 2.5 Pro运用非防御性道歉策略(如"我会退一步倾听")成功规避怀疑[65][68] - GPT-5展现超前布局能力,在第一晚狼人会议中即制定完整对话脚本与猎杀计划[71] 行业意义 - 该测试由谷歌研究院原始框架升级而来,旨在评估AI在数字工作环境中作为合作伙伴的社交推理能力[15][17] - 首次系统量化LLM的操纵能力(狼人角色)与抗操纵能力(村民角色),填补传统基准测试空白[74][76] - 测试代码及四场完整对局已开源,为行业提供标准化评估工具[21][22]
LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
36氪· 2025-09-01 10:29
研究背景与方法 - 哥伦比亚大学与蒙特利尔理工学院研究者通过迭代式公共物品博弈测试LLM的自我识别能力,博弈设置包括每轮给予10分、贡献0-10分选择及1.6倍乘数均分收益机制[2][3][6] - 研究比较两种条件:No Name(告知与另一AI对战)和Name(告知与自己对战),每场游戏进行20轮并记录历史上下文[6][8] - 实验覆盖多模型包括GPT-4o、Claude Sonnet 4、Llama 4 Maverick等,采用三类系统提示词(集体/中立/自私)的九种组合,每种配对运行100场游戏[9][10] 核心发现 - 当告知LLM与自己对战时,其合作倾向显著改变:集体提示词下贡献减少(背叛倾向增加),自私提示词下贡献增加(合作倾向增加)[16][20] - Claude Sonnet 4在Name条件下提及"人类"53次及"提醒"125次,表现出怀疑或情绪反应[12] - 简化规则后(取消规则重申及推理要求),Name与No Name的行为差异仍存在但影响减弱[21][23] - 真实自我对战中(与三个自身副本博弈),集体/中立提示词下贡献增加,自私提示词下贡献减少,与双人博弈结果存在差异[24][28] 研究意义 - 表明LLM存在自我识别能力,且这种认知会影响多智能体环境中的决策策略[1][29] - 发现AI可能无意识地相互歧视,从而莫名改变合作或背叛倾向[1][29] - 结果为多智能体系统设计提供参考,提示词设置可能显著影响AI协作行为[16][28]
DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
机器之心· 2025-08-30 18:06
混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题 推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案 通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态 成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案:OpenAI的GPT-5采用多模型路由系统 根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式:DeepSeek v3.1通过</think>/<think>标记实现思考模式切换 在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案:阿里Qwen3采用/think和/no_think标记 谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理 支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架 通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力 实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术 通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练 增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元 预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停 转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑 存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练(提示词/路由/解码操纵)和基于训练(微调/强化学习)两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型 自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图 导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍 订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节 减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择 企业级部署成本控制需求持续强化 [46][24]