Gemini 3 Flash模型性能与定价 - 谷歌推出新一代AI模型Gemini 3 Flash,其核心特点是模拟人类“直觉”,而非单纯模拟思考[1] - 该模型速度是Gemini 2.5 Pro的3倍,且在某些基准测试中推理能力超越了自家的Pro版本[1][2] - 模型定价为:输入每百万tokens 0.50美元,输出每百万tokens 3.00美元[2] 关键基准测试表现对比 - 在学术推理测试(Humanity‘s Last Exam,无工具)中,Gemini 3 Flash得分为33.7%,低于Gemini 3 Pro的37.5%和GPT-5.2 Extra high的34.5%[2] - 在科学知识测试(GPQA Diamond,无工具)中,Gemini 3 Flash得分为90.4%,略低于Gemini 3 Pro的91.9%和GPT-5.2的92.4%[2] - 在数学测试(AIME 2025,无工具)中,Gemini 3 Flash得分为95.2%,略高于Gemini 3 Pro的95.0%,但低于GPT-5.2的100%[2] - 在代码能力测试(LiveCodeBench Pro,Elo评级)中,Gemini 3 Flash得分为2316,低于Gemini 3 Pro的2439和GPT-5.2的2393[2] - 在代理工具使用测试(t2-bench)中,Gemini 3 Flash得分为90.2%,与Gemini 3 Pro的90.7%相近[2] 关于“并行验证循环”技术的传闻与争议 - 有网络传闻称,谷歌DeepMind团队(AlphaGo团队)未使用思维链(Chain-of-Thought),而是采用了一种名为“并行验证循环”的机制[3][4] - 该传闻描述,并行验证循环允许系统同时生成和验证多个候选解决方案,进行交叉验证并迭代,而非线性思考[10][12][16] - 传闻声称,相比标准思维链,该框架在复杂推理基准测试中性能提升37%,捕捉逻辑错误能力提升52%,收敛到正确解的速度快3倍[13][14] - 该框架被描述为具备自我纠错优势,能在不中断流程的情况下回溯修正错误,适用于科学推理、数学证明、代码调试和战略规划等场景[18][22][23] - 然而,该传闻来源(网友Jainam Parmar)并非AI研究领域权威人士,也未提供明确的DeepMind官方信源,其内容被部分网友怀疑是AI生成的虚假信息或蹭热度的不实言论[26][27][33][35][37] - 有网友指出,相同的可疑内容被不同账号(如Chris Laub)发布,进一步增加了其为“AI垃圾”信息的可能性[43][45] 行业技术现状与反思 - 思维链技术本身已非最前沿,长思维链技术具备深度推理、广泛探索和可行反思等关键特征,能更有效地处理复杂任务[47] - 目前没有可靠证据表明DeepMind已用“并行验证循环”全面取代思维链作为核心推理框架[49] - Gemini 3 Flash的性能跃迁可能源于渐进式优化,而非传闻中的“黑魔法”,行业需警惕对单一技术解释的过度迷信[49]
谷歌看了都沉默:自家“黑科技”火了,但为啥研发团队一无所知?