谷歌看了都沉默：自家“黑科技”火了，但为啥研发团队一无所知？

Gemini 3 Flash模型性能与定价 - 谷歌推出新一代AI模型Gemini 3 Flash，其核心特点是模拟人类“直觉”，而非单纯模拟思考[1] - 该模型速度是Gemini 2.5 Pro的3倍，且在某些基准测试中推理能力超越了自家的Pro版本[1][2] - 模型定价为：输入每百万tokens 0.50美元，输出每百万tokens 3.00美元[2] 关键基准测试表现对比 - 在学术推理测试（Humanity‘s Last Exam，无工具）中，Gemini 3 Flash得分为33.7%，低于Gemini 3 Pro的37.5%和GPT-5.2 Extra high的34.5%[2] - 在科学知识测试（GPQA Diamond，无工具）中，Gemini 3 Flash得分为90.4%，略低于Gemini 3 Pro的91.9%和GPT-5.2的92.4%[2] - 在数学测试（AIME 2025，无工具）中，Gemini 3 Flash得分为95.2%，略高于Gemini 3 Pro的95.0%，但低于GPT-5.2的100%[2] - 在代码能力测试（LiveCodeBench Pro，Elo评级）中，Gemini 3 Flash得分为2316，低于Gemini 3 Pro的2439和GPT-5.2的2393[2] - 在代理工具使用测试（t2-bench）中，Gemini 3 Flash得分为90.2%，与Gemini 3 Pro的90.7%相近[2] 关于“并行验证循环”技术的传闻与争议 - 有网络传闻称，谷歌DeepMind团队（AlphaGo团队）未使用思维链（Chain-of-Thought），而是采用了一种名为“并行验证循环”的机制[3][4] - 该传闻描述，并行验证循环允许系统同时生成和验证多个候选解决方案，进行交叉验证并迭代，而非线性思考[10][12][16] - 传闻声称，相比标准思维链，该框架在复杂推理基准测试中性能提升37%，捕捉逻辑错误能力提升52%，收敛到正确解的速度快3倍[13][14] - 该框架被描述为具备自我纠错优势，能在不中断流程的情况下回溯修正错误，适用于科学推理、数学证明、代码调试和战略规划等场景[18][22][23] - 然而，该传闻来源（网友Jainam Parmar）并非AI研究领域权威人士，也未提供明确的DeepMind官方信源，其内容被部分网友怀疑是AI生成的虚假信息或蹭热度的不实言论[26][27][33][35][37] - 有网友指出，相同的可疑内容被不同账号（如Chris Laub）发布，进一步增加了其为“AI垃圾”信息的可能性[43][45] 行业技术现状与反思 - 思维链技术本身已非最前沿，长思维链技术具备深度推理、广泛探索和可行反思等关键特征，能更有效地处理复杂任务[47] - 目前没有可靠证据表明DeepMind已用“并行验证循环”全面取代思维链作为核心推理框架[49] - Gemini 3 Flash的性能跃迁可能源于渐进式优化，而非传闻中的“黑魔法”，行业需警惕对单一技术解释的过度迷信[49]