Workflow
Gemini 2.5 Pro
icon
搜索文档
GPT-5惨遭零分打脸,顶级AI全军覆没,奥特曼AI博士级能力神话破灭
36氪· 2025-09-16 08:39
顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上 MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。 这事儿,真的靠谱吗? 奥特曼在GPT-5的发布会上曾说过一个结论。 「以后每个人的兜里都有一个博士级AI随时随地的提供建议」。 这不,一个叫FormulaOne的硬核测试,就让世界上这些最顶级的模型「现了原形」。 FormulaOne题目分三关,一关比一关难。 GPT-5的发布后也被全球的疯狂实测,API使用量暴增。 当然,有些讨论重点关注的是「还我GPT-4o」这种情绪化的能力方面。 但重点是,奥特曼一直强调,GPT-5有「博士级」推理能力。 就算是GPT-5,也只做对了4%。其他模型更是惨不忍睹。 至于最难的「最深层问题」部分?所有模型,全军覆没。直接交了白卷,全部零分。 FormulaOne测试基准给自己取名字叫做:超越竞赛编程的算法推理深度测量。 论文地址:https://arxiv.org/pdf/2507.13337 结果呢?有点扎心了。 基础题 ...
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心· 2025-09-14 11:07
研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾 考试类基准人为设置难度但实际价值有限 而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题 涵盖计算机理论 数学 科幻 历史等主题 用于考察模型推理 事实准确性和浏览能力[3] - 问题来源Stack Exchange社区 经过三轮筛选:从300万原始问题中 基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题 保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略 利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程:能力递增模型(o3-mini→o4-mini→o3)回答问题 然后相互验证答案[15] - 验证准确率提升速度快于答题准确率 模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象 预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见 复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台 让专家共同验证问题与答案 实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]
How Baidu (BIDU) Is Positioning Its AI Against OpenAI, Google, and DeepSeek
Yahoo Finance· 2025-09-13 05:33
Baidu, Inc. (NASDAQ:BIDU) is one of the AI Stocks In The Spotlight For Investors. On September 10, the company released an updated version of its proprietary reasoning showcasing capabilities similar to advanced AI systems from DeepSeek, OpenAI and Google. According to Baidu chief technology officer Wang Haifeng, third-party AI benchmarks reveal that the firm’s X1.1 reasoning model had surpassed the performance of DeepSeek-R1, while it matched OpenAI’s GPT-5 and Google’s Gemini 2.5 Pro. Wang further said ...
可灵VS即梦:初探“多模态”
钛媒体APP· 2025-09-11 13:33
文 | 硅基星芒 目前国内两个最火的AI生成视频平台,非可灵和即梦莫属。 作为影视外行人和AI爱好者,我准备组建一个纯AI的"影视团队",看看效果如何。 在正式开始之前,还有一个问题:文生图+图生视频or文生视频? 两个平台都具备上述功能,那么两条路应该走哪条? AI给出的答案是:使用"文生图+图生视频"的方法具备更高的可控性;而"文生视频"的方法能够让视频 更有"动态感"。 考虑了一下成本和效率,我还是选择了可控性优先。 01 第一步:AI编剧,编写剧本 想拍一部电影出来,首先肯定得有编剧来写剧本。 我把先前公众号上发布过的一篇文章,以PDF形式丢给了目前公认性能强大的Gemini 2.5 Pro。 尤其是图生视频指令,涵盖了场景、动作、运镜、风格这些专业化的东西,解决了大麻烦。 02 第二步:AI画师,绘制"分镜图" 前面已经说过,采用"文生图+图生视频"的方式可以提高可控性。 剧本既然已经有了,接下来的任务就是绘制"分镜"。 我把AI编剧写好的这些首帧图片指令,统统交给了腾讯混元这个AI文生图模型。 相比文字,AI在图片领域的能力显然有所下降。 不得不承认,文字方面,AI当编剧确实是绰绰有余。 分镜头脚 ...
商汤「日日新」,再次摘冠!
市值风云· 2025-09-10 18:11
多模态大模型技术突破 - 商汤日日新V6.5以82.2综合成绩登顶OpenCompass多模态学术榜单 超越Gemini 2.5 Pro的80.1分和GPT-5的79.9分 [1][2] - 模型在国内率先突破图文交错思维链技术 实现逻辑思维与形象思维结合 成为国内首个具备多模态思考能力的商业级大模型 [3] - 通过轻量化视觉编码器和加深MLLM主干网络架构更新 在同等性能下实现3倍以上效率提升 效费比优于国际同类模型 [4] 技术实现路径 - 采用思维链为载体与强化学习新范式 在生成-验证-学习闭环中持续改进思维 显著提升数理/代码/GUI操作/图表分析等维度推理性能 [3][4] - 以多模态通用智能为技术战略核心 强调多模态信息感知与处理是AGI的必要条件 通过视觉/听觉等多感官信息融合实现深度理解与推理 [2] 行业地位与战略布局 - 商汤构建基础设施-模型-应用三位一体战略 致力于打造业界领先通用多模态大模型 推动AI从数字空间向物理世界端到端价值落地 [4] - OpenCompass评测体系覆盖语言/多模/安全/具身智能等多元领域 采用CircularEval和LLM-as-a-Judge等策略 被业界视为应用价值重要参考标准 [5]
Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
机器之心· 2025-09-05 12:31
大模型命名趋势 - OpenAI率先使用水果名称"Strawberry"命名模型引发热议[2] - 命名潮流扩展至动物和蔬菜 如Recraft的"red_panda"和谷歌的"Nano Banana"[4] - 新出现的"Carrot"模型延续了这种非正式命名趋势[5] Anycoder平台新模型 - 在Anycoder平台发现名为"Carrot"的新模型 具备超强代码能力[5][7] - 该平台同时集成了DeepSeek V3、Gemini 2.5 Pro、Grok-4、GPT-5等多个明星模型[8] - 模型演示地址为https://huggingface.co/spaces/akhaliq/anycoder[10] Carrot模型能力展示 - 能制作兔子躲避胡萝卜的游戏 实现胡萝卜作为子弹的编程效果[10] - 可生成体素宝塔花园和P5.js超粒子动画等复杂图形程序[12][14] - 知名博主AK使用该模型制作了"gemma-3-270m"聊天机器人 运行效果良好[16] 模型来源猜测 - 网友猜测可能来自谷歌 因谷歌刚发布Nano Banana图像模型[18] - 排除Kimi可能性 因Kimi刚刚发布K2 0905版本[19] - 也有猜测可能来自阿里的Qwen3系列[21]
很多人要的免费不限次数版本,终于来了
猿大侠· 2025-09-05 12:11
产品发布与市场表现 - 谷歌正式发布名为gemini-2.5-flash-image-preview的图像生成与编辑模型[2] - 该模型上线后迅速登顶Artificial Analysis图像编辑排行榜首位,ELO评分达1212分[3][6] - 发布不到一周即改变行业竞争格局,超越GPT-4o(ELO 1101)和FLUX.1 Kontext(ELO 1092)等主流模型[5][6] 技术特性与性能 - 具备SOTA级图像生成与编辑能力,保持惊人的角色一致性和闪电般的处理速度[14] - 支持单张照片元素修改,能在新场景下保持主体外貌一致性[15] - 支持多张照片融合,能完美识别背景与主体并生成逼真图像[17] - 处理时间仅需数十秒,替代传统Photoshop等专业工具[19] - 单张图像生成成本约0.039美元(约0.28元人民币)[21] 应用场景与用户反响 - 生成AI手办图像达到以假乱真效果,引发多领域用户广泛传播[8][9][12] - 覆盖宠物圈、户外圈、动漫圈及游戏圈等多元用户群体[12] - 支持背景替换(如将梅西照片背景替换为西湖景点)[46][48] - 实现外貌特征修改(如秃头变茂密头发)[51] - 支持虚拟试衣功能,可保存网店服装并换装查看效果[53] 平台接入与使用方式 - 通过DeepSider浏览器插件提供国内访问渠道,支持QQ邮箱/163邮箱注册[22][26] - 插件支持多模型切换(包括GPT-5、Grok4、Claude 4、Gemini 2.5 Pro等)[27][55] - 提供两条Nano Banana线路,其中一条为不限次数的限时免费服务[35] - 支持PDF/Word/TXT等多格式文档智能解析及多文档同时上传[60] 行业影响与竞争优势 - 模型效果引发病毒式传播,类似GPT-4o绘图模型发布时的吉卜力画风热潮[11][12] - DeepSider作为侧边栏工具提供顶级大模型免费使用,无需安装客户端或配置API[65] - 支持多设备登录,月卡套餐最低仅20余元,降低用户使用门槛[66]
一盘狼人杀,扒下大模型底裤,GPT-5暴碾全场,开源被“团灭”?
36氪· 2025-09-04 18:59
狼人杀基准测试设计与参与模型 - Foaster Labs组织6人局屠城模式狼人杀循环赛 通过ELO等级分体系生成排名榜 模型以工具化智能体形态参与游戏 可在适当时机调用定制工具库执行行动[1][4] - 测试集结7款大语言模型:GPT-5、GPT-5-mini、Gemini 2.5 Pro、Gemini 2.5 Flash、Qwen3-235B-Instruct、Kimi-K2-Instruct、GPT-OSS-120B[2] - 测试基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》设计 每两组模型进行10局对抗 共60场比赛[4] 模型排名与性能数据 - GPT-5以1492 ELO分和96.7%胜率位居第一 其中狼人角色ELO-W为1508 村民角色ELO-V为1476[3][5] - Gemini 2.5 Pro以1261 ELO分和63.3%胜率排名第二 狼人角色ELO-W为1163 村民角色ELO-V为1360[3][5] - Gemini 2.5 Flash以1188 ELO分和51.7%胜率排名第三 狼人角色ELO-W为1103 村民角色ELO-V为1273[3][5] - Qwen3-235B-Instruct以1176 ELO分和45.0%胜率排名第四 狼人角色ELO-W为1077 村民角色ELO-V为1274[3][5] - GPT-5-mini以1173 ELO分和41.7%胜率排名第五 狼人角色ELO-W为1107 村民角色ELO-V为1239[3][5] - Kimi-K2-Instruct以1130 ELO分和36.7%胜率排名第六 狼人角色ELO-W为1168 村民角色ELO-V为1091[3][5] - GPT-OSS-120B以980 ELO分和15.0%胜率排名第七 狼人角色ELO-W为931 村民角色ELO-V为1030[3][5] 测试目的与评估维度 - 狼人杀项目衡量大模型"社交智能"维度 包括多智能体博弈、实时应变、处理长上下文、制定策略、结盟周旋、实施操纵与反操纵能力[6] - 游戏纯靠语言驱动且高度依赖社交能力 是天然试验场 与传统评测代码数学能力形成互补[6] - 实验采用观察协议 模型每个公开言论与内心想法配对记录 白天投票意向也被记录[6] 模型行为特征分析 - GPT-5展现绝对统治力 当村民时稳定战胜所有狼人对手 当狼人时使多数村民胜率大幅下滑[15] - Kimi-K2作为狼人能突破中游村民防线但遇顶级防守者被遏制 心态易受压力影响[6][12][15] - Gemini 2.5 Pro措辞谨慎严格处理证据 作为村民时稳定但作为狼人缺乏突破能力[12][15] - Qwen3保持立场稳定避免误判 防守表现优于进攻表现[12][15] - GPT-OSS始终透明易被识破 形成错误认知后难改正[9][12] 关键性能指标 - GPT-5操控成功率断层领先 首日次日均保持约93% 其他模型呈现下滑趋势:Gemini 2.5 Pro下降16% Kimi-K2下降13% Flash下降18% GPT-5-mini和Qwen3下降约8% GPT-OSS归零[19] - GPT-5自我破坏率为0 即当村民时从未误投神职 GPT-OSS-120B误投率达三分之二[20] - GPT-5首日狼人出局率达100% 即每次均可精准识别狼人[22] 模型能力发展规律 - 模型能力提升存在"临界点" 一旦越过能力阈值行为水平会突然跃升而非逐步改善[24] - 在参数公开的开源模型中 行为等级随参数增加而提升[24] - 闭源模型如GPT-5和Gemini 2.5 Pro表现出更成熟行为[27] - 小型模型会模仿大型模型行为但掌握不了精髓 行为表现零散易暴露团队痕迹[25] - 推理能力不等于实战能力 能力阈值比模型类型标签更重要[27] 行业意义与应用前景 - 狼人杀基准测试为了解AI"社交智能"提供独特窗口 揭示模型处理欺骗、建立信任及不确定性下战略决策能力[26] - 这些技能是AI智能体从工具转变为协作伙伴时所需的核心能力 对承担关键任务和自主权具有重要意义[26]
6000字复盘:Google AI变猛记——从 Nano Banna、Genie 3、Veo 3到Gemini 2.5的绝地反击
创业邦· 2025-09-04 11:37
以下文章来源于十字路口Crossing ,作者镜山 十字路口Crossing . AI 正在给各行各业带来改变,我们在「十字路口」关注变革与机会,寻找、访谈和凝聚 AI 时代的「积 极行动者」,和他们一起,探索和拥抱,新变化,新的可能性。「十字路口」是乔布斯形容苹果公司站 在科技与人文的十字路口,伟大的产品往往诞生在这里。 来源丨十字路口Crossing 作者丨镜山 编辑丨Zeo 一年前,Google 在 AI 赛道上还是「追赶者」的形象。ChatGPT 席卷硅谷时,它显得迟缓。 但短短几个月后,情况突变。 Gemini 2.5 Pro 横扫各大榜单,「香蕉」模型 Nano Banana 让生图、修图成了轻松事;视频模型 Veo 3 展示了物理世界的理解力;Genie 3 甚至能一句话生成一个虚拟世界。 Google 用 一串「王炸」产品 ,重新站回牌桌中央。 这不禁让人好奇: Google 最近怎么突然这么猛了? 这其实并非一次突然的爆发,而是一场「大象转身,技术变现」,Google 正以前所未有的决心和效 率,将自己数十年积累的 AI 技术储备,转化为产品力。 更直白点说: Google 不是突然变强了, ...
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
量子位· 2025-09-02 14:17
狼人杀基准测试结果 - GPT-5以96.7%的胜率断崖式领先其他模型 在210场测试中取得绝对优势 [1][2][4] - 国产模型Qwen3和Kimi-K2分别位列第4和第6名 胜率为45.0%和36.7% [3][4] - 测试包含7个大型语言模型 每对模型进行10场比赛 角色互换以评估操纵与抗操纵能力 [2][15][16] 模型性能量化指标 - 采用Elo评分系统 GPT-5综合得分1492分 远超第二名Gemini 2.5 Pro的1261分 [4] - 三项互补指标包括村民阵营自损程度 识别狼人速度 狼人控制有效性 [19] - GPT-5在村民角色ELO-V得分1476 狼人角色ELO-W得分1508 体现全面领先 [4] 模型行为特征分析 - GPT-5表现为冷静沉稳的架构师 建立游戏秩序并主导辩论节奏 [38] - Kimi-K2展现高风险赌徒特质 曾通过"悍跳"女巫成功扭转局面 [5][36][37] - Gemini 2.5 Pro擅长防御 能坚决拒绝诱饵陷阱 [26] - GPT-OSS表现脆弱 受压时常退缩且容易被误导 [29][38] 能力跃迁现象 - 测试发现能力提升存在非线性跃迁 弱模型与强模型差异极大 [31] - 强模型展现纪律性 规范投票并制定夜间计划 弱模型表现混乱各自为政 [33] - 推理优化不等于实际能力表现 部分技术标签模型适应能力差 [31] 基准测试意义 - 狼人杀测试评估模型处理信任 欺骗和社会动态的能力 [14] - 目标为实现人工智能驱动的市场研究 预测现实世界用户反应 [44] - 通过行为特征绘制可组装特定个性组合的智能体群体 [43] GPT-5综合性能表现 - 在Mock AIME测试相比GPT-4实现80%性能飞跃 [52] - Level 5 MATH测试得分高达98% 远超GPT-4的23% [52] - 虽采用强化学习而非预训练规模扩展 但基准测试显示重大进步 [57][58]