Workflow
Gemini 2.5 Flash
icon
搜索文档
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
量子位· 2025-07-17 10:43
大模型长上下文性能研究 核心发现 - 主流大模型在输入长度增至1万tokens时准确率普遍降至50%,且性能衰减呈非均匀断崖式下降[4][10][21] - 性能衰减受语义关联性、干扰信息、文本结构等多因素影响,其中低相似度组在1万tokens时准确率比高相似度组低20个百分点[18][21] - 不同模型衰减节点存在差异:GPT-4.1可能在短文本即出现性能骤降,Claude系列则表现出更强的长文本稳定性[7][28] 实验设计方法论 - 采用改进版NIAH测试框架,通过四项对照实验控制任务复杂度并隔离输入长度变量[16][17] - 实验数据源包括保罗・格雷厄姆散文和arXiv论文,设置10²至10⁴tokens的输入长度梯度[18][31][37] - 评估指标采用GPT-4.1验证的准确率(与人类判断一致性超99%)[18][33] 关键影响因素 语义关联性 - 针-问题相似度实验显示:低相似度组在1万tokens时准确率降至40%-60%,比高相似度组低20个百分点[18][21] - 针-干草堆相似度对模型影响不统一,但长文本下所有模型性能均显著下滑[31][34] 干扰信息 - 多重干扰项使模型在1万tokens时准确率比基线低30%-50%[26][29] - GPT系列易生成自信错误答案,Claude系列倾向弃权,Gemini和Qwen波动最大[28] 文本结构 - 连贯结构文本在1万tokens时部分模型准确率降至30%-40%,打乱结构则维持50%-60%[40][42] - 逻辑结构复杂度与性能衰减正相关,揭示模型处理长文本逻辑的缺陷[35][41] 行业技术动态 - Chroma团队开源测试代码,覆盖18个主流开源/闭源模型包括GPT-4.1、Claude 4等[8][49] - 研究验证了现有基准测试将输入长度与任务难度混谈的局限性[13][15] - 行业正探索1M上下文窗口技术(如Gemini 1.5 Pro),但实际长文本处理能力仍存瓶颈[12][44]
小扎千亿挖人名单下一位:硅谷华人AI高管第一人
量子位· 2025-06-28 12:42
Meta的AI人才争夺战略 - 扎克伯格亲自带队重金招募AI人才,包括从OpenAI、Google、Scale AI等竞争对手挖角以及召回Meta旧部[1][2][3] - 重点目标包括Meta前工程高级副总裁Bill Jia,其曾主导PyTorch开发,现为Google Core ML/AI负责人[6][7][8] - 公司为AI人才提供数千万美元薪酬方案,坊间传闻部分"转会费"高达1亿美元[33][37] Google的AI部门整合与Bill Jia的贡献 - Google在2023年重组AI部门为Core ML/AI,由Bill Jia领导并整合多个团队[11][12][14] - Bill Jia上任半年内裁撤10名表现不佳的总监级员工,并推动Gemini 2.5 Flash等核心项目[13][16] - Google DeepMind与Core ML/AI深度合作,主导Gemini系列模型研发[16] Meta的AI业务现状与调整 - Llama 4发布遭遇滑铁卢,性能问题与AI研究主管离职引发舆论危机[18][19][22] - 公司紧急重组AI团队,设立AI产品团队和AGI Foundations团队,分别负责应用与基础技术[25][26][28] - 新成立超级智能实验室,目标开发超越人类认知的AI系统[29] 行业竞争与开源策略 - Meta坚持开源路线,计划年内推出多个Llama版本,但面临Google开源模型Gamma的竞争[44] - Google宣布全面拥抱开源为未来核心战略,提供业界最高免费限额的终端服务[44] - 行业AI人才争夺白热化,OpenAI等公司对Meta挖角行为提出反报价[36]
谷歌最强大模型Gemini 2.5正式发布,轻量版百万tokens输入价仅0.7元
36氪· 2025-06-19 19:10
Gemini 2 5模型更新 - 谷歌宣布Gemini 2 5模型全系更新 包括Gemini 2 5 Pro和Gemini 2 5 Flash正式版 以及轻量版Gemini 2 5 Flash-Lite预览版 [2] 模型性能对比 - Gemini 2 5 Pro在Humanity's Last Exam基准测试中得分21 6% 科学GPQA diamond测试中86 4% 数学AIME 2025测试中88 0% 代码生成LiveCodeBench测试中69 0% 代码编辑Aider Polyglot测试中82 2% [3] - Gemini 2 5 Flash在Humanity's Last Exam基准测试中得分11 0% 科学GPQA diamond测试中82 8% 数学AIME 2025测试中72 0% 代码生成LiveCodeBench测试中55 4% 代码编辑Aider Polyglot测试中56 7% [3] - Gemini 2 5 Flash-Lite在Humanity's Last Exam基准测试中得分6 9% 科学GPQA diamond测试中66 7% 数学AIME 2025测试中63 1% 代码生成LiveCodeBench测试中34 3% 代码编辑Aider Polyglot测试中27 1% [3] 模型定价 - Gemini 2 5 Pro输入价格为1 25美元/百万tokens 输出价格为10 00美元/百万tokens [6] - Gemini 2 5 Flash输入价格为0 30美元/百万tokens 输出价格为2 50美元/百万tokens [6] - Gemini 2 5 Flash-Lite输入价格为0 10美元/百万tokens 输出价格为0 40美元/百万tokens 比Gemini 2 5 Flash便宜30%-60% [7] 模型特点 - Gemini 2 5 Pro支持1M+tokens上下文长度 在LOFT和MRCR长上下文任务中表现优异 具备多模态编程能力 [4] - Gemini 2 5 Flash适用于复杂任务 在质量 成本和延迟之间达到平衡 支持动态控制思考预算 [5] - Gemini 2 5 Flash-Lite延迟和成本双低 适合高容量 延迟敏感任务 首个token获取时间更短 解码速度更快 [5]
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
机器之心· 2025-06-18 09:24
Gemini 2.5系列模型更新 - 谷歌CEO Sundar Pichai宣布新推出的Gemini 2.5 Flash-Lite是目前性价比最高的2.5系列模型 [1] - 2.5 Flash-Lite定位为适合量大且注重成本效率的任务,2.5 Pro适合编程和高复杂度任务,2.5 Flash适合需要较快速度的日常任务 [2] - 2.5 Pro和2.5 Flash已发布稳定版,2.5 Flash-Lite开启预览 [3] 模型功能与性能 - 2.5 Flash-Lite支持多模态输入和100万token上下文,可通过API参数动态控制思考预算,默认关闭思考功能 [4] - 2.5 Flash-Lite在AIME 2025和FACTS Grounding等少量指标上表现优于其他版本 [5] - 2.5 Flash-Lite整体性能低于2.5 Flash,开启思考功能的版本表现更强 [5] 定价策略 - 2.5 Flash-Lite定价为每百万输入/输出token 0.1/0.4美元,音频输入为0.5美元 [8] - 2.5 Flash价格为每百万输入/输出token 0.3/2.5美元,音频输入为1美元 [8] - 2.5 Pro价格最高,为每百万输入/输出token 1.25/10美元 [8] 应用案例 - 2.5 Flash-Lite在Google AI Studio和Vertex AI上线预览版 [9] - 开发者Simon Willison测试显示2.5 Flash-Lite生成SVG成本最低(0.0829美分) [16] - 2.5 Flash-Lite在转录Twitter Space录音时出现错误,而2.5 Pro效果最佳 [17] - 2.5 Flash-Lite可在17.1秒内完成贪吃蛇游戏编程任务 [21] 技术特性 - Gemini系列组成了当前LLM的佩雷托前沿,是性价比最高的系列模型 [10] - 报告提到2.5 Pro在游戏过程中出现"智能体恐慌"现象 [12] - 开发者使用2.5 Pro革新交互式3D设计,可通过自然语言生成对象和场景 [18]
奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降
量子位· 2025-06-09 11:52
大模型提示词优化研究 - 核心观点:研究发现直接回答提示和思维链(CoT)提示在不同类型的大模型中效果差异显著,默认设置可能是最佳使用方式[1][25] 研究方法与数据集 - 使用GPQA Diamond数据集进行测试,包含研究生水平专家推理问题[5][9] - 测试了7种主流模型,分为推理模型和非推理模型两类[10] - 每种模型设置三种实验环境:强制推理、直接回答和默认模式[10] - 每个问题在每种条件下测试25次,确保结果可靠性[11] 推理模型测试结果 - CoT提示对推理模型效果有限:o3-mini准确率仅提升4.1%,时间增加80%[6][23] - Gemini 2.5 Flash使用CoT后所有指标全面下降[20] - 在平均评分上,o3-mini提升2.9个百分点,o4-mini提升3.1个百分点[21] 非推理模型测试结果 - CoT提示对非推理模型效果更复杂:平均评分和51%正确率指标提升[12] - Gemini Flash 2.0提升最显著,Claude 3.5 Sonnet次之,GPT-4o系列提升不明显[13] - 但在100%和90%正确率指标中,部分模型使用CoT后指标下降[14] - CoT增加了非推理模型答案的不稳定性[15] 时间成本分析 - 推理模型使用CoT后时间显著增加:o4-mini增加20%,o3-mini增加80%[23] - 效果较好的非推理模型时间增加更明显[24] 最佳实践建议 - 默认设置可能是最佳使用方式,因前沿模型已内置推理过程[22][25] - 强制CoT效果弱于默认模式,可能与模型内置思维链有关[17]
世界顶尖数学家在测试中震惊地发现,人工智能模型已经接近数学天才了
36氪· 2025-06-09 07:49
AI数学推理能力突破 - o4-mini在伯克利数学会议上成功解决教授级难题,被评价为"接近数学天才"[1] - 该模型由OpenAI训练,采用轻量化架构和人类强化学习,推理能力显著优于早期LLM[1] - 在未训练过的300道数学题测试中,传统LLM正确率不足2%,而o4-mini突破此局限[2] 基准测试进展 - FrontierMath项目分四个难度级别测试,o4-mini在2025年4月已能解决20%高难度问题[3] - 第四级别测试采用严格保密协议,问题设计者每道未解题可获得7500美元奖励[3][4] - 30位数学家分组设计挑战题,最终仅10题难倒AI,显示模型解决博士级问题的能力[4][5] 技术表现细节 - o4-mini解题过程展现类人推理:先检索文献,构建简化版问题,再完成完整证明[5] - 速度优势明显,几分钟完成人类需数周的工作,被比作"优秀研究生+"水平[6] - 输出风格具有高度自信,学者担忧其"威吓证明"可能影响结果可信度[6] 行业影响与未来 - 数学家角色可能转向问题提出和AI协作,类似教授指导研究生的模式[6] - 第五层级问题(人类无法解决的难题)将重塑数学研究范式[6] - 高等教育需加强创造力培养以应对AI冲击,保持学科传承价值[6][7]
兴业证券:6月市场主线有望再度偏向科技成长
智通财经网· 2025-06-08 21:46
科技成长板块位置与性价比 - 6月市场主线有望偏向科技成长 近期成长板块已自底部抬升 各项指标显示科技板块仍处于高性价比区间 [1] - 拥挤度指标显示部分科技细分方向开始回升 但多数仍处于偏低水平 [1] - TMT与全A的滚动40日收益差快速修复至0%偏下方 远低于10%的经验性顶部 后续仍有修复空间 [3] - TMT成交占比从5月下旬22%-23%的历史低位快速回升至30% 较行情高峰时的40%-50%仍有差距 [6] 海外市场映射与日历效应 - 海外不确定性降温带动科技板块大涨 非农就业数据好于预期缓解美国经济放缓担忧 [7] - 6月科技板块日历效应显示相对占优 产业催化是重要驱动 2-3月科技风格突出 3-5月胜率回落 6月再度进入占优窗口 [8] 6月科技产业重要事件 - 6月5日任天堂Switch 2游戏机发售 [13] - 6月6-7日第7届北京智源大会召开 [13] - 6月9-13日苹果WWDC 2025将发布IOS 19等新系统 [13] - 6月11日火山引擎FORCE原动力大会 [13] - 6月12日AMD公布新一代Instinct GPU进展 [13] - 6月18-19日数据智能大会在北京召开 [13] - 6月19日亚马逊云科技中国峰会在上海举行 [13] - 6月20-22日华为开发者大会将重点展示HarmonyOS 5.1 [13] - 6月内谷歌将推出Gemini 2.5 Flash轻量级AI模型 华为Pura 80系列手机预计发布 [13] AI产业链投资方向 - 以AI产业链为抓手 关注上游算力自主可控与中下游应用创新 [14] - 上游重点关注GPU、光模块、PCB、IDC(算力租赁) 中游关注AIAgent、SASS、行业应用软件等 下游关注人形机器人、在线教育等 [14] - AI投资加码叠加自主可控 上游算力景气确定性仍强 中下游需求爆发将反哺上游 [17] - 25Q1中下游应用端呈现多元化创新 AI中下游产业链净利润增速改善明显 [20] - 中游算法技术&软件服务中 AIAgent、操作系统、行业应用软件等增速较高且改善 [20] - 下游端侧&应用中 数字营销、在线教育、金融科技、人形机器人等改善居前 [20]
​明天,开盘必读!
格兰投研· 2025-06-02 22:18
市场表现 - 端午假期期间港股恒生指数盘中最大跌幅达2 66%,最终收跌0 57%,展现出较强抗压能力[1] - 恒指成交量从上周五的2700亿骤降至1500亿以下,流动性萎缩情况下仍实现跌幅收窄[2][3] - 亚太市场普遍下跌,日经225指数下跌1 3%,台湾加权指数下跌1 61%[1] 地缘政治影响 - 乌克兰调整谈判策略,提出三大核心诉求:全面停火、战俘交换、儿童遣返,战略姿态较初期明显软化[4] - 乌克兰在土耳其和谈前发动无人机集群攻击,宣称摧毁41架俄军飞机,创下首次使用无人机打击核载具的军事纪录[5][6][7] - 无人机军事应用创新可能刺激A股相关题材表现[8] 贸易政策动向 - 特朗普宣布将钢铁进口关税从25%提升至50%,6月4日生效,主要影响加拿大(占比38%)、巴西(占比11%)和欧盟(占比9%),中国对美钢铁出口仅47万吨占比不足2%[9][13] - 关税政策调整与中期选举相关,特朗普支持率降至42%的任期新低,经济工作支持率仅39%[14] - 华尔街流行"TACO交易策略",即在关税威胁导致市场下跌时买入,预期政策反转后获利了结[15][16] 市场策略展望 - 5月市场呈现冲高回落特征,题材轮动加快但持续性不足,需关注3417点关键阻力位突破情况[21][22] - 科技板块拥挤度降至低位,6月历史胜率较高,TMT硬件/软件板块下半月胜率达90%/50%[25][27][28] - 6月将迎来密集科技事件催化,包括Switch 2发售、苹果WWDC、华为开发者大会等15+重要行业活动[29] - 流动性环境和经济转型需求共同支撑科技板块的中期结构性机会[30] 板块轮动特征 - 红利板块和新消费赛道交易拥挤度已处于高位[26] - 历史数据显示2-3月为春季躁动期,3-5月进入均衡市,6月起科技股通常开启新交易窗口[28]
试图干翻所有 AI 公司,谷歌全家桶到底有多硬核?
36氪· 2025-06-02 14:39
谷歌AI战略升级 - 2025年Google I/O开发者大会以AI为核心主题,"AI"被提及92次,"Gemini"被提及95次成为谷歌新一代AI代名词[1][3] - Gemini 2.5 Pro在WebDev Arena和LMArena等多个评测平台全面领先,成为"榜单霸主"[5] - 新增Deep Think模式使模型在数学、编程和多模态推理上表现优于OpenAI的o3,在USAMO数学测试中得分惊艳[7][9][11] 技术架构创新 - 推出非Transformer架构的Gemini Diffusion模型,速度比传统架构快五倍[18][21] - 引入Thought Summaries功能展示模型思考过程,配备Thinking Budgets控制token使用量[18][19] - Gemini 2.5 Flash版本token使用量减少20%-30%,已在Google AI Studio等平台开放预览[11] 多模态能力突破 - Imagen 4图像生成速度比上一代快10倍,支持写实和抽象风格[22][24] - Veo 3实现原生音画同步生成,可自动匹配人物口型并生成背景音乐[24][26] - Lyria 2音频生成技术可创作复杂音乐作品,电吉他、鼓点等乐器配合自然[26] 开发者工具革新 - Live API实现原生音频输出,支持24种语言的多扬声器文本转语音[11][15] - 整合Project Mariner使AI可同时处理10项任务,支持自动完成重复工作[17] - Flow电影制作工具整合Imagen/Veo/Gemini能力,可一键生成电影级镜头[26][27] 产品应用落地 - Google Stitch设计工具可自动生成网页/移动端界面及HTML/CSS代码,全量开放使用[28][29] - 重构搜索推出AI Mode,采用query fan-out技术实现深度搜索和实景互动[31][33][35] - 购物功能整合500亿+商品信息,支持预算筛选/比价/下单全流程[37] 商业化策略 - 推出AI Pro和AI Ultra订阅套餐,顶配Ultra定价249美元/月包含30TB云存储[38][39] - 服务包含不限量使用额度及Veo 3/Flow/Whisk等高级功能,定位专业用户[39] - 将AI深度整合至搜索/Gmail/Docs等核心产品,强化用户粘性[40]
贝塔6月投资布局精选
贝塔投资智库· 2025-05-30 12:19
5月市场表现回顾 - 港股市场涨幅前三:信达生物(1801 HK)涨15.53%、小鹏汽车-W(9868 HK)涨10.36%、中广核电力(1816 HK)涨9.17% [1] - A股市场涨幅前三:百润股份(002568 SZ)涨9.27%、燕京啤酒(000729 SZ)涨8.70%、华银电力(600744 SH)涨8.37% [1] - 美股市场涨幅前三:VISTRA(VST N)涨23.22%、美国银行(BAC N)涨10.93%、谷歌-A(GOOGL O)涨8.22% [1] - ETF表现突出:港股创新药ETF(513120 SH)涨9.22%、港股通红利ETF(513530 SH)涨8.57% [1] 宏观与关税动态 - 20年期美国国债拍卖结果弱于预期导致股债汇"三杀" [2] - 中美暂停部分加征关税提振市场信心 [3] - 美日关税谈判核心矛盾在汽车及零部件25%关税 [3] - 美欧关税征收推迟至7月9日 汽车关税和数字税仍是核心矛盾 [3] 出口与航运板块 - 4月中国对美出口同比下降21% 但5月美国零售商集中追加订单 [4] - 上海港美线出口装箱量达5.9万标箱 环比增长49.4% [7] - 建议关注中远海控、宁波远洋、上港集团、宁波港等航运港口股 [8] 旅游消费板块 - 端午假期文旅订单同比增63% 五星级酒店订单翻倍 [9] - 携程25Q1营收138.5亿元同比增16% 同程旅行25Q1净利润同比增41.1% [9] - 推荐关注携程和同程旅行 [9] 新消费趋势 - 万辰集团25Q1营收107.9亿元同比增123.95% 门店数达14196家 [10] - 泡泡玛特欧美区域收益同比增9倍和6倍 [11] - 老铺黄金618开售1小时热销4000万同比增800% [11] - 蜜雪冰城"雪王牧场"6月投产 [13] 618消费数据 - 天猫618首小时653个宠物品牌成交翻倍 [14] - 美妆板块GMV181.8亿同比增21.78% [14] - 宠物赛道GMV24.64亿同比增42.6% [14] - 推荐关注乖宝宠物、中宠股份、珀莱雅、小米集团等 [14] AI与科技板块 - 英伟达Q1营收441亿美元同比增69% [15] - AMD将提供中国特供GPU 预计2025年下半年问世 [15] - 戴尔单季积压订单超过去年全年出货 [15] - 推荐关注英伟达、AMD [16] - 6月科技事件密集:苹果开发者大会、华为开发者大会、谷歌AI模型升级等 [17] 重点公司动态 - 小米集团Q1手机出货量份额18.8%同比提升4.7个百分点 [18] - 腾讯控股Q1游戏业务营收921.33亿元同比增17% [19] - 蔚来6月将发布业绩 [21] 市场调整与机会 - 恒指6月调整可能纳入地平线机器人-W、吉宏股份等 [20] - 康方生物因临床数据不及预期股价大跌 [23] - Tempus AI被做空后股价跌近20% [23] - 西方石油获巴菲特持续增持 [23]