Gemini 2.5 Pro Preview

搜索文档
DeepSeek新版R1模型实际性能如何?第三方评测来了
南方都市报· 2025-06-05 20:26
模型性能提升 - 新版R1模型总体表现超过OpenAI的o3模型,但相比o4-mini(high)和Gemini 2 5 Pro Preview 05-06仍有差距 [1] - 新版R1模型在SuperCLUE测评中总分63 55分,比旧版提升1 61分,排名第四 [2] - 新版R1模型在数学推理能力测试中准确率从70%提升至87 5% [1] 技术优化与改进 - 新版R1模型基于DeepSeek V3基座,通过增加算力投入提升了思维深度与推理能力 [1] - 新版R1模型在数学、编程与通用逻辑等多个基准测评中领先国内其他模型 [1] - 新版R1模型针对"幻觉"问题优化,幻觉率降低45%-50% [4] 测评数据对比 - 新版R1模型指令遵循能力得分48 46分,比旧版高17 09分,但仍低于o3(66 95分)和o4-mini(high)(68 07分) [4] - 新版R1模型中文幻觉率降至13 86%,下降7 16个百分点,但相比豆包doubao-1 5-pro-32k(4 11%)仍有差距 [5] - 文本摘要和阅读理解任务的幻觉率优化最显著,分别降低9 27%和14 49% [5] 国际模型对比 - o4-mini(high)在SuperCLUE测评中得分最高(70 51分) [2] - Gemini 2 5 Pro preview 05-06得分66 48分,排名第二 [2]
微软发完谷歌发,AI编程这个月“热爆了”
第一财经· 2025-05-21 17:23
AI编程行业趋势 - Agent(智能体)成为海内外大厂高频提及的关键词,AI编程智能体是重点投入方向,OpenAI、微软、谷歌I/O大会均有相关发布 [1] - 大模型能力整体提升和AI编程市场需求明确,推动编程领域率先找到PMF(产品与市场契合度) [1] - 除大厂外,Cursor、Windsurf、Poolside等创业公司AI编程项目被二级市场密集提及 [1] 主要厂商动态 - 微软GitHub Copilot用户突破1500万,Visual Studio系列产品用户超1500万,Copilot迈入"智能体时代",可独立执行开发任务 [2] - 2024年微软内部20%-30%代码由Copilot生成,2025年发布Copilot Agent功能支持自主修复漏洞、重构代码 [2] - OpenAI发布Codex智能体,用户可分配复杂任务,与GitHub深度整合后能完成更高阶工作 [3] - 谷歌Gemini 2.5 Pro Preview提升编码能力,支持代码语言转换与优化,AI代理Jules可自主读取生成代码并集成至现有代码库 [3][4] - 国内厂商布局:阿里云通义灵码、字节跳动Trae、百度文心快码、快手KwaiPilot、腾讯CodeBuddy [4] 市场规模与并购 - 2024年全球生成式AI编程助手市场规模2590万美元,预计2030年达9790万美元,六年CAGR 24.8%,中国市场CAGR 23.5% [5] - OpenAI拟以30亿美元收购AI编程助手开发商Windsurf,Cursor完成9亿美元融资后估值达90亿美元,2024年ARR为2亿美元 [8] 技术应用与效率提升 - GitHub Copilot缩短企业构建AI应用时间20%-30%,Autodesk使用后工作效率提高近30% [8] - Cursor通过自然语言生成和重构代码,支持Agent自主完成多步骤任务,但依赖外部平台和开源模型 [9] - Stripe数据显示工程师单位时间内代码合并请求量增长30%,AI工具显著减少基础编码时间 [10] 行业核心观点 - AI编程工具已成为开发刚需,但代码质量仍存风格不一致、性能不稳定等问题,复杂工程依赖关系处理能力有限 [9][10] - 需重新定义开发效能标准,聚焦"有效产出"而非"速度表象",工程师的逻辑思维与创造力不可替代 [10][11]
梁文锋倒逼OpenAI重新Open
虎嗅APP· 2025-05-14 22:26
以下文章来源于中国企业家杂志 ,作者孙欣 中国企业家杂志 . 讲好企业家故事,弘扬企业家精神 本文来自微信公众号: 中国企业家杂志 (ID:iceo-com-cn) ,编辑:张晓迪,作者:孙欣,头图来自:视 觉中国 DeepSeek爆火不到4个月,山姆·阿尔特曼找回了自己的"理想主义"。 5月6日凌晨2:04分,OpenAI宣布放弃将公司完全转为营利性机构的计划,决定让非营利组织控制公司。同 时,OpenAI取消了对投资者设置的财务回报上限。此外,CEO山姆·阿尔特曼 (Sam Altman,以下简称阿尔 特曼) 还发布了一封全员信,强调未来OpenAI要成为"历史上规模最大、效果最佳的非营利组织"。 与其说是OpenAI浪子回头,倒不如说是被逼着找回了自己的理想主义。 "当技术领先优势大,自然会想着 如何营利,当技术优势没有那么大,自然会想要回到'道德高点'来帮助自己 (找回主场) 。" 一位大厂产品 经理评论道。 事实上,OpenAI转回非营利早有迹象,从数月前的"开源"便可以看得出来。2025年3月31日,阿尔特曼发文 强调,未来几个月,将开源一款强大的推理模型。自发布GPT-2以来,这是时隔6年Ope ...
梁文锋倒逼OpenAI重新Open
投中网· 2025-05-13 14:29
公司战略转型 - OpenAI宣布放弃完全转为营利性机构的计划,回归非营利组织控制架构,并取消投资者财务回报上限[4] - 公司CEO阿尔特曼强调未来目标是成为"历史上规模最大、效果最佳的非营利组织"[4] - 微软作为最大投资者(注资137.5亿美元)持反对态度,但公司表示将维持合作关系[5] 发展历程与架构调整 - 2019年关键转折:发布GPT-2但不开源,创建营利性结构并引入微软投资[6] - 2025年架构调整四大特点:非营利组织保持控制权、营利实体转为公益性公司、非营利组织作为主要股东、保持共同使命[9] - 转型前兆包括:2025年2月取消ChatGPT注册限制、征集开源方案、3月宣布将开源推理模型[9] 行业竞争格局 - DeepSeek-R1模型引发行业震动,国内外厂商(亚马逊/谷歌/腾讯等)广泛接入,腾讯股价因此涨超6%至506港元[6][16] - 竞争对手动态:谷歌推出Gemini 2.5 Pro Preview(编码榜第一)、Meta发布独立AI应用、OpenAI以30亿美元收购Windsurf补足编程能力[18] - 行业研发投入对比:百度累计AI投入超1800亿元、阿里云和AI基础设施投入超3000亿元、亚马逊2025年AI研发预算达1000亿美元[20] 技术路线与挑战 - 公司时隔6年重启开源策略,2025年3月宣布将推出开源推理模型[7][9] - 技术领先优势减弱:从GPT系列/Sora的引领者变为跟随者,例如在AI智能体领域落后于创业公司[19] - 核心团队流失:初创15人团队仅剩CEO和1名研究员,前员工创立Anthropic等竞品瓜分市场[15] 财务与资本状况 - 过去十年融资近200亿美元,估值超1500亿美元,2024年11月收入达37亿美元[14] - 软银承诺推进300亿美元全额投资计划,现有架构下资本持续支持[20] - 营利性争议:马斯克诉讼指控公司背叛开源协议,公开邮件显示创始团队分歧[15]
全球AI周报:多个海外AI应用公司财报超预期,阿里提出未来所有业务以AI为驱动
天风证券· 2025-05-13 13:45
报告行业投资评级 未提及 报告的核心观点 - 本季度多个美股科技AI应用公司财报超预期,验证AI应用作为2025年投资主线逻辑 [5] - AI技术升级提升广告效率、加快商业化进程,企业服务需求稳健、AI基础设施升级支撑增长,AI赋能电商运营提升客户留存与变现 [5] - 建议关注多类AI相关公司,包括应用、云服务、算力、智能驾驶等领域,以及中国头部AI科技企业 [5] 各部分总结 海外科技公司财报AI进展 - Palantir一季度营收8.84亿美元,AI驱动下客户指标向好,美国商业TCV达8.1亿美元创历史新高,客户数量增长 [5] - AppLovin一季度营收净利润超预期,Q1收入14.8亿美元,净利润5.76亿美元,AI驱动技术改进优化平台 [5] - Datadog第一季度营收7.62亿美元,AI相关订单增长,超4000家客户使用人工智能集成 [5] - Shopify GMV达748亿美元,同比增长23%,推出智能关税计算工具,完成收购助力AI搜索技术开发 [5] - Claudeflare一季度营收4.791亿美元,同比增长27%,签订大额合同,Cloudflare Workers AI发展迅猛 [5] 全球AI动态 - OpenAI启动全球版“星际之门”计划,首批覆盖10个国家,推出“OpenAI for Countries”计划,营利部门转为公益公司 [5][42] - 谷歌提前发布Gemini 2.5 Pro Preview(I/O版),登顶LMAreana,编码性能碾压Claude 3.7 [5][43] - Mistral AI发布多模态新模型Mistral Medium 3,平衡性能与成本,在编程和STEM任务表现突出 [5][48] 重点公司业绩情况 Palantir - 业绩整体营收同比增长39%达8.84亿美元,调整后营业利润率44%,规则40得分提升 [12] - AI驱动下客户指标向好,美国商业TCV达8.1亿美元,客户数量增长 [12] - 预计2025年二季度营收9.34 - 9.38亿美元,全年营收指引上调至38.9 - 39.02亿美元 [12] AppLovin - 一季度营收净利润超预期,Q1收入14.8亿美元,净利润5.76亿美元,广告收入增长 [18] - 业务剥离应用业务,网页广告试点表现好,电商签约广告主多,广告收入超90%来自移动游戏 [18] Datadog - 业绩营收7.62亿美元,同比增长25%,非GAAP毛利润6.12亿美元,账单金额和RPO增长 [23] - 业务AI原生客户贡献ARR增长,超4000家客户使用人工智能集成,部分业务增长快速 [23] - 指引二季度预计营收7.87 - 7.91亿美元,2025财年预计总营收32.15 - 32.35亿美元 [23] AMD - 业绩第一季度营收74亿美元,同比增长36%,毛利率54%,EPS为0.96美元 [26] - 分业务数据中心部门收入增长,客户端和游戏部门有增有减,嵌入式部门收入下降 [26] - 业务面临出口管制挑战,数据中心AI业务增长,推进新产品开发 [26] - 指引预计二季度营收约74亿美元,有27%同比增长 [26] Shopify - 业绩GMV达748亿美元,同比增长23%,各业务板块GMV有不同程度增长 [31] - 业务推出智能关税计算工具,完成收购助力AI搜索技术开发 [31] - 指引2025年第二季度预计收入同比增长约25%,营业费用和自由现金流利润率有预期 [31] Cloudflare - 业绩一季度营收4.79亿美元,同比增长27%,毛利率77.1%,营业利润和付费客户等指标良好 [35] - 业务签订大额合同,Cloudflare Workers AI发展迅猛,构建MCP服务器 [35] - 指引预计二季度和全年营收、营业利润、每股净收益等指标增长 [35]
全球AI周报:多个海外AI应用公司财报超预期,阿里提出未来所有业务以AI为驱动-20250513
天风证券· 2025-05-13 13:18
报告行业投资评级 未提及 报告的核心观点 - 本季度多个美股科技AI应用公司财报超预期,验证AI应用作为2025年投资主线逻辑 [5] - AI技术升级提升广告效率、加快商业化进程,企业服务需求稳健、AI基础设施升级支撑增长,AI赋能电商运营提升客户留存与变现 [5] - 建议关注多类AI相关公司,包括应用、云服务、算力、智能驾驶等领域,以及中国头部AI科技企业 [5] 根据相关目录分别进行总结 海外科技公司财报AI进展 - Palantir一季度营收8.84亿美元,AI驱动下客户指标向好,美国商业TCV达8.1亿美元创历史新高,客户数量增长 [5] - AppLovin一季度营收净利润超预期,Q1收入14.8亿美元同比增40%,净利润5.76亿美元,AI优化技术使广告主效果更佳 [5] - Datadog第一季度营收7.62亿美元同比增长25%,AI相关订单持续增长,超4000家客户使用人工智能集成 [5] - Shopify GMV达748亿美元同比增长23%,推出智能关税计算工具,收购公司助力AI多向量搜索技术开发 [5] - Claudeflare一季度营收4.791亿美元同比增长27%,签订超10亿美元合同,Cloudflare Workers AI发展迅猛 [5] 全球AI动态 - OpenAI启动全球版“星际之门”计划首批覆盖10个国家,推出“OpenAI for Countries”计划,营利部门转为公益公司 [5] - 谷歌提前发布Gemini 2.5 Pro Preview(I/O版),登顶LMAreana,编码性能碾压Claude 3.7 [5] - Mistral AI发布多模态新模型Mistral Medium 3,性能与成本平衡,后续开展“大型”项目 [5] 重点公司业绩情况 - Palantir整体营收同比增长39%达8.84亿美元,调整后营业利润率44%,预计二季度营收9.34 - 9.38亿美元,上调全年营收指引 [12] - AppLovin一季度营收净利润超预期,Q1收入14.8亿美元同比增长40%,将剥离Apps业务聚焦广告业务 [18] - Datadog营收7.62亿美元同比增长25%,预计二季度营收7.87 - 7.91亿美元,2025财年预计总营收32.15 - 32.35亿美元 [23] - AMD第一季度营收74亿美元同比增长36%,分业务表现分化,预计二季度营收约74亿美元 [26] - Shopify GMV达748亿美元同比增长23%,预计二季度收入同比增长约25% [31] - Cloudflare一季度营收4.79亿美元同比增长27%,预计二季度营收5 - 5.01亿美元,2025年全年预计营收20.9 - 20.94亿美元 [35] 全球AI动态更新 - OpenAI启动全球版“星际之门”计划,公司结构调整营利部门转公益公司,推动各国AI发展并确保造福人类 [42] - 谷歌提前发布Gemini 2.5 Pro Preview(I/O版),在多领域表现优异,开发者可使用开发,热度高 [43] - Mistral AI发布Mistral Medium 3,性能与成本平衡,在编程和STEM任务突出,推出企业聊天机器人服务 [48]
梁文锋倒逼OpenAI重新Open
创业邦· 2025-05-13 11:20
OpenAI架构转型 - OpenAI宣布放弃完全转为营利性机构的计划,决定让非营利组织控制公司,并取消对投资者设置的财务回报上限 [3] - 公司未来架构特点包括:非营利组织继续控制、营利公司转为公益性公司(PBC)、非营利组织成为PBC主要股东、两者保持相同使命 [8] - 转型早有迹象,2025年2月起陆续推出免注册使用ChatGPT搜索、征集开源方案、宣布开源推理模型等举措 [9] 发展历程与竞争格局 - 公司2015年成立时为非营利研究实验室,2019年转向商业化并获得微软投资,2025年因竞争压力回归非营利 [4][5] - 2025年1月DeepSeek-R1模型爆发式增长,国内外厂商广泛接入,动摇OpenAI行业地位 [5][14] - 竞争对手加速布局:谷歌推出Gemini 2 5 Pro Preview编码模型,Meta发布独立AI应用,OpenAI以30亿美元收购AI编程工具公司Windsurf补足短板 [17][18] 财务与资本动态 - 过去十年累计融资近200亿美元,估值超1500亿美元 [12] - 2024年11月收入达37亿美元,超过Google、Facebook同期规模 [12] - 软银承诺继续推进300亿美元全额投资计划,微软已累计注资137 5亿美元但反对此次架构调整 [4][21] 核心团队与治理争议 - 初创团队14人中仅剩CEO阿尔特曼和研究员扎伦巴两人留存 [5] - 马斯克2018年因营利性争议离开,2024年3月起诉公司违背开源初心,指控其将AGI技术商业化 [12][14] - 阿尔特曼强调公司使命始终是"确保AGI惠及全人类",但承认早期低估了构建AGI所需资源 [8][12] 行业趋势与挑战 - 大模型行业研发投入巨大:百度累计超1800亿元,阿里超3000亿元,亚马逊2025年计划支出1000亿美元 [20] - 资本对AGI领域容忍度提高,认为过早商业化可能导致前期投入打水漂 [21] - 公司面临"大企业病"挑战,从技术先锋转为跟随者,需应对创业公司更灵活的技术创新 [20]
快讯|联想首位人形机器人“硅基员工”正式亮相;OpenAI被曝削减微软收入分成;谷歌推出Gemini2.5Pro Preview
机器人大讲堂· 2025-05-09 20:53
3、 INBRAIN Neuroelectronics获400万欧元资助 近日,临床阶段神经技术公司INBRAIN Neuroelectronics宣布,获西班牙工业和旅游部"PERTE芯片"计划 400万欧元资助。据了解,INBRAIN Neuroelectronics致力于开发基于石墨烯的脑机接口技术,可实时解 码与调节脑活动。其技术平台能为帕金森病、中风康复等提供精准神经调节方案。公司首席执行官称,此 资助将加速精准神经技术开发,变革神经系统疾病治疗。加泰罗尼亚商业与劳工部长也表示,INBRAIN Neuroelectronics代表前沿创新力量,巩固了相关领域领导地位。目前,INBRAIN的BCI - Tx平台已获FD A突破性医疗器械认证,正与合作伙伴拓展技术应用。 4、 OpenAI被曝削减微软收入分成 1、 谷歌推出 Gemini 2.5 Pro Preview(I/O 版) 近日,谷歌推出旗舰产品 Gemini 2.5 Pro AI 模型的升级版 Gemini 2.5 Pro Preview(I/O 版)。谷歌称该 模型在多项主流基准测试中表现优异。用户可通过 Gemini API 及谷歌的 ...
碾压Cursor?谷歌突发Gemini 2.5 Pro 预览版,编码能力全网第一
AI前线· 2025-05-07 11:31
整理|冬梅、核子可乐 I/O 前夕,谷歌突发 Gemini 2.5 Pro 预览版 昨晚,谷歌在 I/O 大会之前宣布推出 Gemini 2.5 Pro Preview(I/O 版)。作为其旗舰产品 Gemini 2.5 Pro AI 模型的升级版本,搜索巨头宣称该模型在多项主流基准测试中均名列前茅。 Gemini 2.5 Pro Preview(I/O 版)可通过 Gemini API 以及谷歌的 Vertex AI 与 AI Studio 平台获取, 价格则与升级前的 Gemini 2.5 Pro 模型相同。预览版也被引入到谷歌的 Gemini 聊天机器人应用当 中,主要供 Web 及移动设备端使用。 谷歌 DeepMind CEO Demis Hassabis 在 X 上发帖称:"非常高兴能与大家分享我们迄今为止构建的 最佳编程模型!今天,我们发布了 Gemini 2.5 Pro Preview 的'I/O 版',其编程能力得到了大幅提 升。 此版本在 LMArena 编程类别中排名第一,在 WebDev Arena 排行榜上同样拔得头筹 。" 这套模型的发布正值谷歌年度 I/O 开发者大会(因此得名「 ...
用AI把一段视频变成可视化网页,Google的新模型又卷飞了。
数字生命卡兹克· 2025-05-07 05:04
之前我就写过Gemini 2.5 pro,是在 聊天记录可视化的文章 里。 全世界,只有Gemini 2.5 pro,能吃下一个每天999+微信群聊天记录的上下文,同时还能给你干出,一个还挺好看的可视化网页。 在Qwen3的跑分中,也印证了,Gemini 2.5 Pro的能力也是真的强。 而我自己在是日常使用中,也几乎是把Gemini 2.5 Pro,变成了我的默认编程模型。 Google也不知道受了什么刺激,最近在AI场上,好像越来越有站起来的意思了。 但是昨晚,Google好死不死的,又把模型更新了一版,把版本号变成了,Genmini 2.5 Pro(I/O版)。 而在后台的模型调用里,命名是Gemini 2.5 Pro Preview 05-06。 现在在Gemini自己的产品官网上,虽然看着还是原来的 2.5 Pro (experimental),但其实背后的模型已经变成 Gemini 2.5 Pro Preview 05-06了。 有一说一,Google你的命名到底能不能统一一下。 真的好乱。。。 而且,Google是真的感觉等不及了,其实距离他们一年一度的I/O大会,也就不到两周时间了,但是还是选 ...