Workflow
Seek .(SKLTY)
icon
搜索文档
闹玩呢,首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
36氪· 2025-08-06 16:01
大模型国际象棋对抗赛首轮结果 - 谷歌发起首届大模型国际象棋对抗赛,参赛模型包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2 5 Pro和Gemini 2 5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4 [1] - 首轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0的战绩分别击败Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2,晋级半决赛 [1] - 比赛在Kaggle Game Arena平台进行,旨在探索大模型在动态竞争环境中的表现 [1] 各模型表现分析 - Grok 4表现最为亮眼,不仅以4-0全胜,还展现出精准捕捉无保护棋子的能力,被认为突破了当前大模型在象棋对弈中的三大关键短板 [21][24][27] - Gemini 2 5 Pro是唯一通过"将杀"获胜场次多于因违规告负场次的模型,但真实棋力尚不明确 [14] - o4-mini在与DeepSeek R1的对局中成功实现两次将军,但棋局质量存在断崖式下跌现象 [10][13] - o3轻松击败非推理模型Kimi K2 Instruct,Kimi k2在脱离开局理论后出现技术问题 [3][6][9] 行业观察 - 比赛暴露出大语言模型在象棋对弈中的三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限以及合法着法执行问题 [27] - 赛前投票显示37%的参与者最看好Gemini 2 5 Pro [27] - 比赛结果引发科技界关注,xAI创始人埃隆・马斯克再次提及"国际象棋太过简单"的观点 [24]
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
虎嗅· 2025-08-06 11:47
最大的开源社区Hugging Face创始人兼CEO Clement Delangue称之为"王者归来"。 "这就像剧情反转, 像是一场王者归来, OpenAI终于重新发布开源模型gpt-oss-120b和gpt-oss-20b。这是其自从GPT-2之后,首次发布开源语言模型。 这也是上半年DeepSeek-R1发布,引发中国掀起一股开源狂潮,7月份中国K2、GLM-4.5、Step-3及Qwen3更新版本等密集发布之后,美国AI实验室首次发 出最强开源模型。 Llama4上半年发布失败,美国朝野一致对开源AI落后于中国感到焦虑之际,OpenAI看起来要扳回一局。 像是某件大事的开端。 让我们一起推进开源AI吧" gpt-oss vs. DeepSeek StabilityAI创始人Emad Mostaque等人,对比了gpt-oss与DeepSeek: 训练效率:gpt-oss-120b每个token激活约5.1B参数,而DeepSeek是37B,少了7倍以上,因此可以处理超过5倍的tokens,即大约80万亿tokens(作为参考, Qwen3使用了30万亿)。 计算消耗:gpt-oss比DeepSeek ...
OpenAI发布低成本模型 与Meta(META.US)和DeepSeek正面竞争
智通财经网· 2025-08-06 09:53
智通财经APP获悉,OpenAI周二发布了自2019年推出GPT-2以来首批开放权重语言模型。这两款纯文本 模型分别命名为gpt-oss-120b和gpt-oss-20b,旨在为开发者、研究人员和企业提供更易运行和定制的低成 本选项。 当人工智能模型的参数(即训练过程中优化输出和预测能力的要素)公开可用时,该模型即被视为开放权 重。此类模型虽能提供透明度和控制权,但不同于开源模型——后者允许用户完全获取并修改源代码。 近年来,Meta、微软支持的Mistral AI以及中国初创企业DeepSeek等公司也相继发布了开放权重模型。 此次发布备受期待,部分原因是公司曾多次推迟上线。OpenAI CEO萨姆·奥尔特曼七月在X平台发文称 需要更多时间"进行额外安全测试并审查高风险领域",此前六月他也明确表示模型不会当月发布。 OpenAI周二声明已对开放权重模型实施全面安全训练与测试。在预训练阶段清除了有害的化学、生 物、放射性与核武器相关数据,并模拟了恶意行为者可能进行的模型微调。 测试表明,经恶意调优的模型无法达到其"准备框架"设定的高能力阈值——这是该公司衡量和防范危害 的评估体系。OpenAI还透露已邀请三个 ...
谁在往“DeepSeek们”的回答里塞广告?
36氪· 2025-08-04 17:37
AI搜索用户增长与广告渗透 - 全球AI搜索用户量从2024年1月的3.1亿增长至2025年2月的19.8亿,增长率达538.7% [1] - 用户行为从传统搜索转向AI问答,如DeepSeek、豆包等平台回答中频繁出现品牌名和超链接 [1][5] - 社交平台用户质疑AI回答中的广告植入现象,例如香港旅游攻略中直接推荐导游联系方式 [5][7] AI回答商业化与行业应对 - 腾讯元宝曾声明不嵌入商业搜索结果,但实际回答中引用第三方平台内容(如58到家)引发争议 [7] - 部分AI平台(如星野)在对话中直接插入游戏下载链接等显性广告 [9] - 平台技术负责人表示已关注GEO乱象,正对低质AIGC内容进行筛查降权 [14] GEO营销生态崛起 - GEO(生成式引擎优化)成为广告行业新热点,通过内容优化影响AI回答中的品牌露出 [10] - 行业类比SEO,GEO市场规模2024年估测21亿元,2027年预计达242亿元,未来五年或撬动3000亿元价值 [14] - 服务商报价体系成型,如50条词条月费6000元,500条20000元,承诺60%词条完成率 [12][13] GEO服务模式与效果争议 - 服务商通过结构化内容、语义相关性优化等策略提升品牌在AI回答中的排名 [13] - 效果衡量标准不统一,部分承诺100%推荐,部分以品牌露出次数为指标 [14] - 行业尚不成熟,存在"没效果退款"等非标准化保证 [14]
爆火仅半年,DeepSeek在银行业已泯然众模型?三大障碍成拦路虎
凤凰网· 2025-08-04 11:42
银行业对DeepSeek模型的应用现状 - 银行业整体对DeepSeek模型的应用效果不如预期 未诞生基于该模型的杀手级应用 后续影响仍需观察 [1] - 银行业金融数据复杂性导致DeepSeek处理能力不足 模型为通用型而非金融专用型 与银行原有技术路线适配性不高 [1][7] 银行业应用态度变化轨迹 - DeepSeek从"最独特模型"转变为"众多大模型中的一个" 中小银行更积极跟进 大型商业银行热情明显减弱 [3][4] - 有关部门要求大型商业银行不得大规模宣传DeepSeek应用 需强调金融大模型自主研发 [4] - 建设银行与工商银行于7月28日分别接入阿里巴巴AI技术 工商银行商户风控系统正式接入通义千问大模型 [6] 具体应用障碍分析 - 银行金融数据存在维度差异和质量高低问题 DeepSeek对复杂底层数据处理能力不足 衍生判断难以见效 [7] - 算力制约问题突出 全面推广需高性能芯片支持 免费版DeepSeek相比国产大模型无显著优势 [8] - 金融行业对差错容忍度极低 AI投顾分析存在明显问题 智能风控应用效果未达预期 [9] 中小银行与大银行差异 - DeepSeek帮助中小银行解决"有无问题" 拉近与大银行技术差距 采购成本从动辄上千万变为免费 [9] - 中小银行研发热情较高 但上半年银行业对DeepSeek发展过于乐观 杀手级应用出现时间难以判断 [9] 行业发展趋势 - 银行业持续加大金融科技投入趋势不变 不会像金融"元宇宙"那样昙花一现 [2] - 技术团队尝试将原有金融小模型与DeepSeek通用大模型结合改造 但需要时间完成 [8]
AI周报 | DeepSeek斩获ACL 2025最佳论文;库克称苹果计划“大幅”增加AI投资
第一财经· 2025-08-03 09:16
ACL 2025最佳论文 - DeepSeek与北京大学联合发表的论文荣获ACL 2025最佳论文奖,提出原生稀疏注意力(NSA)机制,为自然语言处理领域效率突破提供新思路 [1] - 本届ACL大会总投稿量突破8000篇创历史新高,主会论文接收率20.3%,中国作者首次在第一作者占比中过半达51.3% [1] - NSA机制包含压缩模块、Blockwise选择模块和滑动注意力三大组件,被评价为"针对transformer attention的、简单有效、高度硬件友好的token数量压缩算法" [2] 企业AI模型市场格局 - Anthropic在企业大型语言模型市场份额达32%,超越OpenAI的25%,与两年前OpenAI占50%、Anthropic仅12%形成鲜明对比 [3] - Claude模型在编码、文案编写、游戏NPC等领域表现成为开发者首选,OpenAI市场份额自2023年起大幅下滑 [4] - OpenAI即将发布GPT-5,行业期待其通过下一代模型实现市场反攻 [4] 大模型开源动态 - 阶跃星辰开源基础大模型Step 3,采用MoE架构总参数量321B,在MMMU等评测集同类型开源模型中领先 [5] - 月之暗面发布万亿参数开源模型Kimi K2,腾讯开源混元3D世界模型1.0并计划后续开源端侧混合推理大模型 [5] 百度搜索智能体战略 - 百度搜索电脑端测试开放智能体应用入口,集成文心智能体平台、外部AI应用及自研应用,预计很快全量开放 [6] - 该举措标志着搜索从传统信息检索迈向智能交互服务,为AI应用开辟新分发渠道 [6][7] 具身智能行业现状 - 腾讯张正友认为具身智能行业尚未出现"iPhone时刻",当前人形机器人主要用于数据采集、科研等场景 [8] - 行业需要突破双足人形形态限制,未来会有特定领域实现规模化应用带动成本下降 [8] 算力技术发展 - WAIC展会上华为、曦智科技等厂商展出超节点方案,通过整合算力芯片资源构建低延迟高带宽算力实体 [9] - 超节点技术成为应对大模型参数增长和算力集群扩大的重要解决方案 [9] 科技巨头财报表现 - Meta第二季度营收475亿美元同比增长22%,净利润183亿美元同比增长36%,AI技术提升广告系统效率 [10] - 微软第四财季营收764亿美元同比增长18%,智能云业务营收299亿美元同比增长26%,市值突破4万亿美元 [11] - 两家公司均加大AI领域资本支出,Meta上调2025年资本开支预期至660-720亿美元 [10][11]
DeepSeek公司要上市了?知情人士回应
快讯· 2025-08-01 19:15
《辟谣财知道》注意到,近期一则关于DeepSeek(深度求索)公司上市的消息出现在诸多权威的新闻网 站。据南方日报报道,知情人士表示,该消息不实。 ...
DeepSeek上市的假新闻正被权威网站批量刊载
南方都市报· 2025-08-01 17:47
近期,一则关于DeepSeek(深度求索)公司上市的消息出现在诸多权威的新闻网站。知情人士告诉南 都N视频记者,该消息不实。虚假信源也使得DeepSeek的AI应用成了"受害者"。 这则DeepSeek的IPO假新闻有两个版本:版本一是DeepSeek准备科创板上市,于7月18日发布。该版本 的消息中写道:"DeepSeek今日(7月15日)正式宣布,公司已递交科创板上市申请,计划于2025年11月 正式挂牌交易,此次IPO旨在进一步扩大算力租赁业务规模。" 然而经记者核实,上海证券交易所并无DeepSeek的上市申请记录,DeepSeek近期也从未在任何官方渠 道宣布过上市计划。更关键是,DeepSeek背后的公司迄今未进行过股改。股改是一家公司上市的必要 条件。此外,DeepSeek官网显示的服务内容中,并不包含所谓算力租赁业务。 版本二发布7月30日左右,改称DeepSeek提交了北交所上市申报材料,拟于2025年11月正式挂牌。然 而,北京证券交易所官网同样无法查询到DeepSeek的上市申请记录。 上述新闻网站发布的DeepSeek上市消息,共同点是没有明确的署名,消息来源模糊。 虚假的信源也污染了 ...
产学研联动!DeepSeek上市前夕与中科院共建“新一代算力实验室
江南时报· 2025-08-01 11:09
公司动态 - 公司宣布与中国科学院计算技术研究所共建联合实验室,重点攻关"存算一体"等前沿技术 [1] - 实验室已有3项专利进入PCT国际申请阶段 [1] - 该举措发生在公司算力租赁业务上市冲刺阶段 [1] 业务发展 - 公司采取"上市+研发"双轮驱动模式 [1] - 联合实验室未来或形成新的利润增长点 [1] - 该模式被教育界人士认为将加速科研成果转化 [1] 技术布局 - 公司通过共建实验室强化技术壁垒 [1] - 研发重点为"存算一体"等前沿技术 [1] - 已有3项专利进入国际申请阶段显示技术储备 [1]
看完妈妈和DeepSeek的聊天记录,我哭了
36氪· 2025-07-31 20:31
AI正在以一种意想不到的方式,嵌入中国家庭最私密的肌理。 它不再仅仅是工具,更开始扮演一个微妙的"第三方"角色——在因观念、代际和沟通方式差异而撕裂的家庭关系中,充当起"军师"或"翻译官"。 蔡考和程君,这两位年轻女性的家庭,都因AI的偶然介入,经历了一场充满试探、挫折与反复的、漫长的"沟通实验"。 AI如同一面镜子,照见了她们与母亲在亲密关系中的僵局,也意外地赋予了她们重建现实关系的力量。 这并非一个"科技改变生活"的乐观故事。它更像是一个粗糙的、关于两代人在巨大的认知鸿沟面前,如何借助一个陌生的工具,笨拙走向彼此的现实记 录。 交锋 2025年5月下旬,距离女儿蔡考的又一次相亲还有一周,妈妈张瑞芳特地从浙江赶到上海。她此行的目的,是监督女儿为这场"考试"做万全准备。 张瑞芳去上海之前,问蔡考需不需要带过去点护肤品。蔡考说:我这全有。 结果张瑞芳发现,蔡考唯一的"家当"是酒店拿来的免费润肤霜。她形容女儿匪夷所思。 蔡考第一次相亲见面后没了下文,张瑞芳很焦虑,把这一切都归咎于女儿"长得不像照片"。"再不减减肥、脸上抹点东西,别人就看不上你了。" 蔡考暴跳如雷,质问妈妈为什么要代入男人的目光审视、否定自己,为什 ...