Workflow
Seek .(SKLTY)
icon
搜索文档
AI周报 | DeepSeek斩获ACL 2025最佳论文;库克称苹果计划“大幅”增加AI投资
第一财经· 2025-08-03 09:16
ACL 2025最佳论文 - DeepSeek与北京大学联合发表的论文荣获ACL 2025最佳论文奖,提出原生稀疏注意力(NSA)机制,为自然语言处理领域效率突破提供新思路 [1] - 本届ACL大会总投稿量突破8000篇创历史新高,主会论文接收率20.3%,中国作者首次在第一作者占比中过半达51.3% [1] - NSA机制包含压缩模块、Blockwise选择模块和滑动注意力三大组件,被评价为"针对transformer attention的、简单有效、高度硬件友好的token数量压缩算法" [2] 企业AI模型市场格局 - Anthropic在企业大型语言模型市场份额达32%,超越OpenAI的25%,与两年前OpenAI占50%、Anthropic仅12%形成鲜明对比 [3] - Claude模型在编码、文案编写、游戏NPC等领域表现成为开发者首选,OpenAI市场份额自2023年起大幅下滑 [4] - OpenAI即将发布GPT-5,行业期待其通过下一代模型实现市场反攻 [4] 大模型开源动态 - 阶跃星辰开源基础大模型Step 3,采用MoE架构总参数量321B,在MMMU等评测集同类型开源模型中领先 [5] - 月之暗面发布万亿参数开源模型Kimi K2,腾讯开源混元3D世界模型1.0并计划后续开源端侧混合推理大模型 [5] 百度搜索智能体战略 - 百度搜索电脑端测试开放智能体应用入口,集成文心智能体平台、外部AI应用及自研应用,预计很快全量开放 [6] - 该举措标志着搜索从传统信息检索迈向智能交互服务,为AI应用开辟新分发渠道 [6][7] 具身智能行业现状 - 腾讯张正友认为具身智能行业尚未出现"iPhone时刻",当前人形机器人主要用于数据采集、科研等场景 [8] - 行业需要突破双足人形形态限制,未来会有特定领域实现规模化应用带动成本下降 [8] 算力技术发展 - WAIC展会上华为、曦智科技等厂商展出超节点方案,通过整合算力芯片资源构建低延迟高带宽算力实体 [9] - 超节点技术成为应对大模型参数增长和算力集群扩大的重要解决方案 [9] 科技巨头财报表现 - Meta第二季度营收475亿美元同比增长22%,净利润183亿美元同比增长36%,AI技术提升广告系统效率 [10] - 微软第四财季营收764亿美元同比增长18%,智能云业务营收299亿美元同比增长26%,市值突破4万亿美元 [11] - 两家公司均加大AI领域资本支出,Meta上调2025年资本开支预期至660-720亿美元 [10][11]
DeepSeek公司要上市了?知情人士回应
快讯· 2025-08-01 19:15
《辟谣财知道》注意到,近期一则关于DeepSeek(深度求索)公司上市的消息出现在诸多权威的新闻网 站。据南方日报报道,知情人士表示,该消息不实。 ...
DeepSeek上市的假新闻正被权威网站批量刊载
南方都市报· 2025-08-01 17:47
近期,一则关于DeepSeek(深度求索)公司上市的消息出现在诸多权威的新闻网站。知情人士告诉南 都N视频记者,该消息不实。虚假信源也使得DeepSeek的AI应用成了"受害者"。 这则DeepSeek的IPO假新闻有两个版本:版本一是DeepSeek准备科创板上市,于7月18日发布。该版本 的消息中写道:"DeepSeek今日(7月15日)正式宣布,公司已递交科创板上市申请,计划于2025年11月 正式挂牌交易,此次IPO旨在进一步扩大算力租赁业务规模。" 然而经记者核实,上海证券交易所并无DeepSeek的上市申请记录,DeepSeek近期也从未在任何官方渠 道宣布过上市计划。更关键是,DeepSeek背后的公司迄今未进行过股改。股改是一家公司上市的必要 条件。此外,DeepSeek官网显示的服务内容中,并不包含所谓算力租赁业务。 版本二发布7月30日左右,改称DeepSeek提交了北交所上市申报材料,拟于2025年11月正式挂牌。然 而,北京证券交易所官网同样无法查询到DeepSeek的上市申请记录。 上述新闻网站发布的DeepSeek上市消息,共同点是没有明确的署名,消息来源模糊。 虚假的信源也污染了 ...
产学研联动!DeepSeek上市前夕与中科院共建“新一代算力实验室
江南时报· 2025-08-01 11:09
公司动态 - 公司宣布与中国科学院计算技术研究所共建联合实验室,重点攻关"存算一体"等前沿技术 [1] - 实验室已有3项专利进入PCT国际申请阶段 [1] - 该举措发生在公司算力租赁业务上市冲刺阶段 [1] 业务发展 - 公司采取"上市+研发"双轮驱动模式 [1] - 联合实验室未来或形成新的利润增长点 [1] - 该模式被教育界人士认为将加速科研成果转化 [1] 技术布局 - 公司通过共建实验室强化技术壁垒 [1] - 研发重点为"存算一体"等前沿技术 [1] - 已有3项专利进入国际申请阶段显示技术储备 [1]
看完妈妈和DeepSeek的聊天记录,我哭了
36氪· 2025-07-31 20:31
AI正在以一种意想不到的方式,嵌入中国家庭最私密的肌理。 它不再仅仅是工具,更开始扮演一个微妙的"第三方"角色——在因观念、代际和沟通方式差异而撕裂的家庭关系中,充当起"军师"或"翻译官"。 蔡考和程君,这两位年轻女性的家庭,都因AI的偶然介入,经历了一场充满试探、挫折与反复的、漫长的"沟通实验"。 AI如同一面镜子,照见了她们与母亲在亲密关系中的僵局,也意外地赋予了她们重建现实关系的力量。 这并非一个"科技改变生活"的乐观故事。它更像是一个粗糙的、关于两代人在巨大的认知鸿沟面前,如何借助一个陌生的工具,笨拙走向彼此的现实记 录。 交锋 2025年5月下旬,距离女儿蔡考的又一次相亲还有一周,妈妈张瑞芳特地从浙江赶到上海。她此行的目的,是监督女儿为这场"考试"做万全准备。 张瑞芳去上海之前,问蔡考需不需要带过去点护肤品。蔡考说:我这全有。 结果张瑞芳发现,蔡考唯一的"家当"是酒店拿来的免费润肤霜。她形容女儿匪夷所思。 蔡考第一次相亲见面后没了下文,张瑞芳很焦虑,把这一切都归咎于女儿"长得不像照片"。"再不减减肥、脸上抹点东西,别人就看不上你了。" 蔡考暴跳如雷,质问妈妈为什么要代入男人的目光审视、否定自己,为什 ...
R2还没来,但DeepSeek的秘密武器已经“剧透”了
虎嗅· 2025-07-31 15:58
行业技术突破 - DeepSeek与北京大学联合研发的"原生稀疏注意力(NSA)"技术获ACL最佳论文奖 该会议被公认为自然语言处理领域顶级风向标 [2][3][4] - NSA技术首次实现稀疏注意力在完整训练流程的应用 突破仅能用于推理阶段的限制 在27B模型上实现训练前向计算加速9倍 反向传播加速6倍 [5][23][44] - 该技术显著提升长文本处理效率 在64k上下文长度下推理速度提升11.6倍 同时保持模型性能不降反升 [5][16][45][46] 技术原理创新 - NSA采用三重机制模拟人类阅读行为:Token Compression压缩早期文本为摘要块 Token Selection精准选择相关原文细节 Sliding Window保留最近上下文精细注意力 [26][27][28] - 通过门控机制动态平衡三种阅读策略 实现硬件对齐优化 兼容GQA架构和FlashAttention-2内核 基于Triton重写关键kernel [30][31][52] - 原生可训练特性使稀疏模式与模型协同优化 在MMLU、GSM8K等9项基准测试中7项超越全注意力模型 DROP测试推理能力提升显著 [32][33][35][37] 性能表现数据 - 在64k长度(约8万字)"大海捞针"测试中实现100%信息检索准确率 LongBench评测平均分0.469超越全注意力基线的0.437 [38][40][41] - 上下文长度与加速比呈正相关:8192长度加速4倍 16384长度加速6.4倍 32768长度加速9.1倍 65536长度加速11.6倍 [46] - 传统注意力机制在64k上下文长度下占据70%-80%推理延迟 NSA通过稀疏化计算有效降低延迟 [18][43] 行业应用前景 - 技术已通过27B及MoE架构完整预训练验证 具备商业化落地条件 将应用于下一代DeepSeek大模型 [51][52][53] - 突破性提升长文本处理能力 支持整本书籍、多份财报、完整代码库的直接分析 无需人工拆分 [49][54] - 计算效率提升将传导至API成本降低 加速AI应用生态发展 [55][58][59]
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
36氪· 2025-07-31 11:40
会议概况 - ACL 2025是第63届计算语言学和自然语言处理领域的顶级国际会议 于2025年7月27日至8月1日在奥地利维也纳举行[1] - 今年总投稿数创历史之最 高达8000多篇 较去年的4407篇大幅增长 主会论文和Findings的接收率分别为20.3%和16.7%[3] - 在所有论文的第一作者中 超过半数作者来自中国 占比达51.3% 而去年仅为30.6% 美国作者数量排名第二 占比14.0%[3] 获奖论文 - 今年共评选出4篇最佳论文 2篇最佳社会影响力论文 3篇最佳资源论文 3篇最佳主题论文 26篇杰出论文 2篇TACL最佳论文 1篇最佳Demo论文以及47篇SAC Highlights[5] - 4篇最佳论文分别由DeepSeek团队(梁文锋参与撰写) 北大杨耀东团队 CISPA亥姆霍兹信息安全中心&TCS Research&微软团队以及斯坦福大学&Cornell Tech团队获得[8] 最佳论文详情 - DeepSeek团队论文提出原生稀疏注意力机制NSA 用于超快长上下文训练和推断 具有硬件对齐和本地可训练的特点[22][24] - 北大杨耀东团队论文从数据压缩角度揭示大模型存在抵抗对齐的弹性机制 预训练越充分的模型弹性越强 对齐难度远超预期[14][16] - CISPA等机构合作论文提出通过差异意识视角研究算法公平性 构建包含16000个问题的基准套件评估差异意识[9][13] - 斯坦福大学等机构论文研究LLM在自主决策中的采样行为 发现其与人类决策启发式方法相似 存在向规范性成分的偏差[9][11] 技术突破 - NSA注意力机制通过分层token建模和组织键值成时间块 在260B token的27B参数Transformer上预训练 实现与Full Attention相当性能同时显著加速[24][25][28] - 模型对齐研究指出后训练所需资源与算力可能需要与预训练阶段相当甚至更多 对AI安全与对齐提出严峻挑战[16] - 稀疏注意力设计有效平衡模型能力和计算效率 解码 前向和后向阶段加速比随序列长度增加而增加[28] 行业影响 - 华人团队在ACL 2025表现突出 中国作者占比超过半数 在最佳论文等重要奖项中占据显著位置[3][8] - 大模型安全对齐研究成果获得ACL 2025审稿人及大会主席高度认可 被认为提供新的理论视角与坚实基础[17] - 注意力机制研究持续突破 DeepSeek提出的NSA架构为长上下文建模提供高效解决方案 推动下一代LLM发展[22][24]
大厂「AI」智能体,等待 DeepSeek 时刻
36氪· 2025-07-31 07:56
WAIC 2025 与 AI 行业格局 - 2025 年世界人工智能大会(WAIC)全网流量达 23.6 亿,同比增长 21.6%,但 OpenAI 的 GPT-5 和 DeepSeek 的 V4 或 R2 模型未亮相 [2] - AI 行业由互联网大厂主导,抖音、腾讯、阿里和百度构成第一梯队,去重用户规模分别为 12.66 亿、12.48 亿、11.68 亿、11.05 亿 [2] - AI 应用市场 TOP30 应用中,80% 来自互联网企业,四大集团占据 66.7% 的份额;原生 APP 增长前三为 DeepSeek、豆包和腾讯元宝 [2] AI 应用类型与插件趋势 - AI 插件规模增长趋势高于原生 App 和 AI PC 网页,因传统 App 通过接入 DeepSeek 分流原生 App 流量 [4] - AI 应用插件规模前三为百度 AI、抖音 AI 搜和微信 AI 搜 [4] Agent 技术发展与行业焦点 - Agent 是使用 AI 能力帮助人类规划并执行任务的应用系统,解决复合型问题,行业进入以智能体应用为核心的下半场 [5] - 互联网大厂重点加速 B 端 Agent 在具体场景落地,需兼顾通用能力与场景化聚焦 [5] 腾讯的 Agent 战略与产品 - 腾讯在 WAIC 展示 10 多个垂直领域智能体,覆盖健康管理、营销、旅游攻略和代码诊断等场景 [6] - 推出具身智能开放平台 Tairos(钛螺丝),为机器人提供多模态感知和规划模型,但需验证商业化可行性 [6][7] 阿里的 Agent 实践与落地 - 阿里云百炼应用开发平台获“镇馆之宝”奖,超 20 万开发者创建 70 多万个 Agent 应用 [7] - 企业构建 AI 应用多选择改造现有业务,将业务入口从传统服务改为 AI Agent [8] - 阿里国际智能退款 Agent 节约纠纷处理时长 30%,降低退款成本 15%;瓴羊退换货 Agent 缩短处理时长 60%,提升人工效率 60% [11] 字节跳动的开源与商业化 - 火山引擎开源 AI Agent 开发平台扣子(Coze Studio 和 Coze Loop),三天内 GitHub stars 数破万和超 3000 [12][13] - 火山引擎 2025 年智能体中标金额达 1.55 亿,中标数量蝉联第一;2024 年营收超 120 亿,2025 年目标超 250 亿 [16][17] - 企业案例包括为爱玛电动车打造四类 AI 场景、北大光华智能体“豆角”和海亮集团 150 个智能体 [15] 百度的 Agent 布局与挑战 - 百度侧重通用性 Agent,推出“多智能体协同”平台秒哒,一季度应用数超 20 万 [18] - 上线移动端通用超级智能体 App“心响”,但 ToC 方向未突破,公测后减少投入 [19] - B 端聚焦场景化,推出新一代数字人技术 NOVA,具备交互和对话能力,试点教育和医疗行业 [20] Agent 商业化与行业竞争 - Agent 商业化竞争激烈,火山引擎、阿里云和百度云在中标数量和金额上领先 [16] - C 端 Agent 市场空间大,B 端需结合具体场景推动规模化普及,成为生产力工具 [21]
DeepSeek冲刺北交所上市,未来5年战略投资算力租赁,构建AI基础设施生态
搜狐财经· 2025-07-30 15:50
公司上市计划 - 人工智能独角兽企业DeepSeek宣布启动北交所IPO进程 预计2025年11月正式上市 [1] 公司战略规划 - 未来5年核心战略聚焦算力租赁业务 计划投资30亿元建设自主可控的高性能计算中心 [1] - 联合国产芯片厂商打造定制化AI算力解决方案 [1] 业务合作进展 - 已与华为昇腾 寒武纪等国产芯片企业达成战略合作 [3] - 算力租赁平台支持大模型训练 自动驾驶仿真等高算力需求场景 [3] 市场前景预期 - 上市将加速中国AI算力基础设施国产化进程 [3] - 有望在未来3-5年内占据国内35%以上市场份额 [3]
DeepSeek真的不行了吗
36氪· 2025-07-30 11:32
DeepSeek用户数据下滑分析 - 月均下载量从第一季度的8111.3万降至2258.9万,降幅达72.2% [1] - 使用率由年初时7.5%的高点下滑到如今的3% [1] - 数据下滑与更新版本R2未能即时发布及模型高幻觉率有关 [1] 对数据下滑的另类解读 - 统计数据仅基于订阅者且核心统计对象是DeepSeek官网,未包含腾讯元宝、百度、夸克等深度接入的第三方渠道 [2] - 公司自成立以来以开源开放为核心理念,产品目标不是寻求流量关注,而是为行业提供底层技术支撑 [2] - 公司创始人曾公开表示不做应用只做研究和探索,不将用户活跃度或商业变现作为长期增长核心指标 [2] 国内AI行业整体前景 - 在DeepSeek之外,国内互联网大厂和独角兽都在投入AI研发,Qwen、文心、夸克、Kimi等大模型紧咬全球AI排名前列 [2] - 中国拥有超大规模市场和足够丰富的应用场景优势,为AI企业提供海量用户行为数据和更多市场需求 [3] - 真正的胜负手不在于某一款模型持续霸榜,而在于能否构建开放、协同、可持续的生态体系 [3] 行业面临的挑战与未来方向 - 当模型权重被广泛复制后,如何维持技术领先和通过商业模式实现可持续发展是行业必须面对的课题 [3] - 全球AI产业竞争已从参数竞赛转向生态竞速,决定未来的是谁能构建包容试错、多元共生、动态演进的创新网络 [3] - 将技术转化为场景价值、商业价值和社会价值才是决定成败的核心,中国AI的第二增长曲线或许刚刚开始 [5] 产业生态发展建议 - 应给予企业从市场创新到技术创新上更大的包容度和试错空间,允许不同技术路线多头并进发展 [4] - 需要建立顺畅的开放协作机制,打破企业、机构间壁垒,让数据、算力、算法在生态中自由流动 [4] - 从外卖、餐饮到工厂、医院、教室等真实场景中诞生的数据才能真正反哺技术进步 [4]