Workflow
DeepSeek V3模型
icon
搜索文档
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
小红书开源1420亿参数大模型,部分性能与阿里Qwen3模型相当
钛媒体APP· 2025-06-10 09:07
小红书开源大模型dots.llm1 - 小红书hi lab团队开源首款文本大模型dots.llm1 包括base模型和instruct模型 并公开训练信息如超参数和中间训练checkpoint [2] - dots.llm1采用混合专家模型(MoE)架构 总参数量1420亿 推理时仅激活140亿参数 使用11.2万亿token高质量训练数据 [3] - 模型性能对标阿里Qwen系列 dots.llm1.inst在中英文通用场景、数学、代码、对齐任务上表现亮眼 部分性能与Qwen3-32B相当或更优 [6][7] 技术细节与性能表现 - 训练数据质量显著优于开源TxT360数据 经过两阶段SFT训练得到最终模型 [5] - 优化Grouped GEMM算子 在英伟达H800上前向计算平均提升14% 反向计算平均提升6.68% [5] - 中文任务表现突出 CLUEWSC得分92.6 C-Eval得分92.2 超越DeepSeek-V3等模型 [7] - 在MMLU、DROP等英文基准测试中表现接近主流大模型 代码生成能力与Qwen2.5-72B相当 [8] 公司战略与估值 - 小红书2023年起持续投入大模型研发 近期推出AI搜索应用"点点"和"问一问"功能 [9] - 公司估值从200亿美元跃升至260亿美元 一级市场老股报价达350亿美元 2024年净利润超10亿美元 [9] - 股东包括真格基金、金沙江创投、阿里、腾讯等20余家知名机构 [9] 未来发展方向 - 计划集成更高效架构设计如GQA、MLA和线性注意力 探索更稀疏MoE层提升计算效率 [10] - 将加深对训练数据的理解 探索更接近人类学习效率的方法 [11] - 技术文档显示团队计划贡献更多全模态大模型 可能发力多模态领域 [11]
DeepSeek再出手!R1升级版性能大提升,美国对手慌了?
金十数据· 2025-05-30 11:52
DeepSeek的R1模型自1月发布以来,曾因多项指标优于西方竞争对手而引发全球关注,并导致科技股暴 跌。然而,自V3模型发布后,DeepSeek的热度有所下降,市场更关注其R2模型的发布。此前有消息 称,R2将采用混合专家模型(MoE),参数量预计达1.2万亿,单位推理成本较GPT-4大幅降低。但截 至目前,DeepSeek仍未正式确认R2的发布时间。 R1推理模型的最新版本R1-0528再次引发了全球媒体的广泛关注。 路透社报道称,此次发布加剧了与美国竞争对手如OpenAI的竞争。在由加州大学伯克利分校、麻省理 工学院和康奈尔大学研究人员开发的LiveCodeBench排行榜中,DeepSeek的R1-0528在代码生成方面仅 略低于OpenAI的o4 mini和o3推理模型,但超过了xAI的Grok 3 mini和阿里巴巴的Qwen 3。 CNBC指出,DeepSeek此次升级模型发布低调,但其推理能力使其能够执行更复杂的任务。《华尔街日 报》中文版则提到,DeepSeek的低成本、高性能R1模型自年初以来吸引了全球目光,推动了中国科技 股的上涨,也显示出市场对中国AI能力的乐观预期。 DeepSeek ...
早餐 | 2025年5月16日
快讯· 2025-05-16 07:16
美联储货币政策与宏观经济 - 美联储主席鲍威尔表示将重新评估2020版货币政策框架的"关键部分",并指出长期利率可能走高,"供应冲击"或成新常态 [1] - 美国4月PPI同比上涨2 4%低于预期,环比-0 5%,降幅创下五年来最大 [1] - 美国4月零售销售环比0 1%小幅超预期,但消费者支出疲软显露端倪 [1] 国际商业合作与投资 - 特朗普同阿联酋签署2000亿美元商业协议,合作在阿联酋建5GW数据中心 [1] - 卡塔尔主权财富基金拟十年在美投资5000亿美元 [1] 地缘政治动态 - 伊朗最高领袖顾问表示伊朗愿承诺永不制造核武,换取美解除制裁 [1] - 哈马斯官员称若实现永久停火,可交出加沙地带控制权 [1] 科技公司动态 - 阿里Q4营收同比增7%不及预期,阿里云增长加速18%,AI收入连续七个季度三位数增长 [1] - Meta将推迟发布旗舰AI模型Behemoth,股价盘中跌超3% [1] - CoreWeave获英伟达持股7%,向OpenAI提供40亿美元云计算产能 [1] 投资机构持仓变动 - 伯克希尔Q1大砍银行股,清仓花旗,苹果持仓未变,啤酒制造商持仓翻倍,存在保密持仓 [1] 零售行业表现 - 沃尔玛Q1销售额增长2 5%略低于预期,CFO警告关税价格上涨可能从本月开始 [1] AI研究进展 - 梁文锋参与发表回顾性论文,DeepSeek首次揭秘V3模型背后扩展方案 [1]
谷歌前CEO称,中美差距已终结
搜狐财经· 2025-05-09 14:41
文︱陆弃 5月5日,《纽约时报》刊发了一篇耐人寻味的评论文章,作者不是别人,正是前谷歌首席执行官埃里克 ·施密特。这位曾长期代表硅谷秩序的人物,罕见地放下了美国科技优越感的傲慢,承认中国已经在人 工智能等前沿技术领域从"追赶者"转变为"并跑者"甚至"领跑者",直言"中国远远落后于美国的时代已 然终结"。如果说十年前这样的判断还会被视为"危言耸听",那么今天,这已成为西方智识阶层中最不 愿承认、却不得不正视的现实。 文章从DeepSeek、Temu、TikTok讲起,到人形机器人、电动汽车、工业制造,逐项列举了中国科技近 年来取得的突破。施密特指出,尽管美国对中国实施了严厉的芯片出口管制和技术打压,但这些压力并 没有使中国"退步",反而加速了其自主研发、产业迭代和人才体系的强化。"制裁的副作用",反而塑造 了更坚韧、更务实的技术生态。正如文章中那句讽刺性极强的笑话所说:"美国也应该制裁一下我们的 男足,这样他们就能踢得好点。" 在某种程度上,这是对"脱钩战略"的当头棒喝。美国想通过技术封锁遏制中国,但最后却惊讶地发现, 中国在芯片、AI大模型、机器人等领域的产业链不仅没有断裂,反而因压力而爆发出惊人的创造力。 ...
聚焦AI|中国AI数据中心的潜行加速
核心观点 - ChatGPT发布引发全球AI发展关注,AI基建领域产生众多投资机会,涉及变压器、UPS、服务器电源、液冷等产品 [4] - DeepSeek的出现推动中国AI突破,其训练成本和使用成本显著低于OpenAI,性能更优且采用开源理念 [6] - 2023-2024年美国AI产业供应链变化及市场表现有望映射至2025年中国市场 [7] - 中国AIDC产业链股价表现强于美国,15周内上涨75%,而美国需62周达到相似涨幅 [10] - 国内AIDC建设将带来传统备用电源、电力设备等需求景气,但变压器和核电需求增长有限 [8][10] AI基建投资机会 - ChatGPT发布后AI基建产业链分为四个阶段:算力需求高增、芯片技术迭代、AIDC实际建设、电网接入点稀缺 [4] - AI基建涉及产品包括变压器、UPS、服务器电源、液冷,AIDC建设导致核电和可控核聚变受关注 [4] - 海外AI基建典型公司股价走势显示各阶段收益率靠前的细分赛道对应当时AI产业核心矛盾 [5] DeepSeek的冲击 - DeepSeek V3模型单次训练费用558万美元,显著低于GPT-4的6300万美元 [6] - DeepSeek R1模型API输出价格2.2美元/百万tokens,性能可比肩OpenAI o1模型 [6] - DeepSeek采用开源理念,快速占领市场,而OpenAI坚持闭源+付费模式 [6] 中美AI发展对比 - 中国AIDC产业链股价15周内上涨75%,美国前15周仅上涨3%,需62周达到76%涨幅 [10] - 中国AIDC建设将带来传统备用电源量价齐升,电力设备需求景气,但变压器和核电需求增长有限 [8][10] - 美国AIDC建设面临电网接入点稀缺,燃气轮机和核电需求提升,而中国电网基建较好 [10] 细分产业链观点 - 传统备用电源(UPS、柴油发电机)有望量价齐升,海外头部企业指引2025年营业利润率提升 [8] - 柴油发电机进口均价25万美元/台,较历史高位仍有54%上涨空间 [10] - UPS需求持续旺盛,国内企业订单增速或复刻2024年施耐德电气表现 [10] - 中国变压器环节不会紧缺,美国出现的供需错配较难在国内发生 [10] - 中国核电和燃气轮机需求不会大幅增长,因电网基建较好 [10] 长期展望 - 国内科技企业巨量资本开支落地,AIDC建设加速将带来企业订单、营收、利润多维度增长 [11] - 中国AIDC产业链股价后续上行空间广阔,海外产业链最高涨幅达292% [11] - DeepSeek冲击或推动AIDC建设由训练型向推理型切换,服务器电源价值量短期增长受限 [10] - 供电系统中传统产品(电力设备、UPS、柴油发电机)需求保持旺盛 [13] - 海外燃气轮机产业链受益于美国AIDC建设,国内零部件厂商有望切入供应链 [14]