Peer review - 财报，业绩电话会，研报，新闻 - Reportify

Peer review

搜索文档

DeepSeek的阳谋：在《自然》杂志公布论文，到底赢得了什么？

新浪财经· 2025-09-27 20:18

核心观点 - DeepSeek的研究成果登上《自然》杂志封面，其核心突破在于通过强化学习实现了人工智能模型的自我提升，并成为首个接受独立同行评审的主流大模型，填补了行业空白 [1][3][5] 技术方法与突破 - 公司采用了一种名为“强化学习”的叛逆方法，绕过了传统监督式微调，不提供人类解题范例，仅通过“答对有奖励”的纯粹激励让模型在难题中自学成才 [8][9][11] - 训练数据显示，模型自发学会了深度思考，其生成的回答文本长度持续稳定暴涨，表明它领悟到需要更多时间推演才能解决复杂问题 [12] - 模型在训练过程中自发涌现出反思和自我纠错能力，例如使用“等等”、“不对”、“我要检查一下”等词汇，并在约8000步后“wait”一词使用频率飙升，形成了三思而后行的思维习惯 [13][15][16] - 最终该模型在数学、编程等严肃推理任务上表现全面超越接受传统教学的模型，在AIME数学竞赛基准测试中的成绩远超人类参赛者平均水平 [16] 行业影响与战略意义 - 公司选择在《自然》杂志接受严格的同行评审，打破了自ChatGPT-3以来大模型“黑箱发布”的江湖规矩，为行业建立了科学可信度标准 [5][6][7] - 开放和透明的战略看似短期吃亏，实则是长期阳谋，通过建立信任、融入全球智慧网络加速自我进化、吸引顶尖人才，以赢得AI时代的整体竞争 [17][18] - 此项研究赢得了“安全可信”的科学信誉，更重要的是赢得了对人工智能本质的认知优势，证明AI的推理能力不一定需要学习人类固有知识，可以独立发现规律，极大拓展了对AI潜力的想象 [19]

Seek .(US:SKLTY)

Reinforcement learning

Artificial Intelligence

DeepSeek-R1-Zero

Reinforcement learning

Artificial Intelligence

DeepSeek-R1-Zero