Seek .(SKLTY)
搜索文档
DeepSeek打破历史!中国AI的“Nature时刻”
证券时报· 2025-09-18 15:29
研究突破与学术认可 - DeepSeek-R1推理模型研究论文登上Nature封面 成为中国大模型研究首次获此认可 也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究 [1] - Nature社论评价该研究打破主流大模型缺乏独立同行评审的局面 强调其公开性和透明性价值 [1][2] - 论文历经半年评审周期 8位外部专家参与质询数据来源、训练方法及安全性 全文64页包含训练成本披露和技术细节更新 [2] 技术创新与成本优势 - R1模型使用512张H800 GPU训练80小时 以每GPU小时2美元租赁成本计算 总训练成本为29.4万美元(约209万元人民币) 较其他推理模型千万级成本显著降低 [3] - 团队澄清未使用专有模型蒸馏技术 训练数据全部来自互联网 包含GPT-4生成内容属非故意行为 并提供数据污染防控流程 [3] - DeepSeek-V3.1采用混合推理架构 支持思考与非思考双模式 通过后训练优化提升工具使用与智能体任务表现 [4] 硬件生态与产业协同 - V3.1版本采用UE8M0 FP8 Scale参数精度 专为下一代国产芯片设计 预示未来训练与推理将更多应用国产AI芯片 [4][5] - 通过FP8精度降低算力需求 使国产ASIC芯片在12-28nm成熟制程接近英伟达GPU算力精度 形成"软硬协同"技术壁垒 [5] - 该技术路径带动国产芯片算力股股价飙升 可能成为行业新技术趋势 通过软硬件协同实现数量级性能提升 [5]
中国大模型首登《自然》封面,AI医学的DeepSeek时刻还远吗?
第一财经· 2025-09-18 15:02
AI在医学领域的融合进展 - DeepSeek大模型R1登上《自然》封面,成为继DeepMind后第二家获此殊荣的AI公司[1] - 自2022年底ChatGPT推出以来,生成式AI在医学领域掀起热潮,加速与临床应用融合[1] - 中国大模型技术细节披露有望推动AI医学落地,行业即将迎来DeepSeek时刻[1] AI制药行业发展态势 - 跨国制药公司通过数十亿美元投资布局AI制药,百时美施贵宝和赛诺菲等企业寻求技术突破[3] - 复星医药着力打造AI开发工具提升研发效率,引入AI决策智能体平台PharmAID[3] - Medidata支持了2015年以来美国FDA获批的93%肿瘤新药,公司正联合合作伙伴全面布局AI[3] - 全球由中国企业发起的临床试验比例从约3%跃升至2024年30%,中国成为全球第二大临床试验市场[3] AI药物研发技术挑战 - AI可快速浏览分子数据库匹配化合物与靶点,但仅完成药物发现第一步[4] - 纸面上不错的药物临床试验失败率达90%,AI制药面临技术算法、生物学和监管三重挑战[4] - 大模型缺乏AI制药加速所需数据,人类对细胞相互作用等生物学问题仍知之甚少[4] 医疗AI临床应用实践 - 复旦大学附属中山医院联合华为、联影智能等公司发起"元医疗模拟实验室",推进医疗知识数字化和诊疗能力产品化[5] - 葛均波团队联合华为终端开发可穿戴多模态AI驱动冠心病风险预测系统,重构早期筛查与风险评估临床路径[5] - AI在心率筛查、影像分析、风险评估等特定领域已达临床应用水平,成功实现间歇性房颤监测[6] 医疗AI落地关键要素 - 人工智能医学应用需突破三个关键环节:数据质量、计算能力和算法优化[6] - 医生始终是诊疗决策主体,使用AI技术的医生对医疗行为承担主要责任[6] - 行业正在制定相关伦理规范,确保AI技术安全有效服务于临床诊疗[6]
DeepSeek声明:防范冒用“深度求索”名义实施诈骗
每日经济新闻· 2025-09-18 14:56
1.深度求索从未要求用户向个人账户或非官方账户付款,任何要求私下转账的行为均属诈骗; 2.任何冒用我司名义开展"算力租赁"、"融资"等行为均属违法,我们将依法追究其法律责任。 每经AI快讯,9月17日,深度求索(DeepSeek)发布官方声明: 近期,有不法分子冒充"深度求索"(DeepSeek)官方或在职员工,伪造工牌、营业执照等材料,在多个 平台以"算力租赁"、"股权融资"等名义向用户收取费用实施诈骗。该行为严重侵害用户权益,并损害我 司声誉。 ...
DeepSeek登《Nature》封面,梁文锋带队,首次回应“蒸馏”争议
凤凰网· 2025-09-18 14:17
技术突破 - 公司通过纯强化学习框架显著提升大语言模型推理能力 减少对人工标注依赖[5] - 引入组相对策略优化算法 仅依据最终答案正确与否给予奖励 而非模仿人类推理路径[6] - 模型自然涌现自我反思 自我验证及生成长推理链条等高级行为 在数学测试中生成数百至数千token反复推敲问题[7] 性能表现 - 美国数学邀请赛准确率从15.6%跃升至77.9% 使用自洽解码后达86.7% 超越人类平均水平[7] - 在数学解题 编程竞赛及STEM领域研究生水平问题上表现优于传统训练方式[5] - 多阶段优化后不仅在硬核任务表现突出 在写作问答等通用任务展现流畅性和一致性[7] 成本优势 - 模型推理成本仅29.4万美元 基础模型训练开销约600万美元 远低于国外巨头[6] - 相比OpenAI训练GPT-4的1亿美元成本 实现数量级降低[6] - 低成本高推理能力突破源于算法创新和团队培养理念[6][9] 行业影响 - 打破资金即壁垒的行业共识 将AI发展主动权交还科学创新[10] - 开启全球AI推理革命 多国应用该方法论改善现有大语言模型[10] - 推动行业竞争从数据算力军备竞赛转向算法智慧创新竞赛[11] 研发背景 - 创始人梁文锋拥有浙江大学信息与通信工程硕士背景 专注机器视觉与量化交易领域[8] - 2013年创办幻方科技 2023年转向通用人工智能领域创立DeepSeek[8] - 核心团队由应届毕业生和年轻人才组成 坚持能力为先的自主培养模式[9]
DeepSeek发布防诈骗声明:有不法分子冒用公司名义开展“算力租赁”“融资”,将追究其法律责任
新浪科技· 2025-09-18 13:53
诈骗风险警示 - 近期出现不法分子冒充公司官方或员工 通过伪造工牌及营业执照等材料实施诈骗 [1][2] - 诈骗手段涉及以算力租赁和股权融资等名义向用户收取费用 [1][2] - 该行为严重侵害用户权益并损害公司声誉 [1][2] 官方声明要点 - 公司从未要求用户向个人账户或非官方账户付款 任何私下转账要求均属诈骗 [1][3] - 冒用公司名义开展算力租赁或融资等行为均属违法 公司将依法追究法律责任 [1][3] - 官方网页及App产品目前均为免费状态 API调用服务需通过官网开放平台充值 [1] 官方验证渠道 - 用户应通过官网deepseek com及官方认证账号获取信息 [1] - 官方收款账户名称为杭州深度求索人工智能基础技术研究有限公司 [1] - 遇可疑情况可通过官方邮箱核实或向公安机关举报 [1]
DeepSeek,打破历史!中国AI的“Nature时刻”
证券时报· 2025-09-18 13:24
学术成就与行业认可 - DeepSeek-R1推理模型研究论文登上国际权威期刊《Nature》封面,标志着中国大模型研究首次获此殊荣,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究[1] - 《Nature》社论评价指出,几乎所有主流大模型都未经过独立同行评审,这一空白被DeepSeek打破[1][2] - 论文历经半年评审周期,8位外部专家参与同行评审,从预印本到正式发表于《Nature》封面,完成了“学术跃迁”[2] 技术方法与透明度 - 研究成果首次公开了仅靠强化学习就能激发大模型推理能力的方法[1] - 论文全文64页,首次披露了R1的训练成本,并对数据来源、训练方法、安全性等审稿人质询作出详细回应[2] - 针对外界“蒸馏”质疑,公司澄清其训练数据全部来自互联网,虽可能包含GPT-4生成结果,但非有意为之,更没有专门的蒸馏环节[3] 训练成本与效率 - R1模型使用512张H800 GPU训练80个小时,以每GPU小时2美元的租赁价格计算,总训练成本为29.4万美元(约合人民币209万元)[3] - 与其他推理模型动辄上千万美元的花费相比,该成本实现了极大降本[3] 模型演进与未来规划 - 自年初发布R1后,公司于8月21日发布DeepSeek-V3.1,称为“迈向Agent时代的第一步”[4] - V3.1采用混合推理架构,同时支持思考与非思考模式,具有更高思考效率和更强智能体能力[4] - V3.1使用UE8M0 FP8 Scale参数精度,该精度是针对下一代国产芯片设计,表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片[4][5] 行业影响与技术趋势 - 公司从V3版本就开始采用FP8参数精度验证训练有效性,通过降低算力精度,使国产ASIC芯片能在成熟制程(12-28nm)上接近先进制程英伟达GPU的算力精度[5] - “软硬协同”的生态技术壁垒逐渐成为AI浪潮下新范式,未来国产大模型将更多拥抱FP8算力精度并有望成为一种新技术趋势[5] - 这一技术方向带动国产芯片算力股股价飙升,助力国产算力生态加速建设[5]
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 12:34
学术成就与行业认可 - 公司研究成果登上国际权威期刊《Nature》封面,通讯作者为梁文锋[1] - 该论文是全球首个经过同行评审的主流大语言模型,为行业树立了先例[11] - 同行评审有助于独立评估系统风险,增强研究成果的可信度[11] 技术方法与创新 - 研究核心为仅通过强化学习激发大模型推理能力,开辟了不依赖大量监督数据的新思路[11][13] - 采用群组相对策略优化(GRPO)降低训练成本,并通过设计奖励机制引导模型优化方向[13] - 模型在强化学习中学会推理,通过自我验证和反思提高在编程和研究生水平科学问题上的表现[13] 训练成本与效率 - DeepSeek-R1模型总训练成本为294万美元,折合人民币约200万元[9] - 具体成本构成:DeepSeek-R1-Zero训练202万美元,SFT数据集创建1万美元,DeepSeek-R1训练82万美元[9] - 即便加上训练基础模型DeepSeek-V3所花费的约600万美元,总成本仍远低于竞争对手模型的数千万美元[10] 模型性能与影响 - DeepSeek-R1已成为全球最受欢迎的开源推理模型,在Hugging Face平台下载量超1090万次[11] - 开发团队使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调,显著增强了小模型的推理能力[13] 数据来源与争议回应 - 公司在论文补充资料中明确表示,基础模型训练数据仅来自普通网页和电子书,不包含任何合成数据[5] - 公司承认网页可能包含大量OpenAI模型生成的答案,导致基础模型间接受益,但已针对数据污染进行处理[7] - 行业专家认为公司关于未使用OpenAI输出训练模型的回应具有说服力,其他实验室的复制尝试支持其方案的有效性[7]
DeepSeek登上国际权威期刊Nature封面;华为预测2035年AI存储容量需求将比2025年增长500倍
每日经济新闻· 2025-09-18 11:02
市场表现 - 沪指涨0.37%报收3876.34点 深成指涨1.16%报收13215.46点 创业板指涨1.95%报收3147.35点 [1] - 科创半导体ETF涨3.64% 半导体材料ETF涨3.32% [1] - 道琼斯工业平均指数涨0.57% 纳斯达克综合指数跌0.33% 标准普尔500指数跌0.10% [1] - 费城半导体指数跌0.31% 恩智浦半导体涨0.78% 美光科技涨0.74% ARM跌0.31% 应用材料涨2.64% 微芯科技涨2.06% [1] 人工智能技术突破 - DeepSeek-R1推理模型研究论文登上《自然》封面 成为全球首个经过同行评审的主流大语言模型 [2] - 论文披露更多模型训练细节 正面回应蒸馏质疑 [2] 半导体与算力发展前景 - 2035年全社会算力总量将大幅增长 计算领域突破传统冯诺依曼架构束缚 [2] - AI存储容量需求比2025年增长500倍 占比超过70% [2] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现向智能体互联网跃迁 [2] 区域产业规划 - 上海浦东新区启幕张江人工智能创新小镇 计划2027年新集聚人工智能企业500家以上 完成大模型备案100个 [3] - 2030年目标新集聚1000家人工智能企业 实现千亿元产业规模 [3] - 高瓴创投与浦东创投联合发起总规模20亿元的"张江人工智能创新小镇链接基金" [3] 行业趋势研判 - 2025年上半年全球半导体行业呈现结构性繁荣 受AI算力需求增长/终端智能化加速/汽车电子复苏/国产替代深化驱动 [3] - 二季度半导体多数子板块业绩高速增长 三季度旺季有望延续景气 [3] - 2025年全球半导体保持乐观增长走势 AI驱动下游增长 [3] ETF产品布局 - 科创半导体ETF(588170)跟踪上证科创板半导体材料设备主题指数 覆盖半导体设备(59%)和半导体材料(25%)领域 [4] - 半导体材料ETF(562590)指数中半导体设备(59%)和半导体材料(24%)占比靠前 聚焦半导体上游 [4] - 半导体设备和材料行业具备国产化率较低/国产替代天花板较高属性 受益于AI需求扩张/科技重组并购/光刻机技术进展 [4]
国际期刊发表DeepSeek大规模推理模型训练方法 揭示AI背后的科学
中国新闻网· 2025-09-18 10:55
在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9%和79.8%。此外, 该模型在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。 《自然》同期发表国际同行专家的"新闻与观点"文章指出,当前版本的DeepSeek-R1有一些能力限制, 希望能在未来版本中得到改进。例如,该模型有时会混合语言,目前只针对中文和英文做了优化;它对 提示词也很敏感,需要精心设计的提示词工程,在某些任务上没有展现出明显提升,例如软件工程任 务。 DeepSeek-AI团队总结认为,未来研究可以聚焦优化奖励过程,以确保推理和任务结果可靠。(完) 中新网北京9月18日电 (记者 孙自法)作为一家专注于大语言模型(LLM)和通用人工智能(AGI)技术的中国 公司,DeepSeek(深度求索)今年早些时候发布的开源人工智能(AI)模型DeepSeek-R1采用的大规模推理模 型训练方法,颇受关注。 北京时间9月17日夜间,该训练方法在国际知名学术期刊《自然》上线发表,其揭示AI技术背后的科学 研究表明,大语言模型的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入 ...
DeepSeek论文登上《自然》封面,R1成为首个严格学术审查大模型
新浪财经· 2025-09-18 10:23
公司里程碑与学术认可 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面 成为首个通过同行评议的主要大语言模型[1] - 《自然》期刊在评论报道中用"里程碑式论文"和"创造历史"表达赞赏 标志着中国在大模型基础研究领域取得重要突破[2] - 在同行评审过程中 公司根据评审意见减少模型拟人化描述并增加技术细节说明 包括模型训练数据类型和安全性考虑[1] 技术创新与成本优势 - 模型核心创新在于采用"纯强化学习"方法 通过奖励模型达到正确答案的行为来学习推理策略[2] - R1训练成本仅为29.4万美元 即使加上约600万美元基础模型成本 也远低于行业巨头训练成本[2] - DeepSeek-V3.1实现混合推理架构 一个模型同时支持思考模式与非思考模式 具备更高思考效率和更强智能体能力[3] 市场影响与开源成果 - 今年1月模型发布时 其卓越推理能力和极低开发成本曾引发全球科技股大幅下跌[2] - 开源后R1在Hugging Face下载量突破1090万次 成为全球最受欢迎的开源推理模型[2] - 公司明确否认使用OpenAI模型输出进行训练的质疑 强调数据全部来自互联网且无专门蒸馏环节[1] 行业意义与数据安全 - 同行评审被《自然》杂志视为抑制AI行业过度炒作的有效方式 公司做法被视为值得欢迎的先例[3] - 为防止基准测试数据污染 公司对预训练和后训练数据都实施全面去污染措施[1] - 公司成立于2023年 由幻方量化孵化 创始团队由梁文锋领衔 成员来自顶尖高校与国际机构[3]