Workflow
Seek .(SKLTY)
icon
搜索文档
港股概念追踪 | DeepSeek线上模型升级至V3.1-Terminus!算力与应用板块或迎价值重估(附概念股)
智通财经网· 2025-09-23 07:27
DeepSeek-V3.1-Terminus版本升级 - 深度求索正式升级DeepSeek-V3.1至DeepSeek-V3.1-Terminus版本 优化语言一致性与Agent能力 缓解中英文混杂及异常字符问题 提升Code Agent与Search Agent表现 [1] - 新模型各领域测评结果如下:MMLU-Pro从84.8提升至85.0 GPQA-Diamond从80.1提升至80.7 Humanity's Last Exam从15.9提升至21.7 LiveCodeBench从74.8提升至74.9 Codeforces从2091降至2046 Aider-Polyglot从76.3降至76.1 [1] - Agent测评表现提升:BrowseComp从30.0提升至38.5 BrowseComp-zh从49.2降至45.0 SimpleQA从93.4提升至96.8 SWE Verified从66.0提升至68.4 SWE-bench Multilingual从54.5提升至57.8 Terminal-bench从31.3提升至36.7 [1] - 官方App、网页端、小程序与API模型均已同步更新为DeepSeek-V3.1-Terminus [1] 学术研究与国际认可 - DeepSeek团队研究论文登上《自然》期刊封面 打破主流大模型未经独立同行评审的空白 [2] - 8月21日发布的DeepSeek-V3.1实现混合推理架构 同时支持思考模式与非思考模式 具有更高思考效率和更强Agent能力 [2] 国产算力生态与产业链影响 - DeepSeek V3.1采用UE8M0 FP8格式 专为下一代国产芯片设计 解决与英伟达FP8标准兼容性问题 推动国产算力生态自主化 [2] - 英伟达H20芯片停产使国内算力替代需求迫切 国产算力板块获推荐 [2] - DeepSeek V3.1发布带动国产算力产业链标的大幅上涨 未来训练与推理有望更多应用国产AI芯片 加速国产算力生态建设 [3] - 大模型训推带动AI算力需求增长 GB300、Vera Rubin等新一代算力架构将推出 AI芯片、服务器整机、铜连接、HBM、液冷、光模块、IDC等环节持续受益 [4] 开源模式与行业趋势 - DeepSeek成功推动国产大模型走向分水岭 更多中国公司转向开源路线 重点重新转向模型优化与更新迭代 [3] - 7月底国产大模型迎来开源"井喷潮":阿里连续发布4款开源模型 腾讯开源混元3D世界模型1.0 智谱发布GLM-4.5 阶跃星辰开源Step-3 [3] 相关企业动态与产品进展 - 百度文心大模型X1.1正式发布 事实性提升34.8% 指令遵循提升12.5% 智能体提升9.6% 在多个基准评测中超越DeepSeek R1-0528 与GPT-5和Gemini 2.5 Pro效果持平 [6] - 阿里巴巴通义千问推出Qwen3-Max-Preview模型 成为系列最强大语言模型 国产大模型企业进入全球第一梯队 [6] - 商汤"日日新"大模型接入小米AI眼镜 实现全双工实时音视频交互能力 推动智能硬件交互范式发展 [7] - 中兴通讯推出多款AI一体机产品:AiCube训推一体机助力企业部署DeepSeek大模型 5G UniEngine算网一体机支撑行业应用 智海AI教育一体机实现国产算力与DeepSeek适配 Common Edge一体机用于5G边缘计算 [7] 半导体与ETF投资机会 - 亚太精选ETF(159687)包含亚太优质红利资产和半导体龙头企业 丰田汽车、腾讯控股、阿里巴巴、三菱集团等提供稳健收益 台积电、三星、东京电子、联发科等半导体企业占比显著 亚太地区半导体产业收入占全球57.6% [5]
DeepSeek-V3.1版本更新
第一财经· 2025-09-22 21:45
模型版本更新 - 模型从DeepSeek-V3.1更新至DeepSeek-V3.1-Terminus版本 [1] - 更新在保持模型原有能力的基础上进行 [1] 性能改进 - 改进语言一致性,缓解了中英文混杂、偶发异常字符等情况 [1] - 优化Agent能力,进一步改进了Code Agent与Search Agent的表现 [1]
DeepSeek官宣线上模型升级 版本号DeepSeek-V3.1-Terminus
新浪科技· 2025-09-22 20:06
公司产品升级 - 公司今日晚间宣布线上模型已升级,当前版本号为DeepSeek-V3.1-Terminus [1] - 升级版本包含思考模型和非思考模式两个版本 [1] - 两个版本的上下文长度均为128k [1] - 新版本已支持用户在线体验 [1]
DeepSeek官宣线上模型升级,版本号DeepSeek-V3.1-Terminus
新浪科技· 2025-09-22 19:59
其中,非思考模型输出长度默认 4K,最大 8K,思考模型输出长度默认 32K,最大 64K。 在使用价格上,该模型百万tokens输入(缓存命中)0.5元,缓存未命中则为4元,百万tokens输出12元。 (文猛) 责任编辑:何俊熹 | | 模型版本 | DeepSeek- V3.1- Terminus | DeepSeek- V3.1- Terminus | | --- | --- | --- | --- | | | | (非思考模 式) | (思考模式) | | | 上下文长度 | 128K | | | | 输出长度 | 默认 4K, 最 大 8K | 默认 32K, 最大 64K | | | Json | 支持 | 支持 | | | Output | | | | 功 | Function Calling | 支持 | 不支持(1) | | 能 | 对话前缀续 | 支持 | 支持 | | | 写 (Beta) | | | | | FIM 补全 (Beta) | 支持 | 不支持 | | | 百万tokens 输入(缓存 | 0.5元 | | | | 命中) | | | | 们 格 | 百万tokens 输 ...
这一空白终于被DeepSeek打破
新浪财经· 2025-09-21 14:26
#DeepSeek就是这么大大方方#【#这一空白终于被DeepSeek打破#】近日,由DeepSeek团队共同完成、 梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上国际顶级期刊《自然(Nature)》的封 面。该期刊编辑部直言:目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白"终于被 DeepSeek打破"。"同行评审"在学术界属于常见且必要的论文审查程序,为何此次《自然》单独将其提 出,并以"打破空白"来高度评价DeepSeek?事实上,自ChatGPT起,全球范围内大模型发展就犹如一 场"黑箱"里的竞速。业内及公众往往是通过社交媒体、营销发布会等了解产品性能,至于核心训练方法 和数据则属于高度设防的"商业机密",更遑论追问其原创性、方法论和稳健性?而DeepSeek-R1这篇论 文,详尽披露了模型训练细节,并在长达64页的同行评审文件中正面回应,DeepSeek-V3 Base (DeepSeek-R1的基座模型)使用的数据全部来自互联网,没有专门的蒸馏环节。大大方方公布技术, 堂堂正正接受检验,正如《自然》赞扬,"这一切都是AI行业迈向透明度和可重复性的可喜一步。"有人 说, ...
金沙江创投朱啸虎:大家低估了DeepSeek的影响力
新浪科技· 2025-09-20 10:26
朱啸虎谈到,"若干年后或许我们回望这段历史时,我觉得至少保证了一个事情,就是整个人类的AI发 展,不可能被几个私有化的公司,几个私有化的模型给控制,以后肯定是一个开源的、一个开放的AI 生态,这对人类来说特别重要。"(闫妍) 责任编辑:郝欣煜 新浪科技讯 9月20日上午消息,由硅星人与北京中关村科学城创新发展有限公司、北京中关村创业大街 科技服务有限公司联合发起的"AI 创造者嘉年华"上,金沙江创投主管合伙人朱啸虎表示,"大家低估了 DeepSeek 的影响力。" ...
DeepSeek首度公开R1模型训练成本仅为29.4万美元,“美国同行开始质疑自己的战略”
新浪财经· 2025-09-19 21:25
核心观点 - DeepSeek-R1模型以极低的训练成本实现了高性能,其训练成本仅为29.4万美元,构建基础大语言模型花费约600万美元,远低于美国同行的成本水平[1][2] - 该成本数据引发美国媒体和行业对中美人工智能竞争格局的重新评估,认为其推翻了只有拥有最先进芯片的国家才能主导AI竞赛的假设[1] - DeepSeek通过开源策略和高效率实现了高端AI的民主化,改变了行业竞争规则,竞争焦点从拥有最多GPU转向用更少资源实现更多目标[6][7] 成本优势 - DeepSeek-R1模型训练使用512块英伟达H800芯片,训练成本29.4万美元,训练时长总计80小时[2][4] - 构建基础大语言模型总成本约600万美元,远低于OpenAI首席执行官透露的远超1亿美元的训练成本[1][2] - 低成本策略得益于使用最大量免费数据进行预训练,并巧妙使用自生成数据进行微调,只在计算上花钱[6] 技术路径 - 模型训练数据来源于网络爬取,包含大量由OpenAI模型生成的回答,可能导致基础模型间接从其他强大模型获得知识[5] - 采用蒸馏技术让庞大复杂的预训练AI模型充当教师训练较小的学生模型,提升性能同时显著降低训练和运行成本[5] - 使用美国科技公司Meta的开源AI模型Llama构建模型的部分精简版本[5] 行业影响 - DeepSeek-R1成为全球首个经过同行评审的主流大语言模型,标志着重要技术里程碑[2] - 该模型在同类产品中脱颖而出,以极低成本实现最先进成果,推动AI技术普及范围扩大[6] - 开源、复制成本相对低廉、高度注重效率的模式将开放理念推向新高度,为其他公司提供可研究模板[6][7] 供应链情况 - DeepSeek在研发前期使用A100芯片为较小模型实验做准备,但R1模型主要使用合法采购的H800芯片集群进行训练[4] - 公司回应了美国官员关于违规获取H100芯片的指控,明确使用的是专为中国市场设计的H800芯片[4] - 尽管面临美国芯片出口管制,仍利用现有芯片资源成功训练出高性能AI模型[4]
DeepSeek团队梁文锋论文登上《自然》封面
证券时报网· 2025-09-19 12:46
公司研究 - DeepSeek团队共同完成的DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》第645期的封面[1] - 梁文锋担任该论文的通讯作者[1] 行业研究 - 研究表明大语言模型的推理能力可通过纯强化学习来提升 从而减少增强性能所需的人类输入工作量[1] - 大语言模型不必依赖人工示例或复杂指令 也能通过试错式强化学习自主学会生成推理过程[1] - 人工智能会自发进行"自省" 被认为是探索人类之外思维路径的重要迹象[1]
DeepSeek刷屏论文背后:除了梁文锋,还有一个18岁中国高中生,曾写出神级提示词
36氪· 2025-09-19 11:32
DeepSeek-R1论文发表 - DeepSeek-R1模型通过强化学习激励大语言模型推理,论文于2025年9月17日在《自然》期刊正式发表并开放获取[5] - 相较于早期的arXiv预印版本,《自然》正式版包含更丰富的实现细节与更详尽的实验分析[2] - 该论文是全球首个经过同行评审的主流大语言模型,代表中国AI在全球顶级学术舞台上的突破[38][39] 核心研究人员背景 - 涂津豪(2007年出生)以34分最高分在2024年阿里巴巴全球数学竞赛AI赛道从全球563支队伍中夺得第一名[5][6] - 涂津豪开发"Thinking Claude"提示词工程,使Claude 3.5展现深度推理能力,该提示词在GitHub上获得15.6k stars[6][7][30] - 罗福莉学术成果显著,Google Scholar总引用量10025,h指数27,i10指数34,是DeepSeek系列多篇论文的核心作者[36] 研究人员职业轨迹 - 罗福莉本科就读北京师范大学计算机专业,硕士保送北京大学计算语言学方向,2019年以密集输出登上NLP顶会ACL[32] - 职业经历涵盖阿里达摩院(主导AliceMind开源项目)、幻方量化(深度学习策略建模)到DeepSeek(MoE大模型核心研发)[32][34] - 2024年底多家媒体报道小米创始人雷军开出千万年薪挖角罗福莉,但本人拒绝天才人设,今年2月亲属确认已入职新岗位[36] 行业影响与趋势 - 中国AI人才正以更高频率、更核心身份出现在全球顶级学术舞台[38] - 涂津豪强调"思考过程"是决定推理质量的关键因素,认为AI幻觉问题需要理性看待,某种程度上是创造力的体现[30] - 论文成果属于整个团队乃至全球探索AI的学术共同体,标志着中国AI在世界舞台上的重要突破[38][39]
AI医学的“DeepSeek时刻”快来了?
第一财经· 2025-09-19 08:32
中国AI大模型的科研突破 - DeepSeek的大模型R1的研究成果登上《自然》杂志封面,这是中国AI科技公司的首次,全球范围内此前仅有DeepMind的AlphaFold获此殊荣 [2] - 人工智能工具在极端天气预报等科学领域展现出潜力,自2022年底ChatGPT推出以来,生成式AI的迅猛发展在医学领域掀起热潮 [2] - 随着中国大模型更多技术细节披露,未来有望推动大模型在医学领域落地,AI医学的DeepSeek时刻即将到来 [2] AI在药物研发领域的应用与投资 - AI制药已成为巨头重要部署方向,跨国制药公司如百时美施贵宝和赛诺菲已进行数十亿美元投资,希望新一代AI公司实现技术突破以改变药物发现过程 [4] - 复星医药正着力打造一系列AI开发工具以提升研发效率、缩短开发周期,并引入了AI决策智能体平台PharmAID [4] - 临床试验数字化解决方案公司Medidata首席战略官表示,软件增强药物研发将是下一代临床试验重要领域,公司已联合业内合作伙伴全面布局AI [4] - Medidata自2015年以来支持了美国FDA获批的93%的肿瘤新药 [4] - 全球由中国企业发起的临床试验比例从过去约3%跃升至2024年的30%,中国已成为全球第二大临床试验市场 [4] AI制药面临的技术与生物学挑战 - AI可快速浏览分子数据库并将化合物与靶点匹配,但这仅是药物发现的第一步,药物的毒副作用等许多问题尚无法用AI预测 [5] - 纸面上看起来不错的药物在临床试验中仍有90%的失败率 [5] - AI制药走向现实的过程堪比自动驾驶汽车上路,除解决技术算法核心难题外,还面临复杂生物学问题及应用时的监管问题 [5] - 人类对自身生物学问题如细胞相互作用仍知之甚少,这些问题超出算法范围,大模型缺乏AI制药加速所需的数据 [5] 医疗机构推动AI大模型落地 - 复旦大学附属中山医院联合华为、联影智能等公司共同发起“元医疗模拟实验室”,将开发AI智能体并开展以大模型为代表的人工智能技术应用中试 [5][6] - 人工智能、大模型正在改变诊疗范式,成为下一代疗法研发的重点方向,这已在全球顶尖学术会议上传递出明确信号 [6] - 在欧洲心脏病学会年会上,葛均波团队联合华为终端发布利用可穿戴多模态AI驱动的冠心病风险预测系统,重构冠心病早期筛查与风险评估的临床路径 [6] AI在医疗应用的具体进展与关键环节 - AI在心率筛查、影像分析、风险评估等方面取得显著进展,在特定领域已达临床应用水平,如通过可穿戴设备成功实现间歇性房颤监测 [6] - 复旦大学附属中山医院已发布首个心血管疾病大模型“观心” [6] - 人工智能在医学中的应用涉及三个关键环节:数据质量以确保医疗数据准确有效、足够强大的计算能力支持、算法优化以从有效数据中提取临床价值信息 [6] - 医生始终是诊疗决策主体,使用AI技术的医生对医疗行为承担主要责任,相关伦理规范正在制定以确保AI技术安全有效地服务临床诊疗 [7]