Workflow
DeepSeek V3模型
icon
搜索文档
梁文锋的幻方量化去年收益57%,跻身百亿级量化基金业绩榜第二!
21世纪经济报道· 2026-01-14 16:38
幻方量化业绩与资金实力 - 公司2025年收益均值达56.55%,在管理规模超百亿的量化私募中位列第二 [1] - 公司近三年收益均值为85.15%,近五年收益均值为114.35% [1] - 公司当前管理规模已超700亿元,稳居国内私募量化投资领域第一梯队 [1] - 据业内人士估算,基于1%管理费和20%业绩提成,公司去年强劲表现可能带来超过7亿美元的收入 [2] 幻方量化与DeepSeek的关联 - 公司创始团队自2008年即开始使用机器学习技术探索全自动量化交易 [2] - 公司于2023年7月孵化出杭州深度求索人工智能基础技术研究有限公司(DeepSeek),正式进军通用人工智能 [2] - 公司创始人梁文锋持有DeepSeek多数股权,且DeepSeek的研究经费来源于公司的研发预算 [2] - 公司的丰厚收益能为DeepSeek的大模型研发提供坚强的资金支持 [1][2] DeepSeek大模型研发进展与对比 - DeepSeek计划在2026年2月春节前后发布新一代AI模型DeepSeek-V4,该模型是V3的迭代版,具备强大的编程能力 [3] - 内部初步测试显示,V4在编程能力上超过了Anthropic的Claude和OpenAI的GPT系列等市场上的其他顶级模型 [3] - DeepSeek曾披露其V3模型的总训练成本预算为557万美元 [2] - 作为对比,智谱截至2025年上半年累计研发投入约44亿元,MiniMax截至2025年第三季度累计研发开支约4.5亿美元(约31.6亿元人民币) [3] 公司技术背景与监管动态 - 公司策略和开发团队由多学科顶尖人才组成,包括奥林匹克学科竞赛奖牌得主、AI领域专家及各学科博士 [1] - 公司于2016年10月首次上线由深度学习生成的交易仓位,2017年全面应用深度学习技术进行交易 [2] - 公司于2019年和2021年分别投资建成“萤火一号”和“萤火二号”AI训练平台 [2] - 意大利反垄断机构AGCM已于2026年1月5日结束针对DeepSeek的调查,并以具有约束力的承诺作为结案条件,该调查始于2025年6月,涉及公司涉嫌未警告用户其模型可能产生虚假讯息 [3][4]
幻方量化去年收益率56.6%,为DeepSeek提供超级弹药
21世纪经济报道· 2026-01-14 10:16
幻方量化业绩表现 - 2025年收益均值达56.55%,在中国管理规模超百亿的量化私募中位列第二[2] - 近三年收益均值为85.15%,近五年收益均值为114.35%[2] - 2025年管理规模已超700亿元人民币,稳居国内私募量化投资领域第一梯队[2] 幻方量化业务与团队 - 公司是一家AI量化交易公司,成立于2015年,持续投入AI算法研究[2] - 创始团队自2008年开始使用机器学习技术探索全自动量化交易[3] - 2016年10月第一份由深度学习生成的交易仓位上线,2017年全面应用深度学习技术进行交易[3] - 策略和开发团队由多学科顶尖人才组成,包括奥赛金牌得主、AI领域专家及各学科博士[2] 幻方量化技术投入与孵化 - 2019年投资建成“萤火一号”AI训练平台,2021年投资建成“萤火二号”AI训练平台[4] - 2023年7月孵化出杭州深度求索人工智能基础技术研究有限公司,正式进军通用人工智能[4] - 公司创始人与大股东梁文锋持有DeepSeek多数股权,并停止为基金引入外部资金[4] 幻方量化收入估算与资金反哺 - 据业内人士估算,基于1%管理费和20%业绩提成,公司去年强劲表现可能带来超过7亿美元收入[6] - 幻方量化的丰厚收益能反哺DeepSeek,为其大模型研发提供资金支持[2][5] DeepSeek大模型业务 - DeepSeek的研究经费来源于幻方量化的研发预算[4] - DeepSeek V3模型的总训练成本预算在557万美元[7] - 计划在2月春节前后发布新一代AI模型DeepSeek V4,内部测试显示其在编程能力上超过Claude和GPT系列[7] 行业研发投入对比 - 智谱截至2025年上半年累计研发投入约44亿元人民币[7] - MiniMax截至2025年第三季度累计研发开支约4.5亿美元[7]
知情人士:DeepSeek将于2月发布其最新旗舰AI模型
新浪财经· 2026-01-09 21:33
公司新产品发布计划 - 深度求索公司预计在未来几周内,具体可能在2月中旬农历新年前后,推出新一代旗舰AI模型V4 [2] - V4模型是2024年12月发布的V3模型的迭代版本,主打强劲的代码生成能力 [2] - 公司内部基准初步测试显示,V4在代码生成领域的表现优于Anthropic Claude、OpenAI GPT等现有主流模型 [2] 公司技术进展与模型性能 - V4模型在超长代码提示词的处理与解析方面实现了技术突破,对复杂软件项目开发工程师具备显著应用优势 [4] - 该模型在训练全流程中对数据模式的理解能力得到优化,且未出现性能衰减问题 [4] - V4模型输出的答案逻辑更为严谨清晰,体现出更强的推理能力,在执行复杂任务时的可靠性将大幅提升 [4] - 公司此前发布的V3.2版本在部分基准测试中表现优于OpenAI的GPT-5以及谷歌的Gemini 3.0 Pro [3] 公司过往成就与市场影响 - V3模型的推出帮助深度求索在全球人工智能领域崭露头角 [2] - R1开源“推理型”模型的发布震动了硅谷与华尔街,一举将公司推向全球舞台 [2] - R1模型的设计逻辑是在给出答案前先进行深度“思考”以解决复杂问题,其引发广泛关注的原因在于,相较于美国研发的头部模型,公司投入的训练成本相对较低但模型性能十分亮眼 [2] - 在国内市场,公司推出的融合R1与V3双模型能力的聊天机器人产品迅速走红 [3] 公司研发与技术创新 - 深度求索首席执行官梁文锋联合署名发表研究论文,提出了一种全新的训练架构 [4] - 该架构能够支持研发人员在不按比例增加芯片投入的前提下,构建参数规模更大的AI模型 [4] - 这一系列技术进展表明,深度求索的技术创新步伐仍在持续迈进 [4]
知情人士:DeepSeek将于2月发布其最新旗舰AI模型。
新浪财经· 2026-01-09 21:23
公司产品发布计划 - 深度求索公司预计将在未来几周内推出新一代旗舰级人工智能模型V4,主打强劲的代码生成能力 [2][6] - V4模型是公司于2024年12月发布的V3模型的迭代版本,计划于2月中旬农历新年前后推出,但具体时间可能调整 [2][6] - 公司员工基于内部基准的初步测试显示,V4模型在代码生成领域的表现优于Anthropic、Claude、OpenAI GPT等现有主流模型 [2][6] 公司技术实力与过往表现 - 公司此前发布的V3模型帮助其在全球人工智能领域崭露头角,而R1模型的发布则震动了硅谷与华尔街,将公司推向全球舞台 [2][6] - R1是一款开源的“推理型”模型,其设计逻辑是在给出答案前先进行深度“思考”以解决复杂问题,其引发关注的原因在于相较于美国头部模型,训练成本相对较低但性能亮眼 [2][6] - 2024年12月,公司发布的V3.2版本在部分基准测试中表现优于OpenAI的GPT-5以及谷歌的Gemini 3.0 Pro [3][7] - 自V3.2发布后,公司一直未推出重量级迭代模型,这使得即将到来的V4模型备受业界瞩目 [3][7] 新产品V4的技术特点 - V4模型在超长代码提示词的处理与解析方面实现了技术突破,对从事复杂软件项目开发的工程师具备显著应用优势 [4][7] - 该模型在训练全流程中对数据模式的理解能力得到优化,且未出现性能衰减的问题 [4][7] - 用户或许会发现V4模型输出的答案逻辑更为严谨清晰,体现出该版本模型具备更强的推理能力,在执行复杂任务时的可靠性将大幅提升 [4][7] 公司近期技术进展 - 上周,公司发表了一篇由首席执行官梁文锋联合署名的研究论文,提出了一种全新的训练架构 [4][8] - 该全新架构能够支持研发人员在不按比例增加芯片投入的前提下,构建参数规模更大的人工智能模型 [8][9] - 这一系列技术进展表明,深度求索公司的技术创新步伐仍在持续迈进 [4][9] 公司市场与产品策略 - 在国内市场,公司推出了一款融合R1与V3双模型能力的聊天机器人,该产品迅速走红 [3][6]
免费还是收费?互联网的赚钱套路,模式的本质分野
搜狐财经· 2025-12-08 05:28
核心观点 - 文章核心观点在于对比分析中国与西方互联网企业在商业模式上的根本分野及其底层逻辑 中国互联网行业普遍采用“前台免费 后台变现”的模式 通过免费服务获取用户并构建生态 而西方企业则普遍采用“分层收费 体验优先”的模式 直接向用户和企业销售高质量服务 这两种模式的形成源于市场阶段 用户支付能力 成本结构及政策环境等多重因素差异 目前两种模式呈现相互借鉴与融合的趋势[1][2][5][9][11] 商业模式对比 - **中国模式特征**:采用“前台免费拉人 后台赚钱补窟窿”的策略 在互联网初期通过免费服务快速获取用户并挤走收费竞争对手 后续通过企业API 高级功能等方式实现变现[2][5] - **西方模式特征**:采用“分层收费 卖的就是好体验”的策略 直接向个人用户收取会员费 并更依赖企业端的API调用和定制方案获取主要收入[5] - **模式底层逻辑**:中国模式更懂本土市场初期需求 西方模式则通过收费筛选高质量用户 并依赖成熟的支付体系和知识产权保护[5][7] 成本与定价策略 - **中国成本控制**:国内企业擅长成本控制 例如通过错峰调度和缓存优化降低服务器与带宽开销 DeepSeek的V3模型研发成本仅为557万美元 不到同级西方模型的十分之一[2] - **西方成本结构**:西方企业的高定价用于覆盖其全球服务器集群 顶尖团队薪酬以及高昂的电费等真实成本[5] 市场环境与政策影响 - **支付与用户基础**:西方成熟的信用卡支付环境和较强的知识产权意识支撑了其付费模式的稳定发展 而中国的人均可支配收入还不到西方的三分之一 导致虚拟服务付费优先级靠后[7][13] - **政策影响**:2024年OpenAI封禁中国API服务后 国产模型借助“备案制”抢占市场 免费C端服务成为拉客标配 苹果在中国发展AI也需寻找本土合作伙伴[7] 发展趋势与融合 - **发展路径**:中国企业更倾向于在合规框架内搭建生态系统 而西方企业则依靠技术优势进行全球定价 两条路径差异明显[9] - **相互借鉴**:双方商业模式正在向中间靠拢 国内企业开始推出多层会员制 以软引导培养用户付费习惯 海外企业如ChatGPT也开始在新兴市场推出折扣套餐 以应对免费工具的竞争[9][11] - **未来展望**:中国互联网目前处于“试吃阶段” 依靠免费积累信任 而西方已进入“老字号专柜”阶段 依靠口碑促成消费 随着用户对国内工具依赖度加深 为高级功能付费的意愿将提升 同时海外企业也需要持续证明其服务的价值[11][13][15]
大学讲堂| 未可知 x 路易斯大学: 杜雨博士《AI与未来叙事》跨文化传播课程
中国AI产业发展现状 - 中国AI行业历经“计算机视觉四小龙”与“大语言模型六小虎”两轮发展热潮,大语言模型的崛起推动中国AI市场规模持续扩容,目前全球市场份额已达20% [5] - 在“AI+”国家战略引领下,互联网、电信、金融、政务等领域成为AI渗透的核心场景,行业数字化转型进程加速 [8] - 2024年中国AI融资额为52亿美元,仅为美国融资规模的7%,同时面临高端算力受限(如美国对Nvidia A100/H100等核心芯片实施出口管制)等挑战 [9] DeepSeek的破局之路 - 由幻方量化孵化的AI企业DeepSeek,作为开源、低成本代表,其V3模型在多项基准测试中表现优于同类开源模型及部分闭源API模型,R1推理模型达到国际顶尖水平 [9] - DeepSeek V3模型训练成本仅600万美元,约为GPT-4训练成本的1/16 [12] - 该应用上线7天用户破亿,20天日活跃用户达2000万,并成功嵌入微信生态,为11亿日活用户提供AI搜索、公众号智能互动等服务,推动企业官方账号与小程序全面AI化 [12] AI对商业传播的转型影响 - AI正从底层重构企业与用户的沟通方式,成为不可逆转的竞争要素 [13] - 近80%的全球企业高管认为,生成式AI将在未来3年内驱动行业实质性变革,缺乏AI布局的企业可能面临被淘汰风险 [14] - AI在商业传播中的核心价值体现在提升沟通效率、优化用户体验、降低运营成本等方面 [18] AI在商业传播中的具体应用案例 - 三维家通过AI生成家装设计图,打造可视化营销工具 [17] - 屈臣氏借助AI智能客服实现售前精准画像、售中订单优化、售后高效响应的全流程升级,并通过员工智能助手提升业务能力 [17] - 林水咨询利用AI完成专业报告撰写与校对,在保障数据安全的前提下降低人工成本 [17] - 海南果农场通过AI自动化包装设计流程,快速实现品牌视觉呈现 [17] - AI面试工具“多面”单日可完成4000场面试,助力企业高效招聘 [17] - 社交媒体AI工具能自动捕捉热点、生成内容、定时发布并实时回复评论,实现全链路自动化运营 [17] AI在传媒行业的创新应用 - AI已深度融入传媒生产各环节:记者可借助科大讯飞AI工具实现采访实时转录与文稿生成;新华网“快笔小新”机器人能快速产出体育、财经等领域的新闻快讯;浙江卫视在春节期间启用数字人播报新闻,实现“以假乱真”的传播效果 [19] - 数字人直播被认为是商业化前景最明朗的AI传媒应用方向 [21] AI在传媒领域的局限性与风险防范 - AI目前尚无法完成有深度、有人文关怀的调查报道,过度依赖AI可能导致信息同质化与“回声室效应”,甚至引发伦理争议 [21] - 针对AI虚拟新闻的风险防范,需建立双重解决方案:输入端建立数据清洗机制,保障训练数据的真实性与合规性;输出端要求记者坚守主体责任,避免过度依赖AI工具,因为AI并非法律主体,无法承担最终传播责任 [21] AI发展的宏观环境与未来 - AI的健康发展需要技术创新、合规治理与人文关怀三者并重,中国通过制定数据应用合规指南、建立职业技能评估体系等方式,正在构建兼顾创新与规范的发展环境 [22] - 此次分享是中西方AI传播领域的一次深度对话,为跨文化背景下的AI传播实践提供了新思路 [22]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
小红书开源1420亿参数大模型,部分性能与阿里Qwen3模型相当
钛媒体APP· 2025-06-10 09:07
小红书开源大模型dots.llm1 - 小红书hi lab团队开源首款文本大模型dots.llm1 包括base模型和instruct模型 并公开训练信息如超参数和中间训练checkpoint [2] - dots.llm1采用混合专家模型(MoE)架构 总参数量1420亿 推理时仅激活140亿参数 使用11.2万亿token高质量训练数据 [3] - 模型性能对标阿里Qwen系列 dots.llm1.inst在中英文通用场景、数学、代码、对齐任务上表现亮眼 部分性能与Qwen3-32B相当或更优 [6][7] 技术细节与性能表现 - 训练数据质量显著优于开源TxT360数据 经过两阶段SFT训练得到最终模型 [5] - 优化Grouped GEMM算子 在英伟达H800上前向计算平均提升14% 反向计算平均提升6.68% [5] - 中文任务表现突出 CLUEWSC得分92.6 C-Eval得分92.2 超越DeepSeek-V3等模型 [7] - 在MMLU、DROP等英文基准测试中表现接近主流大模型 代码生成能力与Qwen2.5-72B相当 [8] 公司战略与估值 - 小红书2023年起持续投入大模型研发 近期推出AI搜索应用"点点"和"问一问"功能 [9] - 公司估值从200亿美元跃升至260亿美元 一级市场老股报价达350亿美元 2024年净利润超10亿美元 [9] - 股东包括真格基金、金沙江创投、阿里、腾讯等20余家知名机构 [9] 未来发展方向 - 计划集成更高效架构设计如GQA、MLA和线性注意力 探索更稀疏MoE层提升计算效率 [10] - 将加深对训练数据的理解 探索更接近人类学习效率的方法 [11] - 技术文档显示团队计划贡献更多全模态大模型 可能发力多模态领域 [11]
DeepSeek核心高管离职创业,瞄准Agent赛道|独家
虎嗅· 2025-06-09 16:24
核心事件 - DeepSeek核心高管于半年前离职创业 计划于2025年圣诞节前后发布Agent产品[1] - 该高管被部分信源称为原DeepSeek CTO 但公司内部并无明确CTO职位[1] - 创业项目已获得IDG资本融资 但IDG方面表示对此事并不知情[1] 时间节点与背景 - 高管离职时间为2024年12月至2025年1月 正值DeepSeek发布并开源V3模型和推理模型R1的热度高峰期[1] - 选择在公司巅峰期离职创业并切入Agent赛道 时机选择耐人寻味[1] 行业人才流动现象 - 头部大模型公司技术人才成为资本市场追逐焦点 参与核心模型研发的高管更具竞争力[2] - AI行业核心高管离职创业已成常态 案例包括OpenAI联合创始人出走及国内大厂AI人才分流[2] - OpenAI前首席科学家伊利亚2024年5月离职后创立SSI 总融资额达30亿美元 第二轮融资后估值飙升至320亿美元[2] 创业环境与行业特征 - 技术迭代速度快 新方向不断涌现创造创业机会窗口[3] - 大公司技术路线和商业策略已定型 难以满足技术专家的创新需求[3] - AI人才稀缺 具备核心技术经验的高管在创业市场极具竞争力[3] - 大模型公司技术积累宝贵 但创新更易发生在灵活环境中 创业可兼顾技术积累与避开路径依赖[3] 公司动态与市场关注 - 近半年市场关注聚焦DeepSeek的R2模型发布时机及融资IPO计划[3] - 三个月前DeepSeek招聘多个财务岗位(CFO、财务副总监、财务总监)引发融资猜测[4] - 接近公司人士称招聘CFO非为资本市场准备 近期无融资或IPO计划[4]
DeepSeek再出手!R1升级版性能大提升,美国对手慌了?
金十数据· 2025-05-30 11:52
模型升级内容 - 公司完成DeepSeek R1模型小版本升级 主要强化语义理解精准性 复杂逻辑推理能力 长文本处理稳定性 [1] - 网友测评显示模型理解能力显著提升 激活参数部分可制作交互动画展示 关键信息逻辑更清晰 [1] - 编程能力大幅提升 可一次性生成1000多行无错误代码 性能接近Claude 4 [1] - Hugging Face研究员指出升级后模型在减少幻觉方面有重大改进 显示与顶级模型竞争实力 [1] 模型性能对比 - DeepSeek-V3-0324模型在数学 代码类评测集上超越GPT-4 5和Claude-3 7-Sonnet [1] - V3模型性价比极高 输入价格为Claude-3 7-Sonnet的1/11 GPT-4 5的1/277 且开源可免费商用 [1] - R1-0528版本在LiveCodeBench代码生成排行榜中略低于OpenAI o4 mini和o3推理模型 但超过xAI Grok 3 mini和阿里巴巴Qwen 3 [2] 市场影响 - R1模型1月发布时因多项指标优于西方竞争对手引发全球关注 导致科技股暴跌 [2] - V3模型发布后市场热度下降 焦点转向未发布的R2模型 [2] - R1-0528版本发布再次引发全球媒体关注 被指加剧与OpenAI等美国竞争对手的竞争 [2] - 低成本高性能R1模型推动中国科技股上涨 显示市场对中国AI能力的乐观预期 [2] 未来产品规划 - R2模型预计采用混合专家模型(MoE) 参数量达1 2万亿 单位推理成本较GPT-4大幅降低 [2] - 公司尚未正式确认R2模型发布时间 [2]