Workflow
DeepSeek
icon
搜索文档
疆亘资本总裁胡仲江:GP从“财务出资人”升级为“生态建筑师”
搜狐财经· 2025-05-16 14:41
DeepSeek的崛起与AI产业变革 - DeepSeek通过70亿级模型实现千亿模型效能,将企业部署成本压缩90%,颠覆传统大模型的算力竞赛逻辑[4] - 技术上将大模型精华浓缩到小模型,产品上做成即插即用的"智能U盘",生态上通过开放基础版吸引开发者再销售定制升级版[4] - 在金融、政务领域推出"合规私有化AGI"方案,如政务部门可用本地服务器训练处理敏感数据的AI助手,银行可快速替代耗时数年的风控流程[4] 中国AI产业现状与投资方向 - 应用层面能用更少数据做出更接地气成果,但核心技术仍受制于国外基础架构,如国产芯片处理复杂AI任务稍显吃力[5] - 投资转向能让AI扎根产业的领域,如电力行业AI调度系统让新能源利用率达95%,中科院实验室AI化学家指挥机械臂完成危险实验[5] - 未来胜负手在于用"手术刀式"垂直智能体在国产化技术栈重建护城河,让AI完成从数字革命到实体重塑的跨越[5] 地方政府与GP合作模式变革 - DeepSeek改变地方政府对"核心竞争力"理解,从税收优惠转向"数据主权"争夺,如浙江、山东整合政务数据形成AI训练资产包[6] - GP角色从"财务出资人"升级为"生态建筑师",需具备数据分析能力帮助政府量化数据价值并设计合规使用框架[6] - 新型合作机制基于价值共创和风险共担,通过对赌协议等方式形成利益共同体,探索数据驱动新商业模式[6][7] 文化自信回归与投资机会 - 传统文化符号以游戏、影视、消费品为载体进入大众生活,文化作为独立生产要素参与价值创造[7] - 文化估值体系重构,IP价值取决于"文化渗透率"而非短期曝光量,需能持续衍生生活方式解决方案[8] - 技术赋能范式转移,AI与区块链成为文化资产化基础设施,破解传统技艺规模化难题并为文化确权[8] 2025年中国一级市场预测 - 投资方向深度转变,专业基金比跟风机构更具优势,企业估值两极分化,缺乏核心技术公司市值可能腰斩[10] - 退出路径重新洗牌,传统上市方式不再可靠,更多转向产业并购,倒逼投资人提前布局产业链关键环节[10] - 国际环境影响显著,国产替代成生死线,最大机会在避开正面交锋的"曲线创新"领域如中国主导物联网标准[10]
R2来之前,DeepSeek又放了个烟雾弹
虎嗅APP· 2025-05-15 21:03
DeepSeek V3技术突破 - 核心观点:通过"软硬一体"协同设计实现极致降本增效,仅使用2048块英伟达H800 GPU即达到行业领先水平 [2] - 关键技术1:采用"多头隐注意力机制"(MLA)压缩KV Cache,显著降低长文本处理的显存占用 [2] - 关键技术2:优化混合专家模型(MoE)架构,通过动态激活专家提升运算效率并控制有效规模 [3] - 关键技术3:引入FP8混合精度训练,在非敏感环节降低计算量和内存占用,速度提升30%且不影响最终性能 [3] - 关键技术4:设计多平面网络拓扑结构,优化GPU集群数据传输路径减少通信瓶颈 [4] DeepSeek Prover V2进展 - 参数规模从7B跃升至671B,实现数量级突破 [5] - 聚焦数学等科学发现领域,挑战人类智力极限的高壁垒场景 [5] 行业竞争格局 - 头部厂商在参数规模、多模态、应用生态展开全方位竞争,技术迭代加速 [6] - 算力成本攀升和商业化路径模糊成为行业普遍挑战 [6] - 未来竞争关键将转向资源利用效率和垂直场景深度挖掘 [6][7] 公司战略定位 - 通过工程优化实现"非顶级硬件配置下的领先性能",为行业提供可行性路径 [4] - 技术路线强调成本效益与特定高价值场景的结合,区别于单纯追求规模扩张 [6][7] - 系列动作预示R2模型将带来性能突破和行业新思路 [7]
梁文锋参与发表回顾性论文:DeepSeek首次揭秘V3模型背后扩展方案
快讯· 2025-05-15 18:57
DeepSeek刚刚发表了一篇名为《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》(Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures)的回顾性论文,梁 文锋也是作者之一。这篇论文深入剖析了最新的大模型DeepSeek-V3及其AI基础设施扩展方案, DeepSeek-V3的实践充分证明了硬件-软件协同设计在提升AI系统可扩展性、效率和鲁棒性方面的巨大潜 力。(AI寒武纪) ...
R2来之前,DeepSeek又放了个烟雾弹
虎嗅· 2025-05-15 18:52
DeepSeek V3技术突破 - 公司通过"软硬一体"协同设计实现极致降本,仅使用2048块英伟达H800 GPU即完成模型训练 [2] - 采用"多头隐注意力机制"(MLA)压缩KV Cache显存占用,显著提升长文本和多轮对话处理能力 [2] - 优化混合专家模型(MoE)架构,通过动态激活相关专家提升运算效率并控制资源消耗 [3] - 引入FP8混合精度训练,在保持模型性能同时降低50%计算量和内存占用 [3] - 设计多平面网络拓扑结构优化GPU集群数据传输效率,减少训练瓶颈 [4] DeepSeek Prover V2进展 - 参数规模从7B跃升至671B,实现数量级突破 [5] - 聚焦数学等科学发现领域,展现AI解决高复杂度问题的潜力 [5] 行业竞争态势 - 头部厂商在参数规模、多模态和应用生态展开全方位竞争 [6] - 算力成本攀升和商业化路径模糊成为行业普遍挑战 [6] - 公司技术路线显示效率优化与垂直场景深耕将成为竞争关键变量 [6] 公司战略定位 - 通过工程优化实现非顶级硬件条件下的行业领先性能 [4] - 技术路径为中小玩家提供算力约束下的可行性方案 [4] - 系列动作预示将推出突破性R2模型并带来行业新思路 [7]
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀
雷峰网· 2025-05-15 18:13
DeepSeek-V3 成本效益与架构创新 - 核心观点:通过软硬件协同设计实现大型模型的高效训练与推理,仅需2048个NVIDIA H800 GPU即达到最先进性能 [4] - 采用DeepSeek-MoE与多头潜在注意力(MLA)架构,FP8混合精度训练使内存消耗降低50% [7][8] - MLA通过压缩KV缓存至潜在向量减少内存占用,共享KV、滑动窗口缓存等技术进一步优化存储 [10][11][12] 低精度与计算优化 - 首创FP8训练框架,通信量较BF16减少50%,提出硬件改进建议如提升累加精度至FP32 [16][17][18] - MoE架构使计算成本降至250 GFLOPS/令牌,显著低于密集模型的2448 GFLOPS [13] - 多标记预测(MTP)框架提升推理速度1.8倍,令牌接受率达80%-90% [14] 互联驱动设计 - 针对H800 NVLink带宽限制(400GB/s),采用8张400G Infiniband网卡增强扩展能力 [20][23] - 节点内NVLink(160GB/s)与节点间IB(40GB/s)带宽差异促生节点受限路由策略,减少跨节点流量 [24][26][27] - 提出未来硬件需统一网络适配器、专用通信协处理器以优化资源利用 [29][30] 大规模网络架构 - 部署八平面胖树网络(MPFT),支持16384 GPU理论规模,成本较三层胖树降低41% [32][34][40] - MPFT实现流量隔离与低延迟,专家并行带宽超40GB/s,训练效率与单平面网络持平 [37][44][47] - InfiniBand延迟(2.8μs)优于RoCE(3.6μs),但建议RoCE优化如自适应路由与拥塞控制 [50][51][53] 未来硬件方向 - 需解决互联故障、静默数据损坏等问题,建议校验和验证与诊断工具预装 [59][60][61] - 提出CPU-GPU直连、共封装光学、动态带宽分配等创新方向 [61][64][66] - 内存架构推荐DRAM堆叠加速器与晶圆级集成技术以突破带宽瓶颈 [72]
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
机器之心· 2025-05-15 14:04
核心观点 - 提出新型深度思考范式PENCIL,通过交替执行「生成-擦除」机制显著提升大模型复杂推理能力 [1][3] - PENCIL在理论上实现图灵完备性,能以最优空间O(S)和时间O(T)复杂度解决所有可计算问题,传统CoT需O(T)空间导致指数爆炸 [23][24] - 实验显示PENCIL在3-SAT、QBF等NP完全问题上准确率保持≥99%,Einstein's Puzzle任务中25M小模型准确率达97%远超CoT的25% [15][21][22] 交替生成-擦除范式 - 动态擦除机制:引入[CALL][SEP][RETURN]特殊标记,按规则丢弃无用中间结果,上下文长度从数万token压缩至千级 [5][8][9] - 支持递归结构:擦除后的上下文可包含其他特殊标记,实现类似函数调用的多层嵌套 [9] - 三大应用模式:任务分解(子问题处理)、搜索回溯(无效路径清理)、摘要总结(冗长思考压缩) [13] 性能优势 - **准确率**:在n=10的SAT任务中PENCIL准确率99% vs CoT 50%,QBF任务100% vs 73% [15][16] - **计算效率**:相同FLOPs下PENCIL训练收敛速度更快,上下文长度控制在问题规模n的线性增长(O(n))而非CoT的指数级(O(exp(n))) [12][17] - **资源节省**:KV缓存复用机制使自注意力计算量减少,25M参数模型在Einstein's Puzzle上准确率提升3.88倍 [21][22] 理论突破 - 空间最优性:将图灵机模拟的上下文长度从O(T)降至O(S),尤其适合S<<T的NP完全问题(如旅行商问题) [24][25] - 实现路径:通过FASP编程语言构造「思考-总结」循环,证明固定大小Transformer可达成最优复杂度 [28] - 本质差异:传统CoT需保留完整计算历史,PENCIL通过状态摘要实现内存回收 [27]
华尔街见闻早餐FM-Radio | 2025年5月15日
华尔街见闻· 2025-05-15 07:20
市场概述 - 美股涨势疲态显现 标普惊险三连阳 道指两连跌 科技股表现强劲 英伟达涨近4% 特斯拉 AMD收涨超4% 超微电脑涨近16% [2] - 中概指数反弹超1% 腾讯财报后涨超3% 京东回落逾4% [2] - 美债收益率创一个月新高 美元两连跌后V形反弹 离岸人民币盘中跌超200点失守7.21 [2] - 原油跌落三周高位盘中跌超1% 黄金回落至一个月低位盘中跌超2% [2] - A股集体收涨 沪指重返3400点 恒科指涨超2% 国债普跌 [2] 中国宏观经济 - 4月社融增量1.16万亿元 新增人民币贷款2800亿元 M2-M1剪刀差扩大 前四个月人民币存款增加12.55万亿元 [3][9] - 七部门设立"国家创业投资引导基金" 引导资本投早投小投长期投硬科技 推动科技创新公司债券发展 [3][9] - 对美关税调整 125%→10% 24%税率暂停90天 美国撤销加征91%关税 下调小额包裹关税 [14] - 4月企业新发放贷款利率处于历史低位 部分银行消费贷款利率低于保本点 [15] 科技与互联网 - 腾讯Q1营收同比增13%达1800亿元 王者荣耀流水创新高 AI对广告游戏云业务产生实质性贡献 GPU储备充足 [3][11][12] - 鸿海Q1销售额同比增24% 净利润421亿新台币超预期 受益于关税前囤货潮及AI服务器需求 [11] - Poe报告显示DeepSeek使用率下降50% OpenAI因GPT-4o暴涨 快手Kling占据文生视频21%份额 [11] - 阿里巴巴被称中国最佳AI赋能者 动态PE仅12倍 摩根士丹利预计阿里云收入增速2026财年加速至25% [17] 新能源与高端制造 - 宁德时代赴港IPO获机构超额认购30倍 募资额或达410亿港元 成2021年后香港最大IPO [16] - 多晶硅龙头企业计划成立700亿元基金 整合过剩产能 目标将价格从3.6万元/吨提至4.5-6万元/吨 [18] - 中国企业发射12颗太空计算卫星 组成全球首个太空计算星座 节约数据中心能源成本 [17] 海外市场与公司 - 波音获卡塔尔航空210架飞机订单 总价值960亿美元 创史上最大单 波音股价涨超3%创15个月新高 [10] - 超微电脑与沙特DataVolt签200亿美元AI协议 股价盘中涨约20% [21] - 桥水Q1大买黄金ETF超3亿美元 新进京东超1亿美元 增持阿里百度 减持谷歌英伟达Meta [21] 行业趋势 - 传感器行业受益于人形机器人发展 力矩传感器存在高壁垒 国内厂商市场空间扩大 [22] - 船舶行业供需缺口明显 手持订单覆盖率3.8年 头部船厂排产至2028年后 利润迎向上拐点 [23] - 有色金属价格强势 特朗普关税政策推升通胀预期 金价中枢抬升 铜铝持续去库 [23] - 外骨骼机器人应用拓展至消费级 传感系统 控制系统 驱动系统为核心 [23] 资本市场动态 - 价值投资巨头Baillie Gifford看好字节跳动 预计有五倍回报率 警惕"填鸭式投资"危害 [16] - 小米短期订单量下降引担忧 德银指21万台电动车积压显示需求强劲 四大催化剂或推动股价反弹 [17] - 小马智行传闻赴港二次上市 创始人锁定期延长540天 股价盘前飙涨16%后收跌超4% [18]
机构密集调研50多家人形机器人产业链公司
中国证券报· 2025-05-15 05:31
机构调研人形机器人产业链 - 二季度以来390家机构调研中控技术 公司投资浙江人形机器人创新中心并发布"领航者1号"和"领航者2号NAVIAI"整机 第三代将接入DeepSeek多模态模型Janus Pro 计划在石化企业高风险场景落地应用 [1] - 208家机构调研蓝思科技 公司自2016年布局智能机器人领域 工业机器人已应用于产线 正拓展人形机器人核心部件研发 [2] - 160家机构调研富临精工 公司加快布局机器人电关节模组及零部件 智能电关节产品已小批量生产并适配主流客户 [2][3] - 37家机构调研领益智造 公司掌握伺服电机/减速器等执行层技术 已提供头部/灵巧手/四肢总成等核心硬件 [3] 商业化进展与技术突破 - 中控技术人形机器人将实现自然环境感知与人机交互 石化实验室场景成为首批落地应用方向 [1] - 领益智造具备联合开发与整机组装经验 提供从结构件到高功率充电/散热的全栈解决方案 [3] - 创世纪升级钻铣/五轴加工中心等设备 定制化产品满足关节/骨架等精密加工需求 相关收入快速增长 [4] - 安培龙完成MEMS力传感器开发 已向多家机器人客户送样 [4] 行业趋势与公司布局 - 华为/特斯拉等企业加速具身智能布局 行业确定性趋势为工业场景应用 [3] - 蓝思科技结合AI眼镜/XR头显等新领域 深化产业链合作推动场景协同 [2] - 富临精工预研智能电关节 技术人员储备与研发投入已完成前期准备 [3] - 上市公司普遍通过技术升级(创世纪)或硬件创新(安培龙)切入人形机器人赛道 [4]
梁文锋倒逼OpenAI重新Open
虎嗅APP· 2025-05-14 22:26
核心观点 - OpenAI宣布放弃完全转为营利性机构的计划,回归非营利组织控制模式,并取消对投资者的财务回报上限 [1] - 公司CEO阿尔特曼强调未来要成为"历史上规模最大、效果最佳的非营利组织" [1] - 微软作为最大投资者(注资137.5亿美元)持反对态度,但OpenAI表示将继续保持合作 [1] - 此次转型被视为对DeepSeek等竞争对手崛起的应对策略 [2][3] - 公司面临核心团队流失(初创14人中仅剩2人)和市场竞争加剧的双重挑战 [4] 公司架构转型 - 未来架构特点:非营利组织保持控制权、营利实体转为公益性公司、非营利组织作为主要股东、保持共同使命 [6] - 这是继2025年2月开放ChatGPT免注册使用、3月宣布开源推理模型后的又一非营利化举措 [6] - 转型本质是回归2015年成立时的非营利研究实验室定位 [7] - 阿尔特曼解释转型原因:当前无法满足全球AI需求,需设置使用上限 [7] 竞争格局变化 - DeepSeek-R1模型爆发引发行业震动,国内外厂商(包括亚马逊、谷歌)纷纷接入 [2] - 竞争对手动作:谷歌推出Gemini 2.5 Pro Preview(编码榜第一)、Meta发布独立AI应用 [15] - OpenAI以30亿美元收购AI编程工具商Windsurf(公司史上最大收购)应对技术短板 [15] - 行业研发投入对比:百度累计1800亿元、阿里超3000亿元、亚马逊2025年计划1000亿美元 [16] 发展历程与挑战 - 2015年成立时定位为非营利研究实验室,初始资金10亿美元迅速耗尽 [9][11] - 2019年关键转折:发布GPT-2(未开源)并接受微软投资,转向商业化 [2] - 目前估值超1500亿美元,2024年收入达37亿美元 [11] - 核心团队流失严重,与马斯克的法律纠纷持续(46页诉讼文件指控) [12] - 面临"诺基亚时刻"的转型压力,需突破大企业创新瓶颈 [13][15] 资本与行业趋势 - 软银承诺推进300亿美元投资计划支持转型 [17] - 资本行业显现对长期投入的包容态度,认可暂停商业化以保持技术领先的策略 [16] - 行业共识:AGI研发需要持续大规模投入,短期商业化可能前功尽弃 [16]
东北证券:银行或为下游最先崛起的AI应用场景
智通财经网· 2025-05-14 11:58
银行AI应用前景 - 银行有望成为国内AI落地先锋,得益于充裕的IT预算资金、市场化系统和高整合度的内部数据 [1] - 大行已在投研、客服、信贷审批等领域实现AI技术规模化应用 [1][3] - IDC预测2024-2028年全球AI解决方案支出最多的行业是银行业的金融服务,占所有AI支出的20%以上 [3] DeepSeek-R1技术突破 - DeepSeek-R1推理成本仅为对标OpenAI o1系列的1/30,推动行业进入"AI普惠化"新阶段 [1] - DeepSeek-R1在数学、代码和推理任务方面达到与OpenAI-o1相当的性能 [1] - 成本优化归功于混合专家模型(MoE)架构、多头潜在注意力(MLA)机制及数据蒸馏与强化学习的结合 [1] 2025年AI Agent发展 - 2025年为AI Agent元年,Agent成为海内外大厂竞争焦点 [2] - AI Agent有望在办公助手、客户服务、内容推荐、制造和供应链管理、个人助手等领域率先落地 [2] - 模型、数据和场景是构建AI产品竞争力的三个关键要素,其中数据最为重要 [2] 银行AI应用场景 - AI技术提升金融服务智能化程度,应用于运维、代码开发、知识库管理、监管&风控等领域 [3] - 自2023年2月开始,大行积极布局大模型业务,落地场景包括投研、客服、员工助手、辅助编码、信贷审批等 [3] 具体标的公司AI布局 - 宇信科技:产品体系全面接入DeepSeek模型,涵盖信贷、数据和营销渠道等领域,推出星辰ChatBI与知识库融合 [4] - 京北方:发布AI大模型服务平台及4个重量级产品,助力客户在智能反欺诈、智能投顾等方面实现突破 [4] - 高伟达:实现DeepSeek与信贷业务深度融合,提升授信效率&财报分析智能化,应用于智能运维等多个环节 [4] - 天阳科技:发布智能测试分析系统、监管合规大模型(400+智能模型)及智能问数平台 [4] - 神州信息:升级金融知识问答和代码助手两大Agent,推出5个新Agent,金融智能编码平台提升开发效率20% [5]