Workflow
DeepSeek
icon
搜索文档
梅花创投吴世春:在不确定性中寻找 “确定性切口”
搜狐财经· 2025-05-08 12:06
投资哲学与策略 - 在不确定性中寻找"确定性切口",用长期主义对冲短期波动 [3] - 投资逻辑包括"人-事-时-值"合一,重视创始人个人魅力和团队执行力 [3][22] - 坚持"水下捕鱼"策略,提前布局AI+农业、AI+供应链等未爆发领域 [6] - 投资风格概括为"快准狠",决策迅速、精准识人、敢于冒险 [26] AI行业洞察 - DeepSeek的爆发本质是技术迭代与场景需求共振的结果 [3][4] - 国内在垂直应用层创新速度不逊于海外,但底层芯片、算力架构存在代差 [5] - 通用大模型窗口期已过,更关注SaaS工具应用型公司和垂类模型 [6] - 杭州成功在于"生态滋养",包括人才网络、民间资本活跃度和宽容失败的文化土壤 [7] 重点投资赛道 - 三大确定性较高赛道:AI+实体经济、合成生物、银发经济 [9] - 非传统指标包括数据壁垒、技术外溢性、组织韧性 [9] - 消费投资正在分化,关注新国货和银发消费 [17] - 文化自信回归带来IP商业化、沉浸式体验、非遗科技化机会 [17] 创业者特质 - 最看重三点:"偏执狂"般专注力、技术原创性、快速纠错能力 [8][22] - 80后创始人占硬科技项目80%,正在重构传统行业技术范式 [8] - 年轻创业者优势在于"技术直觉"和"全球化视野",但需补足商业落地能力 [8] 募资与退出策略 - 人民币LP结构重构,政府引导基金占比超70% [12] - 与产业强市共建主题基金,联合上市公司设立产业并购基金 [12] - 退出从"赌IPO"转向多元退出,包括产业并购和Pre-IPO战略配售 [13][14] 市场预测 - 硬科技IPO大年,半导体、AI、生物医药领域将诞生10家以上百亿市值公司 [25] - 政府引导基金从"行政主导"转向"市场化运作" [25] - 跨境投资回暖,人民币基金加速布局东南亚、中东市场 [25] 行业趋势 - A股牛市本质是"经济转型牛",资金从地产、互联网流向硬科技和高端制造 [18] - 科技创新领域将持续蓬勃发展,包括数字经济、人工智能应用、智能制造 [19] - 新能源与环保、生物技术与医疗、商业航天、消费与出海是未来10年机遇 [19] 机构类型 - 专业早期投资机构、产业资本、政府引导基金支持的机构能参与未来机会 [20] - 具备全球视野的投资机构可在全球范围内配置资产 [21]
曾鸣:下一个10年,人才是这样的
36氪· 2025-05-08 10:18
2022年12月OpenAI横空出世,似乎将我们带进了一个前所未有的"AI时代"。 今年初,DeepSeek这匹黑马,更是让我们开始深度拥抱AI。 最近两三年,AI技术几乎是以每周的速度迭代,它现在可以帮助我们生成内容、生成图片、生成视频,几乎只有我们想不到的问题,而没有它做不到的 事情。 那么,AI到底带来了哪些价值?未来3到5年,人工智能会发展到什么程度?对我们的工作和生活带来哪些根本性的改变? 阿里巴巴集团前总参谋长曾鸣认为,在AI时代,人工智能正以前所未有的速度颠覆商业世界,它不仅改变了工作方式,还在重塑企业的组织结构。 今天,我们汇总了曾鸣关于AI时代的智能经济和组织的一些思考,希望对你有所启发。 一、未来5到8年,智能体会怎样发展 智能经济和智能组织一个宏观一个微观互为背景,所以我没法把它拆开讲,因为那样的话就讲不清楚。 首先是想跟大家讲一下现在的AI公司都在干嘛,因为他们在干什么,代表了未来的10年我们会受到什么样的技术冲击。 过去的春节由于deepseek的火爆出圈。大家对于大模型是做什么已经非常清楚了,就是AI变得越来越聪明。 大家通过跟这个对话机器人的这些互动,可能已经感受到了这种智力上的 ...
一脚一脚踩出春天(金台随笔)
人民日报· 2025-05-08 06:40
基础建设的重要性 - 基础打得好才能举重若轻事半功倍所有向上生长的惊艳都源自向下扎根的力量[1] - 沙子踩实了树根才能扎得更牢村民通过一脚一脚踩实沙土来确保树苗稳固[1] - 不踩实沙土会导致大风带走沙土不利于保住墒情[1] 规划与执行的关系 - 基础打得不牢事业的大厦就立不稳雄安新区在建设前花费两年时间进行详细规划[2] - 雄安新区采取谋定而后动的策略成片开发混合开发融合开发地上地下云上三座城同步发展[2] - 规划阶段的慢工出细活确保了建设阶段的雄安速度和雄安效率[2] 长期积累与创新 - 打基础的工作往往看不见摸不着但长久积累才能寻求突破[3] - 胖东来走红后其他超市模仿却形似神不似最终流量回归平常[3] - DeepSeek选择创新技术路线通过自身摸索找到成本更低效率更高的路径[3] 压力与成长 - 适度的压力有利于成长成才如同压紧土壤有助于树苗吸收养分[3] - 张桂芳面对基础薄弱的村子通过一步步努力带领村民实现多项突破[4] - 干事创业的本领需经风见雨才能壮筋骨长才干化压力为动力[4] 长期视角与成果 - 所有向上生长的惊艳都源自向下扎根的力量坚持长远视角才能打牢基础[4] - 章古台镇的樟子松林将流动的沙海化成生命的绿洲村民通过脚踏实地的工作实现成果[4]
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
新浪科技· 2025-05-07 19:12
技术优化 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化,在RoCE网络环境性能提升100%,IB网络环境提升30% [1] - 优化后的技术方案获得DeepSeek公开致谢,被称为"huge speedup"代码贡献 [1] - 腾讯星脉网络团队发现DeepEP两大关键瓶颈:双端口网卡带宽利用率不足和CPU控制面交互时延 [2] - 技术优化后,DeepEP在RoCE网络实现性能翻倍,IB网络通信效率提升30% [2] 技术突破 - DeepSeek开源的DeepEP通信框架通过突破性方法提升300%通信效率,减少对英伟达NCCL的依赖 [2] - 优化措施包括:替换IBRC为IBGDA、为每个通道使用独立QP实现并行数据传输 [1] - 优化后internode带宽达到58GB/s(RDMA),internade带宽达到51GB/s(RDMA) [1] 应用与影响 - 该技术已全面开源并应用于腾讯混元大模型等项目的训练推理 [2] - 在腾讯星脉与H20服务器构建的高性能环境中展现出出色通用性 [2] - 技术优化使企业AI大模型训练获得更高效解决方案 [1]
梁文锋和杨植麟再“撞车”
创业家· 2025-05-07 17:57
大模型技术进展 - DeepSeek推出数学定理证明专用模型DeepSeek-Prover-V2,参数规模达6710亿,较前代V1.5的70亿参数提升近百倍,miniF2F测试通过率88.9%,解决普特南测试49道题 [3] - 月之暗面同期发布Kimina-Prover模型,开源1.5B和7B参数版本,miniF2F通过率80.7%,普特南测试解决10道题,性能低于DeepSeek-Prover-V2 [3] - 两家公司技术报告均强调强化学习应用,DeepSeek通过子目标分解优化数学推理,月之暗面聚焦形式推理模型架构 [4] 公司竞争格局 - DeepSeek面临阿里巴巴开源模型追赶,通义千问Qwen3参数量为R1的1/3但性能全面超越,阿里开源模型全球下载量超3亿次,衍生模型超10万个 [15] - 月之暗面Kimi用户增长受字节跳动豆包和腾讯元宝挤压,QuestMobile数据显示2025年2月AI应用月活排名为DeepSeek(1.94亿)、豆包(1.16亿)、腾讯元宝(4200万),Kimi跌出前三 [14] - 腾讯元宝通过微信引流和14亿元投流费用实现用户快速扩张,超越Kimi的1.5亿元营销投入 [14] 技术路径与产品迭代 - DeepSeek押注数学/代码、多模态、自然语言三大AGI路径,数学与代码被视为封闭可验证的智能试验场 [7] - Prover-V2基于DeepSeek-V3微调,采用子目标分解和思维链技术强化推理能力,与R2/V4版本无直接关联 [9] - 市场传闻R2模型可能采用华为昇腾芯片,但行业人士指出其生态系统和训练鲁棒性存在短板 [10][11] 行业动态与挑战 - 百度发布文心4.5 Turbo和X1 Turbo,成本更低且性能提升,计划6月开源文心大模型系列 [16] - 李彦宏公开批评DeepSeek存在处理单一文本、幻觉率高、响应速度慢等缺陷,但承认其行业影响力 [16] - 头部公司持续面临创新压力,DeepSeek需推出R2/V4巩固优势,月之暗面通过内测社区功能增强用户粘性 [5][14]
【产业互联网周报】阿里通义再失大将:鄢志杰、薄列峰三个月内相继离职;欧盟对TikTok处以5.3亿欧元罚款;英伟达:中国特供版GPU将6月上市
钛媒体APP· 2025-05-07 17:00
财报季 - Palantir第一季度营收达8.84亿美元,同比增长39%,高于分析师预期的8.63亿美元;调整后EBITDA为3.973亿美元,高于预期的3.71亿美元;公司上调2025年全年营收指引至38.9亿-39.02亿美元,超过市场预期的37.5亿美元 [2] - AWS第一季度云计算业务销售额为292.67亿美元,同比增长17%,营业利润为115.47亿美元,同比增长23%,但增速放缓导致亚马逊股价下跌超3% [3] - 微软云服务营收达424亿美元,同比增长20%(固定汇率增长22%),智能云营收达268亿美元,增长21%(固定汇率增长22%),Azure及其他云服务增长高达33%,推动公司市值重返3万亿美元 [4] 人工智能与大模型 - 小米开源推理大模型Xiaomi MiMo,在数学推理和代码类测评上超越OpenAI的o1-mini模型 [4] - DeepSeek发布Prover-V2模型,参数量达6710亿,采用MoE架构和FP8量化技术,支持超长上下文处理 [5] - 华为发布AI数据湖解决方案,集成数据存储、管理和AI工具链,加速模型训练与推理 [6] - 阿里巴巴开源Qwen3模型,参数量235B,激活仅需22B,性能超越全球顶尖模型,成为最强开源模型 [8] - Kimi发布长思考模型API,具备多模态推理能力,擅长解决复杂问题 [13] - OpenAI以30亿美元收购AI编码辅助工具Windsurf,创公司最大收购记录 [14] 算力与芯片 - 腾讯、阿里等中国企业一季度下单至少160亿美元英伟达H20芯片,字节跳动据称拥有约100万张GPU卡 [9] - 英伟达中国特供版GPU将于6月上市,调整设计以符合美国出口法规 [18] - 微软冻结1.5GW自建数据中心计划,放弃超2GW非约束性租赁合同,但仍持有5GW约束性租赁容量 [17] 企业动态 - 中国一汽发布汽车行业首个AI Agent OpenMind,基于阿里通义大模型打造,支持全集团运营管理 [7] - 腾讯TEG架构调整,成立大语言模型部和多模态模型部,计划三年投入500亿元突破AI技术短板 [12] - 蚂蚁集团计划将海外板块蚂蚁国际在香港上市,收入占集团两成 [10] - 阿里巴巴通义实验室应用视觉团队负责人薄列峰离职,加入竞对公司 [11] 行业趋势与政策 - 2024年中国MaaS市场规模达7.1亿元,同比增长215.7%,预计2029年达90亿元;AI大模型解决方案市场规模34.9亿元,增长126.4% [22] - 中国AI产业规模突破7000亿元,连续多年保持20%以上增速,浙江首次超越广东、上海、北京位居区域潜力第一 [23] - 新版《国家智能制造标准体系建设指南》发布,聚焦AI等新技术与制造业融合应用 [24] 国际动态 - DeepSeek在暂停两个多月后重返韩国市场 [16] - 欧盟对TikTok处以5.3亿欧元罚款,因违规传输欧盟用户数据至中国 [17] - 英伟达公开批评Anthropic支持美国AI芯片出口管制政策 [19] 融资与并购 - 美国AI初创公司Manychat完成1.4亿美元B轮融资 [19] - 谛声科技完成过亿元D轮融资,北京市先进制造业基金领投 [20] - 予路乾行完成数千万元A轮融资,元生创投领投 [21]
计算机行业周报:DeepSeek-Prover-V2创数学推理新高,阿里通义千问推出Qwen3模型
华鑫证券· 2025-05-07 16:23
报告行业投资评级 - 推荐(维持) [1] 报告的核心观点 - 全球算力有望节后共振,微软和 Meta 超预期表现给 AI 需求注入强心剂,建议关注嘉和美康、科大讯飞等公司 [11][48][49] 根据相关目录分别进行总结 算力动态 - 数据跟踪:本周算力租赁价格平稳,不同显卡配置和平台的价格有差异且环比上周无变化 [20][23] - 产业动态:4 月 30 日 DeepSeek 发布 DeepSeek - Prover - V2 数学推理模型,有 7B 和 671B 两种参数规模,在多基准测试中表现先进,能解出 AIME 竞赛部分问题;该模型通过两阶段训练,有高效非思维链和高精度思维链两种模式,性能测评显示其有强大形式化推理能力 [21][22] AI 应用动态 - 流量跟踪:2025.4.26 - 2025.4.30,AI 相关网站中 ChatGPT 访问量居首,Character.AI 访问量环比增速第一,Gemini 平均停留时长环比增速第一 [26][29] - 产业动态:4 月 29 日阿里通义千问推出 Qwen3 模型,旗舰模型 Qwen3 - 235B - A22B 等在基准测试中竞争力强;Qwen3 支持思考和非思考两种模式,预训练数据集规模大幅提升,已成为全球第一开源模型族群 [27][30] AI 融资动向 - 5 月 1 日身份验证初创公司 Persona 完成 2 亿美元 D 轮融资,估值达 20 亿美元;该公司为 3000 多家客户提供云端身份验证解决方案,利用 AI 技术整合多维数据,反映 SaaS 赛道从工具化向智能化升级 [34][35] 行情复盘 - 本周 AI 算力指数、AI 应用指数、万得全 A、中证红利日涨幅最大值分别为 2.70%、2.10%、0.41%、 - 0.02%,日跌幅最大值分别为 - 1.14%、0.04%、 - 0.61%、 - 0.66%;AI 算力指数内天源迪科涨幅最大,*ST 云创跌幅最大;AI 应用指数内鸿博股份涨幅最大,ST 赛为跌幅最大 [39] 投资建议 - 微软第三财季营收 701 亿美元,同比增 13%,净利润 258 亿美元,同比增 18%,商业云收入 424 亿美元,Azure 收入增长 33%,AI 贡献 16 个百分点;Meta 2025 年第一季度营收 423.1 亿美元,同比增 16%,净利润 166.4 亿美元,同比增 35%,上调 2025 年资本支出预测;建议关注嘉和美康、科大讯飞等公司 [11][48][49]
计算机行业周报:DeepSeek-Prover-V2创数学推理新高,阿里通义千问推出Qwen3模型-20250507
华鑫证券· 2025-05-07 14:24
报告行业投资评级 - 推荐(维持) [1] 报告的核心观点 - 全球算力有望节后共振,微软和 Meta 超预期表现给 AI 需求注入强心针,建议关注嘉和美康、科大讯飞等公司 [11][48][49] 根据相关目录分别进行总结 算力动态 - 数据跟踪:本周算力租赁价格平稳,不同显卡配置在各平台价格有别且环比上周无变化 [20][23] - 产业动态:4 月 30 日 DeepSeek 发布 DeepSeek - Prover - V2 数学推理模型,有 7B 和 671B 两种参数规模,在多基准测试中表现先进,能解出 AIME 竞赛部分问题;该模型通过两阶段训练,有高效非思维链和高精度思维链两种模式,性能测评显示其有强大形式化推理能力 [21][22] AI 应用动态 - 流量跟踪:2025.4.26 - 2025.4.30,AI 相关网站中 ChatGPT 访问量居首,Character.AI 访问量环比增速第一,Gemini 平均停留时长环比增速第一达 3.45% [26][29] - 产业动态:4 月 29 日阿里通义千问推出 Qwen3 模型,旗舰模型 Qwen3 - 235B - A22B 等在基准测试中竞争力强;支持思考和非思考两种模式;预训练数据集规模近翻倍达约 36 万亿个 token,覆盖 119 种语言;Qwen 系列成全球第一开源模型,衍生模型数超 10 万个 [27][30] AI 融资动向 - 5 月 1 日身份验证初创公司 Persona 完成 2 亿美元 D 轮融资,估值达 20 亿美元;为 3000 多家客户提供云端身份验证解决方案,2024 年完成超 3 亿次身份验证,客户和营收翻倍增长;在 AI Agent 时代,身份验证向可信度评估体系升级,反映 SaaS 赛道从工具化向智能化演进 [34][35] 行情复盘 - 本周 AI 算力指数/AI 应用指数/万得全 A/中证红利日涨幅最大值分别为 2.70%/2.10%/0.41%/-0.02%,日跌幅最大值分别为 - 1.14%/0.04%/-0.61%/-0.66%;AI 算力指数内天源迪科涨幅最大,*ST 云创跌幅最大;AI 应用指数内鸿博股份涨幅最大,ST 赛为跌幅最大 [39] 投资建议 - 微软第三财季营收 701 亿美元,同比增 13%,净利润 258 亿美元,同比增 18%,商业云收入 424 亿美元,Azure 收入增长 33%,16 个百分点由 AI 服务贡献;Meta2025 年第一季度营收 423.1 亿美元,同比增 16%,净利润 166.4 亿美元,同比增 35%,上调 2025 年资本支出预测至 640 亿 - 720 亿美元;建议关注嘉和美康、科大讯飞等公司 [11][48][49]
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
机器之心· 2025-05-07 12:34
强化学习范式革新 - 强化学习(RL)成为AI模型性能提升的新范式 尤其体现在DeepSeek-R1和R1-Zero模型的突破性进展上 [2][3][20] - 传统预训练Scaling Law面临数据耗尽危机 Ilya Sutskever预测互联网数据作为预训练燃料的时代即将终结 [16][19] - 模型改进形成三支柱框架:预训练Scaling 测试时间计算(TTC) Scaling 强化学习微调Scaling 其中RL可形成自我改进闭环 [25][26] DeepSeek技术路径 - 创新性采用GRPO(组相对策略优化)替代PPO 移除价值模型和复杂奖励系统 计算开销降低50% [44][45][46] - R1-Zero完全摒弃监督微调(SFT) 通过硬编码验证器实现纯强化学习训练 但输出可读性差 [35][37] - R1模型分四阶段优化:冷启动SFT→GRPO→拒绝采样SFT→RL微调 平衡推理能力与人类可读性 [52][54][56] 去中心化应用潜力 - 训练场(Training Grounds)模块最具去中心化价值 可分布式生成数学/物理/编程等领域的验证型推理数据 [73][74][77] - PETALS框架实现模型层分布式托管 支持8位量化通信 176B参数模型可在消费级GPU协作推理 [92][94][98] - RL Swarm架构实现策略模型P2P协作学习 在Qwen-2 5B模型实验中输出质量提升30% [102][103][104] 硬件与算法协同 - FP8量化技术大幅降低内存需求 4000系以上NVIDIA显卡可支持 促进异构硬件参与 [84][87][89] - DiPaCo路径分片技术使MoE模型训练分布式成为可能 150M参数路径可匹配13B密集模型效果 [99][101] - 模块化专家系统(如HDEE)预示未来方向 异构领域专家可并行训练后集成 [106][107] 行业生态演进 - Hugging Face启动Open R1项目 旨在完全开源复现R1技术栈 [109] - Prime Intellect通过SYNTHETIC-1项目尝试分布式复制R1训练流程 [109] - 谷歌DeepMind与哈佛合作证明8位量化PPO训练速度提升1 5-2 5倍 [87]