DeepSeek

搜索文档
应用很散 一揽子?
小熊跑的快· 2025-06-10 09:55
全球AI发展趋势 - 全球AI发展重心从训练转向推理,软件应用开始涌现 [1] - 2024年知名模型发布数量同比下降,美国以40个模型位居首位(2023年为61个,同比下降34.43%) [1] - OpenAI、谷歌和阿里巴巴是2024年贡献知名模型最多的机构,分别发布7个、7个和4个模型 [1] - 模型参数数量持续快速增长,规模扩大仍是提升性能的重要方式 [1] - 延长AI推理时间可显著提升性能,医疗诊断准确率提升6%-11% [1] AI工具与开发人员采用率 - 2023-2024年开发人员采用AI工具率从44%提升至63% [2][3] - Google每月处理Tokens增长50倍,Microsoft Azure AI Foundry处理Tokens增长5倍 [2][3] - AI模型训练成本高,但推理成本下降推动性能提升和开发人员使用量上升 [2][3] 基础模型收入与下游应用 - OpenAI年收入37亿美元,Anthropic年收入20亿美元,Perplexity年收入1.2亿美元 [3] - 美国AI应用在2024年8月开始起量,包括军工(Palantir)、教育(Duolingo)、医疗(Tempus)等领域 [3] - 国内AI应用仍处于产品发布阶段,与美国差距缩小至1.5-2年 [3] AI产品市场表现 - Manus的APP MAU达709.77K,同比增长2636.47% [4] - DeepSeek的APP MAU达96.88M,同比增长25.81% [4] - TalkAl练口语的APP MAU达1.49M,同比增长15.24% [4] 公募基金配置与市场调整 - 计算机公募基金配置比例为3.1%,从高点下跌13% [4] - 软件板块调整较充分,数据ETF(516000)从高点下跌20% [4] - 传媒板块基金持仓占比1.74%,从高点下跌11% [4] 芯片ETF与AI应用爆发 - 芯片ETF(159995)从高点下跌15%,但有望随AI应用爆发而回升 [5] - 数据ETF(516000)从2月24日开始调整,市场存在修复需求 [9] 市场情绪与产业革命 - AI作为全球最大产业革命,美股创新高,但A股AI软硬件表现滞后 [9] - 市场对AI替代和行业调整存在复杂情绪 [10]
报道:DeepSeek核心高管离职创业,瞄准Agent赛道
快讯· 2025-06-09 21:02
高管离职创业 - 某DeepSeek核心高管已离职创业 计划于2025年圣诞节前后发布Agent产品 [1] - 该高管被描述为原DeepSeek CTO 但公司内部并无明确CTO职位设置 仅有承担相应职能的人士 [1] - 创业项目已获得某头部VC融资 [1] 公司职位架构 - DeepSeek内部未设立正式CTO职位 但存在履行类似职责的人员 [1]
DeepSeek核心高管离职创业,瞄准Agent赛道
虎嗅APP· 2025-06-09 20:54
核心高管离职创业 - 半年前某DeepSeek核心高管离职创业 计划于2025年圣诞节前后发布Agent产品 该高管被传为原DeepSeek CTO 但公司内部并无明确CTO职位设置 [2] - 离职时间点耐人寻味 正值DeepSeek发布开源V3模型和推理模型R1的热度高峰期 创业项目已获头部VC融资 [2] - 行业人士指出 头部大模型公司技术人才自带光环 在资本市场极具吸引力 尤其是参与过核心模型研发的高管 [2] AI行业人才流动现象 - OpenAI联合创始人出走 国内大厂AI团队人才分流等现象显示 高端AI人才流动已成行业常态 [3] - 典型案例为OpenAI前首席科学家伊利亚2024年5月离职后创立SSI 公司总融资达30亿美元 估值飙升至320亿美元 [4] - 现象反映行业三大特点:技术迭代快创造创业窗口期 大公司技术路线固化限制创新 AI人才稀缺使核心高管具备创业竞争力 [4] 大公司与创业环境对比 - AI创业者认为大模型公司技术积累宝贵 但创新更易发生在灵活环境 创业能结合技术积累与突破路径依赖的优势 [5] - DeepSeek近期招聘多个财务岗位引发融资猜测 尽管公司明确否认近期有融资或IPO计划 但市场疑虑持续存在 [5] 行业热点关注 - 市场对DeepSeek的关注聚焦两点:推理模型R2发布时间 以及公司是否启动融资或IPO计划 [5] - 行业头部公司技术动向与人才流动持续成为焦点 反映出AI领域技术竞争与资本活跃度的高度关联性 [2][4][5]
科技巨头继续砸钱“撑腰” AI基础设施股一扫阴霾迎反弹
智通财经网· 2025-06-09 19:33
AI基础设施概念股表现 - AI基础设施概念股在年初大幅下跌后大幅上涨,高盛追踪的两个股票组合分别较4月低点上涨52%和39% [1] - 表现突出的公司包括Vertiv Holdings(自4月4日以来上涨94%)和Constellation Energy(同期上涨75%) [1] - 大型科技公司(亚马逊、Alphabet、微软、Meta)持续投入AI领域,消除市场对资金流向的疑虑 [1] 行业资本支出与投资动态 - 支持AI需求的资本支出预测自年初以来增长16% [1] - 亚马逊计划在北卡罗来纳州投资100亿美元扩建数据中心设施以支持AI和云计算 [4] - 特朗普推出"Stargate"项目,计划未来四年投入5000亿美元用于AI基础设施建设 [7] 市场情绪与竞争格局 - 财报季显示生成式AI依赖铜、电力等物质资源,而非空洞口号 [2] - DeepSeek凭借低成本自主研发系统与美国公司竞争,其升级版AI模型性能更优 [7] - 大型科技公司财报表明AI投资计划按计划进行(如Meta数百亿美元投资) [4] 历史背景与波动因素 - 2023年AI基础设施公司股票表现优异,因市场对AI商业潜力期待引发数据中心投资热潮 [4] - 2024年初市场因DeepSeek竞争和贸易不确定性担忧导致抛售潮 [4] - 特朗普暂停关税措施改善投资者情绪,标普500指数接近历史高点 [4]
WWDC前夕,苹果论文“炮轰”AI推理模型“假思考”,测试方法遭质疑
每日经济新闻· 2025-06-09 19:06
苹果机器学习研究中心论文核心观点 - 论文认为现有推理模型的"思考"能力是一种"幻象",缺乏稳定可理解的思维过程 [1][4] - 指出OpenAI、Anthropic、谷歌和DeepSeek等公司推出的链式思考(CoT)模型声称接近"类人思维"存在争议 [4] - 批评当前评估方法存在数据污染风险,缺乏对思考过程质量的量化分析 [4] 实验设计与发现 - 设计四类谜题环境(汉诺塔/跳棋交换/过河问题/积木世界)测试模型推理能力 [4] - 低复杂度任务中非推理模型更准确高效,中等复杂度时推理模型显现优势 [6] - 问题难度超过临界点后两类模型准确率均降为零,显示未突破能力瓶颈 [6][7] - 发现模型存在"缩放限制"现象:难度超限时即便有充足计算预算也会减少思考投入 [9] 推理过程异常现象 - 简单问题中模型过早找到正确答案却继续无效思考 [10] - 中等复杂度问题存在路径偏差,后期才修正答案 [11] - 高复杂度任务中推理痕迹变得混乱不连贯 [11] - 汉诺塔测试中即使提供完整解题算法,模型表现仍无改善 [11] 行业争议与反驳 - 研究者指出实验失败源于输出token限制而非推理能力缺陷 [12] - 观点认为存在复杂度阈值不等于否定全部推理能力 [12] - 批评声音认为苹果聚焦记录局限性缺乏建设性 [12] - 行业观察者质疑苹果因AI进展滞后而贬低竞争对手 [13] 苹果AI发展背景 - WWDC 2025前夕被曝AI进展有限,Siri升级可能继续延期 [14] - 去年宣布的Siri重构未见实质性推进 [15] - 内部消息透露进展受阻与组织协作问题、隐私政策限制有关 [15]
AGI最后拼图,一文看懂什么是强化学习?其护城河是什么?
华尔街见闻· 2025-06-09 18:47
当DeepSeek-R1以更低成本实现类似性能突破时,Claude能够连贯工作数小时完成复杂任务时,意味着AI发展已经迈入推理时代,强化学习技术的 重要性不言而喻,将重塑AI产业的技术栈乃至商业模式。 6月8日,AI研究公司SemiAnalysis发布长篇报告《强化学习:环境、奖励破解、智能体、扩展数据》,深度剖析了强化学习的工作原理以及影响 因素,并预测了后续AI发展趋势。 报告表示,强化学习(RL)或成为AGI前最后关键范式,其理密集型特性带来了算力挑战。此外,高质量数据是强化学习护城河,AI设计AI的循 环加速技术迭代。 1. 强化学习(RL)或成为AGI前最后关键范式:强化学习是推动大模型推理能力跃升的核心技术,尤其在思维链(CoT)生成和长 程任务连贯性上表现突出,被视作实现AGI前的终极技术路径。 2. 可验证奖励场景率先商业化:编码、数学等奖励函数明确的任务(如SWE-Bench性能提升30%+)已实现落地,OpenAI的o1、 DeepSeek-R1等模型验证其价值。医疗、写作等非验证领域通过"LLM评判者+人工评分标准"构建奖励函数(如HealthBench医疗 评估),OpenAI、阿里Q ...
赚钱模式,彻底变了
虎嗅· 2025-06-09 17:16
嘉御资本投资成果 - 孵化30多家独角兽及超级独角兽企业,包括泡泡玛特、安克创新、沪上阿姨、思摩尔国际等知名品牌 [2] - 泡泡玛特两年内市值暴涨超10倍突破3300亿,沪上阿姨2024年门店近万家并登陆港交所,安克创新产品获特朗普使用 [2] - 投资版图从消费扩展到出海与科技领域,持续投出传奇公司 [3] 效率为王核心理念 - 增量经济时代优先追求速度与规模,存量时代效率应成为第一优先级 [10][14] - 效率是穿越周期的核心能力,创新若缺乏效率则无法持续 [9][13] - 存量经济中效率比拼如同油耗控制,同等条件下低耗能企业走得更远 [13] 存量经济与国民品牌 - 存量经济阶段更易诞生国民品牌,如日本优衣库、美国Costco均在经济放缓期崛起 [19][20][21] - 中国国民品牌雏形显现,小米从千亿市值成长为万亿市值,瑞幸、锅圈食汇具备下沉潜力 [23][24][25] - 国民品牌需满足三要素:产品下沉、店型下沉(加盟模式18个月回本)、管理下沉(区域密度优先) [30][31][39][42] 消费行业策略 - 产品下沉需从性价比转向价性比,定价后持续提升性能形成壁垒 [35][36] - 万店连锁需设计单店模型保障加盟商利益,管理依赖区域密度优化供应链与督导效率 [37][42] - 国民品牌需聚焦"山河四省"市场,由北向南拓展,并实现淡季不淡的产品场景延伸 [43][44][45] - 产品渠道合一(贸工技三位一体)是核心模式,如泡泡玛特自控渠道、Costco自有品牌占比70%-80% [49][50][57] 出海与科技趋势 - 出海需分散市场与制造,东南亚布局30%产能以应对关税风险 [60][62] - AI领域决胜关键在于"用得起",如DeepSeek将训练成本降至1/10-1/20 [70] - 预测AI将减少手机APP数量、缩短每周工作时间至4天、推动人类平均寿命至100岁 [72][74][75] 创始人能力与职业发展 - 创始人需具备价值观贯穿能力与学习能力,如泡泡玛特转型"双料地主"模式 [77][79] - 职业选择遵循"五新"原则(新行业/公司/部门/岗位/任务)避免内卷 [84][85] - 职场前十年应补短板优化个人资产负债表,而非聚焦短期薪酬 [87][92]
开启端侧长文本时代!面壁全新架构,让小钢炮最快提升220倍
机器之心· 2025-06-09 16:03
端侧大模型技术突破 - 面壁智能发布MiniCPM 4.0模型,实现行业首个系统级上下文稀疏语言模型创新,稀疏度达5%,开启端侧长文本时代[3][4] - MiniCPM 4.0分为8B和0.5B两个版本,8B版本在长文本推理速度上比Qwen-3-8B等模型快5倍,极限场景下最高220倍加速[5] - 在128K长文本场景下,8B版本仅需Qwen3-8B 1/4的缓存存储空间,大幅降低资源需求[5][16] 性能表现 - MiniCPM 4.0-8B在MMLU、CEval等基准测试中性能对标Qwen-3-8B,超越Gemma-3-12B[10] - 0.5B版本实现每秒600 token高速推理,性能超越Qwen-3 0.6B[11] - 采用"高效双频换挡机制",根据任务自动切换稀疏/稠密注意力模式,实现不同任务的高效响应[13] 技术创新 - 提出InfLLM v2可训练稀疏注意力层,稀疏度从行业40%-50%降至5%,计算量仅为1/10[26][29] - 自研CPM.cu推理框架实现5倍速度提升,BitCPM量化算法实现4-bit量化,模型瘦身90%仍保持性能[31][32] - 开发UltraClean数据过滤策略,验证成本下降90%,处理15万亿token数据仅需1000小时CPU时间[33] 行业影响 - 模型已在英特尔、高通、华为昇腾等主流芯片平台完成适配,支持多种开源框架部署[18] - 与DeepSeek形成技术互补,面壁专注端侧稀疏化方案,DeepSeek强化云端模型能力[42][43] - 提出大模型"密度定律",认为语言模型能力密度每100天翻一番[49] 未来发展 - 计划近期推出更多MiniCPM系列基础模型及多模态模型[51] - 模型已在可信调查问卷生成、工具使用等场景展现广泛可用性[38] - 技术突破将推动手机、车机等端侧AI模型更新,可能重塑应用生态[19]
阿里3800亿押注算力,智谱AI大打价格战,AI五强争霸背后的生态博弈与估值困局
犀牛财经· 2025-06-09 11:15
从"百模混战"到"五强争霸"AI格局重塑 2024年堪称中国大模型产业的分水岭,尤其是在技术和资本门槛双双提升的背景下,市场已从初期的野蛮生长进入深度洗牌阶段。曾经涌现的百余家参赛者 中,仅字节跳动、阿里巴巴、阶跃星辰、智谱AI与DeepSeek五家企业脱颖而出。 其中,DeepSeek的横空出世极具象征意义,其最新模型以GPT-4的1%成本实现90%性能,将推理效率提升62倍。这种突破并非偶然,背后是长达18个月的工 程优化积累,涉及MoE架构创新、多token预测算法等23项核心技术专利。数据显示,其模型推理能耗较行业平均降低89%,彻底打破"算力军备竞赛"的固有 认知。 除"技术尖子生"DeepSeek之外,头部阵营的其他玩家也在大模型的投入规模上对中小企业形成碾压优势。比如,字节跳动在2024年就AI相关资本开支达800 亿元,相当于百度、阿里、腾讯三家之和的80%,阿里宣布未来三年投入3800亿元建设AI基础设施,超过其过去十年总和。这种千亿级量级的投入正在改变 游戏规则——中小玩家已无力参与基础模型竞争。 与此同时,生态闭环也在加速构建。其中,头部企业正通过垂直整合形成生态壁垒。字节跳动构建起从豆 ...
跻身史上最大私营融资!传Meta(META.US)拟豪掷数十亿美元投资Scale AI加码AI数据军备竞赛
智通财经网· 2025-06-09 08:01
Meta投资Scale AI - Meta正就向Scale AI进行数十亿美元投资展开谈判 估值可能超过100亿美元 成为有史以来规模最大的私营企业融资事件之一 [1] - 2024年Scale AI在一轮包括Meta参与的投资中估值已达约140亿美元 [1] - 对Meta而言 与Scale深化合作有助于其跟上谷歌 OpenAI等AI竞争对手的步伐 也有助于在其更多涉足国防科技之际与美国政府建立更紧密联系 [2] - 对Scale来说 与Meta的合作将带来一个强大且财力雄厚的盟友 [2] Scale AI业务与地位 - Scale已成为AI三大支柱——芯片 人才和数据——中数据领域的绝对领导者 [1] - 通过庞大外包团队为Meta和OpenAI等科技公司提供AI模型训练所需的数据标注服务 并协助开发定制化AI应用 [1] - 正越来越多地招募博士 护士等高学历专家参与复杂模型的开发 [1] - 早期专注于标注汽车 交通信号灯和路标的图像以帮助训练自动驾驶汽车模型 后转向注释和管理构建支撑ChatGPT等聊天机器人所需的海量文本数据 [3] - 重点转向医疗法律等专业领域 例如提升AI处理各国税法差异的能力 [4] - 越来越多地转向聘请薪资更高的研究生学历承包商来优化AI系统 参与强化学习过程 [4] - 截至2025年初 在参与模型优化过程的公司贡献者中 12%拥有分子生物学等领域的博士学位 超40%拥有所在领域的硕士学位 法律学位或MBA学位 [4] Scale AI增长与影响 - 2024年营收约8.7亿美元 预计今年营收达20亿美元 [4] - 在DeepSeek崛起后 对专家网络的需求增加 因为更多公司投资于模仿人类推理 执行更复杂任务的模型 [4] - 28岁的Wang曾在国会听证会上提出建立"国家AI数据储备库" 保障数据中心供电等建议 获得两党议员认可 [3] - 通过国防合同深化与政府合作 公司前高管Michael Kratsios现已成为特朗普的核心科技顾问 [3] - 发展轨迹既受OpenAI引发的AI热潮影响 也反作用于这一趋势 [3]