DeepSeek

搜索文档
摩根士丹利:DeepSeek R2-新一代人工智能推理巨擘?
摩根· 2025-06-06 10:37
报告行业投资评级 - 行业观点为有吸引力,重申对DISCO和Advantest的买入评级 [5][7][11] 报告的核心观点 - DeepSeek R2可能即将发布,若其开发出轻量级、高性能、低成本的生成式AI,将推动生成式AI在更广泛领域的应用,对半导体生产设备(SPE)行业有利 [1] - 高效AI模型R2的发展将使更多用户以低成本使用高性能模型,推动生成式AI的普及和市场扩张,DISCO和Advantest将受益于AI相关设备需求的增长 [7] 根据相关目录分别进行总结 DeepSeek R2的特点 - 新R2模型有1.2万亿个参数,780亿个活跃参数,采用混合专家模型(MoE)架构,成本效率高,输入成本为每百万令牌0.07美元,输出成本为每百万令牌0.27美元,使用华为Ascend 910B芯片进行训练 [3] - 具备增强的多语言能力、更广泛的强化学习范围、多模态功能和推理时间扩展等升级特性,幻觉率降低 [7][9] DeepSeek R1-5028模型 - 5月29日,DeepSeek发布R1-5028模型,采用增强的训练后强化学习技术,在数学和编程方面表现出色,解决2025年美国高中数学奥林匹克竞赛问题的正确率从70%提高到87.5%,OpenAI最新推理模型o3得分88.9% [10] 生成式AI对SPE的影响 - 若DeepSeek持续开发高性能、轻量级模型,将推动生成式AI的普及,增加对GPU、HBM等AI设备的需求,对整体AI设备相关SPE市场有利 [11] 公司估值 - DISCO目标市盈率为25.1倍,基于2028年3月预期每股收益2724日元计算目标价 [12] - Advantest应用14.0倍市盈率,基于2028年3月预期每股收益737.1日元计算目标价为10300日元 [15] 行业覆盖公司评级 - Advantest、DISCO、SCREEN Holdings评级为买入;KOKUSAI ELECTRIC、Lasertec、Tokyo Electron、Ulvac、Ushio评级为持有;Nikon评级为卖出 [70]
摩根士丹利:DeepSeek R2 可能即将发布-对日本SPE行业的影响
摩根· 2025-06-06 10:37
报告行业投资评级 - 行业评级为“Attractive”(有吸引力)[5] - 重申对DISCO和Advantest的“OW”(增持)评级 [7][11] - 对KOKUSAI ELECTRIC、Lasertec、Tokyo Electron、Ulvac、Ushio评级为“E”(持股),对Nikon评级为“U”(减持),对SCREEN Holdings评级为“O”(增持) [70] 报告的核心观点 - DeepSeek R2若成功开发出轻量级、高性能、低成本生成式AI,将推动生成式AI在更广泛领域应用,对半导体生产设备(SPE)行业有利 [1] - 高效AI模型R2发展将使更多用户以低成本使用高性能模型,促使生成式AI普及和市场扩张,DISCO和Advantest将受益于AI相关设备需求提升 [7] 根据相关目录分别进行总结 DeepSeek R2特点 - 有1.2万亿参数(R1为6710亿),780亿为活跃参数,采用混合专家混合架构,成本效率高,输入成本为每百万令牌0.07美元(R1为0.15 - 0.16美元),输出成本为每百万令牌0.27美元(R1为2.19美元),使用华为Ascend 910B芯片训练 [3] - 增强多语言能力,能流畅处理非英语语言;强化强化学习范围,推理更具逻辑性和类人性;增加多模态功能,可处理文本、图像、语音和视频数据;实现推理时扩展,通过采用通用奖励模型增加计算资源提高输出 [9] DeepSeek R1-5028情况 - 5月29日发布,采用增强的训练后强化学习技术,擅长数学和编程,解决复杂问题逻辑性强,解决2025年美国高中生国际数学奥林匹克竞赛问题正确率从70%提升到87.5%,OpenAI最新推理模型o3正确率为88.9%,通过分配更多计算资源减少幻觉率 [10] 公司估值 - DISCO目标市盈率25.1倍,基于2028年3月财年每股收益2724日元估值 [13] - Advantest应用14.0倍市盈率,基于2028年3月财年每股收益737.1日元,目标价10300日元 [16]
人工智能分析2025年第一季度AI现状
傅里叶的猫· 2025-06-05 20:25
DeepSeek R2分析 - 采用1.2万亿参数和混合专家架构(MoE),活跃参数达780亿,显著降低运行成本 [1] - 使用华为Ascend 910B芯片训练,增强多语言覆盖和多模态能力(文本、图像、语音、视频) [1] - 成本效益突出:输入成本降至0.07美元/百万代币(R1为0.15-0.16美元),输出成本0.27美元/百万代币(R1为2.19美元) [1] 2025年AI六大趋势 AI持续进步 - OpenAI的o4-mini和o3、Google的Gemini 2.5 Pro、xAI的Grok 3引领智能前沿,开源模型(如DeepSeek R1)性能接近专有模型 [3] - Google通过TPU加速器至Gemini模型的垂直整合占据优势,大型科技公司覆盖全模态,中小型玩家专注特定领域 [3] 中国AI崛起 - DeepSeek和阿里巴巴等中国实验室开源模型智能水平媲美美国,缩小全球竞争差距 [4] 推理模型 - 推理模型通过生成中间token提升准确性,Google Gemini 2.5 Pro在MMLU-Pro等评估中表现优于非推理模型(如GPT-40) [5] - 非推理模型在速度和成本敏感任务中仍具优势 [5] AI代理 - 多LLM串联实现端到端任务自主处理,提升复杂工作流程效率 [6] 效率与MoE - 小型模型智能提升和硬件进步推动推理成本下降,MoE架构通过部分参数激活提高效率 [7] 多模态AI - **图像生成**:GPT-40设视觉质量新标杆,Google Veo 2超越Sora [8] - **语音处理**:OpenAI和ElevenLabs在语音转文本领先,MiniMax Speech-02-HD接近人类对话水平 [9] 竞争格局与基准测试 - OpenAI的o4-mini和Gemini 2.5 Pro仍领先,但开源模型(DeepSeek R1、Llama 3.1)差距缩小 [14] - 美国实验室(OpenAI、Google等)与中国(DeepSeek、阿里巴巴)、欧洲(Mistral)竞争激烈 [14] - 基准测试基于MMLU-Pro等七项评估,推理模型在智能指数中表现更优 [19][24] 成本与性能 - 高性能模型(智能指数≥50)推理成本为64美元/百万代币,低成本模型(如DeepSeek R1)仅0.125美元/百万代币 [29] - 推理模型输出token消耗显著高于非推理模型,但准确性更高 [27] 多模态厂商分布 - 通用实验室(OpenAI、Google)覆盖全模态,专注型厂商(Midjourney、Runway)主攻媒体生成 [34]
从OpenAI到DeepSeek:你必须知道认知型创新对企业家多重要
混沌学园· 2025-06-05 17:28
AI技术发展历程 - 2017年谷歌大脑团队提出Transformer模型 奠定语言模型发展基础 [1] - 2023年ChatGPT爆火拉开AI商业化序幕 2025年DeepSeek实现技术平权 用十分之一成本达到同等效果 [3] - AI发展史本质是认知建模史 从1943年MP神经元模型到2017年Transformer架构 再到Scaling Law理论 [8] OpenAI案例研究 - 从防止AI霸权初心出发 非盈利实验室用AGI信仰撬动万亿市场 [10] - GPT-3.5涌现零样本学习能力 ChatGPT五天破百万用户 两月破亿 [10][12] - 参数从1.17亿增至1750亿时 AI突然涌现推理能力 标志系统1到系统2思维跃迁 [10][12] DeepSeek创新路径 - 采用MLA+MoE架构 2000块显卡实现2万块效果 训练成本降低90% [11][13] - 180人团队通过涌现型组织实现几千人效率 数学竞赛逼平GPT-4 [11][14] - 开源R1模型 推动从技术受益者到贡献者的心智突破 [14] 技术架构突破 - Transformer架构实现从单词识别到全文语义理解的进化 被称为智能时代内燃机 [12] - Scaling Law理论验证参数规模与能力涌现的正相关关系 [8][12] - 软硬协同架构实现低成本突破 工程创新效果显著 [11][13] 创新方法论 - 认知型创新成为AI时代核心 需建立本质建模-单点突破-理念刷新框架 [25] - 涌现型组织管理密码:取消KPI和层级 以好奇心驱动团队创造力 [11][14] - 从技术跟随到认知升维 重构商业逻辑的关键在于心智突破 [23][24] 行业影响 - 技术平权趋势显现 中国公司首次在基础研究领域展现引领能力 [3][20] - AI创新进入认知革命阶段 需理解Transformer×Scaling Law底层框架 [8][12] - 第三代创业者打破"美国原创-中国应用"思想钢印 [14]
2025年大模型一体机服务商研究报告
亿欧· 2025-06-05 14:46
报告行业投资评级 未提及 报告的核心观点 政策与技术双轮驱动中国大模型产业落地提速,党政及国央企率先落地大模型应用试点;大模型应用落地挑战催生一体机需求爆发,开启千亿级市场;大模型一体机未来将围绕轻量化部署、高度集成化持续突破,并与新兴技术结合 [6][7][28] 根据相关目录分别进行总结 政策与技术双轮驱动中国大模型产业落地提速 - 政策与技术推动中国大模型产业加速发展:政策逐渐向行业应用倾斜,多部委发布政策引导AI大模型向更多行业场景赋能,且从国家层面推动向地方层面进一步落实;2025年中国大模型密集亮相,DeepSeek性能比肩OpenAI o3,其在算法优化、成本控制和开源模式上实现创新突破 [9][10][11] - 党政及国央企率先落地大模型应用试点:党政及央企率先带动DeepSeek落地试点应用,通信、金融、能源、建筑等行业央国企加速推进DeepSeek+行业应用落地,党政机关及央国企用户偏好私有化部署 [25] 大模型应用落地挑战催生一体机需求爆发 - 大模型应用落地面临挑战,大模型一体机可有效解决:大模型落地面临软件栈部署复杂、算力性能需求高、智能应用开发技术门槛较高、数据隐私与安全风险突出等挑战,大模型一体机可有效解决这些问题,已在政务、教育/科研、医疗、金融、泛工业等领域初步落地 [30][33] - 中国大模型一体机需求爆发,开启千亿级市场:中国大模型一体机需求上升,央国企及党政机关是重要客户,市场核心供应商涵盖服务器、云计算、垂直领域厂商及芯片生态伙伴,预计市场空间将持续增长 [36][39] - 中国大模型一体机厂商优秀案例分析:阿里云百炼专属版AI Stack一体机可快速构建AI服务能力,支持模型训练与推理一体化;浪潮信息元脑企智DeepSeek一体机实现真正的“开箱即用”,能将企业私有数据与DeepSeek大模型深度融合 [44][51] 大模型一体机未来趋势展望 - 大模型一体机未来将围绕轻量化部署、高度集成化持续突破,技术上通过模型压缩与动态推理优化实现低能耗实时推理,交付形式向全栈智能跨越式升级,优势在于模型适配与生态兼容完善、安全便捷化部署融合发展 [57][59] - 大模型一体机未来还会与新兴技术结合,如量子计算可加速大规模数据处理、提高模型训练效率,类脑智能可增强模型的认知和学习能力,具身智能可实现更高级的人机协作与自动化生产 [57][63][64]
Bonus独家|智谱COO张帆即将离职,智谱会是下一个商汤吗?
36氪· 2025-06-04 21:09
商业化困境与战略调整 - 智谱AI COO张帆将于6月底离职创业 其新项目已获得公司投资支持 并将成为MaaS平台生态的一部分 [2][5] - 商业化部门年初经历重组 不再按ToB/ToG划分 改为CEO张鹏分管部分业务+分公司 COO张帆分管区域分公司 [6][7] - 公司战略重心转向政府项目 基本放弃企业服务规模化 2024年收入3亿元但亏损达20亿元 [8][9][23] - 商业化团队人数争议:内部称占总人数1/2 官方称研发占比70%以上 [9] 技术能力与行业竞争 - 基础大模型最后一次更新为2024年12月的GLM-Zero-Preview 2025年仅发布开源模型GLM-4-32B-0414系列 [11][17] - SuperCLUE测评显示:GLM-4-Plus基础模型排名第14(48.61分) 落后于月之暗面(51.47分)和阶跃星辰(50.81分) [12][13] - DeepSeek-R1开源模型打破行业格局 导致闭源模型优势丧失 公司正大量招聘算法人才追赶 [16][17] 融资与上市进展 - 融资VP张阔1月底离职后 公司主要依赖三地国资18亿元战略投资 [5] - 2025年4月完成IPO辅导备案 成为"大模型六小龙"中首家启动上市企业 [17] - 与商汤科技存在多重相似性:学术背景浓厚 但面临商业化路径相似的挑战 [18][19][21] 行业环境分析 - B端市场分化:小B订单受API价格战冲击(DeepSeek引发) 大B定制项目存在账期长/死账风险 [8][10] - 企业需求不明确导致项目返工率高 某案例显示竞争对手低价中标后转由智谱接盘 [9] - 2025年行业普遍面临融资压力 厂商技术投入趋保守 等待DeepSeek-R2发布 [17]
AI味道太浓?新型教培正在解决这件事
36氪· 2025-06-04 20:52
大模型发展现状 - 当前大模型在标准考题中表现优异,但在处理涉及情感、价值观等非标准问题时仍显不足,被批评"AI味太浓,机器感太重" [1] - 行业已开始招聘名校文科人才训练大模型,目标是提升AI的情感感知能力和表达美感 [1] - 大模型水平提升关键在于掌握标准答案,但现实世界存在大量无标准答案的问题,需基于社会公序良俗建立人类偏好 [2] AI人文训练兴起 - AI人文训练师成为新兴职业,负责解决AI在情感表达、伦理判断等方面的短板 [4] - 小红书成立"hi lab"实验室,团队由985高校研究生组成,学科背景多元且具备强共情能力 [10] - 训练重点包括:情感接入、伦理边界界定、人性化表达等,目标是缩小人机思维差异 [13][14] - 该岗位更看重人文素养和批判性思维,技术占比少,目前从业者数量稀少 [10] 训练方法与案例 - 通过精细化案例研讨,将人类偏好转化为AI的信念体系,保持行为逻辑一致性 [13] - 典型案例包括:癌症患者对话设计、道德困境处理、交通违规情绪安抚等 [5][15][16] - 训练使AI回答质量从50-60分提升至80分,但情感自然流露等难题仍未完全解决 [17] 行业趋势 - AI发展进入下半场,从追求"能用"转向"好用"与"负责任地用" [10] - 后训练阶段受重视,多家公司布局:小红书设人文实验室,Soul招聘"AI灵魂训练师",DeepSeek引入中文系学生提升文学修养 [10] - 行业共识是需建立更深层次的人机情感连接,但过度人性化可能引发新的担忧 [17] 职业发展 - AI训练师在2020年被纳入国家职业分类,初期以数据标注为主,属劳动密集型工作 [6][7] - 随着模型进化,专家型训练师需求上升,要求985学历及专业领域知识 [8] - 一线标注员多为中专/大专学历,工作内容重复枯燥,被视作"dirty work" [6][7]
“多模态卷王”收缩C端业务!大模型“六小虎”战略聚焦谋出路
证券时报网· 2025-06-04 19:14
阶跃星辰业务调整 - 阶跃星辰收缩C端业务,停运角色扮演类智能体产品"冒泡鸭",重心转向终端Agent(智能体)[1] - "冒泡鸭"从2023年12月起已停止大范围投流,团队合并至"阶跃AI"产品团队[1] - 公司C端业务调整是大模型创业企业在DeepSeek和互联网大厂竞争下重新定位的缩影[1] 阶跃星辰公司背景 - 阶跃星辰成立于2023年4月,创始人兼CEO是微软前全球副总裁姜大昕[2] - 公司2024年3月首次公开亮相,发布万亿参数大语言模型Step-2[2] - 专注于多模态领域,已发布22款自研基座模型,涵盖文字、图像、视频、语音、音乐和推理等领域[2] - 被业内称为"多模态卷王",与智谱AI并称基座大模型的"南北双雄"[2] 阶跃星辰业务转型 - 此前采用"模型+应用"两条腿走路策略,推出C端应用"跃问"和"冒泡鸭"[3] - 受DeepSeek影响,重新思考增长路径,认为投流逻辑在AI时代不完全成立[4] - 将资源重心从C端转向多模态大模型研发和终端Agent方向[4] - 2024年2月宣布与吉利汽车集团、OPPO、智元机器人等头部企业合作,推动AI在手机、汽车、具身智能等终端应用[5] 大模型行业竞争格局 - "六小虎"包括智谱AI、MiniMax、月之暗面、阶跃星辰、百川智能和零一万物[6] - 2024年下半年以来,除智谱AI和阶跃星辰外,其余几家无新融资消息[6] - 零一万物和百川智能已放弃基座大模型训练,分别押注AI行业落地和AI医疗[6] - MiniMax专注C端视频生成海外市场,智谱AI布局政企合作并启动IPO,月之暗面Kimi在C端竞争中逐渐落后[6] 行业发展趋势 - 大厂进入和DeepSeek冲击促使大模型创业公司重新定位[7] - 行业面临模型迭代快、C端用户忠诚度低、B端盈利难等挑战[7] - 融资环境趋紧,创业公司需在有限时间内争取更大生存空间[7]
又撞了!Kimi和DeepSeek为什么总爱盯同一块蛋糕?
阿尔法工场研究院· 2025-06-04 18:21
核心观点 - Kimi当前战略重心转向模型能力提升和垂直领域布局,包括法律、医疗和学术搜索等方向,以增强专业性和减少幻觉 [4][5][6] - 国内AI原生应用竞争格局变化,Kimi从TOP3降至第四位,同时暂停投流营销,转向自然增长和用户留存策略 [14] - DeepSeek与Kimi在垂类赛道布局高度重合,均通过招聘专业数据标注人员提升模型在医疗、法律等领域的可靠性 [8][10] - 行业共识认为AI在生产力场景有商业化潜力,但垂类领域表现仍需突破60-70分瓶颈,需强化模型能力和专业数据挖掘 [12] - AGI仍是多家公司的长期目标,技术路径包括算法优化(如DeepSeek R1模型幻觉率降低45-50%)和算力迭代 [14][16][17] 公司动态 Kimi - 2023年11月月活用户达3600万,位列国内AI原生应用TOP3 [2] - 2024年专注模型能力提升,K1 6模型在LiveCodeBench代码生成测试中超过GPT系列部分版本 [5] - 近期上线学术搜索功能,并与财新传媒合作提升财经内容真实性 [6][12] - 暂停投流营销,转向自然增长策略,2024年Web端曾长期保持用户量第一 [12][14] DeepSeek - 5月招聘医学方向数据标注人员(百晓生),强化医疗内容索引能力 [8] - 6月升级R1模型,基于V3 Base增加算力投入,编程测试表现对标GPT-4和Gemini 1 5 Pro,幻觉率降低45-50% [16] 行业趋势 - 垂类赛道成为竞争焦点,法律、医疗等专业领域需求凸显,需解决模型幻觉和专业性不足问题 [10][12] - 创新驱动市场格局变化,如Kimi曾因200万字长文本出圈,DeepSeek近期通过技术突破跃居行业前列 [14] - 基础模型能力进入新阶段,阿里云认为技术门槛降低使更多企业站上同一起跑线 [16][17] - OpenAI计划推出GPT-5,或引发行业新一轮技术跃升 [17][18] 技术路径 - 算法优化:DeepSeek通过后训练提升模型推理能力,Kimi通过垂类数据专家优化专业场景表现 [5][16] - 数据挖掘:专业标注(如法律、医疗)成为减少幻觉的核心手段,需深度理解用户诉求 [8][10][12] - 算力与算法平衡:杨植麟提出当前需突破算法瓶颈而非单纯增加算力,类似"荡秋千"式发展 [15][16]
阿里巴巴如何帮助中国在开源人工智能领域超越美国 — The Information
2025-06-04 09:50
公司和行业分析 **涉及的行业或公司** - 公司:阿里巴巴集团(Alibaba Group)、DeepSeek、Meta Platforms(Llama)、Nvidia、Aiquris、ReOrc、Abeja - 行业:开源人工智能(AI)、云计算、大语言模型(LLM)、企业AI应用 **核心观点和论据** **1 阿里巴巴在开源AI领域的领先地位** - 阿里巴巴的Qwen模型在全球开源AI领域处于领先地位,在多个基准测试中超越Meta的Llama[9] - Qwen3(2024年4月发布)包含8个不同规格的开源模型,支持“思考模式”和“非思考模式”切换,优于Meta的Llama 4[58][59] - 截至2025年1月,超过29万客户在汽车、医疗、教育等行业使用Qwen模型[10] **2 中国企业在开源AI的全球竞争力** - Qwen和DeepSeek的R1模型被Nvidia CEO黄仁勋评为“最佳开源AI模型之一”[22] - 中国企业通过低成本开源模型加速AI普及,可能重塑全球AI生态[13][21] - 日本AI开发商Abeja使用Qwen开发日语大模型[11] **3 阿里巴巴内部转型与挑战** - 初期(2023-2024年)阿里各业务部门(如电商、娱乐)拒绝使用Qwen,偏好Meta的Llama或DeepSeek的R1[7] - 2023年重组后,业务部门自主权增加,但沟通效率下降,阻碍Qwen推广[41][42] - 创始人马云亲自介入施压,Qwen团队加班推进Qwen3开发[52][54] **4 竞争格局** - DeepSeek的R1模型(2025年2月发布)一度超越Qwen,但Qwen3反超后,DeepSeek又通过更新版R1重新领先[59][60] - Meta的Llama 4因改进有限未达预期,为阿里创造机会[56] **其他重要细节** - **技术基础**:Qwen基于Transformer架构(与GPT相同),早期模型M6发布于2021年[30] - **商业化策略**:阿里云通过开源Qwen吸引企业使用其云计算平台[25] - **内部应用**:飞猪旅行、AI搜索应用Accio等从DeepSeek R1迁移至Qwen3[62] - **行业影响**:开源模型降低企业AI成本,推动中国国企和政府部门采用[21] **数据引用** - 阿里2023年因反垄断被罚款28亿美元[36] - Qwen3发布前,团队成员一周仅睡5-6小时[54] --- *注:部分文档(如2、12、16等)为广告或无关内容,已跳过*