Workflow
DeepSeek
icon
搜索文档
MiniMax发布推理模型对标DeepSeek,算力成本仅约53万美元
第一财经· 2025-06-17 15:26
公司动态 - MiniMax宣布连续五天发布重要更新,首日开源推理模型MiniMax-M1 [1] - MiniMax-M1在多项基准测试中表现优异,比肩DeepSeek-R1、Qwen3等开源模型,接近海外领先模型 [3] - 模型训练效率超出预期,仅用3周时间、512块H800 GPU完成强化学习训练阶段,算力租赁成本53.47万美元 [3] - MiniMax-M1在编程能力测试中表现突出,一次通过"拆烟囱"编程案例,优于DeepSeek-R1-0528和Gemini-2.5-Pro [3] - 模型中文写作严谨优先,幻觉较低,注重指令遵循 [5] - MiniMax-M1拥有100万上下文窗口长度,与Gemini 2.5 Pro相当,是DeepSeek R1的8倍 [5] - 在长上下文理解任务(MRCR)中表现优异,超越所有开源权重模型和部分海外顶尖模型,全球排名第二 [5] - 在TAU-bench测试中表现出色,超越DeepSeeK-R1-0528和Gemini-2.5 Pro,仅次于OpenAI o3和Claude 4 Opus [7] - 在代码能力(SWE-bench)上显著超越大部分开源模型,仅微弱差距次于DeepSeek最新发布的R1 [7] - MiniMax提出创新强化学习算法CISPO,在数学AIME实验中比字节DAPO算法收敛性能快一倍 [8] - 模型定价采用阶梯式,对标DeepSeek-R1性价比更高 [8] - MiniMax预告后续四天将有更多更新,业界预期海螺新版本即将亮相 [9] 行业动态 - 月之暗面同日开源编程模型Kimi-Dev-72B,基于阿里云Qwen2.5-72B微调 [8] - Kimi-Dev-72B在SWE-bench编程基准测试中取得全球最高开源模型水平,成绩超过新版DeepSeek-R1 [8] - 但实际测试显示Kimi-Dev-72B生成的代码需要修改多个bug才能运行,引发过拟合质疑 [9] - AI六小龙经过半年沉寂后重新加入大模型竞争 [9] - 云启资本合伙人陈昱表示长文本能力对社交应用、情感陪伴应用和Agent是关键技术 [7] 技术亮点 - MiniMax-M1训练材料足够新,思考时多次反刍成功避坑 [3] - 闪电注意力机制为主的混合架构使长文本处理具有算力效率优势,8万Token推理只需DeepSeek R1约30%算力 [7] - CISPO强化学习算法显著优于DeepSeek早期使用的GRPO [8] - 模型在样式和光影效果方面仍有不足,创意内容生成能力有限 [5]
Claude时代终结?LMArena实测DeepSeek R1编程得分超Opus 4,但月暗称其新模型更胜一筹
AI前线· 2025-06-17 14:56
DeepSeek-R1(0528)性能突破 - 开源模型DeepSeek-R1(0528)在LMArena的WebDev Arena测试中以1408.84分超越Claude Opus 4(1405.51分),与Gemini-2.5-Pro-Preview-06-05(1433.16分)并列第一 [1][4] - 采用混合专家(MoE)架构,总参数量6850亿,单次推理激活370亿参数,支持128K tokens长上下文窗口,在数学推导和代码生成能力上显著提升 [9] - 在细分测试中表现:硬提示词第4、编程第2、数学第5、创意写作第6,多轮对话第7 [7] 开源与闭源模型竞争格局 - DeepSeek-R1以MIT许可证开源,性能对标Claude Opus 4和GPT-4.1,开发者社区认为其免费特性可能改变行业生态 [12][14] - 月之暗面同期发布开源模型Kimi-Dev-72B,在SWE-bench Verified测试中以60.4%得分创开源模型SOTA,超越R1(0528)的编码表现 [23][26] - Kimi-Dev-72B通过BugFixer与TestWriter双角色设计、1500亿数据中期训练及强化学习优化,实现真实仓库Docker修复能力 [28][30][31] 行业争议与动态 - LMArena测试平台被Cohere、斯坦福等机构指控偏袒科技巨头,Meta被指测试27个未公开模型变体以优化榜单排名 [17][19] - 社区对测试结果态度分化:部分开发者认为R1已具备碾压闭源模型的编程辅助能力,另一部分质疑WebDev Arena测试公正性 [16] - 月之暗面与DeepSeek的技术路线差异:前者侧重强化学习与自我博弈机制,后者聚焦训练后优化和计算效率 [26][31][32]
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 08:10
DeepSeek-R1(0528)模型升级与性能表现 - 核心观点:DeepSeek-R1(0528)在开源模型中表现突出,多项基准测试排名靠前,尤其在编程领域与闭源模型性能相当 [1][2][3][4] 模型升级与功能改进 - DeepSeek-R1(0528)为最新升级版本,改进基准测试性能,减少幻觉,支持JSON输出和函数调用 [3] - 模型及权重已公开,采用MIT开源协议 [2][8] LMArena基准测试排名 - 在文本基准测试(Text)中整体排名第6,开放模型中排名第一 [5] - 细分领域表现: - 硬提示词(Hard Prompt)排名第4 - 编程(Coding)排名第2 - 数学(Math)排名第5 - 创意性写作(Creative Writing)排名第6 - 指令遵循(Instruction Following)排名第9 - 更长查询(Longer Query)排名第8 - 多轮对话(Multi-Turn)排名第7 [6] WebDev Arena编程竞赛表现 - 与Gemini-2.5-Pro-Preview-06-05、Claude Opus 4(20250514)并列第一,分数超过Claude Opus 4 [7] - WebDev Arena评分: - Gemini-2.5-Pro-Preview-06-05:1433.16(±13.78/-16.08) - DeepSeek-R1(0528):1408.84(±16.75/-15.04) - Claude Opus 4(20250514):1405.51(±12.56/-12.44) [8] 行业影响与用户反馈 - DeepSeek-R1(0528)在AI编程领域与Claude Opus性能相当,被视为开源AI的关键里程碑 [10] - 模型在完全开放的MIT协议下提供领先性能,可能影响更广泛的编程领域 [10] - 实际用户体验仍需更多验证,以确认是否媲美闭源模型 [10]
外资投行展望下半年中国经济和股票市场
淡水泉投资· 2025-06-16 21:01
外资投行对中国市场的观点变化 - 2025年下半年外资投行关注中国经济回升态势、中美关系及股票市场配置价值,相较于年初更多提及海外投资人情绪回暖 [1] - 全球多头投资人对中国股票配置较MSCI新兴市场基准低配2.4个百分点,显示增配空间 [4] 中国股票市场结构性改善 - 2024年下半年以来ROE触底回升与科技新势力崛起驱动市场复苏,头部企业通过回购股票、加杠杆等措施实现ROE修复与估值上移 [4] - AI、科技、智能制造等领域突破带来新机会,得益于工程师储备、电商生态及政策支持 [4] - 海外投资人关注AI、科技及新消费主题,部分因研究不足存在"错失中国技术发展机遇"担忧 [6] 外资关注的三大热点话题 国内经济回升态势 - 经济全面回升仍存挑战,需观察财政政策发力时点、出口韧性、房地产企稳及中美关税演进 [9][10] - 政策观察窗口包括7月底政治局会议、秋季"十五五"规划建议及12月中央经济工作会议 [10] 中美关系影响 - 4月关税摩擦引发外资外流,近期联合声明与伦敦贸易谈判缓解紧张局势 [12] A股与港股分化 - 港股表现优于A股因行业构成差异(港股集中互联网/科技等高ROE行业)及南向资金涌入 [12] - 港股吸引力的另一原因是优质A股公司双重上市及AI/新消费公司集中 [12] 投资策略共识 - 结构性改善背景下,机构倾向均衡配置与精选个股机会 [15]
花旗:全球半导体_2025 年下半年 GDDR7 推动全球 DRAM 需求上升
花旗· 2025-06-16 11:16
报告行业投资评级 - 重申对SK海力士和三星电子的买入评级 [1][5][6] 报告的核心观点 - 预计2025年下半年全球内存供应短缺将加剧,因AI推理模型和边缘AI设备的积极发展使GDDR7需求上升,以及苹果iPhone 17系列DRAM含量升级 [1][5][6] - GDDR7和LPDDR5X将成为2025年下半年全球DRAM需求的重要增长驱动力 [1] 各部分总结 GDDR7性能优势 - GDDR7在数据传输速度、带宽可扩展性和功耗方面有显著改进,数据速率提升2倍至每引脚4.8Gbps,每设备带宽容量翻倍至192GB/s [2] - 采用先进PAM3技术,每个时钟周期数据密度比GDDR6的NRZ技术提高50%,工作电压降至1.1 - 1.2V以优化功耗 [2] - 利用四个8位通道增强并行处理能力、降低延迟,为AI推理工作负载实现更高吞吐量 [2] AI推理需求推动GDDR7采用 - AI蒸馏技术的出现为将大型AI模型集成到边缘AI设备铺平道路,将显著提升AI推理的内存需求 [3] - 这将增加对包括GDDR7在内的图形DRAM的需求,GDDR7可作为AI推理内存解决方案中HBM的替代方案 [3] 2025年下半年DRAM需求增长 - 尽管市场担忧关税问题,但预计2025年下半年DRAM供需平衡将更紧张,受GDDR7需求增加和iPhone 17系列DRAM含量升级驱动 [4] - 预计DeepSeek在2025年下半年的GPU构建需求达200万台,每GPU的DRAM含量为96GB,带来154亿Gb的需求增长,加上其他AI推理模型的需求,GDDR7总需求增长403亿Gb,使全球图形DRAM需求增加24%,全球DRAM需求增加2.4% [4][7] - 苹果iPhone 17 Pro/Pro Max/Slim型号的DRAM含量从8GB升级到12GB,预计iPhone的GDDR7和LPDDR5X将使2025年下半年全球DRAM需求额外增长3.2% [4][7] 公司估值 - 对三星电子的12个月目标价为83,000韩元,采用分部加总法(SOTP),基于2025年预期EBITDA计算,参考全球同行对五个主要部门分配EV/EBITDA倍数 [9] - 对SK海力士的目标价为350,000韩元,应用2.5倍的2025年预期市净率(P/B),考虑到强劲的高端内存需求增长和内存市场的结构性增长 [11]
摩根士丹利:DeepSeek R2:AI推理新一代重量级模型?
摩根· 2025-06-16 11:16
报告行业投资评级 - 韩国科技行业投资评级为Cautious(谨慎) [7] 报告的核心观点 - DeepSeek的R2模型发布或重新定义中国AI开发、定价和供应链方式,有望成为加速中国AI应用落地的关键催化剂 [1] - R2是中国初创公司DeepSeek思维模型的第二次重大迭代,在多语言推理和代码生成等方面有进展,成本低且性能强,若成功将扰乱AI市场 [2] - R2依托华为昇腾910B芯片集群训练,构建自有供应链,减少对外部依赖 [3] - 中国公司有更多资源部署AI技术,“中国AI 60强”个股或参与R2行情和中国AI发展 [10] 根据相关目录分别进行总结 R2模型介绍 - R2是针对国产硬件优化的万亿参数模型,在多语言推理、代码生成和多模态能力方面取得重大进展,可重新定义AI应用落地的价值、性能和单位成本 [9] - R2优先提高编程能力,采用混合专家混合(MoE)架构,总共有1.2万亿个参数,其中780亿个参数是活跃的,成本比大多数先进模型便宜97% [13] R1模型进展 - 2025年5月29日,DeepSeek发布R1推理模型的更新版本R1 - 0528,使用9900万个tokens完成评估,比原版本多40%,性能在多个测试中有提升 [11] 供应链情况 - DeepSeek可能建立本地硬件供应链,R1曾使用数万张英伟达GPU训练,现在可能用华为昇腾910C芯片推理 [16] - 华为昇腾910C可达到英伟达H100性能的60%,采用中芯国际7纳米N + 2制程工艺,但华为在构建软件和支持生态系统方面还有挑战 [17] 投资影响 - DeepSeek的受益者在业绩、营收和盈利修正方面是长期赢家,后训练阶段tokens增加对本土GPU、GDDR和中国HBM是好兆头 [20] - 全球人工智能公司年初至今整体下跌 -5%,iPhone供应链表现不理想,传统子细分市场每股盈利回升但相对温和 [20] DeepSeek模型演变 - DeepSeek强调软件驱动的资源优化,已发布R1、V3和Prover - V2等模型,即将推出R2和V4模型 [23] - Prover - V2专注数学定理形式化证明,采用改进的MoE架构和压缩的KV缓存,推出MTP框架提高生成速度 [25] R2/V4模型功能 - “推理时间扩展”是R2和V4模型性能突破的关键,采用GRM技术,中型模型可在基准测试中表现出色 [26] - 通过点式生成奖励建模(GRM)、自我原则批评调整(SPCT)和元奖励模型(meta RM)实现模型架构改进 [27][32] 行业覆盖公司评级 - 报告对韩国科技行业多家公司给出评级,如Ecopro BM为Underweight(U),Fadu Inc为Equal - weight(E),Hanmi Semiconductor Co. Ltd.为Overweight(O)等 [81]
依托电子硬件制造强大实力 加速推动AI终端百花齐放 宝安:湾区AI终端产业领跑人
深圳商报· 2025-06-16 00:55
人工智能终端产业趋势 - 2025年终端设备AI化趋势明显,涵盖AI手机、眼镜、智能座舱、智慧家居等领域,国家发改委预测将迎来"排浪式"增长 [1] - 深圳凭借电子信息产业优势成为AI终端制造核心,宝安区通过"AI+制造""AI+应用"行动推动技术规模化应用,目标成为湾区AI终端产业高地 [1] - IDC预测2025年中国市场AI手机、平板及电脑出货量增长20%,智能眼镜等穿戴设备可能猛增99% [3] 深圳及宝安区产业数据 - 深圳市计划到2026年人工智能终端产业规模达8000亿元以上、力争1万亿元,产量突破1.5亿台,集聚不少于10家现象级企业 [3] - 宝安区2024年智能终端产业集群增加值243.64亿元(同比+8.4%),规上企业601家居全市前列,代表企业包括影石创新、兆威机电等 [4] - 宝安区2024年规上工业总产值首次突破万亿元达10505亿元,规模以上工业企业5601家占全市近2/5 [8] 产业链与技术创新 - PCB产业是AI终端基础,宝安为全国"新型PCB产业第一区",鹏鼎控股2024年营收351.40亿元(同比+9.59%)受益于AI终端创新周期 [5] - 影石创新(AI影像硬件)登陆A股,卧安机器人(AI家庭机器人)递交港股招股书,两家企业均为"90后"创始人创立未满十年的技术驱动型公司 [6][7] - 宝安依托制造业基因推动AI技术对接产业需求,如腾讯物联网生态合作打造智慧家庭、健康等示范场景 [9] 市场与政策支持 - 深圳清华大学研究院指出人工智能产业进入大规模应用落地阶段,技术转化服务于实体经济是关键 [2] - 宝安区出台智能终端产业专项任务清单,包括建设AI终端公共服务平台、卫星通信终端发展计划等政策支持 [9] - 大湾区产业场景丰富,香港中文大学专家强调AI企业核心竞争力在于场景落地能力 [8]
百度重大宣布!这项计划的offer薪资上不封顶
证券时报· 2025-06-15 13:50
百度AIDU计划招聘 - 百度2026届"AIDU计划"offer薪资上不封顶 旨在招纳顶尖校园人才 [1] - 该计划以培养AI技术领军人才为目标 注重候选人对技术的纯粹热爱与追求 [1] - 学员将接触最前沿研究课题 在业务场景中实现技术落地应用 [1] - 每位学员将获得个性化培养路径和专属技术专家一对一指导 [1] - 2026届计划招募对象为博士和硕士生 倾向超级学霸、学术大神、竞赛高手和工程大牛 [1] - 相比去年 2026届计划岗位招聘扩增超60% 覆盖23个核心业务和11类研究方向 [1] - 研究方向包含大模型算法、大模型基础架构、机器学习、语音技术、智能体等 [1] 百度AI人才培养体系 - 学员可参与核心AI项目 接触前沿技术挑战 享受万卡算力资源和亿级用户场景 [2] - 公司定期举办前沿技术分享会和技术顶级会议 提供海量学习机会 [2] - 百度在AI领域研发投入达1800亿元 人才培养专项构成关键部分 [2] - 2020年提出的5年培养500万AI人才计划已提前完成 [2] - 未来5年计划再培养1000万名AI人才 [2] 行业AI人才招聘趋势 - 阿里巴巴2026届实习生招聘开放超3000个岗位 AI相关岗位占比近50% [2] - 头部大模型公司DeepSeek推出37个岗位 "深度学习研究员-AGI"职位月薪8-11万元 年薪达百万 [2] - 上海招聘会显示大模型数据开发工程师等关键岗位最高月薪可达6万元 [3] - 大模型企业对人才要求较高 期望具备突破创新能力并能创造产品价值 [3]
百度重大宣布!这项计划的offer薪资上不封顶!
证券时报· 2025-06-15 13:32
百度"AIDU计划"人才招募 - 百度2026届"AIDU计划"offer薪资上不封顶 旨在招纳顶尖校园AI人才 该计划以培养AI技术领军人才为目标 注重候选人对技术的纯粹热爱与追求 [1] - 加入计划的学员可接触最前沿研究课题 在业务场景中实现技术落地 公司为每位学员定制个性化培养路径 配备专属技术专家一对一指导 [1] - 招募对象为2026届博士和硕士生 倾向超级学霸 学术大神 竞赛高手和工程大牛 [2] 招聘规模与培养体系 - 2026届"AIDU计划"岗位招聘规模同比扩增超60% 覆盖公司23个核心业务和11类研究方向 包含大模型算法 基础架构 机器学习等 系最大规模顶尖AI人才招聘 [6] - 培养体系提供核心AI项目参与机会 前沿技术挑战 万卡算力资源和亿级用户场景 定期举办技术分享会及顶级会议 [6] - 公司提出"像培养飞行员一样培养AI领航者"的理念 [6] AI领域投入与行业趋势 - 百度在AI领域研发投入累计达1800亿元 人才培养专项构成关键部分 2020年提出的5年500万AI人才培养计划已提前于2024年完成 [6] - 公司宣布未来5年将再培养1000万名AI人才 [6] - 行业层面 互联网大厂和大模型头部企业均大规模揽才 如阿里巴巴2026届实习生招聘开放超3000岗位 AI相关占比近50% [6] AI人才薪酬水平 - 头部大模型公司提供高薪 如DeepSeek的"深度学习研究员-AGI"职位月薪8-11万元 14薪制 年薪达百万元 [7] - 上海招聘会数据显示 大模型数据开发工程师等关键岗位最高月薪可达6万元 [7] - 但顶级岗位要求较高 企业期望候选人能突破传统范式 通过技术创新创造价值 并认同企业文化 [7]
百度重大宣布!这项计划的offer薪资上不封顶!
证券时报· 2025-06-15 13:31
百度近期举办的AIDU计划OpenDay活动,再次让其2026届"AIDU计划"受到关注! "AIDU计划"是百度推出的一项精英招募计划,以培养AI技术领军人才为目标,特别注重候选人对技术的纯粹热爱与追求。加入该计划的学员有机会接触到最前沿的 研究课题,并在业务场景中实现技术的落地应用。百度将为每位学员量身定制个性化的培养路径,并配备专属技术专家导师进行一对一指导,助力他们快速成长为 AI领域的佼佼者。 今年5月,百度2026届"AIDU计划"正式启动,招募对象为2026届博士和硕士生,倾向于超级学霸、学术大神、竞赛高手和工程大牛。 此次活动传出,为招纳到顶尖的校园人才,百度2026届"AIDU计划"的offer薪资上不封顶。 在此次AIDU计划OpenDay活动中,百度透露,相比去年,2026届"AIDU计划"岗位招聘扩增超60%,覆盖百度23个核心业务和11类研究方向,包含大模型算法、大 模型基础架构、机器学习、语音技术、智能体等,是其最大规模的顶尖AI人才招聘。 "百度会像培养飞行员一样,培养未来的AI领航者。"百度方面称。据了解,在培养体系方面,学员不仅可以参与核心AI项目,接触前沿技术挑战,还能享受 ...