Seek .(SKLTY)

搜索文档
“千帆”系列昇腾DeepSeek技术沙龙重庆站成功举办
搜狐财经· 2025-06-11 07:57
活动概述 - 华为中国政企解决方案伙伴"千帆"系列昇腾DeepSeek技术沙龙重庆站活动顺利举行,聚焦昇腾AI与DeepSeek的技术协同 [1] - 活动由华为技术有限公司、数字重庆大数据应用发展有限公司智算科技分公司主办,东数西算(重庆)产业联盟等协办 [1] - 现场汇聚40+家行业客户及伙伴的100+名专家,围绕教育智能体、企业大模型等AI场景化实践展开交流 [1] 技术合作与方案发布 - 佳发教育与华为联合发布教育智能体应用基座方案,深度融合多模态AI与自适应学习算法,覆盖"考、教、管、评、学、研"全场景 [2] - 华为展示万卡级集群部署能力、昇腾软硬件全栈技术及行业大模型工程化经验,定位为AI算力基础设施核心赋能者 [8] - 沙龙议题包括昇腾+DeepSeek解决方案、DCS AI DeepSeek训推一体机方案及大模型智能应用平台分享 [10] 区域战略与基础设施 - 重庆人工智能创新中心一期算力达400P,定位为"一平台、一枢纽、三促进",推动科技创新、产业发展及人才培养 [13] - 创新中心以昇腾全栈AI技术为核心,助力产业链上下游聚集,目标打造西部领先、辐射东盟的算力枢纽 [13] - 重庆OpenLab提供全栈自主创新测试床,覆盖联接、计算、存储、数字能源及AI等领域,加速行业解决方案落地 [11] 行业趋势与战略方向 - 人工智能大模型推动行业ISV从"软件定制+服务"向"算力+数据+大模型+智能体"模式转型 [8] - 数字重庆强调将发挥算力资源优势,构建具有重庆辨识度的人工智能公共服务平台 [4] - 华为呼吁ISV伙伴"坚决拥抱、主动学习、价值导向、勇于创新",共同把握AI数智化机遇 [8]
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
每日经济新闻· 2025-06-10 21:53
测评结果 - 国产大模型DeepSeek-R1与腾讯混元T1在117分标准化试卷测试中以零错误并列榜首,均获得117分满分 [1][4] - 讯飞星火X1以112分紧随其后,因填空题自我怀疑导致答案不完整 [5] - Gemini 2.5 Pro、OpenAI o3、阿里千问Qwen3和豆包深度思考模式得分均超100分,分别为109分、107分、106分和104分 [7] - Grok 3表现意外,仅得91分排名倒数第三,主要因多选题理解失误 [8] - 智谱清言推理模式得78分排名倒数第二,因逻辑崩溃导致失分 [8] - Kimi k1.5因压轴大题失误得分最低 [10] 测评标准与方法 - 以2025年全国新课标数学I卷(总分150分)为考题,移除图形/图表题后形成117分标准化试卷 [3] - 部分模型因"重要考试期间"限制未参与图形题测试,如讯飞星火X1、豆包深度思考和智谱清言推理模式 [2][3] - 对无限制模型(如Gemini 2.5 Pro)仍测试完整150分试卷以评估最高水平 [3] - 扣分标准遵循高考规则,但解答题仅按结果计分 [3] 模型表现细节 - DeepSeek-R1与腾讯混元T1在代数计算和函数题中展现极高稳定性 [4] - 讯飞星火X1在填空题中因自我怀疑仅输出部分正确答案("2"而非"±2") [5] - Grok 3在多选题中固执输出单一答案,导致部分失分 [8] - 智谱清言推理模式多次在最终推理步骤崩溃,陷入逻辑循环 [8] - Kimi k1.5在压轴大题上表现最弱 [10] 行业技术现状 - AI推理大模型在固定步骤和严密逻辑的数学问题上能力较强 [10] - 涉及抽象和创新思维的题目仍是当前模型的局限性所在 [10]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
搜狐财经· 2025-06-10 20:49
AI技术创新路径 - OpenAI创立初心为反巨头霸权 通过开源普惠AI技术对抗科技巨头垄断 2015年由马斯克和奥特曼创立并挖角谷歌核心科学家伊利亚[4][7] - 大语言模型革命依赖Transformer架构和Scaling Law 前者实现并行数据处理 后者揭示模型性能与规模呈线性关系[8][11] - GPT系列模型通过"涌现"现象突破 当参数量达临界点时自发产生新能力 实现从工具到智能助手的转变[12] - ChatGPT引发人机交互范式变革 自然语言交互降低使用门槛 2022年末推出后成为全球现象级产品[13][14] - 推理模型o1实现认知跃迁 从直觉思维(系统1)升级至逻辑推理(系统2) 具备多步推理和自我纠正能力[16][17] DeepSeek差异化战略 - 采用"有限Scaling Law"战略 在资源受限下通过数据筛选和算法优化实现低成本高性能 训练成本仅5557万美元[18][22] - 创新MLA+MoE架构 MLA优化内存效率 MoE实现专家网络动态激活 结合华为昇腾平台实现软硬协同优化[20][21] - R1模型实现纯强化学习突破 复现OpenAI o1能力并开源 展示完整推理过程 2025年1月发布后登顶美国应用榜[23][24][25] - 组织模式激发"涌现"创新 采用动态团队和自组织管理 研究员可自由调用GPU资源 产生MLA架构等突破性成果[27][28][29] 行业格局影响 - DeepSeek打破中国创新者"思想钢印" 证明中国企业可引领基础研究 而非仅做技术应用[35][36][37] - R1模型引发行业震动 微软CEO公开提及导致英伟达市值单日下跌17% 标志中美成为AI技术两极[25][26] - AI Lab范式重构研发体系 开放协作和资源共享取代传统金字塔管理 适应不确定性创新需求[30][32][33] - 认知型创新推动产业升级 从商业驱动转向基础研究 需要长期投入和突破思维定式[38][39][40]
重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真?
新浪财经· 2025-06-09 21:27
大模型算力成本挑战 - 大模型每生成1美元价值需支付3美元算力成本 算力成本挑战已成为行业共识 [1] - 当前优化方案多集中于软件层面 硬件源头解决方案较少 现有新计算硬件如Groq多在大模型爆发前定型 难以充分匹配需求 [1] SRDA架构创新 - 玉盘AI发布《SRDA AI大模型专用计算架构》白皮书 提出系统级精简可重构数据流架构(SRDA) 从硬件源头解决AI算力核心瓶颈 [3] - SRDA架构将"数据流"作为核心设计哲学 通过硬件直接映射AI计算图数据依赖关系 实现计算单元间点到点直接传输 减少内存依赖和访问次数 [8] - 架构采用3D堆叠DRAM内存技术 实现计算单元内存私有化 每个计算核心拥有专属内存区域 消除共享总线竞争 [14] GPGPU架构局限性 - GPGPU架构为保证通用性未针对大模型需求优化 类似"瑞士军刀切牛排" 工具缺乏针对性 [6] - H100每秒可计算1000万亿次 但共享内存架构+低内存带宽仅能"喂饱"不足一半硬件算力 [7] - H100单卡功耗达700瓦 超三分之一电量用于数据搬运而非计算 [7] 下一代AI芯片关键特征 - 需解决内存与互联带宽不足问题 当前架构存在"几台车抢一个车位"现象 [7] - 需提升算力利用率 避免类GPGPU架构通信开销及内存瓶颈导致理论算力打折 [7] - 需简化网络设计 传统多层网络带来带宽层级差异 协议转换开销和管理难题 [7] SRDA技术突破 - 采用I/O融合技术(QLink) 将节点内外网络融合为统一单层网络 简化拓扑结构 [14] - 具备可重构特性 允许根据AI模型调整数据流路径 计算单元功能和内存模式 适应未来模型变化 [16] - 基于开源RISC-V指令集 提供简化指令 降低算子开发难度 [16] 行业趋势与影响 - DeepSeek论文与玉盘SRDA架构在IO融合 3D堆叠DRAM等技术方向不谋而合 显示行业共识正在形成 [6] - 当前算力瓶颈主要在于数据搬运及读写(I/O问题) 而非计算能力本身 [6] - SRDA架构可能颠覆GPGPU在AI场景的垄断地位 形成"SRDA+3D-DRAM"替代"GPGPU+HBM"的新组合 [14]
报道:DeepSeek核心高管离职创业,瞄准Agent赛道
快讯· 2025-06-09 21:02
高管离职创业 - 某DeepSeek核心高管已离职创业 计划于2025年圣诞节前后发布Agent产品 [1] - 该高管被描述为原DeepSeek CTO 但公司内部并无明确CTO职位设置 仅有承担相应职能的人士 [1] - 创业项目已获得某头部VC融资 [1] 公司职位架构 - DeepSeek内部未设立正式CTO职位 但存在履行类似职责的人员 [1]
DeepSeek核心高管离职创业,瞄准Agent赛道|独家
虎嗅· 2025-06-09 16:24
出品|虎嗅科技组 作者|宋思杭 编辑|苗正卿 头图|视觉中国 虎嗅从多个独立信源获悉,半年前,某DeepSeek核心高管已悄然离职创业,并将于2025年圣诞节前后 发布Agent产品。有信源告诉虎嗅,该高管系原DeepSeek CTO。不过另有知情人士向虎嗅透露, DeepSeek内部并无明确的CTO一职,即在DeepSeek内部并无明确为"CTO"的职位,但有承担相应工作的 人士。 上述知情人士向虎嗅进一步透露,这位DeepSeek核心高管的创业项目已拿到IDG资本融资。对此,虎嗅 向IDG方面求证,IDG相关人士表示对此事并不知情。有业内人士向虎嗅表示,通常情况下这种"不予置 评"的态度在投资圈并不罕见,尤其是涉及高敏感度的人才流动和前沿技术赛道时。 将时间倒推半年前,2024年12月至2025年1月正是DeepSeek最热的时期,彼时DeepSeek前后分别发布并 开源了具有极致降本增效能力的V3模型和推理模型R1.而该核心高管却选择在此时离职创业并切入 Agent赛道,这一时间点的选择耐人寻味。 由此产生的几个疑问是:这位核心高管究竟为何选择在DeepSeek最热的时期推出?如果要做Agent,为 何 ...
2025年第18期(总899期):开源大模型DeepSeek实现三个“首
搜狐财经· 2025-06-07 16:35
DeepSeek:全球开源AI大模型的新标杆 - AI大模型开源需满足代码完整、模型参数公开、训练数据透明三大核心标准,较传统软件开源更复杂 [1][13] - 多数大模型厂商走纯闭源或"半开源"路线,如OpenAI的GPT-4、Meta的Llama 3仅部分开源且附带商用限制 [1][13] - DeepSeek以全栈开源和宽松协议树立新典范:开放代码、权重、文档下载,公开GPRO训练算法等技术细节,采用无商用限制的MIT许可 [1][14] DeepSeek的三大突破性"首次" 技术路径革新 - DeepSeek-R1通过纯强化学习(RL)训练证明"小而美"路径的可行性,打破依赖"Scaling Law"的"唯资源论"定式 [2][17] - 推理成本与定价显著低于国际主流模型,为资源有限的国家提供低成本高效能技术方案 [2][17] 应用爆发 - 应用程序18天下载量达1600万次,日活突破3000万的速度创行业纪录 [3][18] - 引发《自然》期刊等国际媒体高度关注,被视为非美国公司践行开源初心的标杆 [3][18] 生态重构 - 吸引全球软硬件厂商适配,构建"模型—芯片—系统"一体化生态:国内十余家芯片厂商、华为/荣耀等手机厂商完成接入,美国AMD、亚马逊、Apple等企业开展合作 [4][20] - 美国红杉资本设立2亿美元专项基金用于投资DeepSeek技术生态项目 [20] 推动AI普惠化平权化的发展建议 技术协同创新 - 依托GitHub、Hugging Face等开源平台,鼓励企业与科研机构基于DeepSeek等开源成果开展二次开发 [5][21] 行业应用落地 - 推动开源大模型与各行业场景结合,发展垂类模型并构建高质量数据集 [6][21] 全民素养培育 - 通过线上平台开展大模型通识教育,推动企业与高校合作建设开发平台 [7][22] 结语 - DeepSeek的"低成本、高性能、全开放"特性重塑行业竞争格局,为全球AI普惠化、平权化提供可行路径 [8][12]
中国创新药的DeepSeek时刻:从“跟跑”到局部“领跑”
21世纪经济报道· 2025-06-06 16:31
中国创新药产业发展 - 三生制药以12.5亿美元首付款将PD-1/VEGF双抗授权给辉瑞 相比十年前恒瑞医药PD-1单抗2500万美元的首付款交易金额增长50倍 [1] - 中国创新药产业从"跟跑"转向局部"领跑" PD-1/VEGF双抗等下一代PD-1抗体技术优质资产主要集中在中国企业手中 [1] 技术创新能力跃升 - 中国药企研发模式从"me-too"改良转向"first-in-class"首创 技术稀缺性带来定价主动权 [2] - 全球创新药价值链重构 中国企业承担技术创新与早期开发 跨国药企发挥监管科学和全球市场准入优势 形成深度协作的全球创新网络 [2] AI技术重塑行业格局 - 传统药物研发平均耗时10-15年 耗资26亿美元 临床成功率低于10% AI将化合物筛选时间从数年压缩至数月 [3] - 中国工程师红利在AI药物设计中放大 高素质工程技术人才优势显著 [3] - 中国拥有全球最大患者数据资源 医疗信息化基础设施为AI训练提供高质量数据 [4] 创新生态系统优势 - 中国构建完整AI+生物医药创新生态 从底层大模型到专业生物信息学工具 [4] - 药品审评审批制度改革缩短审核时间 医保支付制度完善加速创新药市场准入 政策创新与技术创新形成双轮驱动 [4] 未来产业机遇 - ADC、细胞治疗、基因编辑、AI药物设计等新技术将催生产业新领导者 [5] - 技术快速迭代背景下 中国创新药产业面临历史性机遇 将影响未来十年全球产业格局 [5]
摩根士丹利:DeepSeek R2-新一代人工智能推理巨擘?
摩根· 2025-06-06 10:37
报告行业投资评级 - 行业观点为有吸引力,重申对DISCO和Advantest的买入评级 [5][7][11] 报告的核心观点 - DeepSeek R2可能即将发布,若其开发出轻量级、高性能、低成本的生成式AI,将推动生成式AI在更广泛领域的应用,对半导体生产设备(SPE)行业有利 [1] - 高效AI模型R2的发展将使更多用户以低成本使用高性能模型,推动生成式AI的普及和市场扩张,DISCO和Advantest将受益于AI相关设备需求的增长 [7] 根据相关目录分别进行总结 DeepSeek R2的特点 - 新R2模型有1.2万亿个参数,780亿个活跃参数,采用混合专家模型(MoE)架构,成本效率高,输入成本为每百万令牌0.07美元,输出成本为每百万令牌0.27美元,使用华为Ascend 910B芯片进行训练 [3] - 具备增强的多语言能力、更广泛的强化学习范围、多模态功能和推理时间扩展等升级特性,幻觉率降低 [7][9] DeepSeek R1-5028模型 - 5月29日,DeepSeek发布R1-5028模型,采用增强的训练后强化学习技术,在数学和编程方面表现出色,解决2025年美国高中数学奥林匹克竞赛问题的正确率从70%提高到87.5%,OpenAI最新推理模型o3得分88.9% [10] 生成式AI对SPE的影响 - 若DeepSeek持续开发高性能、轻量级模型,将推动生成式AI的普及,增加对GPU、HBM等AI设备的需求,对整体AI设备相关SPE市场有利 [11] 公司估值 - DISCO目标市盈率为25.1倍,基于2028年3月预期每股收益2724日元计算目标价 [12] - Advantest应用14.0倍市盈率,基于2028年3月预期每股收益737.1日元计算目标价为10300日元 [15] 行业覆盖公司评级 - Advantest、DISCO、SCREEN Holdings评级为买入;KOKUSAI ELECTRIC、Lasertec、Tokyo Electron、Ulvac、Ushio评级为持有;Nikon评级为卖出 [70]
摩根士丹利:DeepSeek R2 可能即将发布-对日本SPE行业的影响
摩根· 2025-06-06 10:37
报告行业投资评级 - 行业评级为“Attractive”(有吸引力)[5] - 重申对DISCO和Advantest的“OW”(增持)评级 [7][11] - 对KOKUSAI ELECTRIC、Lasertec、Tokyo Electron、Ulvac、Ushio评级为“E”(持股),对Nikon评级为“U”(减持),对SCREEN Holdings评级为“O”(增持) [70] 报告的核心观点 - DeepSeek R2若成功开发出轻量级、高性能、低成本生成式AI,将推动生成式AI在更广泛领域应用,对半导体生产设备(SPE)行业有利 [1] - 高效AI模型R2发展将使更多用户以低成本使用高性能模型,促使生成式AI普及和市场扩张,DISCO和Advantest将受益于AI相关设备需求提升 [7] 根据相关目录分别进行总结 DeepSeek R2特点 - 有1.2万亿参数(R1为6710亿),780亿为活跃参数,采用混合专家混合架构,成本效率高,输入成本为每百万令牌0.07美元(R1为0.15 - 0.16美元),输出成本为每百万令牌0.27美元(R1为2.19美元),使用华为Ascend 910B芯片训练 [3] - 增强多语言能力,能流畅处理非英语语言;强化强化学习范围,推理更具逻辑性和类人性;增加多模态功能,可处理文本、图像、语音和视频数据;实现推理时扩展,通过采用通用奖励模型增加计算资源提高输出 [9] DeepSeek R1-5028情况 - 5月29日发布,采用增强的训练后强化学习技术,擅长数学和编程,解决复杂问题逻辑性强,解决2025年美国高中生国际数学奥林匹克竞赛问题正确率从70%提升到87.5%,OpenAI最新推理模型o3正确率为88.9%,通过分配更多计算资源减少幻觉率 [10] 公司估值 - DISCO目标市盈率25.1倍,基于2028年3月财年每股收益2724日元估值 [13] - Advantest应用14.0倍市盈率,基于2028年3月财年每股收益737.1日元,目标价10300日元 [16]