Workflow
人工智能
icon
搜索文档
万字解析DeepSeek MOE架构!
自动驾驶之心· 2025-08-15 07:33
MOE架构基本原理 - MOE全称为混合专家模型 核心思想是使用多个专家FFN替代原Transformer架构中的前馈层 每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成 路由器通过softmax操作选择不同专家的权重 选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略 主要考虑专家并行方案时的通信 计算和存储效率平衡[9][10][14] - 引入容量因子概念 专家容量=(总token数/专家数量)×容量因子 用于控制每个专家处理的token数量 防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案 简单稀疏路由针对单个token选择专家 高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决 使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费 动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略 通过拆分FFN中间隐藏维度增加专家数量 在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制 设置特定共享专家始终激活 用于捕捉通用知识 减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成:共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数 解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略 将每个token的激活专家所在GPU设备数量限制为3个 显著降低通信开销[37] - 新增通信负载均衡损失函数 优化设备间token分配均衡性[38][39] - 采用token丢弃策略 对超过专家容量的token按分值降序丢弃 仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑 特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失 引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数 防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略 通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出 但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型 但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率 体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景 在AI模型中的地位日益重要[3]
刘典:从AI到“AI+”,如何实现产业跃迁
环球网资讯· 2025-08-15 06:29
中国AI产业向"AI+"迈进 - 中国AI产业正从技术叠加走向与各行业深度融合 形成覆盖基础层 技术层 应用层的完整体系 发展核心是规模化商业化应用 [1] - 国务院审议通过《关于深入实施"人工智能+"行动的意见》 为行业注入新动能并反映全球科技竞争版图变化趋势 [1] 基础层发展现状 - 2024年底中国算力总规模达280EFLOPS 其中智能算力90EFLOPS占比超30% 通过"东数西算"战略显著降低算力与能源成本 [1] - 国产芯片在云端训练 边缘推理场景份额持续扩大 但高端训练环节仍存在技术瓶颈 [1] 技术层创新进展 - 中国已发布1509个大模型占全球总量40% 拥有71家AI独角兽企业占全球271家的26% [2] - 开源社区通过知识共享降低开发门槛 加速创意到产业应用的转化效率 [2] 应用层渗透情况 - 中国AI场景渗透深度广度全球领先 53%企业用AI打通业务流程 18%头部企业以AI重构端到端流程 但仅9%实现显著价值转化 [2] - 数据治理能力不足和专业人才短缺是制约AI应用发展的主要因素 [2] 市场规模与挑战 - 2024年AI核心产业规模突破7000亿元增速超20% 预计2025年达8000-10000亿元 全产业链规模有望达5万亿元 [3] - 生成式AI快速普及 302款备案大模型用户超6亿 头部产品日活突破3000万 [3] - 行业面临技术同质化与应用碎片化挑战 部分千亿参数模型在垂直领域效果仍逊于国际顶尖竞品 存在资源浪费风险 [3] 国际合作方向 - 中国可通过技术赋能与全球南方国家共建生态 与发达国家侧重技术互补和标准互认 在国际组织层面强调普惠合作打破西方垄断 [4] - 需通过生态共建打造覆盖不同类型伙伴的合作网络 增强全球AI治理参与度 [4] 产业升级路径 - 需从铺摊子转向提质效 突破关键技术 深挖应用场景 提升响应能力 拓展国际合作 增强生态话语权 [4]
竞逐资本市场 创投钟意杭州“六小龙”
搜狐财经· 2025-08-15 06:25
成立至今,群核科技已获得包括IDG资本、纪源资本、顺为资本、云启资本、经纬创投、高瓴等多家知 名机构的投资。时报财经图库/供图 在公司业绩多年亏损的情况下,群核科技一直通过外部融资的方式发展。自2013年以来,群核科技累计 完成多轮融资,投资方阵容亮眼。招股书显示,除3位创始人黄晓煌、陈航和朱皓分别持有公司 15.46%、11.04%和4.22%的股权外,IDG资本、纪源资本、顺为资本、高瓴四大机构合计持股近50%。 除群核科技外,杭州"六小龙"之一的宇树科技也准备上市。 今年7月18日,证监会网站披露了宇树科技的上市辅导备案文件。文件显示,宇树科技于今年7月7日与 中信证券签署辅导协议,启动A股IPO进程。按计划,中信证券将在7月至9月对接受辅导人员进行集中 授课,最早将于今年10月进行上市条件综合评估,并协助公司准备IPO申请文件。 证券时报记者 王军 8月14日,群核科技于2月14日递交的港股招股书到期。据悉,港交所IPO流程规定,企业递交的招股书 有效期为6个月。若未在6个月规定期限内完成上市聆讯或上市流程,招股书将自动失效,失效后,企业 可更新数据后重新提交申请。 群核科技成立于2011年,是一家以 ...
行业生态更完善 应用场景更丰富 国资央企加力布局人工智能赛道
中国证券报· 2025-08-15 06:11
央企人工智能布局加速 - 中国移动上半年人工智能领域相关收入达"几十亿元数量级" [1] - 国家能源集团"擎源"、中国石油"昆仑"等大模型相继投用 [1] - 中央企业已布局16个重点行业800余个场景 [1] - 国资央企通过加大投入与资本运作提速,塑造新产业优势、培育新动能 [1] 央企人工智能业务表现 - 中国电信上半年智算数据中心收入同比增长7.4%,天翼云收入达573亿元,推出80余个行业大模型、30余个行业智能体,服务行业客户超2万家 [2] - 中国联通算网数智业务上半年收入达454亿元,占比提升至26%,AIDC签约金额同比增长60%,计划2025年固定资产投资550亿元 [2] - 中国移动总智算规模达61.3EFLOPS,AI+DICT签约项目达1485个,下半年人工智能投资力度快于上半年 [2] 行业大模型落地与趋势 - 国家能源集团"擎源"、中国建材集团"晓妙"、中国移动"九天"3.0、中国联通"元景"等大模型成果显著 [3] - 央企人工智能业务将呈现三大趋势:系统级场景优势转化为可开放产品、从自用转向输出、央地协同助力稳投资 [3] 地方国资开放应用场景 - 广州发布60个市属国企人工智能应用场景,大模型备案总数达33款,产业基金规模超700亿元 [4] - 深圳推出"滚动式发布"模式,首批遴选100个优质应用场景 [4] - 浙江国资委发布首批26个"人工智能+"开放场景清单,涵盖8大重点领域 [4] 政策支持与生态培育 - 国务院国资委强调落地战略性高价值应用,强化顶层设计,打造人工智能+科学、生物医药等应用标杆 [6] - 统筹规划智算集群建设,对外提供普惠高效算力服务,开放央企人工智能能力降低创新门槛 [6] - 整合资金、产业、数据等优势资源,支持产业链关键环节企业,培育世界一流企业 [6]
当中国开源AI领跑,美国科技圈和政界坐不住了
搜狐财经· 2025-08-15 02:58
中国开源AI模型发展 - 中国正加快将开源人工智能模型打造成全球标准 此举震动美国科技巨头与政策制定者 担心美国优势被取代并筹划应对策略 [2] - 中国AI领域2024年突破不断 DeepSeek推出R1推理模型引发轰动 阿里巴巴密集推进Qwen系列开源 几乎每个季度都有新动作 持续巩固开源AI地位 [2] - 开源模型提供免费下载和自由修改 推动中国AI技术迅速在全球落地应用 美国专有模型公司感受到压力 OpenAI于8月初推出首个开源模型gpt-oss应对挑战 [2] 中美AI竞争格局 - 中国出现反超美国的可能性 凭借开放权重模型生态和半导体设计制造积极布局积蓄势能 [5] - 美国特朗普政府7月发布"美国人工智能行动计划" 明确指出开源模型可能在部分领域成为全球标准 呼吁打造基于美国价值观的领先开源模型 [5] - 中国高度竞争的商业环境和知识快速扩散 在AI竞赛中积累惊人动能 中美在不同AI领域各有优势 美国在大规模云端AI部署领先 中国长期在安防技术占优 [5] 开源模型性能与应用 - 研究机构Artificial Analysis评测显示 自2023年11月起中国最好开放权重模型整体性能已超越美国开源冠军 [7] - 在数学和编程等能力方面 阿里巴巴Qwen3某一版本击败OpenAI的gpt-oss [7] - 华侨银行利用开源模型开发约30款内部工具 使用Google Gemma总结文件 Qwen协助写代码 DeepSeek分析市场趋势 同时使用约10个开源模型 [7] 开源生态商业模式 - 开源AI领先者难以立即获得可观回报 研发成本动辄上亿美元 但可通过锁定用户后在生态内其他服务盈利 类似谷歌在安卓系统捆绑搜索和YouTube [6] - 企业偏好开源模式 可自由定制并部署在内部系统 将敏感数据留在自家服务器 [6] - 科研界长期将开源视为加速新兴技术发展的方式 中国鼓励AI、操作系统、半导体架构和工程软件领域的开源研发 [6] 中美AI生态差异 - 美国公司基础模型研发采取相对封闭策略 需要投入巨额资金挖角竞争对手核心成员 知识流动缓慢且代价高昂 [9] - 中国开源AI生态呈现高度竞争态势 领先基础模型公司相互压低价格 高调宣传 在人才与客户上互相挖角 [9] - 这种达尔文式竞争会淘汰部分现有玩家 但孕育出更强大的公司 DeepSeek和阿里巴巴等免费模型赢得全球用户青睐 [9]
三重利好确立A股市场长期向好趋势
证券日报· 2025-08-15 00:12
市场表现 - 上证指数8月14日突破3700点整数关口,沪深北三市总成交额超2 3万亿元,创年内单日成交额新高 [1] - 上证指数自2025年4月3040点起步,历时4个月逐级突破3400-3700点,呈现"台阶式上行"稳健态势 [1] - 单日成交额从8月11日1 8万亿元稳步放大至8月14日2 3万亿元,显示场外资金入场意愿增强且持续 [1] 资金动向 - 融资融券余额8月初重返2万亿元大关,杠杆资金有序入场反映风险偏好理性回升 [2] - 保险资金一季度权益投资余额大幅增加,中长期资金加大权益资产配置力度 [2] - 市场资金向半导体、机器人、人工智能等科技成长板块集中,北向资金呈现持续净流入态势 [3] 经济基本面 - 上半年GDP同比增长5 3%,较2024年增速加快0 3个百分点 [4] - 规模以上高技术制造业增加值同比增长9 5%,高技术服务业投资同比增长8 6% [4] - 新兴产业如AI人工智能、创新药、高端制造迎来快速发展期 [4] 政策环境 - 监管部门出台多项举措引导资金长期投资,提升市场内在稳定性 [5] - 适度宽松货币政策提供充裕流动性,财政政策通过设备更新、消费品以旧换新激发经济活力 [5] - 宏观政策与资本市场政策协同性增强,为市场创造良好发展环境 [5]
猎豹移动上涨3.21%,报4.83美元/股,总市值1.48亿美元
金融界· 2025-08-14 23:47
股价表现与交易数据 - 8月14日盘中股价上涨3.21%至4.83美元/股 [1] - 当日成交额7.61万美元 [1] - 当前总市值达1.48亿美元 [1] 财务业绩表现 - 截至2025年3月31日收入总额2.59亿人民币,同比增长36.11% [1] - 归母净利润-3335.7万人民币,亏损幅度同比收窄58.32% [1] - 2025财年中报预计于9月12日披露 [1] 公司战略定位 - 全球领先移动互联网公司,正从移动互联网向AI驱动的产业互联网战略升级 [2] - 致力于"在人机共存的世界里用科技让生活更美好"的使命 [2] - 以成为全球领先的AI产业互联网公司为目标 [2] 技术能力体系 - 构建垂直一体化AI能力,涵盖自研芯片算力、算法能力、系统能力、应用能力及商业大脑 [2] - 算法能力包括语音全链路技术、麦克风阵列、全感知视觉识别、室内导航平台和6轴机械臂 [2] - 开发三大开放系统:猎户星空语音OS、猎户星空Robot OS和猎户星空Arm OS [2] 业务布局架构 - 智能服务机器人解决方案包括智能语音服务机器人、智能递送服务机器人和智能劳动服务机器人 [2] - AI赋能解决方案涵盖语音、芯片、视觉、智能自助设备及室内自主导航 [2] - 通过"智能服务机器人"和"AI赋能"两大业务板块迎接AI和5G时代的服务与产品智能化升级 [2]
ETF日报|慢牛歇脚,券商ETF(512000)多空激战!“AI双子星”分化,资金大举抢筹159363!国防军工10天7板牛股闪崩
搜狐财经· 2025-08-14 22:43
大盘走势 - 沪指早盘突破3700点创近4年新高后回落,三大指数集体收跌,超4600股下跌 [1] - A股全天成交2.31万亿元,连续两日位于2万亿上方 [1] - 市场分析认为短期需消化分歧资金,但中期多头格局未改,中金公司指出行情尚未结束 [2][8] 行业板块表现 - 金融科技ETF(159851)早盘涨超3%后收涨0.57%,振幅达3.31%,成交10.61亿元 [1][2] - 券商ETF(512000)盘中涨逾2%创年内新高,收盘微跌0.17%,成交16.33亿元,东方财富以186.72亿元成交额蝉联A股首位 [1][4][7] - 国防军工ETF(512810)收跌1.66%,但全天溢价成交1.39亿元,长城军工月内涨幅超100% [17][19] 重点ETF动态 - 创业板人工智能ETF(159363)回调2.34%但获1.22亿份净申购,年内涨幅39%显著跑赢同类AI指数 [12][13][15] - 科创人工智能ETF华宝(589520)跌幅0.5%,寒武纪逆市大涨10.35%支撑表现 [1][12] - 券商ETF规模超263亿元,近5日净流入4.85亿元,31家上市券商中报净利润均同比正增长 [8][10] 个股及业绩亮点 - 券商板块13家公司中报净利润同比翻番,华西证券预增1025%-1353%,国联证券预增1183% [9] - AI算力链中长芯博创、天孚通信跌超5%,国投智能逆市涨14.8% [12][13] - 国防军工板块长城军工月涨435%后单日成交85.85亿元,中国长城逆市涨3.6%成交121亿元 [19] 资金动向与策略 - 融资余额单日增117亿元至2.03万亿元,券商板块补涨逻辑受关注 [8] - 创业板人工智能ETF因光模块含量超41%获资金加仓,中金看好GPT-5发布带动的算力需求 [15][16] - 国防军工ETF持续吸金,机构提示需关注半年报业绩兑现情况 [19][20]
别太相信DeepSeek
凤凰网财经· 2025-08-14 22:14
GEO行业概述 - 2024年6月印度理工学院和普林斯顿大学研究者首次提出GEO概念 旨在提升品牌信息在AI生成答案中的存在感 通过优化策略可使内容在AI回答中的出镜率提升40% [4] - 以Profound为代表的AI搜索优化公司获得资本青睐 一年融资三次 估值超过1亿美金 [4][5] - 2025年全球GEO市场规模突破420亿元 年复合增长率达87% Gartner预测2026年传统搜索引擎25%的流量将流向AI工具 谷歌零点击搜索占比已达58.5% [5] 商业模式与市场动态 - 国内GEO服务定价为每月150-300元一个关键词 海外平台每月300-500美元 企业接受度较高 [12] - 企业需求集中在品牌引流 餐饮行业成为国内首批自发使用AI推荐的领域 部分品牌在电商页面直接使用AI首推宣传 [12][13] - Profound预测到2027年AI对话推荐流量占比将超过50% 约2.5万亿美元的在线商务通过AI对话驱动 [18] 技术实现与优化策略 - GEO通过匹配用户提问需求实现品牌关键词模糊语义定向 精准呈现广告信息 [9] - 深度思考模式催生用AI生成内容喂AI的低成本投放逻辑 通过生成网稿作为语料投放到可触达网站实现收录 [26][27] - 行业面临模型算法不透明问题 需针对不同模型定制测评维度和优化策略 无法一套方案通用 [23][24] 竞争格局与行业趋势 - 市场玩家分为三类:传统SEO公司 内容营销转型企业 专攻AI搜索的初创团队 [20] - 内容生成能力被视为核心竞争壁垒 需生产有价值信息补充AI生态内容供给 [22][27] - GEO或加速行业集中化 头部效应进一步加强 不同于SEO时代的分散格局 [28] 基础设施与流量规模 - DeepSeek承担国内AI应用约60%的联网搜索请求 其SearchAPI日均调用量达3000万次 相当于微软必应搜索量的三分之一 [16] - 联网搜索和深度思考模式增强用户对AI答案的信赖度 推动流量向对话式模型迁移 [17]
老黄力推的 Physical AI,有人用开源框架打通了硬件的最后一道关
Founder Park· 2025-08-14 21:39
Physical AI行业趋势 - 行业正加速从代码世界向物理世界延伸,Physical AI可行性轮廓日益清晰[2] - 巨头如英伟达已展示"感知-决策-控制"全链路闭环系统,标志技术突破加速[2] - 后来者破局关键在于开辟新路径而非追赶巨头,需打破技术壁垒实现AI开发民主化[2] 涂鸦智能的战略定位 - 公司定位为AI生活超级入口,致力于让普通开发者也能触及AI硬件创新[2] - 通过TuyaOpen开源框架提供Physical AI"入场券",实现技术平权[2][3] - 战略路径是打破少数人"圈地运动",推动开源框架驱动的"拆墙运动"[4] 行业开发痛点 - 技术断层:多模态AI融合需要跨学科能力,门槛过高[5] - 生态割裂:云服务/通信协议/供应链等环节形成信息孤岛[6] - 商业化黑洞:从原型到爆款过程中90%创意可能被量产和市场验证吞噬[7] TuyaOpen的技术方案 - 集成商用级开源操作系统和多模态AI框架,开发者无需算法背景即可实现语音/视觉功能[8] - 原生支持调用DeepSeek/通义千问/ChatGPT/Gemini等顶级大模型[8] - 端侧AI+云服务+生态协同架构,预对接涂鸦云端并兼容主流软硬件生态[9] - 提供低代码开发工具加速产品迭代,构建开发-迭代-商业化全链路[11] 商业化赋能体系 - 整合覆盖12万线上线下渠道的全球供应链资源[11] - 与孩子王合作推出的AI玩偶2周售出3万台,验证商业化能力[17] - 为奥飞娱乐提供泰语交互方案,助力喜羊羊AI玩偶成功打入泰国市场[19][20] 开发者创新案例 - AI指南针整合天文知识库和情感交互功能,通过Agent接口实现复杂能力[12][14] - 办公管家机器人结合脑机接口与机械臂,实现健康管理交互[14] - 社交AI眼镜通过生物信号识别与光效转化,解决I型人格社交难题[16] 市场转型方向 - 行业正经历从"技术新奇"向"商业验证"的关键转折[16] - 成功标准从"能创造"转向"被需要",需实现技术魔力向市场竞争力的转化[16] - 模块化赋能体系帮助开发者聚焦产品创新与用户价值,摆脱技术重负[20]