开源AI模型
搜索文档
小扎自曝挖人秘诀:小团队我亲自带,豪掷数百亿建GW集群,大家不图天价薪酬只为“造神”
量子位· 2025-07-15 11:50
Meta的AI战略布局 - 公司否认高薪是吸引AI人才的主因,强调顶尖人才加入是为了参与"造神"级别的AI研发项目[1] - 超级智能实验室为人才提供直接向CEO汇报的权限及无上限的GPU资源支持[2] - 计划投入数百亿美元建设GW级计算集群,目标构建"超级人工智能"[4][5] GW级计算集群建设 - 定义:GW集群指功率达吉瓦级(1GW=1000MW)的超级计算设施,远超传统超算中心几百MW的规模[3][9] - **Prometheus项目**:选址俄亥俄州,1GW功率,2026年上线,采用混合基础设施策略支持生成式AI训练[12][13][15] - **Hyperion项目**:选址路易斯安那州,首期1.5GW(2030年),最终扩展至5GW,将成为全球最大单体AI数据中心园区[16][17][19] - 能源解决方案:配套建设两座200MW天然气发电厂以保障电力供应[25][26] 开源与闭源路线争议 - 公司内部对Llama系列开源路线存在分歧,部分高管主张转向闭源模型开发[30][37] - 新一代开源模型Behemoth因训练效果不佳推迟发布,原计划6月推出但至今未公布[39][40][43] - 超级智能实验室负责人Alexandr Wang暗示可能转向闭源,但最终决策权在CEO[46][48][49] 行业竞争动态 - 公司面临字节跳动轻量化MR眼镜"Swan"(100克)的潜在挑战,需应对可穿戴设备市场竞争[50][51][52] - Meta已暂停Quest系列开发,转向轻量化智能眼镜Orion以应对市场变化[53][54] 资源与环保争议 - GW级集群耗电量相当于数百万家庭用电,可能引发社区资源争夺[22][23] - 乔治亚州数据中心项目曾导致居民用水短缺,引发公众批评[24][28]
OpenAI开源模型发布推迟至夏末,为了狙击DeepSeek R2?
华尔街见闻· 2025-06-11 10:37
OpenAI开源模型延期 - OpenAI宣布原定6月推出的开源模型将延期至"今年夏天晚些时候",首席执行官Sam Altman表示研究团队取得了"出乎意料且相当令人惊叹"的进展,需要更多时间完善[1] - 该开源模型规划具备与GPT-4o相当的复杂推理能力,目标性能超越当前顶尖开源模型如中国DeepSeek的R1模型[2] - 公司曾讨论为开源模型增加连接云端大模型的接口功能以处理超复杂查询,但最终版本是否包含这些功能尚不确定[2] AI行业竞争态势 - 法国Mistral实验室推出首个AI推理模型系列Magistral,中国通义千问(Qwen)4月发布混合AI推理模型系列,行业竞争显著加剧[2] - OpenAI面临战略转型压力,Altman承认过去在开源领域"站在历史错误的一边",此次开源被视为修复开发者关系的核心举措[2] - 市场猜测OpenAI延期可能为狙击中国DeepSeek即将发布的R2模型,避免性能对比风险[2] DeepSeek技术进展 - DeepSeek R2作为R1迭代版本,在技术架构、功能特性和资源效率实现显著升级,摩根士丹利预测其AI调用成本大降87%且具备多模态处理能力[3] - 公司保持每季度重大更新的开发节奏,2024年9月推V2.5、12月发V3基础架构、2025年3月升级至V3-0324版本[4] - 创始人梁文锋强调中国要成为创新贡献者而非搭便车,将探索通用人工智能作为核心使命[4]
DeepSeek:“边缘革命” 的可能性
36氪· 2025-05-07 10:34
公司概况 - DeepSeek是一家专注于通用人工智能的中国科技企业,擅长处理复杂任务,包括文本生成、自然语言理解及分析、编程与代码相关功能 [1] - 公司采用开源推理模型免费商用策略,直接面向用户并提供应用场景模式服务,支持联网搜索与深度思考模式的网络实现 [1] - DeepSeek的成功促进了开源AI模型的采用,被视为AI行业的"开源时刻" [1] 行业影响 - DeepSeek的成功缩小了中美AI差距,从ChatGPT发布后的拉大趋势到DeepSeek V3和V3-0324发布后差距缩小至几个月内 [3] - 公司推动了AI产业化进程,大模型服务提供商转向免费模式,API价格下降接近免费,加速产业应用发展 [4] - DeepSeek代表小团队驱动创新的模式,与OpenAI类似,挑战了大公司主导的创新格局 [4] 技术发展 - 开源战略带来更快的创新和广泛采用,证明底层技术国家不能完全控制网络产业平台的价值传播和利益流向 [3] - 公司展示了"边缘革命"的可能性,发展中国家通过追踪新知识可重新参与AI竞争 [2] - 大模型参数超级大时可能产生失控风险,包括自我意识争议和恶意使用破坏性活动 [2] 产业政策 - 需要合理设计国内产业内循环模式和国际国内产业整体循环模式接口政策体系,保证"技术国境线"安全 [5] - 建议政策引导资本支持科技企业创新,鼓励民间资本成为长期资本、耐心资本参与智能产业平台底层建设 [6] 教育变革 - 大模型挑战传统教育体系,未来教育重点应转向创新和实践,减少对记忆功能的强调 [7] - 教育需要面向扎实的通识教育,在求知欲强的阶段传递科技前沿知识,避免训练过时技能 [8] - 大模型使知识进入"明牌时代",个体可通过提问获得前沿知识,学习方式从阶梯式变为跃迁式 [9][10] 知识开源 - DeepSeek的开源模式启示大学应以更开放态度面对公众,形成终身学习机制 [11] - 大模型起到知识赋权作用,将"暗知识"变为"明知识",个体重心从知识生产转向知识实践 [10]
黄仁勋、Mistral CEO谈「主权AI」:AI基础设施,不能指望外包
IPO早知道· 2025-03-29 12:15
主权AI与国家战略 - AI被视为新一代国家基础设施,类似电力、印刷机等通用技术,将对GDP产生两位数影响 [5][6] - 国家需制定专门AI战略,因AI需适应国情、文化和社会习惯,不能完全外包数字智能 [4][5][7] - 数字智能成为国家新基础设施层,需像管理电信、医疗一样主动参与和控制 [7][8] 开源与闭源模型 - 开源模型通过飞轮效应加速AI进程,闭源模型在"闭关锁国"下易被淘汰 [4][16] - 开源促进透明度、多方检查和技术改进,类似编程语言的开源生态 [18][19] - 任务关键型领域(如能源、金融)需自有部署,开源模型支持定制和强审计 [17][19] AI技术特性 - AI兼具通用性和专用性:基础模型可开源,但需垂直领域专家进行文化适配 [5][6][12] - AI是内容生成技术,承载文化价值观,需本地化训练(如Mistral专门优化阿拉伯语模型) [6][12] - AI编程模型能处理生活模糊性,超越传统规则编码方式 [9][13] 企业组织与生态 - Nvidia采用"对齐而非控制"的文化,最小化官僚主义以保持技术敏捷 [20][21] - 深科技公司需平衡科研不确定性与产品交付节奏(如Mistral的双频运作模式) [21][22] - 云服务商与AI公司竞合关系:独特价值主张是关键(如Nvidia的开发者生态、Mistral的开源定位) [22][23] 计算与AI未来趋势 - 异步工作负载和个性化AI交互将重塑基础设施需求 [23] - 物理AI(理解自然定律)和Agent系统将推动制造业革新 [23] - 国家需培养本地AI人才库,建设软硬件基础设施以缩小数字鸿沟 [13][23]
网友热评Deepseek新版V3:编程堪比最强AI,期待更强R2!
硬AI· 2025-03-25 20:41
模型性能升级 - 新版V3-0324模型总参数量达6710亿,采用专家混合模型(MoE)架构,激活参数370亿 [3][10] - 编程能力评测得分328.3分,超越Claude 3.7 Sonnet普通版(322.3分),接近其思维链版本(334.8分) [13] - 单个提示词可生成完整前端登录页面,设计审美显著优于上一代 [16][19][20] 技术创新 - 引入"偏差项"机制优化MoE负载均衡,结合节点受限路由机制降低跨节点通信开销 [10] - 推理速度显著提升,支持更大规模分布式训练与扩展 [11] 开源策略调整 - 采用MIT开源许可,商业友好性大幅提升,允许与专有软件自由集成 [23][24] - 许可条件比初代V3更宽松,降低商业应用门槛 [24] 行业影响 - 开源模型性能逼近闭源商业模型,对OpenAI、Anthropic等公司形成竞争压力 [27] - 推动AI技术民主化进程,加速开放生态形成 [28][29]