开源AI模型

搜索文档
OpenAI开源模型发布推迟至夏末,为了狙击DeepSeek R2?
华尔街见闻· 2025-06-11 10:37
OpenAI开源模型延期 - OpenAI宣布原定6月推出的开源模型将延期至"今年夏天晚些时候",首席执行官Sam Altman表示研究团队取得了"出乎意料且相当令人惊叹"的进展,需要更多时间完善[1] - 该开源模型规划具备与GPT-4o相当的复杂推理能力,目标性能超越当前顶尖开源模型如中国DeepSeek的R1模型[2] - 公司曾讨论为开源模型增加连接云端大模型的接口功能以处理超复杂查询,但最终版本是否包含这些功能尚不确定[2] AI行业竞争态势 - 法国Mistral实验室推出首个AI推理模型系列Magistral,中国通义千问(Qwen)4月发布混合AI推理模型系列,行业竞争显著加剧[2] - OpenAI面临战略转型压力,Altman承认过去在开源领域"站在历史错误的一边",此次开源被视为修复开发者关系的核心举措[2] - 市场猜测OpenAI延期可能为狙击中国DeepSeek即将发布的R2模型,避免性能对比风险[2] DeepSeek技术进展 - DeepSeek R2作为R1迭代版本,在技术架构、功能特性和资源效率实现显著升级,摩根士丹利预测其AI调用成本大降87%且具备多模态处理能力[3] - 公司保持每季度重大更新的开发节奏,2024年9月推V2.5、12月发V3基础架构、2025年3月升级至V3-0324版本[4] - 创始人梁文锋强调中国要成为创新贡献者而非搭便车,将探索通用人工智能作为核心使命[4]
DeepSeek:“边缘革命” 的可能性
36氪· 2025-05-07 10:34
专注通用人工智能的中国科技企业——杭州深度求索人工智能基础技术研究有限公司(简称DeepSeek)近期在世界人工智能赛道上掀起 了一股旋风。 从产品角度看,DeepSeek的开源推理模型免费商用,直接面向用户,并可支持具体的开发, 提供相关应用场景模式服务,支持联网搜索 与深度思考模式的网络实现;DeepSeek擅长处理复杂任务,其文本生成、自然语言理解及分析、编程与代码相关功能,均具有很强的应 用模式合理设计及二次开发特征。 DeepSeek最显著的影响是促进了开源AI模型的采用。DeepSeek的成功证明,开源战略可以带来更快的创新和广泛采用,这被认为带来 了AI行业的"开源时刻"。 (2)中美AI差距在缩小。自ChatGPT发布以来,中美之间的人工智能差距似乎一直在拉大。特别是到OpenAI发布GPT-4和o1之后。然 而,DeepSeek的V3和V3-0324的发布,让这样的发展差距似乎缩小到了几个月之内。这让我们重新看到了中国人工智能发展的新机会和 新潜能。 (3)真正AI产业化的时代来临。这恰恰是中国最擅长的。我们也有广阔的产业和应用场景,可以跟人工智能更好地结合。DeepSeek的 成本革命会加 ...
黄仁勋、Mistral CEO谈「主权AI」:AI基础设施,不能指望外包
IPO早知道· 2025-03-29 12:15
主权AI与国家战略 - AI被视为新一代国家基础设施,类似电力、印刷机等通用技术,将对GDP产生两位数影响 [5][6] - 国家需制定专门AI战略,因AI需适应国情、文化和社会习惯,不能完全外包数字智能 [4][5][7] - 数字智能成为国家新基础设施层,需像管理电信、医疗一样主动参与和控制 [7][8] 开源与闭源模型 - 开源模型通过飞轮效应加速AI进程,闭源模型在"闭关锁国"下易被淘汰 [4][16] - 开源促进透明度、多方检查和技术改进,类似编程语言的开源生态 [18][19] - 任务关键型领域(如能源、金融)需自有部署,开源模型支持定制和强审计 [17][19] AI技术特性 - AI兼具通用性和专用性:基础模型可开源,但需垂直领域专家进行文化适配 [5][6][12] - AI是内容生成技术,承载文化价值观,需本地化训练(如Mistral专门优化阿拉伯语模型) [6][12] - AI编程模型能处理生活模糊性,超越传统规则编码方式 [9][13] 企业组织与生态 - Nvidia采用"对齐而非控制"的文化,最小化官僚主义以保持技术敏捷 [20][21] - 深科技公司需平衡科研不确定性与产品交付节奏(如Mistral的双频运作模式) [21][22] - 云服务商与AI公司竞合关系:独特价值主张是关键(如Nvidia的开发者生态、Mistral的开源定位) [22][23] 计算与AI未来趋势 - 异步工作负载和个性化AI交互将重塑基础设施需求 [23] - 物理AI(理解自然定律)和Agent系统将推动制造业革新 [23] - 国家需培养本地AI人才库,建设软硬件基础设施以缩小数字鸿沟 [13][23]
网友热评Deepseek新版V3:编程堪比最强AI,期待更强R2!
硬AI· 2025-03-25 20:41
模型性能升级 - 新版V3-0324模型总参数量达6710亿,采用专家混合模型(MoE)架构,激活参数370亿 [3][10] - 编程能力评测得分328.3分,超越Claude 3.7 Sonnet普通版(322.3分),接近其思维链版本(334.8分) [13] - 单个提示词可生成完整前端登录页面,设计审美显著优于上一代 [16][19][20] 技术创新 - 引入"偏差项"机制优化MoE负载均衡,结合节点受限路由机制降低跨节点通信开销 [10] - 推理速度显著提升,支持更大规模分布式训练与扩展 [11] 开源策略调整 - 采用MIT开源许可,商业友好性大幅提升,允许与专有软件自由集成 [23][24] - 许可条件比初代V3更宽松,降低商业应用门槛 [24] 行业影响 - 开源模型性能逼近闭源商业模型,对OpenAI、Anthropic等公司形成竞争压力 [27] - 推动AI技术民主化进程,加速开放生态形成 [28][29]