人工智能开源

搜索文档
中国模型厂商开辟“开源战场”,顶层设计再添一把火
第一财经· 2025-08-29 14:58
开源机制的战略意义 - 开源成为推动人工智能生态和产业落地的关键机制[1] - 国务院政策明确支持开源社区建设 促进模型、工具、数据集汇聚开放[2] - 开源本质是用群体智慧对抗技术垄断 推动技术快速迭代并教育普惠全球用户[4] 中国开源模型全球表现 - 中国模型在Hugging Face Trending、LMSYS Chatbot Arena等国际榜单表现亮眼[4] - DeepSeek-R1-0528以1333分Elo评级位居榜首 胜率达68.3%[3] - 前十大模型中中国占据八席 包括通义千问、GLM、DeepSeek等系列产品[3] 技术优势形成原因 - 国家算力数据底座与开源洪流助力中国厂商在国际榜单实现反超[2] - 需求倒逼创新能力提升 工程能力对冲GPU限制挑战[4] - 算法工程优化使DeepSeek基座模型媲美顶尖闭源模型 成本大幅降低[4] 产业落地挑战 - 企业级市场开源模型采用率趋于平稳 性能仍落后闭源模型9-12个月[8] - 企业优先考虑性能而非价格 市场呈现"赢者通吃"特性[8] - 国内面临商业化变现难题 企业用户缺乏软件付费习惯[9] 生态发展路径 - 开源模型需将"开源流量"转化为"产业力量" 打通技术领先到商业闭环[2] - 全球化成为开源生态生存先决条件 建议AI创业者从第一天考虑"走出去"[9] - 通过全球社区运营打通使用反馈迭代循环 提升客户单价和品牌外溢效应[9] 开源闭源互补关系 - 开源闭源模型技术差距不断缩小 开源在规模化定制化方面具优势[8] - 开源能够保证技术产品补充新鲜血液 在行业定制多模态创新引领突破[9] - 开源形成开发者社区工具链生态体系 支撑大模型在各行业落地[8]
马斯克开源Grok 2.5:中国公司才是xAI最大对手
36氪· 2025-08-25 07:25
开源发布 - xAI正式开源Grok 2.5版本,并宣布Grok 3将在半年后开源 [1] - 马斯克曾于本月初公开承诺将在下周开源Grok,实际发布时间略有延迟 [3][4] - 开源模型文件包含42个权重文件,总容量约为500GB,可通过HuggingFace平台下载 [5][7] 技术规格 - 运行环境要求8个GPU,每个需配备超过40GB显存 [8] - 官方推荐使用SGLang推理引擎(版本号≥v0.5.1)部署模型 [6][8] - 模型需通过特定命令启动服务器,并使用预定义的聊天模板进行交互 [8][9] 性能表现 - Grok 2在LMSYS排行榜的总体Elo分数曾超越Claude和GPT-4 [10] - 在研究生级别科学知识测试(GPQA)中达到56.0%,优于GPT-4 Turbo的48.0%和Claude 3 Opus的50.4% [13][14] - 数学竞赛问题(MATH)测试中取得76.1%的成绩,高于Claude 3 Opus的60.1%和Gemini Pro 1.5的67.7% [13][14] - 通用知识测试(MMLU)表现达87.5%,与GPT-4 Turbo的86.5%和Claude 3 Opus的85.7%相当 [14] 社区反馈 - 开源协议被指限制商业使用,与MIT或Apache 2.0等主流开源许可存在差异 [15] - 模型参数规模未明确披露,社区推测为2690亿参数的混合专家模型(MoE) [15] - 硬件要求过高(8×40GB GPU)引发用户对实际部署可行性质疑 [17] 产品更新 - Grok APP推出v1.1.58版本更新,重点新增AI视频生成功能 [19][21] - 功能演示视频已通过官方渠道发布,用户可在APP内体验新特性 [19][21]
马斯克开源Grok-2,称“中国公司将是最强大的对手”
每日经济新闻· 2025-08-24 19:08
xAI模型开源计划 - xAI正式开源去年最好的模型Grok-2.5(实际为Grok-2)[1] - Grok-3预计将在约6个月内实现开源[1] 马斯克对行业竞争格局的评估 - xAI预计很快将超越除谷歌外的任何公司 随后也将超越谷歌[1] - 中国公司被视为最强劲竞争对手 因其电力资源远超美国且硬件建设实力超强[1]
刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手
搜狐财经· 2025-08-24 09:29
开源发布 - xAI正式开源Grok 2模型,并宣布Grok 3将在半年后开源[1][2] - 开源时间较原计划推迟,但最终完成发布[3] - 模型文件包含42个文件,总大小约为500GB[3][4] 技术规格 - 模型需要8个GPU运行,每个GPU需具备超过40GB显存[4] - 官方建议使用SGLang推理引擎(版本号≥v0.5.1)运行模型[4] - 模型权重未明确公开参数数量,网友推测为2690亿参数的MoE结构[9] 性能表现 - Grok 2在LMSYS排行榜总体Elo分数超越Claude和GPT-4[4] - 在GPQA测试中达到56.0%,优于GPT-4 Turbo(48.0%)和Claude 3 Opus(50.4%)[8] - MMLU测试得分87.5%,与GPT-4 Turbo(86.5%)及Claude 3 Opus(85.7%)相当[8] - MATH数学竞赛问题测试达到76.1%,高于Claude 3 Opus(60.1%)和Gemini Pro 1.5(67.7%)[8] 开源协议争议 - 采用非商业许可协议,与MIT、Apache 2.0等主流开源协议存在差异[9] - 网友指出Mistral、Qwen、DeepSeek、微软及OpenAI均采用更宽松的开源许可[9] 战略动态 - 同步推出Grok APP v1.1.58版本更新,重点新增AI视频生成功能[10] - 马斯克公开表示xAI将很快超越谷歌,并认为中国公司是最大竞争对手[10]
三位90后,估值700亿
创业家· 2025-08-11 18:09
Mistral AI融资与估值 - Mistral AI正在进行新一轮10亿美元融资 估值将达到100亿美元(约合人民币700亿元)[4] - 成立两年估值翻了近50倍 最新一轮融资由中东基金MGX等机构参与[4][14] - 公司成立一个月时凭借7页PPT融资1.13亿美元 创欧洲种子轮纪录[4][12] - 2023年底完成4.15亿美元A轮融资 估值20亿美元[13] - 2024年6月完成6.4亿美元B轮融资 估值飙升至60亿美元[14] 创始团队与技术路线 - 三位90后创始人均来自巴黎顶尖学府 曾任职谷歌DeepMind和Meta AI实验室[8] - 2023年9月发布首个开源大模型Mistral 7B 73亿参数规模但性能优于Llama2[8] - 坚持开源路线 目标未来10年保持领先地位[8] - 2024年推出聊天机器人Le Chat和推理模型Magistral 但国际市场表现平平[9] - 年收入有望首次超过1亿美元 最近一年增长数倍[9] 行业竞争格局 - 开源模型竞争加剧 OpenAI时隔六年首次发布最新开源模型[9] - 腾讯 智谱AI 阿里巴巴 月之暗面等密集推出新一代开源大模型[9] - DeepSeek全球爆红 Mistral创始人称其为"中国版Mistral"[9] - 与英伟达建立合作 计划建立欧洲最大人工智能园区[14] 90后AI创业者现象 - AI搜索公司Perplexity估值180亿美元 较去年增长20倍[17] - Genesis AI完成1.05亿美元种子轮融资 创硅谷具身智能行业纪录[17] - Anysphere估值90亿美元 四位麻省理工毕业生创立[17] - 国内90后创业者包括宇树科技王兴兴 月之暗面杨植麟等[18]
OpenAI时隔6年再度开源,两款推理模型,o4-mini级,手机和笔记本能跑
36氪· 2025-08-06 11:23
模型发布与架构 - OpenAI开源两款MoE架构模型gpt-oss-120b和gpt-oss-20b 总参数量分别为1170亿和210亿 每个token激活参数分别为51亿和36亿 [1][29] - gpt-oss-120b在H100 GPU上训练耗时210万卡时 20b版本训练用量为其十分之一 [1] - 模型采用MXFP4原生量化 gpt-oss-120b支持单个80GB GPU运行 gpt-oss-20b仅需16GB内存可在边缘设备部署 [1][22] 性能表现 - gpt-oss-120b基准测试表现与o4-mini持平 20b版本与o3-mini相当 [1][31] - 在竞赛编程(Codeforces)、通用问题求解(MMLU和HLE)及工具调用(TauBench)方面优于o3-mini [31] - 健康查询(HealthBench)和竞赛数学(AIME 2024/2025)表现超越o4-mini [33] 技术特性 - 支持128k上下文长度 采用分组多查询注意力模式(组大小8)及旋转位置嵌入(RoPE) [29] - 具备无监督思维链能力 支持开发者自建监控系统 [36] - 与Responses API兼容 支持Agent工作流 含网页搜索 Python代码执行及推理长度调整功能 [8] 部署与适配 - 获14家平台支持包括Azure Hugging Face AWS等 以及英伟达 AMD Cerebras Groq等4家硬件厂商适配 [9][37][42] - Cerebras实现gpt-oss-120b推理速度3000 tokens/秒 Groq达1200 tokens/秒 [9][43][45] - 20b版本在M3 Pro芯片Mac本地部署速度达24 tokens/秒 可开发贪吃蛇游戏 [25] 数据与训练 - 使用英文为主纯文本数据集 重点覆盖STEM 编程及常识领域 [29] - 后训练过程含监督微调(SFT)和强化学习(RL)阶段 与o4-mini流程类似 [29] - 同步开源分词器(tokenizer)但未披露强化学习细节 预训练数据构成及来源 [9][27] 应用体验 - 用户反馈推理速度极快 一般问题思考时间仅5秒 其他模型需18秒 [12][14][16] - 在编程场景展现规划能力 可生成代码结构预览及关键技术点 [16][18] - 支持低中高三种推理强度 开发者可通过系统消息一键设置 [29] 许可与争议 - 采用Apache 2.0开源许可证 [37] - 被质疑开源不彻底 未公开训练过程 数据源及强化学习方法 无法完整复现模型 [9][27] - 基准测试未与DeepSeek Qwen Kimi等开源模型及Claude Grok Gemini等闭源模型对比 [9][29]
扎克伯格发文正式告别“默认开源”!网友:只剩中国 DeepSeek、通义和 Mistral 还在撑场面
AI前线· 2025-08-02 13:33
Meta的AI战略调整 - 扎克伯格提出"个人超级智能"愿景,目标是让每个人借助AI实现个人目标 [2] - 公司正在调整AI模型发布策略,从激进开源转向谨慎选择性开源,强调需管理超级智能带来的安全挑战 [3][6] - 此前Meta将开源视为核心优势,承诺打造性能媲美闭源的先进开源模型(如Llama系列),但最新表态显示开源不再是默认选项 [5][6][8] 开源策略的转变与行业影响 - 2024年扎克伯格曾明确表示"Meta致力于开源AI",并预测Llama后续模型将成为业内最先进 [6] - 2025年立场变化:不再承诺开源所有成果,尤其涉及"能力质变"的模型可能闭源 [7][8] - 这一转变使DeepSeek、通义千问和Mistral成为全球少数坚持开源最先进模型(SOTA)的公司 [9][10] 商业化与资源投入 - Meta斥资143亿美元投资Scale AI并重组AI部门为"Meta Superintelligence Labs",集中资源开发闭源模型 [11][12] - 公司暂停开源模型"Behemoth"测试,转向闭源开发,高薪组建独立团队推进AGI研究 [11][12][14] - 商业化路径明确:通过AR眼镜、VR头显等硬件产品推广"个人超级智能"服务 [14] 竞争格局与行业动态 - Meta认为开源不影响其广告核心收入,但闭源竞争对手(如OpenAI)依赖模型访问权限销售 [11] - Llama3开发期间,公司为超越GPT-4逐渐改变策略,最终转向闭源冲刺AGI [11] - 中国公司如DeepSeek-R1的成功激励行业坚持开源,而Meta的退出可能强化中国在开源领域的影响力 [10][17]
超越DeepSeek,中国开源“集团军”重塑全球AI生态
观察者网· 2025-04-27 20:57
中国开源大模型生态发展 - 中国开源大模型形成集团化作战优势,DeepSeek和阿里Qwen等基础模型提升技术上限,中小企业基于其开发垂直模型加速迭代[1] - 昆仑万维推出Skywork-OR1系列模型,性能超越阿里QwQ-32B并开源数据集和训练代码,实现"真开源"[4] - 阿里云通义千问、阶跃星辰、智谱等企业密集开源多模态模型,百度宣布6月30日完全开源文心大模型[5] 中美AI开源策略对比 - 美国AI企业以闭源为主(OpenAI、Anthropic),Meta开源Llama但附加商业限制条款[6][7] - 中国通过政策推动开源生态,2017年《新一代人工智能发展规划》和2021年"十四五"规划明确支持开源[8] - 北京国资联合智谱成立3亿元Z基金支持全球AI开源项目[9] 开源技术商业化路径 - 智谱通过开源吸引开发者生态,向B/G端提供付费定制解决方案,其开源模型累计下载量达4000万次[16][17] - DeepSeek采用"免费基础API+高性能付费API"模式,定价每百万输入Token1元[17] - 阿里通过开源模型绑定云计算基础设施,形成场景闭环变现[17] 开源模型产业应用案例 - 工业领域:宝钢、中煤科工等企业利用开源模型实现生产优化,故障停机时间降低30%[13] - 公益领域:华为昇腾开源三江源物种识别模型,助力雪豹保护效率提升[14] - 海外市场:DeepSeek模型被印尼Ruangguru用于教育优化,阿里Qwen接入新加坡Atlas客服系统[6] 开源生态理论支撑 - 开源模式符合《大教堂与集市》提出的"集市"开发理论,通过群体协作加速创新[15] - 哈佛研究显示开源投入产出比达1:2000,中国正复制这一成功模式[16] - 中国开源战略推动全球AI从"单极霸权"转向"多极共生"[1][18]
OpenAI 的 75 封内部邮件,一堂硅谷创业课
晚点LatePost· 2024-12-24 20:53
OpenAI创立背景与早期发展 - 2015年5月阿尔特曼首次向马斯克提出创建非营利AI研究机构的构想 旨在抗衡Google等科技巨头的AI垄断 [7][9] - 初始治理架构设计为由5位科技领袖组成的委员会 包括马斯克、盖茨和奥米迪亚等 技术成果归属全人类 [11] - 马斯克承诺出资4000多万美元 并建议采用C型公司+非营利组织的混合架构以优化激励机制 [16][17] 人才争夺与团队建设 - 2015年底DeepMind试图高价挖角OpenAI核心团队 公司立即将年薪提高10-20万美元以稳定军心 [30][33] - 创始团队薪酬设为27.5万美元年薪+0.25%YC股权 新员工为17.5万美元年薪+12.5万美元绩效奖金 [46] - 为争夺顶尖人才如Ian Goodfellow 公司不惜匹配其在Google高达76.5万美元的年薪包 [49] - 马斯克强调必须不惜代价吸引顶级人才 "要么吸引世界最优秀人才 要么被DeepMind打败" [51][52] 技术研发方向 - 首席科学家苏茨克维提出AGI研发路径 强调硬件算力是突破关键 需7-10天完成单个大型实验 [75][77] - 2017年Dota 2 AI击败人类顶级选手 单个实验已需消耗上千个CPU/GPU内核 [74] - 机器人项目取得突破 模拟环境中完成魔方解算 计划9月实现实体机器人操作 [84] - 自我对弈被确定为AGI核心路径 多智能体环境能自发产生复杂行为模式 [76] 商业合作与融资 - 2016年与微软达成协议 以1000万美元获取价值6000万美元的Azure计算资源 [63][65] - 马斯克强烈反对合作中的营销条款 最终改为无附加条件的5000万美元资源支持 [70] - 2017年考虑通过ICO发币融资 但因安全团队担忧暂缓推进 [125] - 硬件投入需求激增 计划将GPU集群从600块扩至5000块 年运营成本达1200万美元 [82] 控制权之争 - 2017年马斯克要求转型营利架构 主张持有50-60%股权并担任CEO [100][105] - 创始团队担忧马斯克获取AGI绝对控制权 提出分布式治理方案 [110][111] - 谈判破裂后公司保持非营利架构 通过捐赠筹集资金 阿尔特曼确立领导地位 [120][124] - 马斯克于2018年2月退出董事会 但继续提供资金支持 [5][125]