开源模型

搜索文档
聊一聊数据中心的投资现状
傅里叶的猫· 2025-04-30 20:37
微软数据中心投资放缓 - 微软正经历数据中心投资需求的显著放缓或调整 自去年起退出超1GW的数据中心交易 并终止部分土地合同 [2] - 放缓国际扩张步伐 暂停/推迟多个国内外项目 包括美国亚特兰大、威斯康星二期、圣安东尼奥等地及欧洲、印度、英国、澳大利亚等地 涉及规划租赁需求减少近1 98GW(原计划4年完成 年均约500MW) [2] 调整原因分析 - OpenAI战略转移 不再完全依赖微软 转向甲骨文、CoreWeave等第三方并大力推进自建 导致微软为其规划的产能需求下降33% 例如微软威斯康星二期项目因此暂停 [4] - DeepSeek等开源模型冲击 业界首次明确承认其影响 减少了对大规模GPU租赁和训练的需求 促使微软更注重ROI 重新评估算力需求规模 [4] - 资源消化 消化2024年已大量租赁的资源 避免过度建设 [4] - 建设复杂性 超大规模数据中心设计和建设本身复杂 导致客观延迟 [4] OpenAI的扩张计划 - OpenAI正凭借巨额新融资(据传400亿美元 软银或领投75%)加速基础设施投入 将自建数据中心视为长期核心战略 [3] - 核心项目"星际之门"计划投入180亿美元 长期规划总算力超6GW 单项目功耗或达800MW-1 5GW [3] - 已开始组建设计建设团队 计划自建1-2个大型数据中心(支持自研ASIC) 同时继续与CoreWeave等合作满足短期需求 [3] 其他科技巨头的动态 - Meta、Google、亚马逊等其他巨头虽强调财务纪律 但核心AI投入未现类似放缓 Meta仍在为下一代Llama模型训练持续投入 [5] - 行业仍处AI驱动增长的"早期"阶段 资金依然充裕 微软等暂停项目更多是因技术迭代(等Blackwell、液冷)、供应链挑战(变压器/HVAC交期、电力限制)造成的短期调整 [5] - 对下一代硬件(如Nvidia GB200/GB300)需求依旧强劲 鸿海预测L72机架达3-5万台/2025年 客户因供应有限而急于锁定算力 [5]
扎克伯格最新专访:AI 会在知识工作和编程领域,引发一场巨大的革命
搜狐财经· 2025-04-30 18:02
文章核心观点 Meta首席执行官马克·扎克伯格在接受媒体采访时,谈到了Meta对AI发展格局的看法,回应外界质疑,介绍Llama 4模型进展,探讨AI应用场景、开源、商业化等问题,认为AI将带来多方面变革,未来充满机遇和挑战 [1] 分组1:AI发展格局与模型能力 - Meta认为尽管DeepSeek在特定领域有进展,但Llama 4模型能提供更高效率和更广泛功能 [1] - 预计未来12到18个月,Llama研发工作大部分代码将由AI编写,且会增加人类工作需求 [1] - Meta AI每月用户接近10亿,今年将构建个性化循环,是下一个发展方向 [2] 分组2:Llama 4模型进展 - 已发布Llama 4的Scout和Maverick模型,性价比高、原生支持多模态、可单台主机运行,未来几个月将推出类似Llama 3 8B参数的'Little Llama' [4] - 即将推出参数超2万亿的Behemoth前沿模型,需构建大量基础设施进行后期训练 [4] - Llama 4推理版本将在未来发布,低延迟和高性价比对消费级产品设计重要 [7] 分组3:模型评估与基准测试 - 开源模型领域发展良好,今年有许多优秀开源模型涌现,'开源模型将普遍超越闭源模型'的预测正成为现实 [5] - 外部基准测试有局限性,Meta将模型评估锚定在Meta AI产品的'北极星'用户场景和用户反馈上 [8] - 需谨慎看待一些基准测试结果,Meta主要参考内部指标 [9] 分组4:不同实验室优化方向 - 不同团队针对不同方面优化,Anthropic专注编码及智能代理,OpenAI侧重推理能力,Meta关注快速自然交互和多模态能力 [12] - 实现闭环的软件工程师(AI)是抢先达到超级人工智能的关键,Meta投入编码工作,开发编码和AI研究代理 [15] 分组5:AI应用场景与发展 - AI将在知识工作、编程、搜索技术、娱乐等多方面引发革命,未来媒体消费将更具互动性 [23][25] - 人们会利用AI处理社交任务,AI社交不会完全取代现实连接,未来AI具身性将增强 [27][28] - 增强现实领域设计应不干扰视线,促进人际互动,将数字内容无缝融入其中 [30][31] 分组6:模型比较与许可证 - 与DeepSeek相比,Llama 4模型尺寸更小、效率更高,在多模态能力上领先 [35] - Meta认为Llama许可证合理,目的是与大型云服务商沟通合作,目前未遇公司因许可证拒绝使用 [37][39] 分组7:开源与模型选择 - Meta构建自己的大模型以满足特定需求,但不排斥在特定场景使用其他模型 [40][41] - Meta需警惕跟进者的开源行为,要保持推动行业开源的战略方向 [42][43] 分组8:模型价值观与提炼 - 模型内含价值观和世界观,不同模型存在根本性偏见,推理和编码领域需关注安全问题 [46][48][49] - 模型提炼是开源有趣的事,可结合不同模型优点,但要解决安全问题 [49][50][51] 分组9:AI商业化模式 - AI不同应用适合不同商业模式,广告模式对免费服务有效,也会有付费的高级服务 [52][53] 分组10:CEO角色与决策 - 马克·扎克伯格通过招募人才、跨团队协调、推动基础设施建设、把控产品质量等方式监督项目 [54][56] 分组11:其他问题回应 - 作为美国公司,Meta默认与任政府建立富有成效关系,在人工智能治理上要为决定承担责任 [60] - 难以预测关税对建设数据中心的影响,每周效率最高的事不固定 [64][65] 分组12:未来趋势与展望 - 技术发展将释放巨大创造力,未来人们会更多参与线上互动,技术或增加社会对劳动力的需求 [66][67][69]
Qwen 3发布,Founder Park围绕开源模型的生态价值采访心言集团高级算法工程师左右
中国产业经济信息网· 2025-04-30 17:07
开源模型选择与部署 - 公司主要使用本地化部署的微调模型,90%以上业务依赖自研微调模型,特定任务调用GPT、豆包、Qwen等API [3] - 常用模型量级包括7B、32B和72B,具身智能业务采用0.5B、1.5B等多模态小模型 [3] - 选择7B模型因其推理速度快、部署成本低且性能速度均衡 [3] Qwen模型优势分析 - Qwen生态系统成熟稳定,推理框架和微调工具链适配完善,优于部分早期大参数模型 [4] - 中文支持优秀且预训练数据包含泛心理内容,契合情感陪伴业务需求 [5] - 提供0.5B至72B完整尺寸系列,降低多尺寸模型间的微调与测试成本 [5] - 阿里开源策略持续可靠,长期投入保障优于其他变动频繁的开源方 [5] 业务挑战与解决方案 - 具身智能领域面临推理成本高(端侧英伟达方案昂贵)与国产芯片生态适配周期长(需1-2个月)问题 [6] - 线上业务需应对情感细粒度理解(多模态融合)和高峰流量(凌晨峰值达平时3-4倍)的算力调度压力 [7] - 通过Post-training提升核心领域能力10个点,同时控制通用能力下降在2个点内 [8] 开源模型发展现状 - 开源模型(DeepSeek、Qwen、Llama)目标追平闭源顶尖模型(如GPT-4),目前仍存差距但可获取权重 [9] - DeepSeek技术路线激进,专注MoE与多模态前沿 Qwen与Llama更注重社区通用性,技术选型稳健 [11] - 期待Qwen增加技术细节公开,如数据配比等,类似Llama3与DeepSeek的技术报告 [10] 大模型创业洞察 - AI应作为后端信息处理工具而非前端界面,避免简单API嫁接旧产品 [13] - 情感类产品需深度整合多模态输入(如语音语调分析)以实现个性化,留存率是需求真实性的关键指标 [14] - 正确模式为"X+AI"(需求驱动)而非"AI+X"(技术驱动),避免伪需求陷阱 [14] 中国开源生态全球化 - Qwen与DeepSeek形成中国开源"双子星",推动技术生态驱动的全球化进程 [1][15] - 开源模式实现"全球协作-垂直创新-生态反哺"闭环,助力泛心理AI领域突破 [15]
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
36氪· 2025-04-29 17:53
模型发布与性能 - 公司一次性开源8款混合推理模型,包括2款MOE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和6款Dense模型(Qwen3-32B至Qwen3-0.6B) [2][4][6] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在ArenaHard测试(95.6分)接近Gemini2.5-Pro(96.4分),超越OpenAI o1(92.1分)和DeepSeek R1(93.2分) [2][3] - Qwen3-30B-A3B仅激活30亿参数(总参数300亿),性能却优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B水平 [5][6] 技术创新 - 国内首个支持"思考模式"(深度推理)和"非思考模式"(快速响应)的混合推理模型,可通过指令切换 [8][10] - 预训练数据量达36万亿token(Qwen2.5的两倍),支持119种语言,采用三阶段训练策略(S1:30T token基础训练,S2:5T token专业强化,S3:32K上下文扩展) [17][18][12] - 后训练采用四阶段流程:长链推理冷启动→强化学习→模式融合→通用能力强化,实现深度推理与快速响应平衡 [21][22] 行业影响 - 成为全球最大开源模型族群(累计200+模型,衍生模型超10万),超越Meta Llama系列 [24] - 专家混合模型(MoE)显存效率高,20-30B规模即可实现接近GPT-4的推理能力 [24] - GitHub发布后迅速获17.9k星,用户实测显示其在编程、数学和多语言处理(119种)表现优异 [24][25][28][30] 部署与应用 - 提供0.6B-32B多种规模选择,支持从笔记本测试到多卡集群扩展 [24] - 推荐使用SGLang/vLLM框架部署,本地支持Ollama/LMStudio等工具 [16] - 已上线Hugging Face/ModelScope/Kaggle等平台,普通用户可通过网页/APP直接体验 [13][14][15]
【昇腾全系列支持Qwen3】4月29日讯,据华为计算公众号,Qwen3于2025年4月29日发布并开源。此前昇腾MindSpeed和MindIE一直同步支持Qwen系列模型,此次Qwen3系列一经发布开源,即在MindSpeed和MindIE中开箱即用,实现Qwen3的0Day适配。
快讯· 2025-04-29 14:27
昇腾全系列支持Qwen3 - Qwen3于2025年4月29日发布并开源 [1] - 昇腾MindSpeed和MindIE此前已同步支持Qwen系列模型 [1] - Qwen3系列发布后立即在MindSpeed和MindIE中实现开箱即用 [1] - 昇腾全系列完成Qwen3的0Day适配 [1]
通义App全面上线千问3
快讯· 2025-04-29 11:13
通义千问开源模型Qwen3上线 - 阿里新一代通义千问开源模型Qwen3于4月29日全面上线通义App与通义网页版(tongyi.com) [1] - 用户可通过通义App和网页版中的专属智能体"千问大模型"及主对话页面体验该模型 [1] - 该模型被描述为全球最强开源模型,具备顶级智能能力 [1]
阿里巴巴,登顶全球开源模型!
证券时报· 2025-04-29 10:41
模型性能 - 千问3在GPQA、AIME24/25、LiveCodeBench等多个权威基准测试中全面超越R1、OpenAI-o1等全球顶尖模型,登顶全球开源模型 [1] - 在奥数水平的AIME25测评中获得81.5分,刷新开源纪录 [1] - 在LiveCodeBench测评中突破70分大关,表现超过Grok3 [1] - 在Arena Hard测评中以95.6分超越OpenAI-o1及DeepSeek-R1 [1] - 采用混合专家架构,总参数量为235B,激活参数量仅需22B [2] 技术亮点 - 国内首个"混合推理模型",集成"快思考"与"慢思考",可在思考模式与非思考模式之间无缝切换 [3] - 提供8款不同尺寸的模型版本,包含2款30B、235B的混合专家模型和6款稠密模型 [3] - 推理能力显著提升,在数学、代码生成和常识逻辑推理方面超越QwQ和Qwen2.5 instruct models [4] - 支持MCP协议,具备强大的工具调用能力,在BFCL评测中拿下70.8的新高 [5] - 旗舰模型部署成本仅为满血版R1的25%—35%,成本大降75%—65% [5] 开源与应用 - 采用宽松的Apache2.0协议开源,首次支持119多种语言 [6] - 已上线魔塔社区、HuggingFace、Github等平台,全球开发者可免费下载模型并商用 [6] - 个人用户可通过通义APP直接体验,夸克即将全线接入 [6] - 阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个 [7] - 超越Meta的Llama,成为全球第一开源模型 [7]
Meta,重磅发布!
证券时报· 2025-04-06 12:58
Meta推出Llama 4开源AI模型 - Meta发布Llama 4系列首批模型,包括Llama 4 Scout和Llama 4 Maverick两个版本,是公司迄今为止最先进的模型,也是同类产品中多模态性最强的模型 [1][5] - Llama 4是Llama系列模型中首批采用混合专家(MoE)架构的模型,与传统的稠密模型相比,MoE架构中单独的token只会激活全部参数中的一小部分,训练和推理的计算效率更高 [7] - Llama 4 Behemoth是Meta未来最强大的AI模型之一,总参数高达2万亿,作为对照,DeepSeek-R1总参数规模为6710亿 [8] Llama 4的技术特点 - 参数规模大:Llama 4 Scout共有16位"专家"、1090亿参数、170亿激活参数量;Llama 4 Maverick有128位"专家"、4000亿参数、170亿激活参数量;Llama 4 Behemoth具有2880亿激活参数量 [8] - 多模态能力突出:采用早期融合(Early Fusion)技术,可以用海量的无标签文本、图片和视频数据预训练模型,实现文本和视觉token无缝整合 [8] - 长文本能力突破:Llama 4 Scout模型支持高达1000万token的上下文窗口,刷新了开源模型的纪录,市场上其他领先模型如GPT-4o也未能达到此规模 [9] 开源模型竞争格局 - Meta是开源模型的重要奠基者,2023年开源Llama 2并免费商用,激活了开发者社区的创新潜力,基于Llama 2构建的应用项目数量大大增加 [11] - DeepSeek的崛起对Meta在开源模型社区的领先地位构成巨大冲击,仅用550万美元训练的DeepSeek-V3在基准测试中表现优于Llama模型 [12] - 阿里巴巴通义千问系列开源大模型也表现优异,阿里至今已向全球开源200多款模型,千问衍生模型数量突破10万,超越美国Llama系列 [12] 行业发展趋势 - OpenAI计划在几周后发布最新的推理模型o3和基座模型o4-mini,几个月后推出GPT-5 [13] - DeepSeek与清华大学研究团队联合发布重磅论文,提出两项核心技术,为提升大语言模型的推理能力提供新方法论 [13] - 大模型竞争进入推理强化和应用拓展的下半场,开源开放日益成为大模型的核心竞争力 [13]
速递|筹集400亿美元后,OpenAI宣布开源模型回归计划,推理能力模型即将面世
Z Potentials· 2025-04-01 11:49
开源模型发布计划 - 公司即将在未来数月推出自GPT-2以来首个具备推理能力的开源模型 [1][3] - 新开放模型能力类似于o3-mini 将根据准备框架评估后再发布 [2][3] - 计划举办全球开发者活动收集反馈 首场活动在旧金山举行随后扩展至欧洲和亚太 [4] 融资与基础设施投入 - 公司以3000亿美元估值完成400亿美元融资 为历史上最大私人融资之一 [1] - 180亿美元资金将用于Stargate项目 建设美国人工智能数据中心网络 [1] 开源战略调整 - CEO表示需调整开源策略 未来将推出更好模型但领先优势可能减弱 [5] - 面临开源竞争对手压力 如DeepSeek采用开放模型发布方式 [5] - 技术战略负责人透露今年将发布可自主部署的模型架构 [7] 行业竞争态势 - 开源生态崛起 Meta的Llama系列模型下载量突破10亿次 [6] - DeepSeek通过开源战略快速扩张全球用户版图 [6]
3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST
量子位· 2025-03-28 18:01
3D生成模型技术突破 - VAST公司发布TripoSG和TripoSF两个基础3D生成模型,均刷新开源和闭源领域的SOTA性能[6][7][8] - TripoSG开源1.5B版本模型权重、推理代码及演示Demo,在质量、细节和保真度实现重大突破[14][15][16] - TripoSF采用阶段性开源策略,目前发布VAE预训练模型和推理代码,满血版将在Tripo 3.0开放[16][64] 技术创新亮点 - TripoSG首创将矫正流(RF)Transformer架构应用于3D生成,结合MoE层实现参数容量提升[21][22][24][25] - 开发基于SDFs的高精度VAE架构,引入混合监督训练策略提升几何表示质量[28][30][31] - TripoSF核心创新SparseFlex表示方法,支持1024³高分辨率训练,内存占用降低82%[48][49][54][57] - 构建200万高质量"图像-SDF"训练样本数据集,验证数据质量对性能的关键影响[32][34] 性能表现 - TripoSG在语义一致性上超越现有模型,能处理复杂拓扑结构和精细元素[35][37][43] - TripoSF在标准测试中实现82% Chamfer Distance降低和88% F-score提升[57] - 高分辨率版本(Ours1024)在Toys4k和Dora Benchmark上全面领先竞品[58] 开源战略布局 - 启动持续一个月的开源计划,每周发布新项目[10][13] - 后续将开源三维部件补全模型、绑定生成模型及SIGGRAPH Asia收录的交互式草图模型[66][67] - 此前已开源MV-Adapter多视图生成方案和MIDI单图3D场景创建技术[70][72][74][75] 行业影响 - 公司2024年发表数十篇论文,此前开源项目包括threestudio、Wonder3D等业界知名框架[80] - 被专业艺术工作者认可,成为3D生成领域国产代表企业[81][87] - 技术路线规划明确:从静态生成向动态交互演进,目标2025年底实现零门槛3D创作[83][84][85]