Workflow
开源模型
icon
搜索文档
说一下现在我做AI产品经理,使用的几个开源模型
36氪· 2025-05-14 16:34
AI模型私有化部署趋势 - AI产品经理倾向于私有化部署AI模型以实现功能个性化设计和保障数据安全[1] - 不同模型参数差异导致硬件需求不同 例如DeepSeek模型需要理论700GB显存 最低要求512GB显存[1] - 国内政策法规限制使部分AI模型难以通过备案审核 面向国内用户需选择国产模型[2] 模型选择标准与资源平台 - 模型参数越小则显存需求越低 需根据应用场景选择开源模型[2] - LLM rankings模型榜单提供各类模型排名 可结合Hugging Face平台获取开源模型[3][5] - 不同模型榜单关注点各异 包括开源模型、聊天能力、推理能力测评等[7] 主流模型榜单平台比较 - Chatbot Arena平台基于人类投票评估通用聊天机器人 覆盖多场景且支持免费使用模型[8] - Hugging Face Open LLM Leaderboard专注开源大模型排名 提供跨基准平均得分[8] - Scale AI Leaderboards评估前沿LLM在私人测试中的表现 包括多模态考试排名[8] - Vellum AI LLM Leaderboard以图表呈现最新公共基准性能 支持模型对比[8] - Artificial Analysis平台对比各厂商API速度、价格等指标 对API调用具参考价值[8] - Convex LLM Leaderboard专注代码生成能力评估 包括正确性、效率等维度[8] 国内主流开源模型部署 - 阿里通义Qwen3.0支持多模态和视觉应用 参数规模小于DeepSeek 显存占用较少[10] - DeepSeek提供V3和R1双模型 V3为混合专家系统架构全能型模型 R1侧重深度推理[11] - 行业专用模型包括百川(医疗)、智普(金融)、腾讯混元(视频生成)等[12] - 移动端部署推荐微软BitNet b1.58模型 支持CPU运行100B参数 能耗大幅下降[13] 国际开源模型应用 - Llama 4支持多模态数据融合 处理1000万token上下文 在医学科学领域潜力显著[14] - LTX-Video支持文本生成视频 Parakeet TDT 0.6B V2支持文本转语音[15] - Stable Diffusion v1-4支持文字生成图像 Whisper支持语音转文字[17] - fastvlm为苹果视觉模型 支持物体识别与语言调用[18] 多模型协作与行业挑战 - 模型按输出类型分为文本/图片/视频/语音生成 需根据数据类型选择[20] - 数字人等产品需多模型协作(如ASR+TTS+DeepSeek) 但非端到端模型导致响应延迟[20] - AI产品经理需熟悉英文并研读开源模型文档 学习门槛持续提升[20]
Meta、微软掌门人巅峰对话:大模型如何改变世界?
36氪· 2025-05-07 10:32
大模型竞争格局 - 阿里4月29日发布开源模型Qwen并官宣登顶全球开源模型榜首 [1] - Meta在4月30日首届LlamaCon大会上发布对标ChatGPT的Meta AI App和Llama API预览版 [1] - Meta的Llama 4系列模型于4月6日抢先发布 [1] 技术转型与深度应用 - 纳德拉将AI浪潮视为继客户端-服务器、互联网、移动互联网、云计算后的第五次技术转型 [4][5] - 当前技术栈面临结构性调整需基于第一性原理重构 例如AI训练工作负载需完全不同的存储系统设计 [5] - 多模型协同工作阶段已至 可通过编排、智能体和MCP/A2A协议构建深度应用 [8][10] - 技术进步叠加带来每6-12个月10倍的性能提升 价格同步下降推动消费增长 [7][8] 开源与闭源生态 - 微软早期通过Windows NT与Unix互操作性验证开源对业务的益处 [11] - 企业客户倾向用开源模型提炼自有知识产权 超大规模云提供商需同时支持闭源/开源模型 [12] - Azure通过计算/存储/网络+AI加速器构建基础设施 GitHub Copilot作为工具加速开发 [12][14] AI生产力变革 - GitHub Copilot功能从代码补全演进至智能体工作流 微软内部20%-30%代码由AI生成 [15][19] - 扎克伯格预测2026年50%应用开发将由AI完成 工程师将转型为"智能体小队"技术领导 [4][25] - 传统工作流被颠覆 如销售会议准备从邮件文档转向AI实时整合CRM/网络/内部数据 [16] 模型蒸馏与混合应用 - Llama 4 Maverick通过蒸馏实现文本性能对标DeepSeek 图像多模态表现突出 [33] - 蒸馏技术可从20倍大模型中提取90%-95%能力 降低开发者使用门槛 [34][35] - Meta开发代号Little Llama的8b小模型 适配笔记本/手机端 [36] - 混合模型(MOE+推理)可实现灵活调整延迟 是未来重要方向 [37] 模型性能数据 - Llama 4 Maverick在Artificial Analysis Intelligence Index得分为50.5 成本$0.36/M Tokens [34] - Gemini 2.5 Pro Preview输出速度达209(Composite Avg) 但TTFT延迟高达29.93ms [34] - GPT 40成本最高达$7.5/M Tokens Claude 3.7在MMLU-Pro评分0.84领先 [34]
公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
机器之心· 2025-05-06 16:04
大模型推理能力发展 - 推理能力成为衡量AI模型智能的关键指标,是行业竞争焦点[2] - 推理效率已成为模型部署和性能的关键限制因素[3] - 英伟达推出Llama-Nemotron系列模型,专注高效推理,采用开放许可方式[3] Llama-Nemotron系列模型概况 - 包含三个模型规模:Nano(8B)、Super(49B)、Ultra(253B),另有支持超长上下文的UltraLong(8B)变体[4] - 模型权重和部分训练数据在Hugging Face公开,遵循NVIDIA Open Model License和Llama社区许可,可商业使用[5] - 首批支持动态推理切换的开源模型,用户可在标准聊天模式和推理模式间自由切换[6] 模型性能与优化技术 - LN-Ultra模型相比DeepSeek-R1显著提高推理吞吐量和部署效率[6] - 通过Puzzle框架实现高效推理优化,支持模块替换和精度-效率权衡[12][15] - 采用移除注意力机制和FFN压缩技术,优化总体吞吐量与内存节省[16] - LN-Super在单块H100 GPU上实现5倍推理吞吐提升,TP1配置下保持≥2.17×吞吐优势[19] - LN-Ultra在8张H100 GPU节点上实现1.71倍延迟提升,支持300万FP8精度Token缓存[20][21] 训练方法与知识迁移 - 多阶段后训练流程强化推理和非推理任务表现,包括监督微调和强化学习[9] - Qwen负责数学和科学数据生成,DeepSeek-R1作为核心教师模型迁移深度逻辑能力[9] - 通过"detailed thinking on/off"指令机制实现推理深度与回答风格的灵活切换[27] - LN-Ultra在MMLU、MATH500、HumanEval等基准测试上超越或接近Llama 3系列[25] 强化学习与性能提升 - 大规模强化学习(RL)帮助学生模型超越教师模型性能[31] - 采用GRPO算法提升科学推理能力,训练消耗约14万张H100 GPU小时[32] - 课程化学习策略显著帮助模型在复杂推理问题上的收敛和泛化[35] - FP8精度生成模式实现1.8倍吞吐提升,单个GPU最高达32 token/s[37] 指令跟随与人类反馈优化 - 短周期强化学习训练优化指令跟随能力,提升传统评测和推理任务表现[39] - LN-Super在Arena Hard评测中取得88.3分,超越多个专有模型和更大规模开源模型[40] - 迭代式在线RPO训练方式最大化偏好奖励,Arena Hard分数从69.1提升至88.1[40][41]
互联网大厂五一前密集开源新模型,布局各异谁将留在牌桌?
南方都市报· 2025-05-01 22:12
大模型开源动态 - 阿里巴巴开源新一代通义千问模型Qwen3,参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越DeepSeek-R1、OpenAI-o1等全球顶尖模型,并迅速成为全球最强开源模型 [1] - 小米开源首个为推理而生的大模型Xiaomi MiMo,联动预训练到后训练,全面提升推理能力 [1] - Deepseek在开源社区Hugging Face上正式发布DeepSeek-Prover-V2,并同步上线模型卡及示例代码 [1] 模型性能与技术特点 - Qwen3包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,阿里云开源了两个MoE模型的权重,六个密集模型也已开源,每款模型均斩获同尺寸开源模型SOTA [2] - 千问3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能 [2] - 阿里云开源的千问3是国内首个"混合推理模型",即将"快思考"与"慢思考"集成进同一个模型,对简单需求可低算力"秒回"答案,对复杂问题可多步骤"深度思考",大大节省算力消耗 [5] - 小米最新开源的Xiaomi MiMo在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,仅用7B的参数规模,超越了OpenAI的闭源推理模型o1-mini [6] - DeepSeek-Prover-V2-7B支持最长32K上下文输入,DeepSeek-Prover-V2-671B在DeepSeek-V3-Base基础上训练达到了推理性能最强,新模型主要专注数学定理证明,大幅刷新了多项高难基准测试 [8] 公司战略与行业影响 - 阿里云的开源逻辑是通过开源模型切入AI应用并在算力、软件工具等方面实现盈利,开源对阿里整个云服务生态有利 [6] - 开源不是目的而是手段,中国企业可借助开源形成技术优势,深化场景应用,实现技术普惠与商业共赢 [8] - 中国自研顶尖开源模型展示了AI训练自主创新的"第二路径",用"多快好省"的模型训练路径极大节省了算力,挑战了OpenAI领衔的"巨量投入才获增长"的"暴力美学" [8] - 开源模型进一步让大模型价格接近普惠点,促进了AI平权,让中国自主创新的模型技术赋能更多公司,穿透千行百业 [8] 行业竞争格局 - 在大模型时代,互联网大厂正在遵循各自的优势进行布局:阿里以通义大模型为底座布局C端应用,百度布局B端智能云和C端AI搜索,字节押注全域多个模型应用,腾讯采取"核心技术自研+积极拥抱开源"的多模型策略 [9] - 中国大模型领域未来可能会收敛至DeepSeek、阿里巴巴、字节跳动三家,其中DeepSeek势头最猛 [10] - 万亿参数以上的超大模型往后会更偏向"教师模型"角色,用来训练轻量化、性能优秀的产业大模型 [10] - DeepSeek背靠资源雄厚的幻方量化,资金充足,团队工程能力强,能在不过度烧钱的前提下持续训练优质模型 [10] - 阿里和字节拥有巨大用户量和商业化空间来支撑超大模型的训练,投入产出比对于这些公司而言是健康良性的生态闭环 [11] - 字节在牌桌上优势最大因为用户多为内容创作者,腾讯借助微信用户流量以移动应用工具为主,阿里以开源打造AI生态并通过云服务变现,百度主要将AI和搜索结合 [11]
聊一聊数据中心的投资现状
傅里叶的猫· 2025-04-30 20:37
微软数据中心投资放缓 - 微软正经历数据中心投资需求的显著放缓或调整 自去年起退出超1GW的数据中心交易 并终止部分土地合同 [2] - 放缓国际扩张步伐 暂停/推迟多个国内外项目 包括美国亚特兰大、威斯康星二期、圣安东尼奥等地及欧洲、印度、英国、澳大利亚等地 涉及规划租赁需求减少近1 98GW(原计划4年完成 年均约500MW) [2] 调整原因分析 - OpenAI战略转移 不再完全依赖微软 转向甲骨文、CoreWeave等第三方并大力推进自建 导致微软为其规划的产能需求下降33% 例如微软威斯康星二期项目因此暂停 [4] - DeepSeek等开源模型冲击 业界首次明确承认其影响 减少了对大规模GPU租赁和训练的需求 促使微软更注重ROI 重新评估算力需求规模 [4] - 资源消化 消化2024年已大量租赁的资源 避免过度建设 [4] - 建设复杂性 超大规模数据中心设计和建设本身复杂 导致客观延迟 [4] OpenAI的扩张计划 - OpenAI正凭借巨额新融资(据传400亿美元 软银或领投75%)加速基础设施投入 将自建数据中心视为长期核心战略 [3] - 核心项目"星际之门"计划投入180亿美元 长期规划总算力超6GW 单项目功耗或达800MW-1 5GW [3] - 已开始组建设计建设团队 计划自建1-2个大型数据中心(支持自研ASIC) 同时继续与CoreWeave等合作满足短期需求 [3] 其他科技巨头的动态 - Meta、Google、亚马逊等其他巨头虽强调财务纪律 但核心AI投入未现类似放缓 Meta仍在为下一代Llama模型训练持续投入 [5] - 行业仍处AI驱动增长的"早期"阶段 资金依然充裕 微软等暂停项目更多是因技术迭代(等Blackwell、液冷)、供应链挑战(变压器/HVAC交期、电力限制)造成的短期调整 [5] - 对下一代硬件(如Nvidia GB200/GB300)需求依旧强劲 鸿海预测L72机架达3-5万台/2025年 客户因供应有限而急于锁定算力 [5]
扎克伯格最新专访:AI 会在知识工作和编程领域,引发一场巨大的革命
搜狐财经· 2025-04-30 18:02
文章核心观点 Meta首席执行官马克·扎克伯格在接受媒体采访时,谈到了Meta对AI发展格局的看法,回应外界质疑,介绍Llama 4模型进展,探讨AI应用场景、开源、商业化等问题,认为AI将带来多方面变革,未来充满机遇和挑战 [1] 分组1:AI发展格局与模型能力 - Meta认为尽管DeepSeek在特定领域有进展,但Llama 4模型能提供更高效率和更广泛功能 [1] - 预计未来12到18个月,Llama研发工作大部分代码将由AI编写,且会增加人类工作需求 [1] - Meta AI每月用户接近10亿,今年将构建个性化循环,是下一个发展方向 [2] 分组2:Llama 4模型进展 - 已发布Llama 4的Scout和Maverick模型,性价比高、原生支持多模态、可单台主机运行,未来几个月将推出类似Llama 3 8B参数的'Little Llama' [4] - 即将推出参数超2万亿的Behemoth前沿模型,需构建大量基础设施进行后期训练 [4] - Llama 4推理版本将在未来发布,低延迟和高性价比对消费级产品设计重要 [7] 分组3:模型评估与基准测试 - 开源模型领域发展良好,今年有许多优秀开源模型涌现,'开源模型将普遍超越闭源模型'的预测正成为现实 [5] - 外部基准测试有局限性,Meta将模型评估锚定在Meta AI产品的'北极星'用户场景和用户反馈上 [8] - 需谨慎看待一些基准测试结果,Meta主要参考内部指标 [9] 分组4:不同实验室优化方向 - 不同团队针对不同方面优化,Anthropic专注编码及智能代理,OpenAI侧重推理能力,Meta关注快速自然交互和多模态能力 [12] - 实现闭环的软件工程师(AI)是抢先达到超级人工智能的关键,Meta投入编码工作,开发编码和AI研究代理 [15] 分组5:AI应用场景与发展 - AI将在知识工作、编程、搜索技术、娱乐等多方面引发革命,未来媒体消费将更具互动性 [23][25] - 人们会利用AI处理社交任务,AI社交不会完全取代现实连接,未来AI具身性将增强 [27][28] - 增强现实领域设计应不干扰视线,促进人际互动,将数字内容无缝融入其中 [30][31] 分组6:模型比较与许可证 - 与DeepSeek相比,Llama 4模型尺寸更小、效率更高,在多模态能力上领先 [35] - Meta认为Llama许可证合理,目的是与大型云服务商沟通合作,目前未遇公司因许可证拒绝使用 [37][39] 分组7:开源与模型选择 - Meta构建自己的大模型以满足特定需求,但不排斥在特定场景使用其他模型 [40][41] - Meta需警惕跟进者的开源行为,要保持推动行业开源的战略方向 [42][43] 分组8:模型价值观与提炼 - 模型内含价值观和世界观,不同模型存在根本性偏见,推理和编码领域需关注安全问题 [46][48][49] - 模型提炼是开源有趣的事,可结合不同模型优点,但要解决安全问题 [49][50][51] 分组9:AI商业化模式 - AI不同应用适合不同商业模式,广告模式对免费服务有效,也会有付费的高级服务 [52][53] 分组10:CEO角色与决策 - 马克·扎克伯格通过招募人才、跨团队协调、推动基础设施建设、把控产品质量等方式监督项目 [54][56] 分组11:其他问题回应 - 作为美国公司,Meta默认与任政府建立富有成效关系,在人工智能治理上要为决定承担责任 [60] - 难以预测关税对建设数据中心的影响,每周效率最高的事不固定 [64][65] 分组12:未来趋势与展望 - 技术发展将释放巨大创造力,未来人们会更多参与线上互动,技术或增加社会对劳动力的需求 [66][67][69]
Qwen 3发布,Founder Park围绕开源模型的生态价值采访心言集团高级算法工程师左右
开源模型选择与部署 - 公司主要使用本地化部署的微调模型,90%以上业务依赖自研微调模型,特定任务调用GPT、豆包、Qwen等API [3] - 常用模型量级包括7B、32B和72B,具身智能业务采用0.5B、1.5B等多模态小模型 [3] - 选择7B模型因其推理速度快、部署成本低且性能速度均衡 [3] Qwen模型优势分析 - Qwen生态系统成熟稳定,推理框架和微调工具链适配完善,优于部分早期大参数模型 [4] - 中文支持优秀且预训练数据包含泛心理内容,契合情感陪伴业务需求 [5] - 提供0.5B至72B完整尺寸系列,降低多尺寸模型间的微调与测试成本 [5] - 阿里开源策略持续可靠,长期投入保障优于其他变动频繁的开源方 [5] 业务挑战与解决方案 - 具身智能领域面临推理成本高(端侧英伟达方案昂贵)与国产芯片生态适配周期长(需1-2个月)问题 [6] - 线上业务需应对情感细粒度理解(多模态融合)和高峰流量(凌晨峰值达平时3-4倍)的算力调度压力 [7] - 通过Post-training提升核心领域能力10个点,同时控制通用能力下降在2个点内 [8] 开源模型发展现状 - 开源模型(DeepSeek、Qwen、Llama)目标追平闭源顶尖模型(如GPT-4),目前仍存差距但可获取权重 [9] - DeepSeek技术路线激进,专注MoE与多模态前沿 Qwen与Llama更注重社区通用性,技术选型稳健 [11] - 期待Qwen增加技术细节公开,如数据配比等,类似Llama3与DeepSeek的技术报告 [10] 大模型创业洞察 - AI应作为后端信息处理工具而非前端界面,避免简单API嫁接旧产品 [13] - 情感类产品需深度整合多模态输入(如语音语调分析)以实现个性化,留存率是需求真实性的关键指标 [14] - 正确模式为"X+AI"(需求驱动)而非"AI+X"(技术驱动),避免伪需求陷阱 [14] 中国开源生态全球化 - Qwen与DeepSeek形成中国开源"双子星",推动技术生态驱动的全球化进程 [1][15] - 开源模式实现"全球协作-垂直创新-生态反哺"闭环,助力泛心理AI领域突破 [15]
Qwen3深夜炸场,阿里一口气放出8款大模型,性能超越DeepSeek R1,登顶开源王座
36氪· 2025-04-29 17:53
模型发布与性能 - 公司一次性开源8款混合推理模型,包括2款MOE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和6款Dense模型(Qwen3-32B至Qwen3-0.6B) [2][4][6] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在ArenaHard测试(95.6分)接近Gemini2.5-Pro(96.4分),超越OpenAI o1(92.1分)和DeepSeek R1(93.2分) [2][3] - Qwen3-30B-A3B仅激活30亿参数(总参数300亿),性能却优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B水平 [5][6] 技术创新 - 国内首个支持"思考模式"(深度推理)和"非思考模式"(快速响应)的混合推理模型,可通过指令切换 [8][10] - 预训练数据量达36万亿token(Qwen2.5的两倍),支持119种语言,采用三阶段训练策略(S1:30T token基础训练,S2:5T token专业强化,S3:32K上下文扩展) [17][18][12] - 后训练采用四阶段流程:长链推理冷启动→强化学习→模式融合→通用能力强化,实现深度推理与快速响应平衡 [21][22] 行业影响 - 成为全球最大开源模型族群(累计200+模型,衍生模型超10万),超越Meta Llama系列 [24] - 专家混合模型(MoE)显存效率高,20-30B规模即可实现接近GPT-4的推理能力 [24] - GitHub发布后迅速获17.9k星,用户实测显示其在编程、数学和多语言处理(119种)表现优异 [24][25][28][30] 部署与应用 - 提供0.6B-32B多种规模选择,支持从笔记本测试到多卡集群扩展 [24] - 推荐使用SGLang/vLLM框架部署,本地支持Ollama/LMStudio等工具 [16] - 已上线Hugging Face/ModelScope/Kaggle等平台,普通用户可通过网页/APP直接体验 [13][14][15]
【昇腾全系列支持Qwen3】4月29日讯,据华为计算公众号,Qwen3于2025年4月29日发布并开源。此前昇腾MindSpeed和MindIE一直同步支持Qwen系列模型,此次Qwen3系列一经发布开源,即在MindSpeed和MindIE中开箱即用,实现Qwen3的0Day适配。
快讯· 2025-04-29 14:27
昇腾全系列支持Qwen3 - Qwen3于2025年4月29日发布并开源 [1] - 昇腾MindSpeed和MindIE此前已同步支持Qwen系列模型 [1] - Qwen3系列发布后立即在MindSpeed和MindIE中实现开箱即用 [1] - 昇腾全系列完成Qwen3的0Day适配 [1]
通义App全面上线千问3
快讯· 2025-04-29 11:13
通义千问开源模型Qwen3上线 - 阿里新一代通义千问开源模型Qwen3于4月29日全面上线通义App与通义网页版(tongyi.com) [1] - 用户可通过通义App和网页版中的专属智能体"千问大模型"及主对话页面体验该模型 [1] - 该模型被描述为全球最强开源模型,具备顶级智能能力 [1]