Workflow
大模型开源
icon
搜索文档
大模型路线之争:中国爱开源,美国爱闭源?
21世纪经济报道· 2025-08-08 13:04
21世纪经济报道记者孔海丽、实习生欧思岐 北京报道 最近有个话题越来越有意思了,为什么中国大模型大多开源,美国大模型热衷于闭源? 最大开源社区hugging Face大模型开源趋势榜单上,前10名全都是中国的开源模型。 腾讯、阿里、智谱、kimi等中国模型持续霸榜,腾讯混元刚发布的世界模型作为唯二的多模态,进入榜 单前两名,模型技术报告还拿下了Hugging Face论文热榜第一。另外,腾讯最近还一口气开源了7B、 4B、1.8B、0.5B等小模型,可谓是不遗余力。 但是反过看来,美国的大模型却倾向走闭源的路线。美国学者伊桑·莫里克看到Meta放弃开源AI模型转 而开发闭源模型时,唏嘘不已:"美国基本退出了前沿开源大模型(LLM)的竞争。欧洲尚存一个竞争 者,其余市场已几乎是中国的天下。" 为何中、美技术路线有如此的差异呢?我们和行业人士交流分析,总结了以下几个原因: 首先从技术发展阶段看,中国在人工智能大模型领域像是正在奋力追赶的选手。开源就像大家一起拉 车,能让技术快速迭代发展。作为后发者,开源可快速吸引社区开发者参与迭代,弥补单点技术不足。 大家一起研究、改进,这样能加速技术进步。 第二点,市场需求上, ...
腾讯混元开源 4 个小尺寸模型,主打 Agent 和长文
AI前线· 2025-08-05 16:39
腾讯混元开源小尺寸模型 - 公司宣布开源四款小尺寸模型,参数分别为0.5B、1.8B、4B、7B,适用于低功耗场景如笔记本电脑、手机、智能座舱等,支持垂直领域低成本微调 [2] - 四款模型已在Github和HuggingFace等开源社区上线,并获得Arm、高通、Intel、联发科技等终端芯片平台支持部署 [2] 模型技术特点 - 四款模型属于融合推理模型,具备推理速度快、性价比高的特点,支持快思考和慢思考两种模式 [4] - 在语言理解、数学、推理等领域表现优异,在多个公开测试集上达到领先水平 [5] - 具备出色的Agent和长文能力,原生支持256k上下文窗口,可一次性处理相当于40万中文汉字或50万英文单词的超长内容 [10] - 采用单卡部署方案,支持主流推理框架和多种量化格式,已在腾讯多个业务中实际应用 [10] 实际应用案例 - 腾讯会议AI小助手和微信读书AI问书利用模型的长文能力处理完整会议内容和整本书籍 [11] - 腾讯手机管家提升垃圾短信识别准确率至毫秒级拦截,实现隐私零上传 [11] - 金融AI助手通过微调实现95%+意图识别准确率,游戏翻译和NPC在多语言理解和智能对话方面表现突出 [11] 开源战略布局 - 公司持续推进大模型开源,已覆盖文本、图像、视频和3D生成等多个模态 [12] - 此前已开源52B参数的Hunyuan large和混合推理MoE模型Hunyuan-A13B [12] - 多模态方面开源了文生图、视频生成和3D生成能力,衍生模型数量达3000个 [12] - 最新开源的3D世界模型1.0登上Hugging Face趋势榜第二,下载量近9k [12] 未来发展方向 - 公司表示将持续提升模型能力,推出更多尺寸和模态的模型,加速产业落地和应用 [13] - 计划与开发者和合作伙伴共建大模型开源生态 [13]
腾讯,最新发布!
中国基金报· 2025-08-04 19:33
腾讯混元开源模型发布 - 腾讯混元宣布开源四款小尺寸模型,参数分别为0.5B、1.8B、4B、7B,最小仅0.5B [1][2] - 模型亮点在于Agent和长文能力,支持从端侧到云端、从通用到专业的多样化需求,手机也能运行 [1][3] - 消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景 [2] - 支持垂直领域低成本微调,具有较强的开放性,主流推理框架和多种量化格式均能支持 [2][4] 模型技术特点 - 原生长上下文窗口达到256k,可一次性处理相当于40万中文汉字或50万英文单词的超长内容 [4] - 技术上通过数据构建和强化学习奖励信号设计,提升模型在任务规划、工具调用和复杂决策等Agent能力 [3] - 知识密度显著高于同尺寸模型,专业领域接近更大模型效果 [3] - 可以在回答效率与深度间自由切换,256K超长上下文窗口 [3] 模型应用场景 - 已在腾讯会议AI小助手、微信读书AI问书AI助手中应用,实现对完整会议内容、整本书籍的一次性理解和处理 [4] - 适用于实时响应场景,推理性能与准确性双优 [3] - 支持边缘计算到专业微调,抗幻觉能力优 [3] - 手机、PAD都可部署,推理速度飞快 [3] 行业开源趋势 - 开源成为全球大模型领域的重要主题,中国大模型表现尤为亮眼 [1][6] - 腾讯混元大语言模型持续推进开源,已覆盖文本、图像、视频和3D生成等多个模态 [7] - 阿里近期发布三款重磅大模型,分别斩获基础模型、编程模型和推理模型等主流领域全球开源冠军 [7] - 字节跳动开源AI Agent开发平台Coze Studio,降低AI应用开发门槛 [7] - 小米开源声音理解大模型MiDashengLM-7B,刷新多模态大模型最好成绩 [8] - 百度开源文心大模型4.5系列模型,涵盖47B、3B激活参数的混合专家模型等10款模型 [8] 行业影响 - 开源模型将成为推动中国人工智能发展最强劲的引擎 [9] - 中国科技公司选择开源路线,不仅是为了竞争,更是为了加速AI的采用和创新 [9] - 这一趋势将推动中国AI领域的快速发展,甚至可能缩短技术差距 [9]
腾讯,最新发布!
中国基金报· 2025-08-04 19:30
腾讯混元开源模型 - 腾讯混元宣布开源四款小尺寸模型,参数分别为0.5B、1.8B、4B、7B,消费级显卡即可运行,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,且支持垂直领域低成本微调 [4] - 模型的亮点在于Agent和长文能力,通过数据构建和强化学习奖励信号设计提升任务规划、工具调用和复杂决策等能力,原生长上下文窗口达到256k,可一次性记住并处理相当于40万中文汉字或50万英文单词的超长内容 [6] - 四个模型已在Github和HuggingFace等开源社区上线,Arm、高通、Intel、联发科技等多个消费级终端芯片平台宣布支持部署,只需单卡即可部署,部分PC、手机、平板等设备可直接接入 [6][7] - 腾讯混元大语言模型持续推进开源,已覆盖文本、图像、视频和3D生成等多个模态,未来将推出更多尺寸、更多模态的模型 [9][10] 中国大模型开源趋势 - 全球开源领域异常热闹,中国大模型表现抢眼,开源模型将成为推动中国人工智能发展最强劲的引擎 [8][11] - 阿里近期发布三款重磅大模型,分别斩获基础模型、编程模型和推理模型等主流领域全球开源冠军 [10] - 字节跳动开源AI Agent开发平台Coze Studio,旨在降低AI应用开发门槛 [10] - 小米开源声音理解大模型MiDashengLM-7B,在22个公开评测集上刷新多模态大模型最好成绩 [10] - 百度开源文心大模型4.5系列模型,涵盖47B、3B激活参数的混合专家模型等10款模型 [11] - 昆仑万维开源全新推理大模型Skywork MindLink,能够根据任务难度自适应整合推理和非推理的生成回复 [11] - 智谱AI发布新一代旗舰大模型GLM-4.5,专为智能体应用打造,在复杂推理、代码生成及智能体交互等通用能力上实现融合与技术突破 [11]
腾讯混元将有多款模型开源
第一财经· 2025-07-27 11:46
腾讯开源大模型生态布局 - 腾讯云副总裁吴运声指出国内模型开源趋势加速大模型生态建设 [1] - 公司发布并开源混元3D世界模型1.0 支持创建可漫游3D虚拟环境 [1] - 计划开源端侧混合推理大语言模型系列 包含0.5B/1.8B/4B/7B参数规模 [1] - 后续开源计划覆盖多模态理解模型与游戏视觉模型 [1] 技术产品矩阵 - 混元3D世界模型1.0定位为3D内容生成基础设施 [1] - 端侧推理模型针对边缘计算场景设计 参数规模梯度化 [1] - 技术路线覆盖从底层推理到上层应用的完整链条 [1] 行业动态 - 国内大模型开源呈现爆发式增长态势 [1] - 企业级3D内容生成需求推动相关技术迭代 [1] - 边缘计算场景催生轻量化模型需求 [1]
对话袁千| 从奥运到大模型开源,阿里云如何抢占全球市场?
第一财经· 2025-07-14 22:30
阿里云国际业务战略与进展 - 阿里云国际业务已进入"黄金中年"阶段,2024年是其全球化十周年,公司将其定位为"战略级投入"[1][2] - 目前在全球29个地域运营89个可用区,服务500万客户,海外市场规模5年增长超20倍[2][3] - 2024年已在墨西哥、泰国、韩国、马来西亚、菲律宾新建数据中心,加快打造覆盖全球的云计算网络[3][5] 客户拓展与服务能力 - 已合作国际奥委会、宝马、SAP、LVMH等200多家全球企业,头部客户考察周期长达2-3年[3][6] - 支撑印尼GoPay在2000万用户零感知情况下完成迁移,展示技术能力[7] - 聚焦互联网、金融、零售、制造、媒体、文旅六大行业,积累数字化服务能力[8] AI战略与产品优势 - 采取"云+AI"一体化发展战略,预测未来3-5年将迎来高速发展期[9] - 通义大模型已开源200多个模型,衍生模型超14万个,是全球最大开源模型体系之一[10] - 支持赫力昂开发AI营养助手,将咨询响应时间从几十分钟缩短至几分钟[10] 全球市场布局 - 亚洲为重点市场,在印尼、日本、新加坡等已具备三数据中心能力,韩国、菲律宾为双数据中心[12] - 拉美市场数字化处于蓬勃成长期,中东、欧洲也看到新机会[13] - 本地化团队占比60%-80%,通义千问支持119种语言,与120所海外高校合作[14] 未来发展规划 - 未来3-5年将重点投入AI战略和海外数据中心能力扩展[15] - 四大突破方向:全球基础设施覆盖、本地生态建设、合规认证(现有150多项)、"云+AI"协同[15] - 将持续加大基础设施、AI能力、本地服务体系三方面投入[15]
“百模大战”生变 巨头集体转向开源
中国经营报· 2025-07-05 04:46
行业趋势转变 - 大模型行业正从"参数竞赛"转向"生态共建",模型本身不再是护城河,生态体系成为竞争核心 [2] - 开源成为平台战争入场券,厂商比拼"产业落地能力"而非"参数数值",工程能力和行业经验更具主导权 [2] - 国际技术潮流推动开源趋势,海外厂商如OpenAI、Meta等率先开源,迫使国内厂商加速响应以避免生态落后 [4] 巨头开源动态 - 华为开源盘古70亿参数稠密模型、720亿参数MoE架构的盘古Pro MoE(激活参数160亿),并优化昇腾平台推理技术 [2][3] - 百度同步开源文心大模型4.5系列10款模型,涵盖47亿/3亿参数MoE模型及0.3亿参数稠密模型,实现预训练权重和推理代码完全开源 [3][4] - 腾讯、智谱、月之暗面等厂商此前已开源大模型,阿里巴巴通过魔搭社区构建开源生态 [2][4] 开源驱动因素 - DeepSeek等开源模型成功提升行业标准,迫使闭源厂商重新评估商业模式,加入开源以提升影响力和话语权 [5] - 技术成熟降低开源风险:百亿级参数模型工程化能力趋成熟,MoE架构优化性能与资源利用率 [5] - 开源降低企业试错成本,提供"即插即用"基座,华为/百度通过昇腾、昆仑芯等软硬协同建立本土化新标准 [5] 商业逻辑与生态价值 - 开源是"牺牲边际利润换取生态控制权"的战略,闭源适合标准化服务,开源适合打造平台级入口与开发者网络 [6] - 中小企业可基于开源模型快速开发垂直应用(如医疗、教育),绕过研发高成本;开发者通过微调推动技术落地 [6] - 云服务商(阿里云、华为昇腾)和硬件厂商受益,开源模型拉动算力需求并强化技术优势 [6] 行业竞争与洗牌 - 开源潮将加速行业洗牌,技术门槛降低吸引新玩家,厂商需提升技术实力和服务质量以保持优势 [7] - 仅依赖参数优势的厂商可能边缘化,具备底座能力(硬件/框架)和开放生态策略(快速更新/高社区参与度)的厂商将胜出 [8]
刚刚,神秘模型火了!网友:是OpenAI要开源?
机器之心· 2025-07-02 18:40
OpenRouter上新神秘模型Cypher Alpha - OpenRouter平台上线名为Cypher Alpha的神秘模型 支持100万token上下文且免费使用 具备推理能力 [2][8] - 该模型为通用型 支持长上下文任务和代码生成 主要用于收集用户反馈 [8][9] - 模型提供商信息未公开 但工具调用ID格式与OpenAI相似 引发行业猜测 [6][7][10] 模型性能测试结果 - 网友测试显示 模型在编码测试中全部通过 推理测试通过率4/5 语言测试全部通过 适合开发者等群体使用 [18] - 实际测试发现模型对提示词要求较高 部分问题回答错误 性能仍需优化 [20][21] - 测试排除Grok系列可能性 因基础语言题回答错误率高于Grok3 [15] 行业猜测与潜在影响 - 命名方式与Optimus Alpha相似 行业普遍猜测可能来自OpenAI 或是GPT-5测试版本 [6][7][11] - 部分观点认为可能是OpenAI开源模型的早期测试版本 [8] - 免费策略和百万token支持显示大模型行业竞争加剧 长上下文成为技术突破方向 [2][8][9]
赛道Hyper | 百度开源ERNIE 4.5:策略是什么?
华尔街见闻· 2025-07-01 17:39
百度开源文心大模型4.5系列 - 公司正式开源文心大模型4.5系列(ERNIE 4.5),涵盖10款不同参数规模的模型,包括47B(470亿)、3B(30亿)激活参数的混合专家(MoE)模型及0.3B(3亿)参数的稠密型模型,预训练权重与推理代码均完全开放 [1] - 模型已可在飞桨星河社区、HuggingFace等平台下载,百度智能云千帆大模型平台同步提供API服务 [1] - 开源动作延续科技领域"开放协作"传统,为大模型技术落地提供新可能性 [2] 模型技术架构与特点 - 10款模型形成从0.3B到47B参数的梯度覆盖,囊括基础文本模型和视觉多模态模型(VLM) [3] - 除0.3B模型外均采用异构多模态MoE架构,通过"分而治之"策略提升性能 [3] - 异构MoE架构包含文本专家、视觉专家和共享专家三类FFN专家,通过门控网络动态选择最优专家组合 [4][5][6] - 原生多模态能力优化体现在模态融合而非技术堆砌,文本任务性能稳定基础上增强多模态处理能力 [4] 开发者生态与工具支持 - 配套开发工具链包括ERNIEKit训练工具和FastDeploy推理部署工具,降低开发者使用门槛 [7] - 开源遵循"技术-用户-数据"正向循环逻辑,开发者二次开发产生的数据反哺模型迭代 [8] - 飞桨平台与文心模型形成"双层开源"结构,开发者参与协同优化增强生态粘性 [9][10] - 采用Apache 2.0协议平衡共享与权益保护,允许商业使用但需保留原作者信息 [11] 开源战略与行业影响 - 开源是一种"分布式研发"策略,全球开发者智慧纳入创新体系降低整体研发成本 [12][13] - 提供"标准化基础上的差异化创新"路径,基础模型统一减少重复研发浪费 [13][14] - 开源模式使技术能力可验证,开发者可追溯模型决策逻辑链条 [15] - 全量开源向全球开发者递出技术名片,助力国产技术融入全球创新网络 [16]
大模型如何发展这条路,任正非李彦宏都想“开”了
第一财经· 2025-06-30 18:40
行业趋势 - AI行业进入应用为王时代,开源成为推动技术进步和产业发展的重要力量 [1][2] - 开源趋势已明确,从去年讨论开闭源路线之争到今年多家公司用事实说明开源的价值 [1] - 开源模型竞赛激烈,阿里通义团队已开源200多款模型,保持高度投入 [6] 公司战略 - 百度战略转变:从李彦宏坚持闭源到全面开源文心大模型4.5系列,包含10款模型如47B/3B MoE模型和0.3B稠密模型 [1][3] - 华为战略转变:从内部权衡到加入开源大军,开源盘古70B稠密模型和720B MoE模型 [1][3] - 开源背后动机:百度聚焦应用未来,华为旨在追赶英伟达CUDA生态 [8] 技术细节 - 百度文心4.5系列创新多模态异构模型结构,在多个基准测试中达到SOTA水平,优于OpenAI o1 [4] - 华为盘古Pro MoE 720B模型通过动态激活专家网络实现"以小打大",性能媲美千亿级模型 [6] - 阿里通义千问Qwen衍生模型突破13万,全球下载量超3亿,HuggingFace占比超30% [6] 商业考量 - 开源目标:通过提供算力服务、企业级解决方案和API接口实现商业闭环 [7] - 成本优势:大模型推理成本每年递减90%,公司已将成本降到足够低水平 [7] - 竞争挑战:开源可能导致二次开发产品与公司内部业务竞争 [8] 市场影响 - 开源加速AI在千行百业应用,推动产业创新 [7] - 业界对英伟达依赖或转向多元化选择,延伸至训练场景全链条能力重构 [8] - To B项目成败关键仍是产品能力、交付能力和客户需求理解,但开源力量不可忽视 [9]