Workflow
SmolLM3
icon
搜索文档
硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
机器之心· 2025-08-07 17:42
大语言模型架构演进 - 自2019年GPT-2至2024-2025年DeepSeek-V3/LLaMA 4,主流大语言模型架构保持高度一致性,核心改进集中在位置编码、注意力机制和激活函数等细节优化[1] - 位置编码从绝对位置编码发展为旋转位置编码(RoPE),注意力机制从多头注意力(MHA)过渡到分组查询注意力(GQA),激活函数从GELU替换为SwiGLU[1] - 过去七年大语言模型更多是框架内精雕细琢,而非颠覆性创新[2] DeepSeek V3/R1关键技术 - 采用多头潜在注意力机制(MLA),通过将key/value张量压缩至低维潜在空间节省KV缓存内存,相比传统MHA内存占用更低[12][18][21] - 引入专家混合(MoE)架构,每个模块含256个专家但仅激活9个(1共享+8路由选择),总参数量达6710亿但推理计算量可控[23][27][30] - MLA技术最早由DeepSeek V2提出,并非V3首创[22] OLMo 2架构特点 - 采用传统MHA而非GQA或MLA,核心创新在于归一化层设计:使用RMSNorm且置于注意力/前馈模块后(Post-Norm变体)[35][38][39] - 在注意力模块内部引入QK-Norm,对Query/Key进行额外归一化,与Post-Norm结合显著提升训练稳定性[46][47] - 整体架构接近Llama 3,主要差异在于注意力机制和归一化策略[48][52] Gemma 3创新设计 - 采用滑动窗口注意力机制,将全局注意力转为局部注意力,大幅降低KV缓存内存需求[54][56][59] - 在GQA模块同时使用Pre-Norm和Post-Norm,结合两种归一化策略优势,形成独特双重归一化结构[62][64][67] - 滑动窗口注意力可与GQA协同使用,实现计算效率与模型性能平衡[60] Mistral Small 3.1特性 - 24B参数规模下性能超越Gemma 3 27B,归因于定制分词器、更小KV缓存和更少层数[73][75] - 放弃早期滑动窗口注意力设计,改用标准GQA机制[76] Llama 4架构对比 - 采用MoE架构但设计不同于DeepSeek-V3:总参数4000亿(比DeepSeek少68%),每token仅激活2个专家[80][82][84] - 使用GQA而非MLA,MoE层与密集层交替排列(非连续部署),专家隐藏维度达8192[84] Qwen3系列差异化 - 同时提供Dense和MoE版本:0.6B致密模型适合轻量部署,235B MoE模型取消共享专家机制[88][91][94] - MoE架构与DeepSeek-V3高度相似,但专家数量增至8个且移除共享专家[94][95] SmolLM3技术亮点 - 30亿参数规模表现优异,采用无位置嵌入(NoPE)机制,完全移除显式位置编码[101][104][109] - 通过因果注意力掩码隐式学习位置信息,在序列长度泛化方面优于传统位置编码方案[108][109] Kimi K2突破性设计 - 1万亿参数规模为当前最大开源LLM,首次在生产级模型应用Muon优化器替代AdamW[112] - 基于DeepSeek-V3架构扩展,MoE模块专家数更多但MLA注意力头更少[112][116]
昆仑万维发布并开源Skywork-R1V 3.0版本;浙江大学发布高精准基因组设计AI模型丨AIGC日报
创业邦· 2025-07-10 08:00
昆仑万维Skywork-R1V 3.0版本发布 - 昆仑万维发布并开源Skywork-R1V 3.0版本 在MMMU评测中取得76.0的开源模型最高成绩 超越Claude-3.7-Sonnet(75.0)和GPT-4.5(74.4)等闭源模型 逼近人类初级专家水平(76.2) [1] Hugging Face开源模型与机器人产品 - Hugging Face开源小参数模型SmolLM3 拥有128k上下文窗口 支持6种语言 支持深度思考和非思考双推理模式 [1] - Hugging Face推出桌面机器人Reachy Mini 分无线版(449美元)和Lite版(299美元) 内置Raspberry 5微型计算机或需外接计算设备 [1] - Reachy Mini为开源DIY套件 体积与毛绒玩具相当 内置两块"眼睛"屏幕与天线结构 可通过Python编程操作 接入Hugging Face Hub平台 可使用超过170万个AI模型和40多万个数据集 [2] 浙江大学基因组AI模型 - 浙江大学开发"女娲CE"AI模型 能以超过90%准确率预测基因组调控区域突变带来的表型变化 并设计相应治疗位点 成果发表于《细胞》期刊 [1] 行业资讯服务 - 提供AIGC产业日报订阅服务 涵盖人形机器人、商业航天、AGI等热门赛道行业图谱和报告 [4]
腾讯研究院AI速递 20250710
腾讯研究院· 2025-07-09 22:49
一、AI视频生成技术升级 - 谷歌Veo 3升级支持仅用一张图片生成音频和视频,角色在多镜头下保持高度一致性[1] - 新功能通过Flow平台的"Frames to Video"选项实现,加入丰富运镜功能[1] - 用户实测显示人物表情自然、表演到位,适用于广告、动画等多领域[1] - Vidu Q1多参考生视频功能可上传最多7张参考图像,实现角色一致性强、多元素同框和零分镜视频生成[4] - 清晰度升级至1080P,支持主体库存储角色素材,单条视频成本不到9毛钱[5] 二、开源大模型进展 - Hugging Face开源3B参数模型SmolLM3,性能超越Llama-3.2-3B和Qwen2.5-3B,支持128K上下文窗口及6种语言[2] - 模型采用双模式系统,用户可在深度思考和非思考模式间灵活切换[2] - 昆仑万维开源Skywork-R1V 3.0多模态模型,高考数学得142分,MMMU评测达76分,超越部分闭源模型[3] - 模型通过强化学习策略GRPO和关键熵驱动机制,仅用1.2万条监督样本和1.3万条强化学习样本实现高性能[3] 三、端侧与多模态模型 - vivo发布端侧多模态模型BlueLM-2.5-3B,支持GUI界面理解,在20余项评测中表现优异[6] - 模型支持长短思考模式自由切换,引入思考预算控制机制[6] - 采用精巧结构(ViT+Adapter+LLM)和四阶段预训练策略,缓解多模态模型文本能力遗忘问题[6] 四、AI系统突破 - X-Masters系统在"人类最后的考试"(HLE)上首次突破30分,达到32.1分,超越OpenAI和谷歌[7] - 系统基于DeepSeek-R1模型构建了工具增强推理智能体X-Master,能在内部推理和外部工具使用间流畅切换[7] - 采用分散-堆叠式多智能体工作流,通过求解器、批评者、重写器和选择器多角色协作[7] 五、行业并购与市场格局 - 智元机器人以21亿元收购科创板上市公司上纬新材控制权,预计收购63.62%-66.99%股份[8] - 2025年上半年Gemini系列模型占据大模型API市场近一半份额,谷歌以43.1%位居第一[9] - DeepSeek V3自发布以来用户留存率极高,位列使用量前五[9] - 细分领域呈现差异化竞争格局:Claude-Sonnet-4在编程领域领先(44.5%),GPT-4o在营销领域领先(32.5%)[9] 六、AI应用趋势 - 全球已有18亿AI用户,但付费率仅3%,学生使用率高达85%,家长群体成为AI重度用户[10] - AI主要应用于邮件撰写(19%)、研究兴趣主题(18%)和管理待办事项(18%)等日常场景[10] - 未来18-24个月AI将迎来六大趋势:垂直领域工具崛起、完整流程自动化、语音AI爆发等[10]
AI日报丨五大投行集体唱多美股!“科技七巨头”扛起盈利大旗
美股研究社· 2025-07-09 19:25
AI技术发展 - Hugging Face开源顶级小参数模型SmolLM3,仅30亿参数但性能超越Llama-3.2-3B和Qwen2.5-3B,支持6种语言和128k上下文窗口,提供深度思考与非思考双推理模式 [3] - OpenAI CEO Altman表示不担心Meta Platforms挖走AI人才,并透露特朗普政府关注AI基础设施 [5] - Meta Platforms收购全球最大眼镜制造商EssilorLuxottica SA约3%股份,价值30亿欧元(35亿美元),计划未来持股比例增至5% [5][6] 科技巨头动态 - 美国科技股七巨头指数微跌0.07%,特斯拉反弹1.32%市值回升,英伟达涨1.12%,Meta和苹果涨0.32%,微软跌0.22%,谷歌A跌1.37%,亚马逊跌1.84% [4] - AMD涨2.24%,礼来制药涨0.62%,伯克希尔哈撒韦B类股跌0.12%,台积电ADR跌0.57% [5] - 谷歌人工智能支出聚焦技术基础设施,高管强调早期阶段投资不足风险高于过度投资 [9] 公司战略与人事变动 - 苹果任命供应链策略师Sabih Khan为新任首席运营官,接替Jeff Williams,Khan曾主导供应链架构与先进制造技术 [10][11] - Jeff Williams将继续负责设计团队与健康计划,苹果近期高管调整还包括零售运营副总裁与Siri负责人更替 [12] - AI Agent平台Manus回应裁员传闻,称基于经营效率对部分业务团队调整,专注核心业务发展 [6] 市场与财报展望 - 高盛将标普500指数年终目标从6100点上调至6600点,预示5.9%上涨空间,摩根大通等投行此前已上调预期 [6] - 财报季临近,科技七巨头预计贡献标普500指数成分股近半利润增长,整体盈利同比增长4.5% [7] - 美元走弱(年内跌10%)利好科技巨头海外收入(占比约60%),能源股与汽车行业或受油价与关税冲击 [7]