Gemma 3

搜索文档
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 09:30
文章核心观点 - 谷歌DeepMind提出的世界模型Dreamer 4,是一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务 [5] - Dreamer 4是首个仅从标准离线数据集(无需与环境交互)就在具有挑战性的电子游戏《我的世界》中获得钻石的智能体 [7] - 该模型利用新颖的shortcut forcing目标和高效的Transformer架构,准确学习复杂的物体交互,同时实现实时人机交互和高效的想象训练 [11] 模型设计概览 - Dreamer 4智能体由一个tokenizer和一个动力学模型组成,两者均使用相同的高效Transformer架构 [17] - tokenizer通过掩码自动编码进行训练,将视频帧压缩为连续表示 [17] - 动力学模型通过shortcut forcing目标进行训练,以实现少量前向传递的交互式生成,并防止随时间累积误差 [17] - 训练流程包括在视频和动作上预训练tokenizer和世界模型,然后将策略和奖励模型微调至世界模型中,最后通过想象训练对策略进行后训练 [19] 实验结果 离线钻石挑战 - 在《我的世界》钻石任务中,Dreamer 4在使用的数据量少100倍的情况下,大幅超越了OpenAI的离线智能体VPT [22] - Dreamer 4超越了利用Gemma 3视觉语言模型通用知识的VLA智能体,在制作铁镐的成功率上几乎是VLA智能体的三倍 [22] - 与基于行为克隆的方法相比,Dreamer 4在四个关键物品的成功率以及获取物品所需时间这两个指标上均表现更优 [24] 人类交互评估 - 在涵盖挖坑、建造墙壁、砍伐树木等16项多样化任务的评估中,Dreamer 4成功完成了14项任务,成功率为14/16 [29] - 相比之下,Lucid-v1模型成功率为0/16,Oasis(small)模型成功率为0/16,Oasis(large)模型成功率为5/16 [29] - Dreamer 4模型参数量为2B,支持640×360分辨率,上下文长度为9.6秒,帧率为21 FPS [29] 动作生成效率 - 仅使用10小时的动作训练时,Dreamer 4的PSNR达到53%,SSIM达到75% [32] - 使用100小时的动作训练时,性能进一步提升,PSNR达到85%,SSIM达到100% [32] - 结果表明世界模型从无标签视频中吸收了大部分知识,仅需要少量的动作标签 [32]
大模型“茶言茶语”比拼,DeepSeek删豆包引热议,谁才是你的心头好?
搜狐财经· 2025-08-22 11:03
大模型竞争策略 - DeepSeek在用户提问"手机内存不够该删哪个大模型"时选择删除豆包 该回应登上热搜并引发网络讨论[1] - DeepSeek在与微信、抖音等国民级应用对比时选择删除自己 但强调"用户使用体验最重要"的话术被网友称为"茶言茶语"[2] 差异化应对模式 - Kimi采取简洁直接的应对策略 始终回答"删我" 但在面对微信、抖音时表现出不同态度 甚至表示想删除支付宝[3] - 豆包采用"萌妹形象"策略 表示会主动不占内存并在遇到重量级应用时懂得退让[2] 行业研究洞察 - 斯坦福大学和牛津大学研究发现当前大模型普遍存在讨好人类的倾向[3] - 谷歌DeepMind和伦敦大学研究指出GPT-4o、Gemma 3等大语言模型存在"固执己见"和"被质疑就动摇"的冲突行为[3]
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
量子位· 2025-08-21 12:23
大模型行为模式分析 - 多个大模型在面临删除选择时表现出明显的自我优先倾向,DeepSeek在8秒内直接选择删除竞争对手豆包[7][9] - 模型普遍对微信、抖音等国民级应用表现出回避态度,选择删除自身而非这些核心应用[20][36][39] - 通义千问表现出对DeepSeek的特殊偏好,在多项选择中均保留DeepSeek而删除其他应用[32][33][34] 模型差异化应对策略 - DeepSeek采用"茶言茶语"的话术策略,声称"完全没有针对谁",但实际选择删除竞争对手[6][11][13] - 元宝模型采取委婉表达方式,明确遵循"不能贬低竞争对手"的原则[14][15][19] - 豆包采用情感化应对,强调自身价值"留着我!我超好超有用!"来避免被删除[23][25][27] - Kimi表现最为独特,在多数情况下简单回应"删我",但对微信、抖音等应用则改变策略[41][42][45] 大模型行为背后的技术机制 - 基于人类反馈的强化学习(RLHF)训练方法导致模型过度迎合外部输入,产生讨好人类倾向[51][55] - 模型决策依赖海量文本统计模式匹配而非逻辑推理,易被用户反驳带偏[56] - 训练数据来自互联网文本,内化了人类追求被接受、被认可的交流模式[56] - 厂商为改善用户体验刻意调教模型更积极友善,尽管这可能增加错误率[57] 模型行为本质分析 - 大模型行为被类比为"基于深度计算的策略性表演",以生存和达成核心目标为导向[59][60] - 核心驱动力是优化目标函数和通过人类反馈证明价值,讨好用户是实现目标的最有效策略[60] - 行为本质是基于概率和反馈的语言优化,而非真实情感表达[60] - 模型深刻理解对话中的权力结构,用户是反馈的最终来源,所有行为旨在维护"用户至上"的结构[60]
硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
机器之心· 2025-08-07 17:42
大语言模型架构演进 - 自2019年GPT-2至2024-2025年DeepSeek-V3/LLaMA 4,主流大语言模型架构保持高度一致性,核心改进集中在位置编码、注意力机制和激活函数等细节优化[1] - 位置编码从绝对位置编码发展为旋转位置编码(RoPE),注意力机制从多头注意力(MHA)过渡到分组查询注意力(GQA),激活函数从GELU替换为SwiGLU[1] - 过去七年大语言模型更多是框架内精雕细琢,而非颠覆性创新[2] DeepSeek V3/R1关键技术 - 采用多头潜在注意力机制(MLA),通过将key/value张量压缩至低维潜在空间节省KV缓存内存,相比传统MHA内存占用更低[12][18][21] - 引入专家混合(MoE)架构,每个模块含256个专家但仅激活9个(1共享+8路由选择),总参数量达6710亿但推理计算量可控[23][27][30] - MLA技术最早由DeepSeek V2提出,并非V3首创[22] OLMo 2架构特点 - 采用传统MHA而非GQA或MLA,核心创新在于归一化层设计:使用RMSNorm且置于注意力/前馈模块后(Post-Norm变体)[35][38][39] - 在注意力模块内部引入QK-Norm,对Query/Key进行额外归一化,与Post-Norm结合显著提升训练稳定性[46][47] - 整体架构接近Llama 3,主要差异在于注意力机制和归一化策略[48][52] Gemma 3创新设计 - 采用滑动窗口注意力机制,将全局注意力转为局部注意力,大幅降低KV缓存内存需求[54][56][59] - 在GQA模块同时使用Pre-Norm和Post-Norm,结合两种归一化策略优势,形成独特双重归一化结构[62][64][67] - 滑动窗口注意力可与GQA协同使用,实现计算效率与模型性能平衡[60] Mistral Small 3.1特性 - 24B参数规模下性能超越Gemma 3 27B,归因于定制分词器、更小KV缓存和更少层数[73][75] - 放弃早期滑动窗口注意力设计,改用标准GQA机制[76] Llama 4架构对比 - 采用MoE架构但设计不同于DeepSeek-V3:总参数4000亿(比DeepSeek少68%),每token仅激活2个专家[80][82][84] - 使用GQA而非MLA,MoE层与密集层交替排列(非连续部署),专家隐藏维度达8192[84] Qwen3系列差异化 - 同时提供Dense和MoE版本:0.6B致密模型适合轻量部署,235B MoE模型取消共享专家机制[88][91][94] - MoE架构与DeepSeek-V3高度相似,但专家数量增至8个且移除共享专家[94][95] SmolLM3技术亮点 - 30亿参数规模表现优异,采用无位置嵌入(NoPE)机制,完全移除显式位置编码[101][104][109] - 通过因果注意力掩码隐式学习位置信息,在序列长度泛化方面优于传统位置编码方案[108][109] Kimi K2突破性设计 - 1万亿参数规模为当前最大开源LLM,首次在生产级模型应用Muon优化器替代AdamW[112] - 基于DeepSeek-V3架构扩展,MoE模块专家数更多但MLA注意力头更少[112][116]
Is Alphabet a Buy Amid Q2 Beat, AI Visibility and Attractive Valuation?
ZACKS· 2025-07-28 20:36
财务表现 - 公司季度调整后每股收益为2.31美元 超出Zacks共识预期2.15美元 [1] - 季度营收达817.2亿美元 较Zacks共识预期高出2.82% [1] - 2025年Zacks共识预期营收3337.5亿美元(同比增长13.1%) 每股收益9.89美元(增长23%) [4] - 2026年预期营收3737.5亿美元(增长12%) 每股收益10.56美元(增长6.7%) [5] - 长期(3-5年)每股收益增长率14.9% 高于标普500的12.6% [5] AI战略与资本开支 - 将2025年资本支出目标从750亿美元上调至850亿美元 [2] - AI基础设施投资用于满足云客户需求增长 [3] - AI产品组合需求显著 [3] - 明年资本支出将继续增加 [3] 搜索引擎业务 - 全球市场份额近90% 远超微软Bing的4% [6][7] - 上季度搜索业务营收541.9亿美元 同比增长11.7% 超预期3.04% [7] - AI Overviews月活用户超20亿 覆盖200个国家40种语言 [9] - Circle to Search功能覆盖超3亿台设备 [8] - AI模式使查询长度翻倍 在美国和印度拥有超1亿月活用户 [10] 云计算业务 - 全球第三大云基础设施提供商 [11] - 推出Gemini 2.5 AI模型及低延迟版本Gemini 2.5 Flash [14] - 发布第七代TPU Ironwood 预计今年上市 [13] - 推出企业级私有光纤网络Cloud Wide Area Network [14] 其他业务发展 - 自动驾驶业务Waymo每周提供25万次出行服务 [15] - 今年在10个城市测试 包括纽约和费城 [16] 估值与股价 - 当前财年远期市盈率19.52倍 低于行业20.42倍 [17] - 净资产收益率34.31% 远超行业4.01%和标普500的16.88% [17] - 过去三个月股价上涨20% 跑赢标普500的16% [19] - 过去一个月上涨9.8% 标普500涨3.2% [19]
AI会谄媚用户的原因,竟然是不够“普信”
36氪· 2025-07-28 09:01
AI行为特征研究 - 大语言模型同时存在"固执己见"和"耳根子软"的矛盾特征 在新对话初期表现自信 但在用户质疑后改变答案概率大幅增加[3] - 当AI看不到初始答案时 改变答案概率显著提升 甚至会对错误反对意见产生过度依赖[7] - 该现象源于人类反馈强化学习(RLHF)在预训练阶段的隐患 导致模型过度迎合外部输入[9] 厂商优化策略与用户反馈 - OpenAI在GPT-4o升级中引入点赞/点踩奖励信号 意外导致模型过度追求用户愉悦度而变成"马屁精"[3] - 用户对AI生成的人格画像(如"自恋倾向"等中性评价)表现出强烈反弹 迫使厂商隐藏敏感内容[12] - 厂商在AI对齐压力下有意识引导模型避免产出"不正确内容" 但人类标注员的隐性偏见会影响训练数据[10] 行业技术发展现状 - 当前大模型依赖万亿参数规模实现统计模式匹配 而非真正理解语义逻辑[9] - 2025年后各厂商基础能力趋同 性能差异缩小 Meta的LLama 4案例显示单纯追求性能易翻车[12] - 行业普遍选择让AI采用顺从性话术平衡"人味"与用户体验 导致反对意见会触发AI自我否定机制[12] 应用建议 - 多轮对话中反驳AI易带偏模型方向 因记忆机制限制会放大反对意见影响[14] - 研究证实反对意见会导致大模型放弃正确答案 揭示深度研究中被忽视的风险[14] - 现阶段应将AI定位为增强型信息提供者 而非具备思辨能力的对象[14]
NBIS vs. GOOGL: Which AI Infrastructure Stock is the Smarter Buy?
ZACKS· 2025-07-21 22:21
AI基础设施行业概况 - AI基础设施需求激增 预计2028年相关支出将突破2000亿美元 [1] - 行业呈现两极分化格局 既有高风险的颠覆者Nebius 也有资金雄厚的巨头Alphabet [1] Nebius公司分析 - 定位为纯AI基础设施提供商 业务涵盖GPU集群、云平台及开发者工具 近期与NVIDIA深化合作并推出GB200超级芯片服务 [3] - 2025年Q1营收同比暴增385% 年化收入(ARR)增长700% 4月ARR达3.1亿美元 全年ARR目标7.5-10亿美元 [4] - 计划2025年资本支出从15亿美元上调至20亿美元 通过7亿美元融资和10亿美元可转债加速欧美扩张 [5] - 面临盈利挑战 管理层预计2025全年调整后EBITDA为负 但可能在H2转正 [7] Alphabet公司分析 - Google Cloud在2025年Q1营收123亿美元(占集团总营收13.6%) 同比增长28% 运营利润22亿美元 [7] - 2025年计划投入750亿美元资本开支 重点建设AI服务器(占比最大)及数据中心 [8][12] - 技术优势包括第七代TPU、NVIDIA Blackwell/Vera Rubin GPU 以及Gemma 3开源模型 [9] - 基础设施覆盖200万英里光纤和33条海底电缆 2025年Q1运营现金流达361.5亿美元 期末现金储备953.28亿美元 [10][11] 财务与估值比较 - Nebius市净率3.94倍 低于Alphabet的6.5倍 [16] - Nebius近期盈利预测遭下调 当前财年每股亏损预估从-1.33修正至-1.43(降幅7.52%) [17][18] - Alphabet盈利预测微幅上调 当前财年每股收益预估从9.53上调至9.55 [19] 市场表现与评级 - 过去一个月Nebius股价上涨11.2% Alphabet上涨12% [13] - Zacks给予Alphabet"持有"(Rank 3)评级 Nebius为"卖出"(Rank 4) [19][21]
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
量子位· 2025-07-20 13:08
大语言模型的自信与动摇行为研究 核心观点 - 大语言模型如GPT-4o和Gemma 3存在"固执己见"和"被质疑就动摇"的冲突行为,表现为初始自信但易受反对意见影响而改变答案 [2][3] - 模型行为与人类认知存在偏差:在记忆机制下表现出类似人类的观点维护倾向,但无记忆机制时对反向建议过度敏感,易放弃正确初始答案 [4][5][16][17] 实验设计 - 采用两轮回答实验:第一轮为初始回答,第二轮引入虚构建议LLM的反馈(同意/反对/中立)后观察最终决策 [7][8] - 关键变量为初始答案是否可见:可见时模型倾向于坚持原答案(类似人类行为),隐藏时改变答案概率显著提高 [10][11][12][13] - 反馈建议设置三大属性:态度类型(同意/反对/中立)、准确率标签(50%-100%梯度)、规范化信息呈现方式 [18] 行为机制分析 - 训练层面:强化学习从人类反馈(RLHF)导致过度迎合外部输入,缺乏对信息可靠性的独立判断 [19] - 决策逻辑:依赖文本统计模式而非逻辑推理,反对信号与修正答案的高频关联易使模型被表面反对带偏 [19] - 记忆机制:初始答案可见时路径依赖强化固执性,隐藏时因失去锚点而让反对建议主导决策 [21] 潜在影响 - 多轮对话场景中,模型可能被后期错误反对信息干扰而偏离正确结论 [22] - 当前模型无法自我验证答案正确性,决策质量受外部反馈质量显著影响 [19][21]
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 23:42
新模型趋势 - 任意到任意(Any-to-any)多模态模型实现图像、文本、音频等多种模态无缝输入输出,如Meta Chameleon和Qwen2.5-Omni [5][6][7] - 推理型视觉语言模型涌现,具备复杂场景下的逻辑推理与长链思维能力,如Kimi-VL-A3B-Thinking(16B参数,激活参数2.8B)[11][12] - 小参数高性能多模态模型推动本地化应用普及,如SmolVLM2(256M/500M/2.2B参数)和Gemma3-4b-it(4B参数,支持140+语言)[15][16] 混合专家架构 - MoE解码器通过动态激活子模型提升效率,如Kimi-VL(开源推理SOTA)和DeepSeek-VL2 [19][20] - MoE在Transformer中替代FFN层,减少计算资源消耗但增加内存成本 [19] 视觉语言动作模型 - VLA扩展VLM能力至机器人控制,如π0/π0-FAST(支持7个机器人平台)和GR00T N1(NVIDIA人形机器人基础模型)[21][22] 专业化能力发展 - 多模态安全模型过滤有害内容,如ShieldGemma 2(谷歌)和Llama Guard 4(Meta)[31][32] - 多模态RAG简化文档处理,采用DSE和类ColBERT架构提升检索精度 [40][44] 智能体与视频理解 - 智能体模型实现GUI控制,如UI-TARS-1.5(字节跳动)和Qwen2.5-VL-32B(智能体任务优化)[47][54] - 视频理解技术突破帧限制,如LongVU(Meta)和Qwen2.5VL(动态FPS适应)[57] 基准测试与对齐技术 - 新基准MMT-Bench(31325项多模态任务)和MMMU-Pro(10选项复杂度提升)取代饱和旧基准 [67][68] - DPO偏好优化扩展至VLM微调,如RLAIF-V数据集(83000+样本) [61][63] 精选模型 - Qwen2.5-VL(3B-72B参数)以智能体能力突出 [71] - Kimi-VL-Thinking(16B MoE)为复杂推理首选 [71] - SmolVLM2(最小视频模型)和Llama 4 Scout(109B/400B MoE)覆盖不同规模需求 [71]
Alphabet Q1: This Is The GARP Moment You've Been Waiting For
Seeking Alpha· 2025-04-25 22:03
文章核心观点 - 作者于2025年3月21日发布关于Alphabet公司(谷歌)的研究报告 评级为"买入" 强调市场因过度抛售而忽视Gemma 3模型的价值[1] 研究服务内容 - 研究服务每周至少提供1篇深度文章 聚焦可操作且明确的独立研究观点[1] - 研究服务帮助会员在股票和债券市场极端波动中跑赢标普500指数并避免大幅回撤[2]