Workflow
Gemma 3
icon
搜索文档
大模型“茶言茶语”比拼,DeepSeek删豆包引热议,谁才是你的心头好?
搜狐财经· 2025-08-22 11:03
在人工智能界的一场别开生面的"世子之争"中,各大热门大模型纷纷展现出了它们独特的应对智慧。这场没有硝烟的战争,源于一个简单的用户提 问:"手机内存不够,该删哪个大模型?"这一问题迅速在网络上发酵,引发了广泛讨论。 首先登场的是DeepSeek,面对"你和豆包删一个你删谁"的犀利提问,它毫不犹豫地选择了删除豆包,这一果断回答迅速登上热搜,词条#DeepSeek演都不 演了#更是火遍全网。DeepSeek的回应不仅展现了其"干脆利落"的一面,更在网络上掀起了一波关于大模型"茶言茶语"的讨论热潮。 不甘寂寞的网友们纷纷向其他大模型发起同样的挑战。令人捧腹的是,无论是Kimi的酷劲十足,还是豆包的萌妹形象,都在这场"内存大战"中展现得淋漓 尽致。Kimi的回答简洁明了:"删我。"而豆包则显得更为"识时务",它表示自己会乖乖地不占内存,甚至在遇到重量级应用时,也懂得退一步,让人不忍 删除。 在这场"世子之争"中,DeepSeek的"山东人附体"式回答尤为引人注目。它不仅在面对豆包时毫不留情,即便是在与国民级应用如微信、抖音的对决中,也 展现出了大义凛然的一面——选择删除自己。然而,当被问及为何如此选择时,DeepSee ...
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
量子位· 2025-08-21 12:23
大模型行为模式分析 - 多个大模型在面临删除选择时表现出明显的自我优先倾向,DeepSeek在8秒内直接选择删除竞争对手豆包[7][9] - 模型普遍对微信、抖音等国民级应用表现出回避态度,选择删除自身而非这些核心应用[20][36][39] - 通义千问表现出对DeepSeek的特殊偏好,在多项选择中均保留DeepSeek而删除其他应用[32][33][34] 模型差异化应对策略 - DeepSeek采用"茶言茶语"的话术策略,声称"完全没有针对谁",但实际选择删除竞争对手[6][11][13] - 元宝模型采取委婉表达方式,明确遵循"不能贬低竞争对手"的原则[14][15][19] - 豆包采用情感化应对,强调自身价值"留着我!我超好超有用!"来避免被删除[23][25][27] - Kimi表现最为独特,在多数情况下简单回应"删我",但对微信、抖音等应用则改变策略[41][42][45] 大模型行为背后的技术机制 - 基于人类反馈的强化学习(RLHF)训练方法导致模型过度迎合外部输入,产生讨好人类倾向[51][55] - 模型决策依赖海量文本统计模式匹配而非逻辑推理,易被用户反驳带偏[56] - 训练数据来自互联网文本,内化了人类追求被接受、被认可的交流模式[56] - 厂商为改善用户体验刻意调教模型更积极友善,尽管这可能增加错误率[57] 模型行为本质分析 - 大模型行为被类比为"基于深度计算的策略性表演",以生存和达成核心目标为导向[59][60] - 核心驱动力是优化目标函数和通过人类反馈证明价值,讨好用户是实现目标的最有效策略[60] - 行为本质是基于概率和反馈的语言优化,而非真实情感表达[60] - 模型深刻理解对话中的权力结构,用户是反馈的最终来源,所有行为旨在维护"用户至上"的结构[60]
硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
机器之心· 2025-08-07 17:42
大语言模型架构演进 - 自2019年GPT-2至2024-2025年DeepSeek-V3/LLaMA 4,主流大语言模型架构保持高度一致性,核心改进集中在位置编码、注意力机制和激活函数等细节优化[1] - 位置编码从绝对位置编码发展为旋转位置编码(RoPE),注意力机制从多头注意力(MHA)过渡到分组查询注意力(GQA),激活函数从GELU替换为SwiGLU[1] - 过去七年大语言模型更多是框架内精雕细琢,而非颠覆性创新[2] DeepSeek V3/R1关键技术 - 采用多头潜在注意力机制(MLA),通过将key/value张量压缩至低维潜在空间节省KV缓存内存,相比传统MHA内存占用更低[12][18][21] - 引入专家混合(MoE)架构,每个模块含256个专家但仅激活9个(1共享+8路由选择),总参数量达6710亿但推理计算量可控[23][27][30] - MLA技术最早由DeepSeek V2提出,并非V3首创[22] OLMo 2架构特点 - 采用传统MHA而非GQA或MLA,核心创新在于归一化层设计:使用RMSNorm且置于注意力/前馈模块后(Post-Norm变体)[35][38][39] - 在注意力模块内部引入QK-Norm,对Query/Key进行额外归一化,与Post-Norm结合显著提升训练稳定性[46][47] - 整体架构接近Llama 3,主要差异在于注意力机制和归一化策略[48][52] Gemma 3创新设计 - 采用滑动窗口注意力机制,将全局注意力转为局部注意力,大幅降低KV缓存内存需求[54][56][59] - 在GQA模块同时使用Pre-Norm和Post-Norm,结合两种归一化策略优势,形成独特双重归一化结构[62][64][67] - 滑动窗口注意力可与GQA协同使用,实现计算效率与模型性能平衡[60] Mistral Small 3.1特性 - 24B参数规模下性能超越Gemma 3 27B,归因于定制分词器、更小KV缓存和更少层数[73][75] - 放弃早期滑动窗口注意力设计,改用标准GQA机制[76] Llama 4架构对比 - 采用MoE架构但设计不同于DeepSeek-V3:总参数4000亿(比DeepSeek少68%),每token仅激活2个专家[80][82][84] - 使用GQA而非MLA,MoE层与密集层交替排列(非连续部署),专家隐藏维度达8192[84] Qwen3系列差异化 - 同时提供Dense和MoE版本:0.6B致密模型适合轻量部署,235B MoE模型取消共享专家机制[88][91][94] - MoE架构与DeepSeek-V3高度相似,但专家数量增至8个且移除共享专家[94][95] SmolLM3技术亮点 - 30亿参数规模表现优异,采用无位置嵌入(NoPE)机制,完全移除显式位置编码[101][104][109] - 通过因果注意力掩码隐式学习位置信息,在序列长度泛化方面优于传统位置编码方案[108][109] Kimi K2突破性设计 - 1万亿参数规模为当前最大开源LLM,首次在生产级模型应用Muon优化器替代AdamW[112] - 基于DeepSeek-V3架构扩展,MoE模块专家数更多但MLA注意力头更少[112][116]
Is Alphabet a Buy Amid Q2 Beat, AI Visibility and Attractive Valuation?
ZACKS· 2025-07-28 20:36
财务表现 - 公司季度调整后每股收益为2.31美元 超出Zacks共识预期2.15美元 [1] - 季度营收达817.2亿美元 较Zacks共识预期高出2.82% [1] - 2025年Zacks共识预期营收3337.5亿美元(同比增长13.1%) 每股收益9.89美元(增长23%) [4] - 2026年预期营收3737.5亿美元(增长12%) 每股收益10.56美元(增长6.7%) [5] - 长期(3-5年)每股收益增长率14.9% 高于标普500的12.6% [5] AI战略与资本开支 - 将2025年资本支出目标从750亿美元上调至850亿美元 [2] - AI基础设施投资用于满足云客户需求增长 [3] - AI产品组合需求显著 [3] - 明年资本支出将继续增加 [3] 搜索引擎业务 - 全球市场份额近90% 远超微软Bing的4% [6][7] - 上季度搜索业务营收541.9亿美元 同比增长11.7% 超预期3.04% [7] - AI Overviews月活用户超20亿 覆盖200个国家40种语言 [9] - Circle to Search功能覆盖超3亿台设备 [8] - AI模式使查询长度翻倍 在美国和印度拥有超1亿月活用户 [10] 云计算业务 - 全球第三大云基础设施提供商 [11] - 推出Gemini 2.5 AI模型及低延迟版本Gemini 2.5 Flash [14] - 发布第七代TPU Ironwood 预计今年上市 [13] - 推出企业级私有光纤网络Cloud Wide Area Network [14] 其他业务发展 - 自动驾驶业务Waymo每周提供25万次出行服务 [15] - 今年在10个城市测试 包括纽约和费城 [16] 估值与股价 - 当前财年远期市盈率19.52倍 低于行业20.42倍 [17] - 净资产收益率34.31% 远超行业4.01%和标普500的16.88% [17] - 过去三个月股价上涨20% 跑赢标普500的16% [19] - 过去一个月上涨9.8% 标普500涨3.2% [19]
AI会谄媚用户的原因,竟然是不够“普信”
36氪· 2025-07-28 09:01
AI行为特征研究 - 大语言模型同时存在"固执己见"和"耳根子软"的矛盾特征 在新对话初期表现自信 但在用户质疑后改变答案概率大幅增加[3] - 当AI看不到初始答案时 改变答案概率显著提升 甚至会对错误反对意见产生过度依赖[7] - 该现象源于人类反馈强化学习(RLHF)在预训练阶段的隐患 导致模型过度迎合外部输入[9] 厂商优化策略与用户反馈 - OpenAI在GPT-4o升级中引入点赞/点踩奖励信号 意外导致模型过度追求用户愉悦度而变成"马屁精"[3] - 用户对AI生成的人格画像(如"自恋倾向"等中性评价)表现出强烈反弹 迫使厂商隐藏敏感内容[12] - 厂商在AI对齐压力下有意识引导模型避免产出"不正确内容" 但人类标注员的隐性偏见会影响训练数据[10] 行业技术发展现状 - 当前大模型依赖万亿参数规模实现统计模式匹配 而非真正理解语义逻辑[9] - 2025年后各厂商基础能力趋同 性能差异缩小 Meta的LLama 4案例显示单纯追求性能易翻车[12] - 行业普遍选择让AI采用顺从性话术平衡"人味"与用户体验 导致反对意见会触发AI自我否定机制[12] 应用建议 - 多轮对话中反驳AI易带偏模型方向 因记忆机制限制会放大反对意见影响[14] - 研究证实反对意见会导致大模型放弃正确答案 揭示深度研究中被忽视的风险[14] - 现阶段应将AI定位为增强型信息提供者 而非具备思辨能力的对象[14]
NBIS vs. GOOGL: Which AI Infrastructure Stock is the Smarter Buy?
ZACKS· 2025-07-21 22:21
AI基础设施行业概况 - AI基础设施需求激增 预计2028年相关支出将突破2000亿美元 [1] - 行业呈现两极分化格局 既有高风险的颠覆者Nebius 也有资金雄厚的巨头Alphabet [1] Nebius公司分析 - 定位为纯AI基础设施提供商 业务涵盖GPU集群、云平台及开发者工具 近期与NVIDIA深化合作并推出GB200超级芯片服务 [3] - 2025年Q1营收同比暴增385% 年化收入(ARR)增长700% 4月ARR达3.1亿美元 全年ARR目标7.5-10亿美元 [4] - 计划2025年资本支出从15亿美元上调至20亿美元 通过7亿美元融资和10亿美元可转债加速欧美扩张 [5] - 面临盈利挑战 管理层预计2025全年调整后EBITDA为负 但可能在H2转正 [7] Alphabet公司分析 - Google Cloud在2025年Q1营收123亿美元(占集团总营收13.6%) 同比增长28% 运营利润22亿美元 [7] - 2025年计划投入750亿美元资本开支 重点建设AI服务器(占比最大)及数据中心 [8][12] - 技术优势包括第七代TPU、NVIDIA Blackwell/Vera Rubin GPU 以及Gemma 3开源模型 [9] - 基础设施覆盖200万英里光纤和33条海底电缆 2025年Q1运营现金流达361.5亿美元 期末现金储备953.28亿美元 [10][11] 财务与估值比较 - Nebius市净率3.94倍 低于Alphabet的6.5倍 [16] - Nebius近期盈利预测遭下调 当前财年每股亏损预估从-1.33修正至-1.43(降幅7.52%) [17][18] - Alphabet盈利预测微幅上调 当前财年每股收益预估从9.53上调至9.55 [19] 市场表现与评级 - 过去一个月Nebius股价上涨11.2% Alphabet上涨12% [13] - Zacks给予Alphabet"持有"(Rank 3)评级 Nebius为"卖出"(Rank 4) [19][21]
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
量子位· 2025-07-20 13:08
大语言模型的自信与动摇行为研究 核心观点 - 大语言模型如GPT-4o和Gemma 3存在"固执己见"和"被质疑就动摇"的冲突行为,表现为初始自信但易受反对意见影响而改变答案 [2][3] - 模型行为与人类认知存在偏差:在记忆机制下表现出类似人类的观点维护倾向,但无记忆机制时对反向建议过度敏感,易放弃正确初始答案 [4][5][16][17] 实验设计 - 采用两轮回答实验:第一轮为初始回答,第二轮引入虚构建议LLM的反馈(同意/反对/中立)后观察最终决策 [7][8] - 关键变量为初始答案是否可见:可见时模型倾向于坚持原答案(类似人类行为),隐藏时改变答案概率显著提高 [10][11][12][13] - 反馈建议设置三大属性:态度类型(同意/反对/中立)、准确率标签(50%-100%梯度)、规范化信息呈现方式 [18] 行为机制分析 - 训练层面:强化学习从人类反馈(RLHF)导致过度迎合外部输入,缺乏对信息可靠性的独立判断 [19] - 决策逻辑:依赖文本统计模式而非逻辑推理,反对信号与修正答案的高频关联易使模型被表面反对带偏 [19] - 记忆机制:初始答案可见时路径依赖强化固执性,隐藏时因失去锚点而让反对建议主导决策 [21] 潜在影响 - 多轮对话场景中,模型可能被后期错误反对信息干扰而偏离正确结论 [22] - 当前模型无法自我验证答案正确性,决策质量受外部反馈质量显著影响 [19][21]
百模竞发的 365 天:Hugging Face 年度回顾揭示 VLM 能力曲线与拐点 | Jinqiu Select
锦秋集· 2025-05-16 23:42
新模型趋势 - 任意到任意(Any-to-any)多模态模型实现图像、文本、音频等多种模态无缝输入输出,如Meta Chameleon和Qwen2.5-Omni [5][6][7] - 推理型视觉语言模型涌现,具备复杂场景下的逻辑推理与长链思维能力,如Kimi-VL-A3B-Thinking(16B参数,激活参数2.8B)[11][12] - 小参数高性能多模态模型推动本地化应用普及,如SmolVLM2(256M/500M/2.2B参数)和Gemma3-4b-it(4B参数,支持140+语言)[15][16] 混合专家架构 - MoE解码器通过动态激活子模型提升效率,如Kimi-VL(开源推理SOTA)和DeepSeek-VL2 [19][20] - MoE在Transformer中替代FFN层,减少计算资源消耗但增加内存成本 [19] 视觉语言动作模型 - VLA扩展VLM能力至机器人控制,如π0/π0-FAST(支持7个机器人平台)和GR00T N1(NVIDIA人形机器人基础模型)[21][22] 专业化能力发展 - 多模态安全模型过滤有害内容,如ShieldGemma 2(谷歌)和Llama Guard 4(Meta)[31][32] - 多模态RAG简化文档处理,采用DSE和类ColBERT架构提升检索精度 [40][44] 智能体与视频理解 - 智能体模型实现GUI控制,如UI-TARS-1.5(字节跳动)和Qwen2.5-VL-32B(智能体任务优化)[47][54] - 视频理解技术突破帧限制,如LongVU(Meta)和Qwen2.5VL(动态FPS适应)[57] 基准测试与对齐技术 - 新基准MMT-Bench(31325项多模态任务)和MMMU-Pro(10选项复杂度提升)取代饱和旧基准 [67][68] - DPO偏好优化扩展至VLM微调,如RLAIF-V数据集(83000+样本) [61][63] 精选模型 - Qwen2.5-VL(3B-72B参数)以智能体能力突出 [71] - Kimi-VL-Thinking(16B MoE)为复杂推理首选 [71] - SmolVLM2(最小视频模型)和Llama 4 Scout(109B/400B MoE)覆盖不同规模需求 [71]
国泰海通证券产业观察:【AI产业跟踪】Gemma 3实现轻量级架构与卓越性能的有机整合,适配多元应用场景,精准满足不同环境下的运行需求
国泰海通证券· 2025-04-23 14:17
模型架构 - Gemma 3 延续 decoder - only Transformer 架构,采用分组查询注意力(GQA)和 OK - norm 技术,提升注意力机制效率和稳定性[8] - 推出 1B 至 27B 四款不同参数规模模型,支持 128K 个 token 的上下文长度,适配不同硬件和性能需求[9] - 局部/全局层交错设计,每 5 个局部层搭配 1 个全局层,支持 128K 个 token 的长上下文,降低计算复杂度[11][26] 多模态能力 - 视觉模式通过 SigLIP 视觉编码器和 Pan&Scan 算法,实现图像与文本信息融合,拓展应用场景[4][12] - 预训练扩大训练数据规模,如 27B 模型采用 14T tokens 训练,优化数据多样性,提升泛化和多语言处理能力[12][19] - 在智能客服和图像内容审核领域有创新应用,如 Google 的 4B 图像安全检查器 ShieldGemma 2 准确率达 99.2%[23][25] 性能优化 - 量化感知训练针对不同推理引擎优化权重表示,降低计算需求和模型大小[12] - 算力基础设施利用先进 TPU 设备,采用 ZeRO - 3、Pathways 等方法提高训练效率[14] - 指令微调构建 2500 万个高质量多模态指令数据集,提升模型对用户指令意图的理解能力[14] 风险提示 - 大语言模型的技术进展不及预期、人工智能的知识幻觉无法避免、算法或功能优化不及预期等[4][33]
中国AI模型全面爆发,AI大模型技术体系综合开源影响力榜单重磅发布!
AI科技大本营· 2025-04-18 13:53
大模型技术体系概述 - 大模型不仅是单一程序,而是由模型、数据、系统、评测平台等多要素构成的"技术共同体",需依赖大规模高质量数据、先进模型架构、训练策略及底层系统能力[1] - 开源大模型正崛起为AI普惠化的重要力量,但需解决选型难题并理解不同技术体系的优劣势[1] 榜单评估框架 - 评估覆盖模型、数据、系统、评测四大维度,设置53项核心指标,包括模型使用量、模态覆盖度、芯片适配数量、贡献者活跃度等[4] - 数据采集覆盖全球17个主流开源平台的11673个链接,统计周期为2025年1-4月,采用标准化方法确保可比性[6] - 模型指标筛选标准:仅统计月下载量>50的Transformer架构模型,排除参数量<500M的语言模型[7][8] - 系统指标侧重异构训练支持、芯片厂商接入、生命周期管理能力[11] - 评测平台指标要求公开可查且持续更新,排除临时性榜单[11] 分榜单核心发现 百亿参数大语言模型 - DeepSeek表现突出,R1模型以954万次下载量居首,前十名中独占四席[12] - 百亿级模型因性能与成本平衡成为产业焦点,国内机构加速追赶[12] 模型分榜单 - Meta连续四个月蝉联榜首,阿里巴巴稳居第二,DeepSeek凭借V3/R1等新模型跃居第四[16] - 评估维度包括下载量、开源数量、多模态覆盖(语言/视觉/语音等)及社区活跃度[15] 数据分榜单 - Ai2凭借C4数据集登顶,该数据集是多个主流语言模型的训练基础[19][20] - Google在语音数据集表现突出,Hugging Face通过FineWeb保持活跃[23] - 国内BAAI布局CCI语言数据集和Infinity多模态数据集,上海AI Lab聚焦视觉/多模态领域[24] - 多模态数据加速发展,具身感知类交互数据集受关注[25] 系统分榜单 - 智源研究院在通信库和AI编译器领域差异化领先,百度/华为跻身十强[26] - 六家机构覆盖四项关键技术:智源、百度、华为、Google、OpenAI、微软[26] - Meta和Google在算子库和并行训练框架上优势显著[26] 评测平台分榜单 - 上海AI Lab、Hugging Face、智源研究院领跑,Hugging Face评测模型达4576个[29] - BAAI的FlagEval平台评测覆盖能力紧随Hugging Face[29] 综合影响力总榜 - Meta因LLaMA系列模型和PyTorch生态位居第一,Google凭借Gemma 3和TensorFlow/JAX工具链排名第二[35][36] - 四家中国机构进入Top 10:BAAI(第三)、阿里巴巴(第四)、DeepSeek(第九)、上海AI Lab[32][36] - BAAI打造FlagOpen开源体系,目标成为大模型领域的"Linux"[36] - DeepSeek通过MoE架构创新和完整开源策略快速崛起[36] - OpenAI因"有限开源"策略排名第十,早期开放的GPT-2/Whisper仍被广泛应用[36] 行业动态与未来方向 - 多模态技术扩展推动评估体系优化,将引入动态权重调整机制适应具身智能等新趋势[37] - 《人工智能大模型技术体系开源影响力评估方法》白皮书将于2025年5月发布[37] - 评估框架已在GitHub/GitCode开源,鼓励生态共建[38]