Workflow
大模型竞争
icon
搜索文档
饥渴的大厂,面对大模型还需新招
36氪· 2025-04-30 12:11
文章核心观点 行业已进入存量博弈阶段,竞争集中在算力成本、数据质量和场景渗透的三角博弈,技术进步方向转向效率优化,但仍面临瓶颈,大厂突围需从技术堆叠转向价值创造,“云厂商 + 行业应用 + MCP 协议”的三重共振或成企业落地关键 [2][6][10][14][15] 大模型竞争现状 竞争进入存量博弈 - 模型差距缩小,竞争进入新阶段,真正差异更多在使用方式 [1] - 竞争聚焦于算力成本、数据质量和场景渗透 [2] 各公司竞争策略 算力成本优化 - 阿里 Qwen3 用“混合推理”技术,部署成本降至 DeepSeek - R1 的 1/3 到 1/4 [2] - 腾讯混元 T1 用稀疏激活机制,算力利用率比传统模型提升 30% 以上 [3] - 百度文心大模型推理速度在工业级场景比竞品快 20% [3] - 字节跳动通过场景化落地间接降低通用大模型部署压力 [3] 数据质量提升 - 阿里 Qwen3 训练数据量达 36 万亿 token,支持 119 种语言和方言 [4] - 百度文心一言依托搜索、地图等积累真实用户行为数据 [4] - 腾讯混元通过开源生态积累开发者数据,在游戏和内容生成领域有优势 [4] - 字节跳动利用抖音、今日头条流量池捕捉用户偏好数据 [4] 场景渗透拓展 - 阿里 Qwen3 深耕电商、金融、医疗等领域,提供定制化解决方案 [5] - 百度文心一言嵌入搜索、地图等产品,形成“技术 - 场景 - 用户”闭环 [5] - 腾讯混元聚焦游戏和内容生产,抢占多模态赛道 [5] - 字节跳动将大模型融入内容生产流程,打通“技术 - 内容 - 流量”链条 [5] 技术瓶颈与方向调整 技术瓶颈体现 - 单纯堆参数效果不佳,激活效率成为新竞争点 [7][8] - 技术优化多为对现有架构的修补,未实现真正突破 [9][10] 技术方向调整 - 从“规模扩张”转向“效率优化”,聚焦效率、成本和场景落地 [8][10] 大厂突围困境与策略 困境 - 技术优势衰减速度超预期,过度依赖参数规模和稀疏激活机制易陷入“技术幻觉” [11][13] - 技术同质化,竞争内耗,算法优化存在天花板 [13][14] 策略 - 从“技术堆叠”到“价值创造”,以解决实际问题为价值锚点 [14] 企业落地新范式 “三重共振”模式 - “云厂商 + 行业应用 + MCP 协议”能落地到企业实际场景 [15] MCP 协议作用 - 重新定义企业与 AI 合作规则,为 AI 提供“导航系统”,打通企业数据与 AI 能力 [15][16] MCP 驱动 ToB 范式变化 - 从“模型为中心”变为“数据为中心”,重点转向数据流通 [17] - 从“孤岛”变为“协同”,打通企业内部系统,成为生产力基础设施 [17]
Meta,最新发布!“多模态性最强模型”
券商中国· 2025-04-06 14:10
文章核心观点 Meta推出开源人工智能模型Llama 4,是应对新兴开源势力的“回击”,推动开源模型技术发展和生态完善,当前大模型竞争趋于白热化,行业进入推理强化和应用拓展阶段 [2][8] 大规模、多模态、长文本的Llama 4发布 - Meta于4月6日凌晨发布Llama 4系列首批模型,包括Llama 4 Scout、Llama 4 Maverick,还预览了Llama 4 Behemoth [3] - Llama 4是Llama系列中首批采用混合专家(MoE)架构的模型,与传统稠密模型相比,训练和推理计算效率更高 [3] - Llama 4参数规模大,Llama 4 Scout有1090亿参数、170亿激活参数量;Llama 4 Maverick有4000亿参数、170亿激活参数量;Llama 4 Behemoth总参数高达2万亿,有2880亿激活参数量 [4] - Llama 4多模态能力突出,采用早期融合技术,用无标签文本、图片和视频数据预训练,实现文本和视觉token无缝整合 [4] - Llama 4用图像和视频帧静止图像训练,支持多图像输入与文本提示交互,预训练最多用48张图像,后训练测试最多8张图像 [5] - Llama 4长文本能力有突破,Llama 4 Scout支持高达1000万token的上下文窗口,处理长文档等任务表现出色 [5] 大模型竞争趋于白热化 - Meta于2022年推出Llama系列模型,2023年开源Llama 2并可免费商用,2024年4月发布Llama 3,实现多模态处理能力 [6] - DeepSeek崛起冲击Meta在开源模型社区的领先地位,1月末有爆料称DeepSeek - V3让Llama模型相形见绌,Meta工程师分析其技术 [7] - 阿里通义千问系列开源大模型表现出色,Qwen2.5 - Omni登上Hugging Face大模型榜单总榜榜首,千问衍生模型数量超Llama系列 [7] - OpenAI计划几周后发布推理模型o3和基座模型o4 - mini,几个月后推出GPT - 5 [8] - DeepSeek与清华团队发布论文,成果被视为下一代推理模型R2的重要技术铺垫 [8] - 大模型竞争进入推理强化和应用拓展阶段,个人智能体潜力显现,开源开放成核心竞争力,大算力等成发展趋势 [8]
当接入DeepSeek成标配,文小言的杀手锏是什么?
雷峰网· 2025-03-25 20:36
大模型行业竞争格局演变 - 2023年为基础模型混战阶段,百度率先发布文心大模型3.5,厂商聚焦技术内卷 [2] - 2024年转向应用为王,ToB市场爆发价格战,ToC领域展开买量大战 [2] - 2025年黑马Deepseek入场,以150人团队承接单日2000万活跃用户,颠覆行业竞争逻辑 [2][5] 开放合作成为行业主流策略 - 头部厂商(如腾讯、百度)通过接入Deepseek-R1满血版实现技术互补,微信、百度搜索首批整合该模型 [6] - 百度文小言全量开放Deepseek-R1及文心最新大模型,强化拍照搜索、图片创作等场景体验 [7] - Deepseek推动行业生态扩容,提升B端/C端市场对AI技术的认知,激活中游厂商活力 [7][8] 多模型协同与自主技术并重 - 文小言采用多模型自动调度机制,整合Deepseek、文心4.5和文心X1,覆盖多模态输入输出需求 [11][17] - 文心4.5原生多模态模型实现文字/图片/音频/视频协同建模,支持扫题搜题、梗图解析等复杂场景 [12][16] - 文心X1具备深度思考链与工具链整合能力,可生成装修方案、润色简历等,差异化超越Deepseek [21][30] 用户价值驱动的产品升级 - 行业竞争核心转向用户需求满足,Deepseek开源与厂商技术整合双向推进 [35][36] - 文小言4月全面免费开放超长文档处理、AI绘画等尖端功能,强化普惠属性 [36] - 头部厂商通过开放生态与敏捷迭代巩固用户心智壁垒,如百度文小言持续扩圈产品生态 [7][31] 技术能力差异化对比 - Deepseek强项为思维链推理,但缺乏多模态能力;文心模型补足图像/音频等刚需场景 [11][15] - 百度工具链积累赋能文心X1,实现一站式解决方案(如简历排版),减少多工具切换 [30][31] - 厂商需平衡外部合作与自研投入,文小言案例显示"合作中保持独立"为关键生存策略 [31]