原生多模态大模型

搜索文档
姜大昕走“窄门”
36氪· 2025-06-12 18:11
公司动态 - 阶跃星辰Tech Fellow段楠离职并加入京东探索研究院担任视觉与多模态实验室负责人 [1] - 公司于2023年4月成立 被称为"多模态卷王" Step系列基座模型研发速度快 [5] - 2024年7月发布Step-2万亿参数语言大模型正式版 Step-1.5V多模态模型 Step-1X图像生成大模型 [5] - 2025年1月一周内发布6款模型 包括推理模型 [5] - 2025年4月30日发布Step-1o-Vision-32k (highres)视觉大模型 [11] 产品调整 - 2024年12月停止大范围投入角色扮演类Agent产品"冒泡鸭" 团队合并至对话产品"跃问"(现更名为"阶跃AI") [1] - 产品策略从早期探索转向聚焦Agent方向 计划在汽车 手机 具身智能 IoT等场景布局 [17] - 与OPPO合作提供"一键全能搜" "一键问屏"服务 与吉利汽车探索"AI+车"场景 与智元机器人合作探索AI+具身机器人 [17][18] 技术路线 - 选择开发端到端的原生多模态大模型 不同于OpenAI式的逐步添加模态的路径 [15] - 认为多模态是实现AGI的必经之路 坚持原生多模理念 [5][21] - 批评Sora技术路线 认为大模型发展主线应是理解生成一体化 [15] - 视觉大模型Step-1o-Vision-32k在chatBot Arena细分榜单排名21位 [11] 市场表现 - 阶跃AI未进入月活TOP15的AI原生APP榜 推测月活不足300万 [6] - 在chatBot Arena总榜未上榜 在六小龙中落后于DeepSeek 零一万物 智谱 [9][10] - 市场投入谨慎 相比Kimi MiniMax等公司投流力度较小 [8] - 开发者认知度较低 被视为大模型调用备选项 [14] 融资与竞争 - 融资规模在AI六小龙中不是最多 单轮融资额也不是最高 [13] - 面临来自科技巨头(腾讯 阿里 字节)和其他创企(Kimi MiniMax 智谱)的激烈竞争 [25] - 2025年国内大模型融资几乎停滞 需要向投资人证明技术路线可行性 [26][28] 团队与挑战 - 创始人姜大昕曾任微软全球副总裁 主导过Bing Azure Microsoft 365等产品的自然语言理解系统 [13] - 视频模型团队部分核心成员跟随段楠加入京东 [1] - 技术路线激进但难度大 需要突破原生多模态模型的技术瓶颈 [15][17] - 缺乏独特市场标签 相比竞品存在感较弱 [4][22]
承认百度仍在AI第一梯队没那么难
雷峰网· 2025-03-17 12:05
核心观点 - 百度在面临Deepseek等竞争对手压力下,选择放下面子,通过发布文心4.5和X1两款新模型展示技术实力,保持行业竞争力 [2][3][4] - 公司通过技术迭代和成本优化,在保持模型性能的同时大幅降低推理成本,并免费开放给用户,以扩大市场份额 [13][14] - 百度转变策略,从封闭走向开放,加快迭代速度并拥抱开源,以适应快速变化的市场环境 [18] - 公司凭借庞大的用户基础、商业化实践和全栈AI能力,保持在行业第一梯队的位置 [22][25] - AI行业竞争加剧,但百度通过务实策略和生态优势,继续在牌桌上参与竞争 [27][29] 文心4.5和X1技术特点 - 文心4.5是多模态大模型,具备理解照片、图表、视频内容的能力,并能识别网络幽默和讽刺 [7] - 采用原生多模态架构,与Gemini、Llama 4、GPT-4o思路一致,通过模态融合和专有机制提升性能 [9] - 引入多模态异构专家扩展技术,针对不同领域使用专业"专家"并通过自适应模态感知损失函数实现协作 [10] - 优化长文本处理、多轮交互、学习效率和幻觉问题,提升模型质量和训练效率 [11] - 文心X1采用递进式强化学习训练方法,建立统一评估系统,融合多种奖励机制 [12] - 两款模型推理成本大幅降低,文心4.5成本为GPT-4.5的1%,X1成本为Deepseek R1的一半 [13] 商业化策略 - 文心4.5和X1已在官网免费开放,企业版定价显著低于竞品 [14] - 百度搜索、文小言等产品逐步接入新模型,推动AI能力普惠 [15] - 近十年累计研发投入超1800亿,收入20%以上投入研发 [15] - 2024年文心大模型日均调用量达16.5亿次,同比增长33倍 [22] - 飞桨平台拥有1808万开发者和43万企业客户,创建101万个模型 [22] - 文心千帆已帮助客户完成3.3万个模型精调,开发77万个企业应用 [22] 行业竞争态势 - Deepseek的出现改变了行业格局,给百度带来巨大压力 [2][3] - AI行业玩家各有所长,技术、产品和营销策略各不相同 [21] - Deepseek的开源策略带动了整个行业发展,加速了企业AI应用进程 [24] - 行业竞争加剧,缺乏商业化能力的公司将被淘汰 [24] - 百度凭借全栈AI能力和庞大生态,保持在第一梯队 [25][27] 公司战略转变 - 从封闭走向开放,加快迭代速度并拥抱开源 [18] - 放下"面子",直面竞争,展示真实技术实力 [17][18] - 从追求技术领先转向注重商业化落地和盈利能力 [24] - 内部决策速度加快,文心4.5全面免费等决策半天内完成 [18] - 计划6月底公布开源版本,下半年推出文心5.0 [18]