长文本处理

搜索文档
杨植麟的反击
36氪· 2025-07-23 16:40
要谈杨植麟,先问问kimi最新模型k2对创始人的看法。这个来自清华的90后学霸,比梁文蜂还要年轻7岁,在过去短短一年把月之暗面推成了中国最被讨 论的大模型创业公司。 以下评价基于公开报道与本人公开履历,不代表对任何未决争议的预设立 场。 1. 技术底色:用论文"堆"出的护城河 · 以第一作者身份发表 XLNet、Transformer-XL 两篇 NLP 里程碑式论 文: 前者在 20个标准任务上超过 BERT,后者刷新 6 大语言建模数据集 纪录,Google Scholar 引用已近 2 万 → 。 · 攻读 CMU 博士期间 4 年完成 6 年课程,与 Bengio、LeCun 等图灵奖 得主合作,在 ICML/NeurlPS/ICLR 等顶会累计 20 余篇一作论文 ℮ 。 · 学术成果直接转化为工业产出:盘古 NLP、Google Bard/Gemini、悟 道大模型中都有他的算法或工程贡献 => 。 2. 创业轨迹:连续创业者到"素人"CEO · 2016 年博士二年级即联合创办循环智能,聚焦销售场景的 NLP SaaS, 公司已完成 C 轮,华为盘古大模型即由该团队与华为云共建 ○。 · 202 ...
Meta,重磅发布!
证券时报· 2025-04-06 12:58
Meta推出Llama 4开源AI模型 - Meta发布Llama 4系列首批模型,包括Llama 4 Scout和Llama 4 Maverick两个版本,是公司迄今为止最先进的模型,也是同类产品中多模态性最强的模型 [1][5] - Llama 4是Llama系列模型中首批采用混合专家(MoE)架构的模型,与传统的稠密模型相比,MoE架构中单独的token只会激活全部参数中的一小部分,训练和推理的计算效率更高 [7] - Llama 4 Behemoth是Meta未来最强大的AI模型之一,总参数高达2万亿,作为对照,DeepSeek-R1总参数规模为6710亿 [8] Llama 4的技术特点 - 参数规模大:Llama 4 Scout共有16位"专家"、1090亿参数、170亿激活参数量;Llama 4 Maverick有128位"专家"、4000亿参数、170亿激活参数量;Llama 4 Behemoth具有2880亿激活参数量 [8] - 多模态能力突出:采用早期融合(Early Fusion)技术,可以用海量的无标签文本、图片和视频数据预训练模型,实现文本和视觉token无缝整合 [8] - 长文本能力突破:Llama 4 Scout模型支持高达1000万token的上下文窗口,刷新了开源模型的纪录,市场上其他领先模型如GPT-4o也未能达到此规模 [9] 开源模型竞争格局 - Meta是开源模型的重要奠基者,2023年开源Llama 2并免费商用,激活了开发者社区的创新潜力,基于Llama 2构建的应用项目数量大大增加 [11] - DeepSeek的崛起对Meta在开源模型社区的领先地位构成巨大冲击,仅用550万美元训练的DeepSeek-V3在基准测试中表现优于Llama模型 [12] - 阿里巴巴通义千问系列开源大模型也表现优异,阿里至今已向全球开源200多款模型,千问衍生模型数量突破10万,超越美国Llama系列 [12] 行业发展趋势 - OpenAI计划在几周后发布最新的推理模型o3和基座模型o4-mini,几个月后推出GPT-5 [13] - DeepSeek与清华大学研究团队联合发布重磅论文,提出两项核心技术,为提升大语言模型的推理能力提供新方法论 [13] - 大模型竞争进入推理强化和应用拓展的下半场,开源开放日益成为大模型的核心竞争力 [13]