Workflow
BERT
icon
搜索文档
谷歌AI往事:隐秘的二十年,与狂奔的365天
36氪· 2025-11-27 20:13
公司近期业绩与产品表现 - Gemini应用月活跃用户从上一季度的4.5亿大幅提升至6.5亿[2] - Gemini 3在各类主流基准上展现统治级表现,Nano Banana Pro模型将AI生图精度与想象力提升到新高度[2][43] - 公司进入罕见的产品加速期,接连发布视频模型Veo 3、虚拟世界生成模型Genie 3等“王炸”产品[43][44] 公司AI技术发展历史与积淀 - 公司二十多年间的AI投资贯穿现代深度学习绝大部分关键节点,从拉里·佩奇对“终极搜索引擎”的想象,到“猫论文”、DeepMind、TPU[4][6] - 在Transformer论文发表前十年,世界上几乎所有知名AI人才都曾在公司工作过[5] - 公司首次语言模型实验始于2000年左右,开发出拼写纠错功能,并进化出内部昵称为PHIL的概率语言模型[10][11] 关键技术突破与商业影响 - 2012年“猫论文”使用16000个CPU核心训练九层神经网络,通过无监督学习识别YouTube视频中的猫,证明无监督学习可行性[14][15] - “猫论文”技术催生推荐系统机制,被应用于YouTube并奠定其全球最大视频平台基础,后续被Facebook、Instagram、字节跳动效仿,创造数千亿美元收入[15][17] - 公司开发出Transformer架构,其模型彻底碾压基于LSTM的谷歌翻译方案,证明模型规模越大效果越好[34] 重要收购与人才战略 - 2014年以5.5亿美元收购DeepMind,获得最豪华AI研究团队,但收购间接导致OpenAI、Anthropic、xAI等公司诞生[22][23][24] - 收购DeepMind后,公司向英伟达订购4万块GPU,订单价值1.3亿美元,后继续花费数亿美元购买GPU[25][27] - 为应对ChatGPT威胁,公司将Google Brain和DeepMind合并为Google DeepMind,并召回谢尔盖·布林等顶级人才参与Gemini项目[42] 自研芯片与基础设施 - 为解决GPU成本过高和算力不足问题,公司自研TPU芯片,专门针对神经网络矩阵乘法进行优化,效率远高于当时GPU[28][29][30] - TPU通过降低计算精度提高效率,避免公司向英伟达支付高额溢价(英伟达GPU系统毛利率高达75%至80%)[31] - 自研TPU使公司建立规模几乎与英伟达相当的芯片研发体系,服务于自身和谷歌云客户[30] 战略误判与危机应对 - 公司早期已开发出与ChatGPT接近的聊天机器人Mina,但因失控风险、收入模式冲突和法律风险未发布[36][37] - ChatGPT的出现使公司意识到AI从持续性创新转变为颠覆性创新,对构成生存威胁,内部发布红色警报[41][42] - 公司决定结束多模型并存局面,集中资源打造多模态旗舰模型Gemini,并于2023年5月宣布计划后,同年12月发布公共测试版本[42][43]
扩散不死,BERT永生,Karpathy凌晨反思:自回归时代该终结了?
36氪· 2025-11-05 12:44
文章核心观点 - 基于RoBERTa的掩码语言模型可通过引入动态掩码率改造为文本扩散模型,实现从表示学习到文本生成的转变 [1][13][26] - 实验证明改造后的RoBERTa Diffusion能生成视觉连贯的文本,表明BERT系模型本质上是固定掩码率训练的文本扩散模型 [21][24][26] - 文本扩散模型采用在整个Token画布上迭代重采样的双向注意力机制,与自回归模型的单向生成机制形成对比 [27][28] 技术原理与实验 - 文本扩散通过在前向过程逐步添加<MASK>噪声,在反向过程训练模型迭代去噪,将掩码语言建模目标扩展为生成过程 [11][13] - 实验使用10个扩散步骤,每个训练批次随机采样从1.0到0.1的掩码比例,推理时从240个<MASK>开始逐步减少掩码比例 [17][18] - 在H200显卡上训练30分钟后,模型基于256长度提示词生成了连贯文本,尽管存在数据集格式化导致的异常 [21][22] 行业影响与前景 - 该方法表明生成领域仍存在优化创新空间,结合AR-Diffusion等技术可进一步提升生成质量与推理速度 [25][28] - 谷歌DeepMind已发布实验性Gemini Diffusion模型,业界认为扩散语言模型在速度上有优势且是下一代AI发展方向 [30] - 扩散模型采用双向注意力机制迭代更新整个Token画布,与自回归模型的单向追加机制形成技术路径差异 [28]
前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛|智能涌现独家
搜狐财经· 2025-10-30 16:35
公司概况与战略定位 - 创始人杨红霞在阿里和字节拥有近7年大模型研发经验,曾带领团队开发通义千问前身M6大模型[1] - 新AI公司InfiX.ai于2024年7月成立,选择香港作为总部,快速组建40人团队[1][3] - 公司获得香港理工大学支持,通过RAISe+计划获得政府100亿元资助,并在算力上获得90%减免折扣[73][74][76] 核心技术:低资源训练与去中心化 - 开源全球首个FP8训练"全家桶",在模型性能几乎无损下,最高提升训练速度22%,节省显存14%[6][7][9] - 提出模型融合技术InfiFusion,可将不同尺寸和结构的领域专家模型融合,避免重复训练造成的资源浪费[6][10] - 专注于异构模型融合,突破同构模型限制,在18个推理基准测试中平均得分从77分提升至79分,最新方法逼近88分[50][51][60][61][63][64] 技术应用与领域突破 - 推出医疗多模态大模型训练框架InfiMed,基于36K RLV小规模数据训练的3B模型在七大医疗基准测试中平均准确率达59.2%,超越谷歌MedGemma-4B-IT[11][12] - 多智能体系统InfiAgent在需要多步推理的复杂任务DROP上领先最佳基线3.6%[13][14] - 选择癌症领域作为技术验证场景,因其数据多模态特性复杂,能更好区分模型能力[39][41] 行业趋势与融资进展 - "去中心化"训练范式获市场认可,前OpenAI CTO新公司Thinking Machines Lab种子轮融资20亿美元,估值120亿美元[15][34] - InfiX.ai第二轮Pre-A融资仅用两周完成,目前处于超募状态,估值达数亿美元[15][37][38] - 小语言模型被MIT Tech Review列为2025年十大突破性技术,验证公司技术方向正确性[27] 研发理念与团队建设 - 公司坚持技术驱动,认为技术断崖式领先是商业化基础,不急于追求短期商业化成果[86][88][89] - 团队规模约40人,强调成员代码能力、好奇心和合作态度,实行端到端研发模式[79][80][81] - 研发节奏聚焦三大顶级AI会议,但对重大成果会立即发布,如医疗模型7B参数规模超过GPT-5的成果[67][68]
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”
量子位· 2025-10-21 17:05
文章核心观点 - GRACE框架是一种创新的可解释生成式Embedding框架,其核心思想是“让模型先解释,再学Embedding”,将对比学习信号从惩罚式损失转变为奖励信号,通过强化学习驱动模型生成解释性推理链后再进行表征学习 [1][6][7] - 该方法解决了传统文本表征模型将大语言模型视为“哑巴编码器”的黑箱缺陷,使得Embedding过程从纯粹统计结果转变为可审查的透明表征,在保持甚至提升性能的同时获得了高可解释性 [4][5][27] - 在MTEB基准测试的56个数据集上,GRACE在多个骨干模型上均实现了性能全面提升,特别是在检索、配对分类和聚类任务上表现显著领先,且未损害模型原有的通用任务能力 [20][22][23] 技术框架与方法 - GRACE框架包含三个核心模块:生成式思维链模块首先生成输入文本的解释性推理链;可解释表征模块将“输入+推理链”拼接后通过Masked Mean Pooling得到Embedding;奖励驱动学习模块将对比学习目标重新定义为奖励函数进行强化学习优化 [8][9][11] - 训练流程采用有监督与无监督统一的框架,有监督阶段基于包含150万样本的E5训练集学习语义关系,无监督阶段借鉴SimCSE思路对同一文本生成多个推理链作为正样本,该双模式设计使GRACE可适配任何预训练大语言模型而无需大规模新标注数据 [12][13][17][18] - 奖励函数设计包含三个关键部分:对比奖励用于提升查询与正样本相似度并惩罚负样本;一致性奖励确保不同生成的推理链保持相似性以防止不稳定;困难负样本奖励重点区分最容易混淆的负样本 [16] 性能表现与实验结果 - 在MTEB全套56个数据集的综合评测中,GRACE在平均得分上全面超越所有基线模型,以Qwen3-4B模型为例,GRACE版本平均得分达51.03,显著高于基线模型的45.49和SimCSE增强版的50.11,在检索任务上从37.42提升至43.67,重排序任务从48.16提升至52.34 [22] - 对通用领域任务的测试表明GRACE避免了传统对比学习导致的灾难性遗忘问题,Qwen3-4B模型在GRACE监督训练下通用任务平均性能从60.73提升至61.13,而非GRACE的对比学习训练则导致性能暴跌至8.51,差异达52.22 [23][24] - 实验覆盖了四类主流大语言模型骨干网络,包括Qwen2.5-1.5B/3B、LLaMA-3.2-3B和Qwen3-4B,GRACE在所有模型上都表现出稳定的性能提升和可解释性优势,验证了框架的普适性 [21][22]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 13:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 09:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心· 2025-06-29 12:23
软件3.0与AI范式变革 - Andrej Karpathy提出「软件3.0」概念,自然语言成为新编程接口,AI模型直接执行任务,标志着计算范式的根本转变[1][2] - 自2017年Transformer架构问世后,LLM领域快速发展,GPT系列和多模态应用迅速崛起[3] - 技术演进从传统编程转向自然语言交互,关键论文揭示了这一转变的内在逻辑[5] 奠基性论文与技术突破 Transformer架构 - 《Attention Is All You Need》提出Transformer架构,完全摒弃循环和卷积网络,依靠自注意力机制高效处理序列数据,成为现代AI基石[8][10] - Transformer的并行计算和位置编码能力使其在机器翻译等任务中表现优异,并广泛应用于NLP和计算机视觉领域[11] GPT系列与缩放定律 - GPT-3拥有1750亿参数,通过少样本学习在翻译、问答等任务中表现优异,确立了「大模型+大数据」的缩放定律[12][13] - GPT-3开创提示工程新范式,降低AI开发门槛,引领生成式AI浪潮[13] 强化学习与人类反馈 - 《Deep Reinforcement Learning from Human Preferences》提出RLHF技术,通过人类偏好训练奖励模型,成为对齐ChatGPT等LLM的关键[14][15] - InstructGPT结合RLHF技术,即使参数更小也能更好遵循指令,催生ChatGPT并确立行业标准[16][17][18] 高效训练与推理技术 计算优化 - Chinchilla论文挑战「模型越大越好」认知,提出计算最优缩放法则,模型参数与训练数据应同步增长[22][23] - LLaMA证明小模型通过更长时间训练可超越大模型,推动开源生态繁荣[27] 注意力与内存优化 - FlashAttention通过融合计算内核和优化内存使用,提升长序列处理效率,成为行业标准[29][30] - PagedAttention借鉴操作系统分页思想,提升LLM服务内存利用率,显著增加吞吐量[51][52] 多模态与开源生态 - LAION-5B提供58.5亿图文对数据集,推动多模态模型发展并降低研发门槛[56][58] - Mistral 7B通过GQA和SWA架构实现高效推理,成为开源社区标杆[55] 新兴趋势与前沿探索 - Mamba架构通过选择性状态空间实现线性时间序列建模,挑战Transformer地位[44][45] - QLoRA技术使消费级GPU可微调数十亿参数模型,推动社区创新[47][49][50] - 思想树(ToT)框架增强LLM复杂问题解决能力,推动推理技术发展[60][61] 行业影响与未来方向 - LLM能力随规模「涌现」,不可预测的新能力推动模型持续扩大[62][63] - 稀疏门控专家混合层(MoE)实现万亿参数模型训练,成为顶尖LLM核心技术[70][71][72] - 开源框架如DeepSpeed和Megatron-LM突破硬件限制,支撑超大规模模型训练[65][67][68]
ESG体系下的AI研究(一):多维投资增效,防范伦理风险
浙商证券· 2025-06-05 22:23
AI助力ESG投资基础设施完善 - AI大模型迭代加速、成本降低,有望推动在ESG事务中的大规模应用,2024年全球各类机构使用AI的比例达78%,较上年提高23%,中国机构使用率为75%,较上年提高27%[2][24][27] - AI帮助监管端降低追踪成本,通过动态监管与多模态交叉验证防范“漂绿”行为,如提升碳数据准确性[34][39] - AI助力企业降低合规成本,通过政策智能解析、报告自动化等方式,德勤报告显示78%的企业计划在2025年增加AI技术投入[45][51][57] AI赋能资管机构ESG投资 - AI助力多模态数据的敏捷挖掘和快速处理,扩展ESG投资的信息处理范围,解决信息收集和处理难题[60][61] - AI优化投资策略,包括机器学习模型ESG因子挖掘、ESG语言模型分析、人工智能算法预测等方向[72] - AI推动基金营销转型,降低宣发内容创作成本,部分替代沟通职能,普及ESG产品信息和投资理念[89] ESG+RAI框架助力分析AI风险与机遇 - AI在ESG议题中表现出两面性,在环境、社会、公司治理层面既提升效率又产生争议[93] - 整合ESG框架与负责任AI原则,帮助投资者识别有AI伦理风险的企业,管理投资风险[4][92] 风险提示 - 经济修复不及预期;AI模型不稳定风险;市场情绪与偏好波动风险[5]
AI浪潮录丨王晟:谋求窗口期,AI初创公司不要跟巨头抢地盘
贝壳财经· 2025-05-30 10:59
北京AI产业发展 - 北京正成为AI大模型领域的战略高地,汇聚了智源研究院的"悟道"大模型、月之暗面、智谱等人工智能独角兽 [1] - 北京积极打造"全球开源之都",开源技术已深入汽车、机器人等行业 [1] - 在北京市科委和中关村管委会支持下,新京报AI研究院推出"AI浪潮录"专栏,深度访谈AI浪潮亲历者 [1] 投资人视角 - 天使投资人是AI初创企业迈出"第一步"的关键支持者,英诺基金较早关注生成式模型潜力,2022年6月投资了深言科技 [4][5][6] - 投资人更青睐有经验的创始人,如深言科技的岂凡超团队虽有技术实力,但融资竞争力不如王小川、王慧文等有创业经历者 [12] - 过半投资项目为"水下"项目,不投资完全市场化、公开化的路演项目 [14] AI大模型发展历程 - 2013年以CV和自动驾驶为主导的第一波AI浪潮,2018-2019年"AI四小龙"经历高峰与低谷 [7] - 2018年BERT出现,大幅提升NLP能力,Transformer架构提供多元化能力 [7] - 2020年OpenAI发布GPT3和Diffusion模型,显示AI多维爆发潜力,新时代到来 [8] - 2021年底国内除百度和阿里外,仅智源研究院关注大模型方向 [8] 创业者特点 - 当前AI大模型创业者多为科学家或"技术大牛",圈子收敛,属于科学共同体 [18] - 学术能力和科研能力是基本保障,高技术壁垒要求创业者是学界或行业翘楚 [16] - 高校技术基因影响创业,清华和浙大创业文化最踊跃,哈工大技术强但创业者较少 [16] 投资策略 - 天使基金偏向长期主义,关注公司创新力度和生产力提升,接受企业长期亏损 [21] - 体系化布局产业链上下游,如机器人领域投资机器人公司、供应链公司和场景化公司 [22] - 2024年投资重点是Agent(智能体),DeepSeek验证了推理模型前景 [23] 行业趋势 - Llama开源缩短了大模型研发差距,使创造新模型不再困难 [13] - 大模型训练从"暴力美学"转向细致工程化,"用钱换能力"路径失效 [26] - 初创公司应避免在超级共识形成后做无窗口期的事,不要试图占领巨头地盘 [27][28] - 产业在推动AI技术范式上的作用增强,论文数量和质量超过学界 [20]
DeepSeek技术溯源及前沿探索报告
浙江大学· 2025-05-22 09:20
报告行业投资评级 未提及 报告的核心观点 报告围绕语言模型、Transformer、ChatGPT、DeepSeek和新一代智能体展开,介绍语言模型的目标、任务、编码方式及发展历程,阐述Transformer的理论架构和训练机制,分析ChatGPT的发展及能力,探讨DeepSeek的技术创新和全栈影响,还提及新一代智能体的构成和能力[6][32][87][107][132] 根据相关目录分别进行总结 语言模型 - 终极目标是计算任意词序列是一句话的概率,基本任务是编码让计算机理解人类语言,编码方式有One - hot Encoding和Word Embedding,Word Embedding用低维词向量表示词,能使相近向量对应物体含义相近,语言模型发展经历基于统计的N - gram、基于神经网络的LSTM/GRU和Transformer阶段,还有Encoder - Decoder框架用于解决Seq2Seq问题[6][9][13][22][24] - 自监督学习包括语言的Masked Langauge Modeling和图像的Masked AutoEncoders,训练transformer需要数据、模型和算力,如ChatGPT训练使用45TB数据、近1万亿个单词和数十亿行源代码,包含1750亿参数,训练门槛是1万张英伟达V100芯片、约10亿人民币[55][57][62] Transformer - 理论架构创新包括自注意力机制、多头注意力和前馈网络/位置编码/层归一化,其注意力机制在语言任务中捕捉单词间关系,在图像任务中进行图像特征抽取,是大模型的技术基座[32][34][37] ChatGPT - 大型语言模型发展历经多个阶段,GPT - 3是语言模型转折点,有1750亿参数和涌现能力,ChatGPT是人工智能的IPHONE时刻,其训练基于GPT - 3.5,使用人类反馈的强化学习和近端策略优化算法微调[76][78][82] - GPT - 3系列和GPT - 3.5系列通过代码训练和指令微调增强能力,ChatGPT触发翔实回应、公正回应、拒绝不当问题和拒绝知识范围外问题的能力,多模态模型发展有开源的Meta的LLaMA系列、GPT - 4v和GPT - 4o等,各有不同能力提升[84][88][91] DeepSeek - 推理模型从生成到推理重心转变,DeepSeek - V3/R1是专家模型、强化学习、开源且高效,其技术全景图包括DeepSeek - V3 Base、DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill阶段,采用动态路由机制和专家共享机制,有极致工程优化[107][108][113] - DeepSeek - V3对标GPT - 4o,DeepSeek - R1对标OpenAI - o1,通过不同阶段训练提升推理能力和全场景能力,DeepSeek - R1 - Distill模型基于低参数量通用模型微调,可大幅提升性能和压缩参数[111][117][120] - 带来全栈影响,涉及大模型应用层、中间层和基础模型层,应用于教育、医疗等多个领域[121][122] 新一代智能体 - 从LLM到Agent发展,新一代智能体= Agent + LLM,LLM是Agent大脑,核心能力是逻辑推理,具备规划技能、工具使用和记忆能力,还有时空型GPT驱动的闭环多智能体协同系统实现时空智能自主化构建[126][132][137]