Transformer
搜索文档
大厂AI权力交接:90后,集体上位
36氪· 2026-02-02 08:22
行业核心现象:中国科技巨头大模型领导层年轻化 - 2025年底至2026年初,腾讯、阿里等中国科技公司的大模型业务核心负责人悄然更换为一批90后年轻面孔[1] - 这些领军人物年龄集中在25至32岁之间,标志着一次显著的权力交接[2][17] 腾讯:引入顶尖年轻科学家,重构管理逻辑 - 腾讯以高规格引入前OpenAI研究员姚顺雨,其头衔为首席AI科学家,并直接向总裁刘炽平汇报[1] - 清华大学博士、前Sea AI Lab科学家庞天宇也加入腾讯,负责多模态强化学习[1] - 公司管理逻辑重组,缩短决策链,让最懂前沿技术的人(如姚顺雨)直接向最高管理层汇报,以应对AI技术信息半衰期极短的挑战[7][8] 阿里巴巴:重用年轻极客,押注开源与社区 - 阿里最年轻的P10员工林俊旸是开源模型“通义千问”的核心推手,其成长伴随GitHub和Hugging Face社区文化[9] - 公司看重其兼具学术、工程和社区文化的能力模型,旨在通过技术影响力置换未来商业版图[9] 字节跳动:路径差异,引入资深整合者 - 与其他公司不同,字节跳动的大模型负责人吴永辉是从谷歌引入的资深人士[10][11] - 公司本身算法驱动,基础设施和算力储备顶级,当前最需要的是将内部散落的AI力量进行“1到100”的系统级整合能力,而非“0到1”的灵感[12] - 吴永辉的角色被定位为负责基业长青的建筑师,进行复杂的跨部门协同与全球视野统筹[13] 年轻一代优势:Transformer原生代与能力模型 - 这批90后被称为“Transformer原生代”,他们在学术思维最活跃的爆发期(2017年左右)接触到了改变AI领域的Transformer架构,没有旧规则引擎和统计学NLP的思维包袱[3][4] - 其能力黄金公式为:顶尖AI实验室(如OpenAI、Google Brain)的研究训练 + 大厂或创业公司的规模化工程实践[6] - 他们从职业生涯早期就站在了Transformer架构和GPT系列演进的前沿,拥有从0到1探索模式的经验,这与大模型时代对前沿直觉、大胆假设和快速试错的需求完美匹配[5][6] - 他们对Scaling Laws(规模定律)抱有信仰,具备对不可预见的智能“涌现”的直觉,这种未被旧商业逻辑驯化的纯粹技术思维极具价值[5][15] 行业逻辑变迁:经验贬值与认知同步至上 - 在大模型领域,过去互联网时代依赖的运营、流量、A/B测试等经验价值下降[2] - 行业竞争逻辑从“关起门来憋大招”转向开源生态和社区话语权的争夺[9] - 知识的更新速度彻底覆盖了经验积累速度,技术的非线性跳跃使得旧经验可能成为枷锁[14][16] - 未来职场竞争力取决于对新技术感应的速度与保持认知同步的能力,而非资历深浅[18]
硅谷“钱太多”毁了AI ?!前OpenAI o1负责人炮轰:别吹谷歌,Q-Star 被炒成肥皂剧,7年高压被“逼疯”!
新浪财经· 2026-01-25 09:24
Jerry Tworek离职OpenAI的核心原因 - 核心人物Jerry Tworek于2026年1月离开OpenAI,其离职在内部引起巨大震动,被描述为“突然”且“重”[2][86] - 离职主要原因是希望从事有风险的基础研究,而OpenAI等大型AI公司已优先考虑用户增长等商业化指标,导致研究与产品开发脱节[2][86] - 在OpenAI的近七年里,公司从约30名员工成长为规模庞大的全球性公司,Jerry Tworek参与了包括Q-Star、Strawberry(后发展为o1推理模型)、GPT-4、ChatGPT以及早期代码模型和Chinchilla缩放规律在内的众多关键项目[13][14][86] 对OpenAI及行业现状的批评 - 指出OpenAI创新不足,原因包括:最佳模型的竞争异常激烈,公司需不断展现实力以留住用户并证明高昂的GPU成本合理性;僵化的组织结构(组织架构图)导致团队各自为政,跨团队研究难以开展[3][17][89] - 批评整个人工智能行业高度同质化,所有主要AI公司都在开发几乎相同的技术,产品几乎没有区别,迫使研究人员追求短期利益而非实验性突破[3][23][89] - 认为谷歌之所以能成功追赶OpenAI,本质上是OpenAI自身的失误,包括犯了一些错误、行动过于缓慢,未能充分利用原本拥有的巨大领先优势[3][55][89] 对行业研究环境与文化的观察 - 指出大模型行业的叙事已变得娱乐化,像“肥皂剧”或“真人秀”,技术进展被包裹在关于离职、跳槽和内部纷争的连续剧式叙事中,研究者像是在聚光灯下跑一场没有终点的马拉松[6][44][48][92] - 行业的高薪在某种程度上使研究者害怕失去工作,更倾向于追求短期、确定性的收益路径,而非鼓励冒险和大胆下注[28] - 认为研究结构、文化和协作方式比依赖某个特定“明星”研究者更重要,频繁跳槽的研究者往往反而不够高产[80][81] 看好的研究方向与未来展望 - 认为Transformer架构并非终点,行业存在“路径依赖”,呼吁进行“架构创新”,探索训练大模型的新方法[36] - 指出“持续学习”(Continual Learning)是将测试时与训练时真正融合的关键能力,是目前模型迈向AGI前最后几个关键要素之一[37] - 强调“推理模型”(如o1)是继GPT-4之后最重要的能力跃升,其核心是在对世界有深刻理解的基础模型上叠加规模化强化学习,未来应沿此方向前进[20][21][33] - 看好利用电子游戏等复杂环境训练AI智能体的方向,认为这是贴合人类智能、教授问题求解的有趣途径[31] 对竞争对手的评价 - 高度评价竞争对手Anthropic,认为其在过去一年展现出罕见的“清晰感”,尽管算力更少、团队更小,但异常专注、执行力极强,特别是在代码模型与代码Agent方向上取得了不是单纯堆规模的显著成果[4][5][61][62][90][91] - 认为Meta的战略可能不是追求模型层面的完全差异化,而是利用已成熟的AI技术(如Transformer)来构建全新的产品体验,这对其业务而言是合理策略[60][61] - 提及像John Carmack、Ilya Sutskever等人正在押注完全不同的、激进的新研究路线,这种探索值得被资助[28][29][30] AGI发展路径与时间线看法 - 个人对AGI时间线有所更新,此前认为规模化强化学习即是AGI,但现在认为还需整合持续学习、多模态感知等关键能力[38][39] - 认为要实现AGI还有很多必要步骤,但进展可能很快,时间线可能在2026至2029年之间,不会更久太多[39] - 强调当研究者看到像Q-Star早期迹象这样的全新技术出现时,感到担忧和谨慎是健康且负责任的反应[41]
非Transformer架构的新突破,液态神经网络的推理小模型只用900M内存
机器之心· 2026-01-21 17:35
行业技术架构现状 - Transformer架构自2017年由谷歌提出后,已基本垄断大模型领域,不采用该架构且能与主流第一梯队模型竞争的大模型凤毛麟角 [1] 液态神经网络与Liquid AI公司 - 液态神经网络是一种受秀丽隐杆线虫神经结构启发的连续时间模型,由多个简单动态系统通过非线性门相互调节组成,具有时间常数可变、通过求解微分方程得到输出的特点,在稳定性、表达能力和时间序列预测方面优于传统模型 [1] - 该架构由MIT CSAIL孵化、成立于2023年3月的初创公司Liquid AI提出,并开发了Liquid Foundation Models大模型 [1] - 液态神经网络的特点是规模小,早在2024年该架构就实现了1.3B参数大小的模型部署 [1] LFM2.5-1.2B-Thinking模型发布 - Liquid AI正式发布并开源了LFM2.5-1.2B-Thinking,这是一款可完全在端侧运行的1.2B参数推理模型 [2] - 该模型专门为简洁推理而训练,在生成最终答案前会先生成内部思考轨迹,旨在端侧低延迟条件下实现系统化问题求解 [3] - 模型在工具使用、数学推理和指令遵循方面表现尤为出色 [3] - 模型在手机上仅需900MB内存即可运行,实现了在口袋设备离线运行两年前需依赖数据中心才能完成的能力 [3] 模型性能表现 - 与自家前代模型LFM2.5-1.2B-Instruct相比,LFM2.5-1.2B-Thinking在多项能力上显著提升:数学推理在MATH-500基准上从63分提升至88分,指令遵循在Multi-IF上从61分提升至69分,工具使用在BFCLv3上从49分提升至57分 [7][9] - 在大多数推理基准测试中,LFM2.5-1.2B-Thinking的表现已与甚至超过参数量多约40%的Qwen3-1.7B模型 [7] - 具体基准测试数据显示,LFM2.5-1.2B-Thinking在GPQA得分为37.86,MMLU-Pro为49.65,IFEval为88.42,IFBench为44.85,Multi-IF为69.33,GSM8K为85.60 [10] - 该模型在质量与测试时计算效率之间取得良好平衡,与Qwen3-1.7B相比,在使用更少输出token的情况下提供了更高的整体性能 [10] - 在推理阶段,LFM2.5-1.2B-Thinking在推理速度和内存效率两方面都优于纯Transformer模型和混合架构模型 [12] - 模型在智能体式任务和高推理强度任务中表现突出,适合需要规划工具调用、验证中间结果并动态调整策略的场景 [14] 训练方法与技术细节 - 构建能力强的小型推理模型的关键在于,在知识容量有限的前提下通过多步推理弥补能力,同时保持答案简洁以满足端侧低延迟需求 [16] - 训练过程中,在中期训练阶段引入推理轨迹有助于模型内化“先推理,再作答”的模式,随后基于合成推理轨迹进行的监督微调让模型能稳定产生思维链 [16] - 为缓解模型可能陷入重复文本模式的“死循环式生成”问题,公司采用了多种策略,将死循环生成的比例从中期训练阶段的15.74%显著降低到RLVR阶段的0.36% [16][17] - 公司的RL训练流水线核心采用无critic、类GRPO方法,整体实现是reference-free的,并包含非对称比例裁剪、对零方差提示组的动态过滤、超长样本掩码等技巧 [18][19] - 在偏好对齐阶段,基于SFT模型生成候选,由LLM评判选择正负样本,一旦出现循环生成则直接将其作为负样本 [18] - 在RLVR阶段,训练早期引入了基于n-gram的重复惩罚以抑制循环生成行为 [18] - 公司采用高度并行的Curriculum RL训练框架,先以指令跟随的RLVR为基础,再分叉出面向推理、数学、工具使用等不同领域的专项checkpoint,最后进行模型合并 [21][22] - 最终发布的checkpoint是一个合并模型,其“家族树”中包含25个不同的子checkpoint [21] - 这种并行结构提供了更精细的控制粒度,允许每个领域的模型独立优化,模型合并被证明能有效吸收专项能力提升并保留整体性能 [22][23] 生态系统与硬件支持 - LFM2.5-1.2B-Thinking实现了开箱即用,兼容llama.cpp、MLX、vLLM和ONNX Runtime等流行推理框架,所有框架均支持CPU和GPU加速 [24] - 模型覆盖Apple、AMD、Qualcomm和Nvidia等多种硬件 [24] - 公司正在快速扩展软硬件生态系统,并欢迎Qualcomm Technologies, Inc.、Ollama、FastFlowLM和Cactus Compute作为新的合作伙伴加入 [24] - 性能数据显示,模型在AMD Ryzen™ AI Max 395+ NPU上使用FastFlowLM框架,预填充速度达1487 tok/s,解码速度60 tok/s,内存占用1,600MB;在Qualcomm Snapdragon® X Elite NPU上使用NexaML框架,预填充速度2591 tok/s,解码速度63 tok/s,内存占用0.9GB [26] 行业意义与展望 - LFM2.5-1.2B-Thinking证明了Transformer并非唯一解,小而强的端侧推理模型或许存在更优解 [27] - 运行推理模型的门槛正在降低,有助于让更多设备激发AI潜能 [28]
谷歌刚掀了模型记忆的桌子,英伟达又革了注意力的命
36氪· 2026-01-20 09:12
文章核心观点 - 英伟达与斯坦福的研究人员提出了一种名为“端到端测试时训练”的新方法,旨在通过让大语言模型在推理过程中持续更新自身参数来学习并内化长上下文信息,从而替代或补充传统的基于注意力机制的KV缓存记忆方式 [1][4] - 该方法将记忆重新定义为一种持续的学习过程,其价值在于改变模型未来的预测,而非完整存储过去,为解决传统注意力机制因二次方成本而面临的可扩展性瓶颈提供了一种潜在的工程解决方案 [34] 技术演进与核心理念 - 测试时训练并非全新概念,其早期形式可追溯至2013年的动态评估,核心思想是在推理时通过下一词预测损失对模型参数进行小步梯度更新,使其适应当前文本的局部特征 [5] - 英伟达的TTT-E2E方法回归了最原初的动态评估理念,其测试时更新的唯一目标函数就是网络末端的下一词预测交叉熵损失,这使得模型的学习与最终任务完全对齐 [10] - 与谷歌Nested Learning等TTT-KVB路线不同,TTT-KVB侧重于教导模型如何构建内部记忆结构,而TTT-E2E则直接优化最终预测目标,实验表明后者能带来更低的语言建模损失 [10][16] 方法创新与工程实现 - 研究团队通过移除Transformer中的所有自注意力层,构建了一个仅含多层感知机的“玩具模型”,证明了仅靠测试时参数更新就能编码长上下文信息,其性能曲线几乎紧贴全注意力模型 [12][15] - 为了解决早期动态评估存在的训练-测试不匹配导致的参数漂移和灾难性遗忘问题,TTT-E2E引入了元学习框架,在训练阶段就模拟推理时的更新过程,让模型学会如何稳定、高效地更新自身参数 [20][21] - 在工程层面,该方法采用了多重安全阀以确保稳定性,包括结合滑动窗口注意力作为短期记忆、冻结大部分网络层、仅更新最后1/4的块,以及在可更新块中引入静态MLP来保护预训练知识 [24][25] 性能表现与优势 - 在语言建模损失方面,将760M参数模型的TTT-KVB方法改为使用下一词预测损失后,在8K上下文长度下的损失从2.818降至2.806,提升了0.012,这表明端到端优化能直接提升预测能力 [16][17] - 在长上下文扩展性上,当上下文长度增加到64K乃至128K时,TTT-E2E的损失曲线保持稳定,未出现优势稀释,而Mamba 2、Gated DeltaNet等其他线性时间模型以及TTT-KVB的损失则开始上升 [27] - 在推理延迟方面,TTT-E2E继承了参数学习方法的优势,其延迟不随上下文长度增长而显著增加,在H100上处理128K上下文的预填充阶段比全注意力模型快约2.7倍 [29] 局限性与适用场景 - TTT-E2E及其所在的线性模型路线在需要精确检索的“海底寻针”类测试中表现不佳,被全注意力模型碾压,这表明其记忆方式更偏向于压缩和概括,而非逐字存档 [31] - 该方法的训练成本较高,其训练延迟比标准Transformer高出50-100%,这在扩展到工业级的数万亿token训练时可能成为一个制约因素 [33] - 该方法更适合写作连贯性、长文理解、风格约束等任务,通过以学习压缩换取长上下文的可扩展性,使模型在超长上下文上既能高效运行,又能提升预测能力 [31][34]
英伟达DLSS 4.5来了:Transformer再进化消除鬼影,“拼好帧”最高提至6倍还能动态调节
量子位· 2026-01-16 15:21
DLSS 4.5技术升级 - 文章核心观点:英伟达在CES 2026期间发布了DLSS 4.5,这是一套旨在同时提升游戏画质与帧率的完整升级方案,通过“双核心”策略为玩家带来显著的游戏体验提升[1][3] - 技术采用“双核心”策略,同时针对画质与性能进行升级,旨在解决玩家最关心的画质与帧率问题[3] - 两项核心技术相结合,可带来高达35%的性能提升,以实现4K 240Hz路径追踪游戏体验[8] 画质核心:第二代Transformer超分辨率 - 画质核心基于第二代Transformer模型的超分辨率技术,负责提升画面细节[4] - 该模型的计算能力达到第一代Transformer的5倍,并在大幅扩展的高保真数据集上完成训练[12] - 模型直接在游戏引擎原生的线性空间中进行训练和推理,以解决前代技术在处理高对比度场景或快速运动物体时出现的光线暗淡、细节丢失或伪影问题[16][17] - 升级效果显著,例如在《上古卷轴IV:湮灭重制版》中,开启后快速移动物体的拖影瑕疵大幅减少[19],在《天国:拯救2》中消除了画面移动时的背景闪烁问题[22] - DLSS 4.5的超分辨率功能面向所有GeForce RTX显卡用户开放,旧版显卡用户可通过NVIDIA App更新获得更稳定清晰的画质[21] 性能核心:动态多帧生成 - 性能核心是专为RTX 50系列打造的动态多帧生成技术[6] - 在数量上,DLSS 4.5带来了全新的6倍多帧生成模式,能为每一个传统渲染帧额外生成多达5帧画面,暴力提升帧率[25] - 例如,该技术能让过去帧率不到190fps的《黑神话:悟空》以240fps的帧率运行[27] - 在机制上,升级为“动态多帧生成”,系统持续监测GPU性能与显示器最高刷新率的差距,并据此按需自动调节插帧倍数,以在保证画质、帧率和响应速度平衡的前提下,自动将帧率拉满至显示器上限[29][30][32][33] 相关显示技术:G-SYNC Pulsar - 英伟达同时发布了G-SYNC Pulsar显示技术,旨在将高速移动画面(如CS2)的动态模糊降到最低[34] - 官方演示中,开启该技术后,360Hz刷新率的显示器可拥有相当于1000Hz的视觉清晰度[35] - 华硕、AOC、微星等厂商的首批支持该技术的显示器已经登场[36]
China just 'months' behind U.S. AI models, Google DeepMind CEO says
CNBC· 2026-01-16 07:30
文章核心观点 - 谷歌DeepMind首席执行官Demis Hassabis评估中国AI模型能力可能仅落后美国及西方“几个月”而非此前认为的差距巨大[3][4] - 中国AI模型在追赶前沿方面表现出色但尚未证明其具备开创性科学突破的能力[6][8] - 中国在AI发展上面临芯片获取限制等挑战但本土企业正努力填补空白[10][11] 中国AI模型发展现状与评估 - 约一年前中国AI实验室深度求索发布的模型因其在较低成本与较落后芯片上实现强劲性能引发市场震动[5] - 除深度求索外中国科技巨头如阿里巴巴以及初创公司月之暗面、智谱AI也已发布能力很强的模型[5] - 英伟达首席执行官黄仁勋去年曾表示美国在AI竞赛中“领先不远”并指出中国在能源领域领先美国在芯片领域领先而中国在基础设施和AI模型方面紧追不舍[8][9] - 阿里巴巴千问团队技术负责人林俊阳在北京AI会议上表示未来三到五年内中国公司超越美国科技巨头的可能性低于20%并称美国计算基础设施规模比中国“大一到两个数量级”[15] 中美AI能力差距与未来展望 - Hassabis认为中国AI模型比一两年前预想的更接近美国及西方水平目前可能仅落后几个月[3][4] - 关键问题在于中国公司能否超越现有前沿进行类似Transformer的创新而不仅仅是追赶Hassabis称尚未看到此类证据[6][8] - Janus Henderson投资组合经理Richard Clode认为随着美国更优越的AI基础设施持续迭代模型未来几年中美AI模型能力可能出现分化并预计当前可能是中国相对美国AI能力的峰值[12] - 部分分析师认为长期缺乏英伟达芯片可能导致中美AI模型差距扩大[11] 中国AI发展的挑战 - 中国科技公司面临多项挑战其中获取关键技术是最大障碍之一美国对英伟达先进半导体实施出口禁令这些芯片是训练更先进AI模型所必需的[10] - 白宫已表示将批准英伟达向中国销售H200芯片该芯片比中国近期能获得的更先进但并非英伟达最高端产品[10] - 华为等本土芯片企业试图填补空白但其性能仍落后于英伟达的产品[11] - Hassabis将中国缺乏前沿突破归因于“思维方式”而非技术限制[15] 创新能力的讨论 - Hassabis将DeepMind比作鼓励“探索性创新”的“现代版贝尔实验室”而非仅仅扩展现有技术[16] - 他认为科学创新部分要困难得多发明某物比复制它“难大约100倍”[17] - 中国已具备进行追赶所需的世界级工程能力但开创性突破是下一个前沿[6][16]
Ambarella (NasdaqGS:AMBA) FY Conference Transcript
2026-01-14 05:47
公司概况与业务转型 * 公司是边缘AI半导体公司Ambarella,其产品广泛应用于视频安防、ADAS、电子后视镜、网联汽车、驾驶员与座舱监控、自动驾驶、边缘基础设施、无人机及其他机器人应用[2] * 公司已成功从一家销售消费类视频处理器的公司转型为销售AI SoC的公司,服务于智能边缘和边缘基础设施应用,涵盖企业资本支出和消费设备市场[5] * 公司约80%的营收来自边缘AI业务[2] 技术架构演进与营收构成 * 公司第一代业务基于视频处理器,用于人类观看(如GoPro运动相机)[6] * 第二代芯片CV2系列专门针对CNN神经网络,于2018年开始出货,目前占公司总营收的80%,标志着公司从人类观看业务转向机器感知业务[7] * 第三代芯片架构(如CV72、CV75、CV3、N1系列)基于Transformer,于去年第三和第四季度开始量产爬坡,旨在捕捉比CNN更大的市场机会[8][9] * 目前,基于CNN的网络贡献了100%的AI营收(即总营收的80%),而基于Transformer的营收尚未大规模起量[10] 市场机会与增长驱动 **CNN与Transformer市场展望** * 基于CNN的业务年营收已超过3亿美元[13] * 基于Transformer的业务有望带来显著的单位增长和平均售价增长,CV2系列平均售价为15-75美元,而第三代芯片(CV3、CV7、N1系列)平均售价为20-400美元[13] * 生成式AI新应用不仅将促使现有客户升级产品周期,还将催生新的应用场景[14] * 预计未来一两年内,基于Transformer的业务将迎来巨大的上升空间和大量的新设计订单[12] **新应用场景示例** * **机器人/自动驾驶**:包括自动驾驶汽车和无人机在内的所有机器人,最终都将使用基于Transformer的端到端网络作为量产软件解决方案[17] * **边缘基础设施/生成式AI**:例如,在快餐店得来速通道,利用现有摄像头和大语言生成式AI模型,不仅能识别车辆、颜色、车牌,还能分析停留时间、点餐习惯、回头客情况,将安防摄像头转变为市场营销数据收集工具[19] * **智能体AI**:与Transformer浪潮并行发展,可充分利用生成式AI能力,使其更易于编程和更强大[21] 产品性能与路线图 * 低端第三代芯片CV75是一款2瓦芯片,可实时运行20亿参数的DeepSeek推理模型,成本约为20美元(正负浮动),这为500M到20-30亿参数模型的应用打开了新机会[24][25] * 高端N1系列芯片可轻松运行340亿参数模型,未来路线图可支持高达700亿甚至1000亿参数的模型[26] * 公司将继续通过架构和最先进制程(如从5纳米转向2纳米)来提升能效,未来有望以1瓦甚至更低的功耗运行十亿参数模型[29] 近期财务表现与展望 * 公司在2026财年开局强劲,预计增长率将从年中的中高十位数百分比(mid-teens% to high-teens%)提升至年末的37%-38%左右[32] * 增长超出预期的驱动因素包括:企业安防摄像头业务持续健康增长;网联汽车(如Samsara类型市场)业务快速增长;便携式视频业务(包括360度相机、可穿戴相机、无人机相机等)全面增长[34][35] * 对于2027财年,公司预计企业安防等市场增长将继续,增长将来自平均售价和出货量两方面,但尚未提供官方指引[36] 战略举措与业务模式拓展 **CES 2024亮点** 1. **新产品发布**:宣布CV7芯片,其AI性能是CV5的2到2.5倍,功耗更低,预计将推动近期营收增长[37] 2. **新市场进入战略**:在现有直销模式基础上,新增通过与GSI/ISV等合作伙伴合作的模式,以触达更多细分市场(如物理AI、机器人、边缘基础设施)的小客户[38] 3. **定制/半定制芯片业务**:利用边缘AI IP和2纳米技术,与大型市场领导者客户开展定制芯片设计合作,客户支付NRE并承诺一定采购量,芯片也可销售给相邻市场[41][42] * 合作条件:客户必须是大型市场的领导者;芯片设计需主要利用Ambarella的IP(理想情况下超过90%)[42] * 产能规划:目前每年可支持约一个此类项目[44] * 财务影响:首个设计订单已纳入当前业务模型,公司整体毛利率(59%-62%)预计将维持[47][48] 各业务板块详情 **物联网业务** * 企业安防摄像头业务持续增长,但占比已降至物联网业务的略低于50%,过去占比更高[52] * 多元化应用蓬勃发展,包括: * **无人机**:与DJI合作已十年,新技术(如结合360度相机和眼镜的沉浸式体验)可能从根本上改变无人机操作方式,带来巨大市场潜力[49] * **可穿戴相机**:应用从警用扩展到零售业(如便利店店员),未来结合AI功能潜力巨大[52] * 边缘基础设施业务:首个设计订单将于今年第二季度投产[54] * 典型应用:通过N1 AI盒子聚合多个边缘端点(如酒店楼层的10个摄像头),在不更换摄像头的情况下,利用生成式AI升级所有摄像头的功能[55] * 应用场景:零售(如星巴克)、酒店、医院、学校等任何已部署安防摄像头的场所[58] * 财务特征:平均售价更高(如N1665H为三位数美元),但毛利率与公司整体水平相似[59][61] **汽车业务** * 2025年整个汽车市场非常疲软,许多西方OEM的L2/L2+设计订单被推迟,主因是需要制定软件战略并应对中国OEM的压力[62] * 公司战略不变,继续专注于几家目标OEM以获取设计订单[63] * 公司在自动驾驶领域过去五六年投入的软件技术,将同样适用于所有机器人应用(如无人机),未来可能采用双芯片方案(视频采集+导航),推动平均售价增长[63][64] * **软件栈更新**:公司已拥有两个可实现端到端AI的大模型,并开放授权(黑盒或源代码),这不仅适用于自动驾驶,也适用于无人机或机器人应用[65][66] * **L2+市场进展**:技术已获客户认可,挑战在于公司规模相对于大型竞争对手较小。公司正努力与更高级别的管理团队接洽,以避免再次在最后时刻被排除,希望今年能改善机会[67]
把RoPE扔掉,AI更能看懂长上下文,Transformer作者团队开源大模型预训练新方法
36氪· 2026-01-13 19:01
核心技术:DroPE - 针对Transformer模型长文本处理难题,由Llion Jones领导的Sakana AI团队开源了新技术DroPE [1] - DroPE被网友称为“NoRoPE”,其核心是一种通过丢弃位置嵌入来扩展上下文的方法 [3] - 该技术无需昂贵的长上下文训练即可实现零样本上下文扩展,且重新校准模型所需预训练预算不到1% [1] 技术原理与优势 - Transformer的自注意力机制会丢失文本序列的位置关系,需引入位置嵌入(如RoPE)来建立语序感知 [4][5] - RoPE在处理长序列时存在缺陷,高频维度易饱和,低频维度变化过慢,导致位置编码失效 [5] - DroPE将RoPE作为临时训练工具,在预训练阶段借助RoPE保证稳定性,在推理阶段丢弃位置嵌入并进行简短重校准,从而解锁模型的长上下文外推能力 [8] 性能表现 - 在LongBench基准测试中,DroPE将基础SmolLM模型(360M/1.7B)的平均得分提高了10倍以上 [10] - 在NIAH任务评估中,DroPE模型的召回率达到74.92%,大幅超越传统RoPE缩放方法 [10] - 对于7B参数的Llama2-7B模型,仅使用0.5%的预训练预算进行重校准,DroPE在长上下文任务中表现卓越 [11] - 具体数据:SmolLM-DroPE在MultiFieldQA、MuSiQue、GovReport、LCC、NIAH任务上的平均得分为30.52,显著高于使用RoPE-NTK(17.11)和YaRN(19.94)的版本 [11] - 在Llama2-7B模型上,DroPE在MultiFieldQA、MuSiQue、GovReport任务上的平均得分为26.08,高于基础模型(20.03)及RoPE-NTK(21.88)、YaRN(19.14)方法 [13] 研发公司背景 - DroPE技术由Sakana AI提出,该公司由Transformer架构核心作者之一Llion Jones和前谷歌高级科学家David Ha创办 [14] - Sakana AI曾获得英伟达的投资,并因推出首个自带10篇完整学术论文的“AI科学家”The AI Scientist而受到关注 [16] - 近期,Sakana AI还与MIT研究团队合作提出了“数字红皇后”算法,利用大语言模型在编程游戏中实现对抗性程序进化,其研究成果可能为网络安全、药物设计等领域提供参考 [18][20]
把RoPE扔掉,AI更能看懂长上下文!Transformer作者团队开源大模型预训练新方法
量子位· 2026-01-13 17:50
技术核心:DroPE方法 - 针对Transformer模型处理长文本的难题,由核心作者Llion Jones领导的团队开源了名为DroPE的新技术[1] - 该方法无需昂贵的长上下文训练,即可实现无缝的零样本上下文扩展[2] - 使用DroPE对模型进行重新校准所需的预训练预算不到1%[2] - DroPE可被理解为一种通过丢弃位置嵌入来扩展上下文的方法,被网友称为“NoRoPE”[4][5] 技术原理:位置嵌入与创新 - Transformer的自注意力机制在并行计算时会丢失文本序列的位置关系[6][7] - 为解决此问题引入了位置嵌入,其中RoPE是当前流行的方法,但它存在长序列处理缺陷[9][10] - DroPE的创新在于将RoPE作为临时训练工具:在预训练阶段借助RoPE保证稳定性,在推理阶段则丢弃位置嵌入并进行简短重校准[12][13][14] - 该方法成功解锁了模型的长上下文外推能力,实现了零样本扩展[15][16] 实验验证与性能表现 - 研究团队在多种模型上进行了实验,包括5M参数模型、SmolLM家族模型以及7B参数的Llama2-7B[17] - 在LongBench基准测试中,DroPE将基础SmolLM的平均得分提高了10倍以上[18] - 在NIAH任务评估中,DroPE模型的召回率达到74.92%,大幅超越传统RoPE缩放方法[19] - 具体数据:SmolLM-DroPE在MultiFieldQA、MuSiQue、GovReport、LCC、NIAH任务上的得分分别为29.33、7.93、21.87、18.56、74.92,平均分为30.52,显著高于其他方法[19] - 在Llama2-7B模型上,仅使用0.5%的预训练预算进行重校准后,DroPE在多项任务中表现卓越,平均得分达26.08,优于Base、RoPE-NTK和YaRN方法[23] 研发团队:Sakana AI - DroPE技术由Sakana AI团队提出,该公司由Transformer架构作者之一的Llion Jones和前谷歌高级科学家David Ha创办[24] - 该公司此前因创造出首个自带10篇完整学术论文的“AI科学家”而受到关注,并获得英伟达的投资[26] - 团队近期还与MIT合作提出了“数字红皇后”算法,利用大语言模型在编程游戏中实现对抗性程序进化,显示出在网络安全、药物设计等领域的潜在应用价值[28][31][32]
杨植麟揭秘Kimi预训练策略:提升Token efficiency,实现长文本
新浪财经· 2026-01-10 20:09
公司技术战略 - 月之暗面Kimi的预训练与模型设计核心围绕两大策略展开:提升Token Efficiency(令牌效率)和实现长上下文(Long context)[2][6] - 公司认为Transformer架构在长上下文场景中具有优势 实验表明当上下文长度增加到1000个token时 Transformer的性能表现会显著优于LSTM[2][6] - 在当前的Agentic(代理智能)时代 许多任务要求极长的上下文 因此一个拥有更低positional loss(位置损失)的架构 在执行Agent任务时具备更强的技术潜力[2][6] 技术原理与价值 - 关注Token efficiency的本质原因在于Agent的推理或训练是一个搜索过程 例如从零开发Linux就是一个搜索问题[3][7] - 更好的预训练和基础模型可以减少无意义或错误的Token组合搜索空间 从而为AI任务提供更好的先验[3][7] - 智能具有独特性 每个模型产生的Token并非可交换物 例如CEO与设计师产生的智能是不同的 因此在智能维度存在指数级增长的Taste(品位/审美)空间[4][8] 行业研发理念 - 除了架构与数据 AI模型研究非常重要的一点是具备Taste(品位和审美) 建模过程本质是在创造一种世界观 定义何为好的AI及其应追求的价值观[3][7] - 这一理念与乔布斯所强调的Taste相似 强调了在技术之外 对产品与智能本质的哲学思考与审美判断的重要性[3][7]