量子位
搜索文档
LeCun创业0产品估值247亿,回应谢赛宁入伙
量子位· 2026-01-23 15:44
公司概况与战略定位 - 杨立昆(Yann LeCun)离开Meta后创立新公司Advanced Machine Intelligence(AMI),法语意为“朋友”[9] - 公司总部位于巴黎,并计划在纽约、蒙特利尔、新加坡等地设立运营机构[10] - 公司坚定选择开源路线,与当前硅谷的闭源趋势相反,认为开源是构建人工智能平台的正确道路[11][13] - 公司前期将专注于研发,核心方向是“世界模型”,而非当前主流的大语言模型(LLM)[17][19] - 公司的终极目标是成为未来智能系统的主要供应商之一,不仅做研究,还会推出围绕世界模型和规划能力的实际产品[38] 技术理念与路径 - 公司认为构建智能系统的正确方式是“世界模型”,而非LLM[19] - LLM虽然有用,但仅通过处理语言无法实现人类水平的智能,因其受限于文本的离散世界,缺乏对物理世界的系统认知,无法进行真正的推理或规划[20][22][23] - 世界模型的核心在于理解世界背后的认知逻辑和抽象表征,而非生成精美的像素(如李飞飞的Marble公司所追求的像素生成路线)[30][31][32] - 公司技术基础是杨立昆此前提出的联合嵌入预测架构(JEPA),该架构不是生成式AI,无法预测未来所有细节,但能从世界的抽象表示中学习,并在抽象空间进行预测[34][36] - JEPA将使用文本、视频、音频和传感器等多种数据,通过学习世界的底层规则来实现真正的现实世界推理和规划[37] 融资与估值情况 - 公司(AMI Labs)正以30亿欧元(约合人民币247亿元)的目标估值寻求融资[45] - 预计将在未来几周内完成3.5亿欧元的初期融资,最终目标是首轮融资5亿欧元[46] - 一旦融资完成,公司将步入“商业成果0,但估值超10亿美元”的初创公司行列[50] - 当前风险投资(VC)圈的投资逻辑发生变化,从看产品或技术路径转向看重创始人背景,例如Ilya Sutskever和Mira Murati离开OpenAI后创办的零产品初创公司均获得了约20亿美元的估值[52][53] 人才招募与团队建设 - 公司正在积极招兵买马,已从Meta挖走前副总裁Laurent Solly[40] - 有消息称,公司有意邀请研究员谢赛宁加入并担任首席科学家一职[7][42] - 杨立昆在访谈中高度认可谢赛宁,称其为杰出的研究者,并曾两次成功聘请他(之前在FAIR和纽约大学)[43] 与Meta的关系 - 杨立昆对Meta的某些决策表示不满,例如解散机器人团队被认为是战略性错误,并认为Meta擅长研究但不擅长将技术转化为产品[15] - 尽管理念存在分歧,但Meta可能成为新公司的第一个客户,双方有望达成合作,Meta将有权访问其创新成果[5][47][48] - Meta将不会成为公司的投资者之一[47]
vLLM团队创业,种子轮10.5亿!清华特奖游凯超加盟
量子位· 2026-01-23 13:03
公司成立与融资 - 开源推理框架vLLM核心团队宣布创业,成立新公司Inferact [1] - 公司种子轮融资1.5亿美元(约10.5亿人民币),估值达8亿美元(约56亿人民币)[1] - 此轮融资创下近期AI基础设施领域融资新高,也是有史以来规模最大的种子轮融资之一 [2] - 融资由Andreessen Horowitz(a16z)与Lightspeed Venture Partners共同领投,红杉资本、Altimeter Capital、Redpoint Ventures及真格基金等跟投 [7] 市场背景与机遇 - 随着AI应用落地,行业焦点正从模型训练转向推理 [4] - 市场对于低成本、高可靠运行现有模型的需求,已超过对新模型研发的期待 [9] - 当应用程序需频繁与大模型交互时,算力成本和系统负载呈指数级上升,推理环节成为制约行业发展的最大瓶颈 [8] - 在推理规模化阶段,即使是微小的效率提升也能带来显著的成本节省 [6] 公司定位与产品策略 - Inferact旨在解决“推理瓶颈”,构建下一代商业引擎以应对大规模部署挑战 [5] - 公司采取双线并行策略:继续支持vLLM作为独立开源项目发展,同时开发独立的商业产品 [12][13] - 商业产品计划专注于硬件适配效率,帮助企业在不同类型硬件上运行AI模型 [14] - 公司设计独特反哺机制,利用商业资源滋养vLLM开源项目,确保其作为行业基石继续发展 [24] 技术基础与验证 - vLLM是公司的技术基石,已成为大模型领域的事实标准,几乎所有主流开源大模型在发布与部署时都将其作为首选支持的推理框架 [15] - vLLM已进入工业界实际生产环境,亚马逊已将其直接应用于自身核心购物应用的内部系统 [10] - 在万亿级商业场景、真实高并发流量下的部署,验证了技术的稳定性与大规模商业落地的确定性 [11] - vLLM的核心技术创新包括Paged Attention算法,解决了KV Cache显存碎片化问题,提升了吞吐量性能 [31] 团队背景 - CEO Simon Mo,加州大学伯克利分校EECS系背景,主攻机器学习系统设计,曾任Anyscale早期工程师,是vLLM项目的原始维护者之一 [25][26][27][28] - 联合创始人Woosuk Kwon,加州大学伯克利分校计算机科学博士,师从Ion Stoica教授,研究重点为大语言模型高效服务系统,是vLLM项目发起人及Paged Attention算法提出者 [30][31] - 核心技术力量包括清华特奖得主游凯超,曾在伯克利EECS系担任访问学者,主攻分布式深度学习系统,主导了vLLM基于张量并行的分布式推理功能实现 [33][34] - 核心团队与顾问团还包括前Roblox高级机器学习工程师Roger Wang,以及伯克利教授Joseph Gonzalez、Databricks联合创始人Ion Stoica教授等学术界与工业界资深力量 [35][36] 发展历程与行业洞察 - vLLM最初仅是创始团队在伯克利求学期间的Side Project,驱动源于“开源代码必须是全球AI基础设施的地基”的技术信仰 [17] - 项目在没有商业推广的情况下,迅速成为开发者社区的宠儿 [18] - 随着项目从实验室走向工业界,团队角色发生质变,通过与全球顶尖开发者协作,积累了独有的技术洞察并确立了行业权威 [20][21] - 团队发现,当推理任务从Demo演示变为数千张GPU集群的生产级部署时,挑战量级呈指数级上升,现有开源方案在深度底层优化、大规模集群线性扩展及复杂GPU部署流程上力不从心 [21][22] - 企业需求已从零散代码库转变为能稳定承载万亿次调用的工业级引擎,这需要引入严密的商业组织形式来构建下一代引擎 [23][24]
告别「上帝视角」,机器人仅凭几张图精准锁定3D目标,新基准SOTA
量子位· 2026-01-23 13:03
文章核心观点 - 研究团队针对具身智能体在真实稀疏视角下难以进行3D指代分割的难题,提出了全新的多视图3D指代表达分割任务及MVGGT模型,通过几何与语言双分支架构及创新的PVSO优化策略,实现了在仅有稀疏多视角RGB图像输入下的高效3D场景理解与精确目标分割 [4][10][30] 现有技术瓶颈与任务定义 - 现有三维指代表达分割方法基于理想化假设,依赖密集、完整且可靠的点云输入,与真实世界智能体仅能通过少量随机RGB图片感知的稀疏、不一致情况不符 [8][9] - 研究团队定义了更贴近实际应用的新任务——多视图3D指代分割,要求模型在没有稠密点云输入的情况下,直接利用稀疏的多视角RGB视图和文本指令,联合重建场景并分割被指代对象 [10] MVGGT模型架构 - MVGGT采用端到端的双分支架构,包括一个参数冻结的几何重建分支和一个可训练的多模态分支 [11][13] - 几何重建分支以预训练的几何模型为基础,提供稳定的三维几何先验信息,无需从稀疏图像中重新学习3D几何 [13][14] - 多模态分支接收几何特征,并利用交叉注意力机制将语言指令注入视觉特征,用文本语义信息辅助不完整画面的视觉判断与空间推断 [15][17] 核心优化策略PVSO - 稀疏多视图学习面临前景梯度稀释的核心优化障碍,即目标实例由极少数分散点表示,前景梯度信号微弱易被背景淹没,使模型难以收敛 [18][19][20] - 研究团队引入了逐视图无目标抑制优化方法,通过将3D预测投影回2D图像空间来放大目标区域的梯度信号,并加权抑制大量无目标视图产生的误导性梯度,防止训练偏差 [22] 实验结果与基准 - 研究团队构建了首个为多视图三维指代表达分割定义的基准测试集MVRefer,该基准基于ScanRefer和ScanNet数据集构建,模拟在场景中随机采集8个稀疏视角的情况 [23][24] - 实验结果显示,MVGGT在各项指标上均显著优于现有基线方法,在目标像素占比极低的困难模式下,MVGGT依然保持了较高的分割精度,展现了极强的鲁棒性 [25] - 具体数据表明,在困难模式下,MVGGT的全局视图精度达到24.4%,远高于Two-stage方法的8.1%和2D-Lift方法的6.4% [26] - 可视化结果证明,在深度噪声严重或遮挡复杂的场景中,MVGGT能借助多模态语义精准区分几何特征相似的目标,并利用上下文信息实现精准定位 [27]
腾讯重仓的GPU公司要上市了!燧原科技IPO获受理,拟募资60亿,All in研发
量子位· 2026-01-23 13:03
IPO受理与募资计划 - 2026年A股首单IPO新受理,上海燧原科技股份有限公司科创板IPO于2026年1月22日获受理 [1][2] - 公司计划募集资金60亿元,资金将高度集中于研发相关项目 [1][5] - 募资具体投向三个项目:第五代AI芯片系列产品研发及产业化项目(15.03亿元)、第六代AI芯片系列产品研发及产业化项目(11.96亿元)、先进人工智能软硬件协同创新项目(33亿元) [6][7] 公司业务与产品 - 公司成立于2018年3月,聚焦云端AI芯片,核心业务覆盖芯片及硬件、软件及编程平台、算力集群解决方案三层 [22][23] - 已完成四代架构、五款云端AI芯片的自研迭代,产品体系包括AI芯片(燧思系列)、AI加速卡及模组(云端系列)、智算系统及集群以及AI计算与编程软件平台 [23] - 硬件层面自研了GCU-CARE加速计算单元与GCU-LARE片间高速互连技术,软件层面自研了全栈AI计算与编程平台“驭算TopsRider” [24][25] - 公司定位专注云端AI训练与推理,重点聚焦AI推理市场,与“国产GPU四小龙”中其他公司的定位各有侧重 [37][38] 财务表现与客户 - 营业收入快速增长:2022年主营业务收入约0.9亿元,2024年超7.2亿元,两年复合增长率达183.15% [8] - 2025年1-9月营业收入已超5.4亿元,其中AI加速卡及模组收入已超过2024年全年水平 [7][11] - 收入结构显著变化:自2023年起,AI加速卡及模组、智算系统及集群成为主要收入来源,2023年度占比超过50% [10] - 客户集中度高:腾讯科技为2025年1-9月最大客户,相关销售收入占当期营收的57.28% [12] - 公司仍处投入期,持续亏损但幅度收窄:2022年净亏损约11.2亿元,2023年约16.6亿元,2024年约15.1亿元,2025年1-9月约8.87亿元 [14][15][16][28] - 研发投入巨大,2022年至2025年1-9月研发投入占营业收入比例分别为1096.12%、408.01%、181.66%、164.77% [14] - 公司最早有望在2026年达到盈亏平衡点 [17] 股权结构与市场地位 - 在最近一轮融资中估值接近200亿元 [2] - 腾讯科技及其一致行动人苏州湃益合计持股20.258%,为第一大股东 [2] - 根据IDC数据,2024年中国AI加速卡整体出货量超过270万张,英伟达出货约190万张,市占率约70% [32] - 同期,燧原科技AI加速卡及模组销量约3.88万张,对应约1.4%的国内市场份额,在国产AI芯片厂商中位居前列 [33] - 若发行成功,燧原科技将成为A股第三家GPU公司 [21] 行业背景与竞争格局 - 国内云端AI芯片仍处于发展初期,英伟达在中国市场占据主导,但本土厂商正逐步突破技术与规模门槛 [29][30] - 中国云端AI芯片厂商技术路线分为两类:以华为海思、寒武纪和燧原科技为代表的非GPGPU架构厂商;以摩尔线程、沐曦股份、天数智芯和壁仞科技为代表的GPGPU架构厂商 [31] - 燧原科技与摩尔线程、沐曦股份、壁仞科技常被并称为“国产GPU四小龙” [34] - 行业近期资本动作密集:摩尔线程(2025年12月5日)、沐曦股份(2025年12月17日)已登陆科创板,壁仞科技(2026年1月2日)已登陆港交所 [35] - 百度昆仑芯、阿里平头哥等大厂系国产芯片也不断传出推进IPO的消息 [39] - 国产GPU上市潮是技术演进、政策环境与市场需求叠加共振的结果,行业正从早期探索走向更规范、可持续的发展阶段 [40][41]
量子位编辑作者招聘
量子位· 2026-01-22 19:13
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品及硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态及体验方法论,并有强逻辑与结构化表达能力[11] 员工福利与发展机会 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 通过撰写独家原创内容,可建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] 岗位层级能力要求 - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI新进展[6] 应聘方式 - 应聘需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 需随简历附上科技行业代表作品或能展现个人写作水平和风格的作品[11]
成立两年半登顶全球AI创作社区,背后是中国团队在“卖情绪”??
量子位· 2026-01-22 19:13
平台概况与市场地位 - 平台名为SeaArt,是一个具备全链路多模态AI创作能力的平台,包括图片、视频、音频、数字人生成[3] - 平台全球访问量已超过Midjourney、Leonardo、Civitai,注册用户超过5000万,月访问量超过3000万[1] - 平台年度经常性收入超过5000万美金,用户单日能生成2000万张图和50万个视频[1] - 平台并非单一工具,被定位为“AI时代的全民级创作消费平台”[6] - 平台已构建去中心化的PUGC生态,官方称之为去中心化的“品味市场”[53] - 平台已积累全球规模最大的AI原生创作资产库之一,涵盖超过200万个AI创作SKU[55] 核心产品SeaVerse(SeaArt 2.0)功能 - SeaVerse是全新推出的全模态创作消费平台,相当于SeaArt 2.0,旨在帮助创作者打造AI时代的个人IP[8] - 平台依托多模态AI与Agent专家协作系统,通过“一句提示词生成宇宙”的极简交互,整合观看、游玩、创作、变现等场景[12] - 用户只需输入自然语言指令,即可生成图片、视频、音乐、小游戏或交互式应用[14] - 系统内置二十多个专项工具,如图像美化、一键抠图、动画细化,并可自动匹配调用底层模型与工具组件[16][17] - 在视频生成上,平台能拆解分镜、分段生成素材,再拼接整合,突破单次仅生成十几秒的局限,可生成一分钟带专属配乐的完整视频[28][30] - 生成的角色一致性保持相对稳定,且支持用自然语言在原有基础上修改,无需重新生成[23][31] - 可生成完整动画短片及音乐,例如根据描述生成复古童话风动画,或生成“马年新春祝福歌”完成作词、编曲与生成[27][32] - 所有生成素材保存在资源库,方便随时取用,生成的应用可在平台内一键发布分享[24][33] 技术架构与战略定位 - 团队明确不自研基础大模型,专注于应用层、内容层和体验层设计,定位为“应用层的调度者”[38][39] - 核心能力建立在模板体系、工作流引擎与算力调度系统之上,通过模板化、工作流与Agent架构降低用户创作门槛[40][44] - SeaVerse引入了多Agent协同工作流,配备面向影视、游戏等不同领域的制作Agency,将行业知识转化为可调用的AI工作流[41][43] - 调度系统将开源与闭源模型统一视为底层能力单元,按需调用、组合与编排[44] - 团队早期游戏行业经历积累了强大的算力资源调度和工程能力,使算力成本实现规模效应[50] - 护城河在于算力运营、用户洞察与生态构建的综合维度,而非单一技术[50] 团队背景与发展路径 - 背后团队为国内AI初创公司海艺互娱,成立于2023年[44] - 联合创始人马飞(CEO)与陈立(董事长)均拥有十余年游戏行业经验,曾参与《银河帝国》、《斯巴达战争》、《黑道风云》等爆款手游研发[45] - 2019年两人联合创立游戏公司星合互娱,旗下SLG游戏《The Ants-小小蚁国》海外连续两年流水超10亿元[45] - 团队利用AI为游戏业务提效后,决定跨足AI领域创立海艺互娱[46] - 出海游戏经验赋予平台全球化基因,率先进入巴西等市场,后布局日本、欧洲、美国等高付费市场[48] - 将构建SLG游戏复杂生态的能力,用于维系高粘性创作者社区的运营[50] 增长数据与生态运营 - 过去两年,海艺互娱的用户规模与收入每年均增长4-5倍[51] - 2024年,平台用户规模同比增长7.7倍,收入同比增长5.5倍[51] - 2025年通过发力多模态与视频创作,平台流量与收入持续加速增长[52] - 平台推出创作者激励机制,头部创作者已能实现每月3000-4000美元收益[54] - 平台上有大量用户持续使用Stable Diffusion 1.5等旧版本模型,消费核心是创作风格而非模型版本[54] - SeaVerse的上线进一步打通了“创作→发布→互动→二创→变现→再创作”的闭环机制[55] - 发展路径清晰:从工具切入,沉淀内容生态,进阶为多模态创作社区,最终锚定AI互动娱乐平台[56]
最强大模型的视觉能力不如6岁小孩
量子位· 2026-01-22 19:13
文章核心观点 - 当前顶尖多模态大模型在视觉推理能力上表现不佳,整体水平仅相当于或低于三岁儿童,与成年人水平(94.1)差距巨大[1][2][4] - 模型表现不佳的根本原因在于其主流架构依赖将视觉信息转化为语言进行推理,导致大量无法被语言精确描述的细粒度视觉信息丢失[11][20][21] - 未来的多模态智能发展需要从底层重建视觉能力,探索绕过“语言瓶颈”的新架构,例如基于生成模型的视觉推理[11][68][71] 模型在BabyVision基准上的表现 - 在BabyVision视觉推理基准测试中,表现最佳的闭源模型是Gemini 3 Pro Preview,得分仅为49.7%[14] - 其他前沿闭源模型得分更低:GPT-5.2为34.4%,豆包-Seed-1.8为30.2%,Qwen3-VL-Plus为19.2%,Grok-4为16.2%,Claude-4.5-Opus为14.2%[14][15] - 表现最好的开源模型是Qwen3VL-235B-Thinking,总分为22.2%,但仍远低于顶尖闭源系统[16][18] - 所有模型的表现与六岁儿童相比仍有约20%的差距,与成年人94.1的水平更是天壤之别[2][4] 当前多模态大模型面临的视觉核心挑战 - **非言语性精细细节的缺失**:模型将视觉输入转化为粗略的语言描述,导致如精确几何形状、边界曲率、像素级差异等无法被语言描述的细节丢失,在“找拼图”等任务中出错[25][26][29][30] - **流形一致性的丢失**:模型难以在长距离空间中维持感知一致性,例如在“连线任务”中,将连续曲线拆解为指令序列后,在交叉点容易走错路径[31][34][35][36] - **空间想象力的不足**:模型难以从二维图像构建稳定的三维内部表征并进行心理变换,在从特定视角想象物体形状的任务中,因空间信息在文本摘要中被压缩而犯错[39][43][44][45] - **视觉模式归纳的困难**:模型难以从少量视觉示例中总结通用变化规则,通常采用数属性的文本匹配方式,而非理解视觉关系的变化逻辑,在“找规律”任务中出错[47][48][50][51][52] 改善视觉推理的潜在技术方向 - **基于可验证奖励的强化学习(RLVR)**:在Qwen3-VL-8B-Thinking模型上进行RLVR微调后,整体准确率从13.1%提升至17.9%,提高了4.8个百分点,在细粒度辨别、空间感知和视觉模式识别等子类任务上均有提升[55][56][57] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen基准评估生成模型,NanoBanana-Pro表现最优,整体准确率达18.3%,GPT-Image-1.5和Qwen-Image-Edit分别为9.8%和4.8%[60][61] - 生成模型如NanoBanana-Pro、Sora-2展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,但单纯的生成能力仍需稳健的视觉语义理解引导[62][66] - 统一架构(如Bagel)允许模型在推理过程中保留高保真视觉表征,在视觉空间内进行“显式思考”,支持“生成本身即是推理的一种高级形式”的观点[68][69][70][71]
大模型Infra新突破!腾讯混元开源LLM推理算子库,推理吞吐提升30%
量子位· 2026-01-22 19:13
文章核心观点 - 在大模型竞赛中,计算效率是关键瓶颈,单纯堆叠算力(显卡)已不足够,提升效率成为新的竞争焦点 [1] - 针对当前主流算子库在H20等推理卡上性能不佳、开发门槛高等痛点,腾讯混元AI Infra团队开源了生产级高性能LLM推理核心算子库HPC-Ops [2][4] - HPC-Ops通过底层架构优化,显著提升了核心算子性能,并在真实场景中验证了其能大幅提升模型推理效率 [5][6][47] 行业背景与痛点 - 大模型时代,计算效率是AI应用及发展的关键瓶颈 [7] - 现有主流算子库(如FlashInfer、DeepGEMM)主要针对NVIDIA H800等高配训练卡优化,与国内主流线上推理服务采用的H20等推理卡不匹配,难以发挥硬件峰值性能 [7][8][13] - 业务侧对极致吞吐、低延迟及复杂量化策略(如Blockwise FP8)的需求日益迫切,亟需更适配的底层支持 [9] - 现有主流算子库存在两大痛点:1) 设计复杂,修改适配成本高,阻碍了量化算法等加速研究的创新落地 [11][12];2) 目标硬件不匹配,导致在国内主流推理卡上无法发挥全部性能 [13][14] HPC-Ops解决方案概述 - 腾讯混元使用CUDA和CuTe从零构建了一套轻量、高效的LLM核心算子库HPC-Ops [4][15] - 该库包含FusedMoE、Attention、通信、Norm、Sampler及各类融合算子等核心模块 [16] - 其设计目标是通过抽象化工程架构、微架构深度适配及指令级极致优化,降低开发门槛并将核心算子性能逼近硬件峰值 [4] 核心技术细节 - **任务特性与硬件能力对齐**:针对访存瓶颈算子,通过调整指令发射顺序进行数据预取优化,确保高数据传输利用率;针对不同问题规格做细致指令对齐,去除冗余指令,使访存带宽可达硬件峰值能力的80%以上 [19][20] - **精细的任务调度和数据重排**:重新思考任务数据划分调度策略,保证任务均衡与cache连续性;采用persistent kernel隐藏开销;通过数据重排减少额外操作和显存占用,如在FP8 Attention Kernel中采用Interleave重排技术提升性能 [22][23][24] - **聚焦计算逻辑本身**:基于CuTe扩展开发vec抽象层统一负责高效数据搬运,利用Layout代数抽象隔离复杂的Tiling与计算逻辑,让开发者能聚焦于算法本身,降低维护门槛 [26] 性能提升数据 - **端到端推理性能**:在真实场景下,基于HPC-Ops,混元模型推理QPM(每秒查询数)提升30%,DeepSeek模型QPM提升17% [5][27] - **单算子性能对比**: - Attention算子相比FlashInfer/FlashAttention最高提升2.22倍 [6][44] - GroupGEMM算子相比DeepGEMM最高提升1.88倍 [6][31] - FusedMoE算子相比TensorRT-LLM最高提升1.49倍 [6][36] - **具体场景性能**: - **GroupGEMM**:在Batch<=64的低延迟场景下优势显著,较DeepGEMM最佳表现最高提升1.88倍 [31] - **FusedMoE**:在TP(张量并行)场景下相比TensorRT-LLM最大性能提升达1.49倍;在EP(专家并行)模拟均衡场景下最大提升1.09倍 [36] - **Attention**: - Prefill场景(输入长度128~64K):batch较小时,BF16精度下相比SOTA实现提升1.3倍;大batch时与SOTA对齐 [42][43] - Decode场景:BF16精度下提升1.35倍~2.22倍;FP8精度下,当Sequence Length较大时相比SOTA提升1.09倍~2.0倍 [44] 当前能力与集成 - HPC-Ops已在腾讯大规模生产环境中完成验证 [47] - 提供简洁易用的API,可无缝对接vLLM、SGLang等主流推理框架 [48] - 原生支持BF16、FP8等多精度量化方案 [48] - 以CuTe、CUTLASS为基础,提供数百行代码即可构建SOTA算子的实践范例,降低高性能CUDA内核开发门槛 [49] 未来发展方向 - 重点研发稀疏Attention算子,以解决长上下文大模型的内存与算力瓶颈 [51] - 拓展更丰富的量化策略,覆盖4bit/8bit混合精度等更多量化方案,进一步平衡推理速度与模型精度 [51] - 布局计算-通信协同优化的内核,通过融合多GPU间的计算与通信流程,大幅降低分布式推理场景下的通信开销,支撑超大规模模型高效部署 [51] 开源与社区 - HPC-Ops已在GitHub开放源码供开发者下载使用 [52] - 腾讯混元Infra团队欢迎行业技术实践者提交高价值PR,参与算子边缘场景优化、教程案例打磨等贡献,共同推动技术发展 [52]
大学开始用AI招生了
量子位· 2026-01-22 15:37
AI在招聘与招生领域的应用趋势 - AI技术已从企业招聘筛选简历和视频面试,延伸至高校招生审核入学申请材料[1][4][5][6] - 美国弗吉尼亚理工大学采用AI审核学生申请材料,节省了约8000小时人工工作量,并使录取结果发布时间提前一个月[2][16][17] 高校采用AI招生的驱动因素 - 美国许多高校将SAT/ACT考试改为可选项目,导致申请门槛降低,申请人数爆发式增长[8] - 以弗吉尼亚理工大学2025年秋季招生为例,计划招收约7085名新生,但收到了超过5.7万份申请,每份申请包含四篇短文,总计产生超过20万份待审阅文书[10][11][12] - 传统人工审核流程中,每篇短文需由至少两位人类阅卷员审阅,差异大时还需第三位审核,工作量巨大[13] AI在招生中的具体运作模式 - 弗吉尼亚理工大学采用“AI+人工协同”模式,每位申请人的每篇文章由一名人类和AI分别评分,评分不一致时再由另一位审核员打分[14][15] - 该模式显著提升了审核效率[16] 对AI招生公平性与多元化的质疑 - 有观点认为AI模型基于历史数据训练,可能带有喜好偏见,倾向于偏好特定背景或措辞风格的学生,从而可能扼杀大学的多元化[20][21][23] - 麻省理工学院一位经济学教授指出,高校过度依赖同一种AI模型进行排名或决策非常危险[19] - 纽约大学教授Meredith Broussard表示,很少有家长会对用AI决定孩子人生重要事情感到兴奋[25] AI应用引发的博弈与应对 - 在招聘领域,求职者已开始使用AI面试模拟器生成符合算法审美的“标准答案”来应对AI面试[27][28] - 在高校招生环节,学生也可能使用AI辅助撰写或优化申请材料,导致出现“AI选AI”的情况[29][31] - 部分高校如布朗大学已采取措施限制,仅允许用AI辅助检查拼写和语法错误,要求申请材料简答题必须原创[32]
2025最强AI产品一文看尽丨量子位智库年度AI 100
量子位· 2026-01-22 15:37
2025年中国AI产品市场格局与趋势 - 2025年国内AI市场以智谱和MiniMax两家大模型公司启动上市进程收尾,标志着市场发展进入新阶段 [3] - 2025年被视作“AI应用元年”,行业经历了从“功能叠加”到“系统重构”的质变,竞争焦点从模型能力转向用AI重新定义场景 [5][6] - AI产品的用户高度集中于头部应用,Web端TOP5产品的月活跃用户(MAU)在所有AI产品中占比超过62%,APP端TOP5产品的日活跃用户(DAU)占比超过65% [12] 旗舰AI 100榜单核心发现 - 旗舰AI 100榜单评选出2025年综合能力最强的100款AI产品,这些产品在技术突破和实际应用场景中均展现出巨大价值 [8] - 头部产品如QQ浏览器、夸克、DeepSeek、豆包等在Web端和APP端用户数据大幅领先,已成长为国民级应用 [11] - 百度文心助手、WPS、腾讯元宝等产品在Web端或APP端稳定在TOP5的第一梯队 [11] - 从赛道分布看,AI通用助手和AI工作台是最热门方向,用户规模显著领先 [12] - AI编程与开发平台、AI创作平台、AI消费级硬件、AI搜索、AI教育、AI文档等赛道也有至少5款产品凭借卓越数据表现进入该榜单 [12] 创新AI 100榜单核心发现 - 创新AI 100榜单旨在挖掘2025年崭露头角、2026年具备爆发潜力的创新产品,代表了AI技术的前沿方向 [13] - 榜单中除了AI工作台、AI编程与开发平台等成熟赛道,还涌现出AI消费级硬件、AI剪辑、AI漫剧、AI图表、AI输入法、AI平面设计、AI音乐、AI知识管理等细分赛道产品 [16] - 这些在垂直赛道耕耘的创业产品,其通过用户与数据沉淀打造壁垒的成败,将在2026年得到进一步验证 [18] 十大热门细分赛道代表产品 - 为精准反映细分领域发展,榜单对10个热度最高的赛道进行专项提名,每个赛道评选出TOP3产品 [19] - 这十大赛道依次为:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI健康、AI娱乐、Vibe Coding和AI消费级硬件 [19] - 这些赛道在2025年聚集了最大规模的用户,其中的代表性产品凭借创新功能、工程化设计、强大AI能力及丰富生态而崭露头角 [22][23] AI 100榜单评估体系与方法论 - AI 100榜单是量子位智库推出的AI产品风向标系列,旨在提供AI技术驱动下产品创新与变革的第三方参考 [25] - 榜单目前主要由代表当前领军阵营的“旗舰AI 100”和代表未来种子选手的“创新AI 100”构成,按季度发布 [25] - 评估采用定量与定性相结合的双重体系 [26] - 定量层面以真实用户数据为基础,涵盖用户规模、增长、活跃、粘性四大维度,包含超过20个具体指标;硬件产品则考察出货量 [26] - 定性层面聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力等多重因素;硬件产品考察功能设计和实际体验 [26]