Workflow
量子位
icon
搜索文档
内存条涨速超金条!100根可换上海一套房,你的手机电脑汽车都逃不过涨价
量子位· 2026-01-23 18:25
文章核心观点 - AI服务器需求激增引发存储芯片严重供应短缺,导致DDR5等通用内存价格飙涨,并可能引发一个持续数年的超级涨价周期,对下游PC、手机、汽车等行业造成广泛成本压力 [1][4][6][15][19] 存储价格暴涨现状与市场反应 - 2025年12月,单条256G DDR5服务器内存售价超4万元,一盒(100根)总价达400万-500万元,其价值已相当于上海一套80㎡房产(总价约468万元)[1] - 自2025年下半年起,DDR5内存价格飙涨超过300%,DDR4价格也上涨150%以上 [2] - 市场报价呈现“一天一个价”的剧烈波动,被业内人士称为从业以来所见“最猛一次”涨价 [3] - 瑞银等投行指出,存储行业正进入一个“十年一遇”的严重供应短缺阶段,当前行情已超越2018年历史高点 [4] - 机构对2026年DRAM价格涨幅预测不一,花旗银行预测平均售价将同比增长88%,TrendForce预测为58% [5] 涨价核心驱动因素:AI服务器需求 - AI是引爆此次超级周期的核心变量,AI服务器对内存的需求量是普通服务器的8到10倍 [6] - 为匹配高端GPU性能,必须搭配高带宽内存HBM,这挤占了通用DRAM产能 [6] - 三星、SK海力士、美光三大存储巨头将产线资源向利润更高的HBM倾斜,导致用于PC、手机和汽车的DDR5、LPDDR5等通用内存供应急剧减少 [7][9] - AI服务器目前已消耗全球内存月产能的53%,AI客户的高价支付意愿迫使手机、PC厂商必须出同等高价才能抢到货 [9] 供应端约束与厂商策略 - 存储厂商对扩产态度极为谨慎,因2023年至2024年初的行业下行周期亏损严重,担心AI需求放缓后重蹈覆辙 [10][11] - 美光决定退出消费级业务,将全部资源集中到数据中心 [11] - SK海力士计划将约一半的通用DRAM产能转向更先进的1c制程,但这在短期内会加剧供应紧张 [11] - 尽管DDR5已成为主流,但主要厂商已停止或大幅削减DDR4产能,持续的需求导致DDR4价格异常坚挺,甚至出现价格高于DDR5的倒挂现象 [11] 下游行业影响与传导 - 存储芯片价格暴涨正在向PC、手机、汽车等下游各行业传导 [15] - 联想、戴尔等PC品牌已开始提价,消费者未来可能面临更高售价或存储容量“减配”的设备 [16] - 智能汽车行业压力明显,汽车对存储的需求已从几个GB跃升至256GB甚至TB级别,蔚来创始人李斌公开预警内存是当年最大的成本压力来源 [18] - 企业承压能力分化,苹果、华为等拥有长期协议和强大供应链管理的巨头受冲击较小,利润微薄、议价能力弱的中小企业更为难受 [18] 涨价周期持续时间预测 - 缺货的真正高峰将落在2026年第一和第二季度,届时“无论多高的价格都会有人抢购” [19] - 多家机构预测2026年上半年价格仍将维持20%以上的环比增长 [19] - 中长期看,市场普遍认为涨价周期至少持续到2026年底,TrendForce预测2026年DRAM需求同比增长26%,而供应增长仅为20%,缺口显著 [19] - 多数分析认为供需关系在2027年之前难以恢复平衡,因为新产能建设和落地需要时间,部分激进观察者认为短缺可能持续到2028年 [19] - 历史规律表明,当AI基础设施建设进入平稳期且新产能充分释放后,涨价潮将迎来回调,但时间点可能不会早于2027年 [19][20] 厂商个案:铠侠的困境 - 日本存储巨头铠侠在行业涨价背景下,第二财季净利润同比骤降超过60% [13] - 困境主因是与苹果签订了长期固定价格的移动NAND芯片供货协议,当市场现货价一个月内翻倍、合约价涨幅超50%时,铠侠仍需以协议价履约,错失超额利润 [13] - 同时,其智能设备营收占比提升,但智能手机存储芯片利润率偏低,且部分云服务商客户将采购重心从高利润SSD成品转向利润率更低的闪存芯片,进一步拖累盈利 [13] - 西部数据、希捷等同行财报表现优异,充分吃到涨价红利,铠侠表示未来将调整产品组合以改善盈利能力 [13]
VS Code现在能像Figma一样搞设计了
量子位· 2026-01-23 18:25
产品核心概念与功能 - 产品Pencil是一个基于Agent驱动的MCP画布工具,能够将Figma设计图直接转换为可运行的代码,实现了设计与开发的无缝结合[6] - 该工具采用完全开放的设计格式,直接扎根于用户的代码库中,没有黑盒或锁定情况,允许用户使用自己的工具对生成的设计文件进行读取、调试或扩展[8][10] - 在Pencil画布上进行拖拽等设计操作时,其背后的代码逻辑会实时更新,实现了设计动一下,代码跟着变的像素级对齐效果[9][31][32] 产品工作模式与应用 - 产品主要有两种应用方式:下载独立客户端并接入Claude Code进行设计;或在IDE(如VS Code)中下载插件,将Pencil和AI工具接入同一环境[11] - 用户将想法输入AI提示词窗口后,可获得临时效果图,在Pencil中手动调整模块细节,满意后由AI输出代码,即可直接在浏览器上预览[13] - 产品支持从Figma直接复制粘贴设计,且向量、文本和样式能够完整保留,实现了与Figma的完全兼容[33][34] 产品价值与行业影响 - 该产品重新定义了UI设计,将设计从存在云端的图片转变为存在Git里的逻辑,使设计文件能够像开发代码一样进行版本控制、分支和合并[24][34] - 产品实现了“设计即代码”的理念,从根本上将设计和代码绑定,用户在画布上的每一步操作都是直接对代码库中的UI描述进行修改,避免了传统流程中设计稿与最终代码货不对板的情况[30][31] - 通过案例展示,借助Pencil和Claude,用户可在10分钟内完成一个带shadcn/UI的仪表盘设计,并将其转换为可部署的Framer组件,大幅提升了开发效率[19][21]
猜AI视频,你猜你也错!只有10%的人过关了
量子位· 2026-01-23 15:44
Runway Gen-4.5模型盲测实验的核心发现 - 在1043名参与者中,仅有10%的人(99位)能在20道题(10个真实视频和10个AI生成视频)中答对15道以上,超过90%的参与者无法准确区分AI视频与真实视频[4][8][10] - 所有参与者的平均正确率仅为57.1%,仅比随机猜测的50%高出一点,表明人眼辨别能力已接近失效[11] - 实验发现,人们更容易将AI生成的视频误判为真实视频,而将真实视频错认为AI的情况则较少见[11] AI视频生成技术已达到的逼真程度 - Runway发起实验的起因是发现其自家员工也难以区分其新模型Gen-4.5生成的视频与真实视频[6] - 实验方法强调客观性,视频输出不做任何编辑或反复生成,直接展示模型的原始效果[10] - 参与者普遍对AI存在“歧视”心理,倾向于认为画质更清晰、轮廓更明确的视频是AI生成,而画面稍“糊”的更像真实拍摄,但当AI视频在画面处理上已与真实视频无异时,该判断标准失效[12][13] - 有分析认为快速镜头导致来不及抠细节是难以分辨的原因之一[14] 行业研究对AI内容辨别能力的进一步佐证 - 生物识别技术公司iProov的一项更大规模研究(涉及2000名英美消费者)得出了更极端的结论:仅有0.1%的参与者能完全正确区分所有AI内容与真实内容[22][24] - iProov研究发现,参与者判断AI合成视频的正确率比判断AI图像的正确率低了36%,表明视频比图片更具欺骗性[24] - 该研究还揭示,约20%的测试者甚至没听说过“AI生成”概念,同时有60%的测试者(尤其是18-34岁人群)对自己辨别AI的能力过度自信,与实际表现无关[25][26] - 一项针对澳大利亚高中生的测试显示,他们对21个短视频的整体辨别正确率仅为67%,与Runway的数据接近[27][28] AI视频技术发展带来的影响与趋势 - 随着模型训练数据和算力的持续增加,视频生成模型的迭代速度迅猛,人工智能产业与社会正逼近一个临界点,普通人将越来越难判断视频真伪[17][18] - 单纯依靠肉眼鉴定视频真伪的方法已经不够用[19] - 从内容创作角度看,AI视频生成效果已达到新高度,对创作者而言是利好消息[31] - 市场对更有效的AI内容辨别工具存在迫切需求[32]
LeCun创业0产品估值247亿,回应谢赛宁入伙
量子位· 2026-01-23 15:44
公司概况与战略定位 - 杨立昆(Yann LeCun)离开Meta后创立新公司Advanced Machine Intelligence(AMI),法语意为“朋友”[9] - 公司总部位于巴黎,并计划在纽约、蒙特利尔、新加坡等地设立运营机构[10] - 公司坚定选择开源路线,与当前硅谷的闭源趋势相反,认为开源是构建人工智能平台的正确道路[11][13] - 公司前期将专注于研发,核心方向是“世界模型”,而非当前主流的大语言模型(LLM)[17][19] - 公司的终极目标是成为未来智能系统的主要供应商之一,不仅做研究,还会推出围绕世界模型和规划能力的实际产品[38] 技术理念与路径 - 公司认为构建智能系统的正确方式是“世界模型”,而非LLM[19] - LLM虽然有用,但仅通过处理语言无法实现人类水平的智能,因其受限于文本的离散世界,缺乏对物理世界的系统认知,无法进行真正的推理或规划[20][22][23] - 世界模型的核心在于理解世界背后的认知逻辑和抽象表征,而非生成精美的像素(如李飞飞的Marble公司所追求的像素生成路线)[30][31][32] - 公司技术基础是杨立昆此前提出的联合嵌入预测架构(JEPA),该架构不是生成式AI,无法预测未来所有细节,但能从世界的抽象表示中学习,并在抽象空间进行预测[34][36] - JEPA将使用文本、视频、音频和传感器等多种数据,通过学习世界的底层规则来实现真正的现实世界推理和规划[37] 融资与估值情况 - 公司(AMI Labs)正以30亿欧元(约合人民币247亿元)的目标估值寻求融资[45] - 预计将在未来几周内完成3.5亿欧元的初期融资,最终目标是首轮融资5亿欧元[46] - 一旦融资完成,公司将步入“商业成果0,但估值超10亿美元”的初创公司行列[50] - 当前风险投资(VC)圈的投资逻辑发生变化,从看产品或技术路径转向看重创始人背景,例如Ilya Sutskever和Mira Murati离开OpenAI后创办的零产品初创公司均获得了约20亿美元的估值[52][53] 人才招募与团队建设 - 公司正在积极招兵买马,已从Meta挖走前副总裁Laurent Solly[40] - 有消息称,公司有意邀请研究员谢赛宁加入并担任首席科学家一职[7][42] - 杨立昆在访谈中高度认可谢赛宁,称其为杰出的研究者,并曾两次成功聘请他(之前在FAIR和纽约大学)[43] 与Meta的关系 - 杨立昆对Meta的某些决策表示不满,例如解散机器人团队被认为是战略性错误,并认为Meta擅长研究但不擅长将技术转化为产品[15] - 尽管理念存在分歧,但Meta可能成为新公司的第一个客户,双方有望达成合作,Meta将有权访问其创新成果[5][47][48] - Meta将不会成为公司的投资者之一[47]
vLLM团队创业,种子轮10.5亿!清华特奖游凯超加盟
量子位· 2026-01-23 13:03
公司成立与融资 - 开源推理框架vLLM核心团队宣布创业,成立新公司Inferact [1] - 公司种子轮融资1.5亿美元(约10.5亿人民币),估值达8亿美元(约56亿人民币)[1] - 此轮融资创下近期AI基础设施领域融资新高,也是有史以来规模最大的种子轮融资之一 [2] - 融资由Andreessen Horowitz(a16z)与Lightspeed Venture Partners共同领投,红杉资本、Altimeter Capital、Redpoint Ventures及真格基金等跟投 [7] 市场背景与机遇 - 随着AI应用落地,行业焦点正从模型训练转向推理 [4] - 市场对于低成本、高可靠运行现有模型的需求,已超过对新模型研发的期待 [9] - 当应用程序需频繁与大模型交互时,算力成本和系统负载呈指数级上升,推理环节成为制约行业发展的最大瓶颈 [8] - 在推理规模化阶段,即使是微小的效率提升也能带来显著的成本节省 [6] 公司定位与产品策略 - Inferact旨在解决“推理瓶颈”,构建下一代商业引擎以应对大规模部署挑战 [5] - 公司采取双线并行策略:继续支持vLLM作为独立开源项目发展,同时开发独立的商业产品 [12][13] - 商业产品计划专注于硬件适配效率,帮助企业在不同类型硬件上运行AI模型 [14] - 公司设计独特反哺机制,利用商业资源滋养vLLM开源项目,确保其作为行业基石继续发展 [24] 技术基础与验证 - vLLM是公司的技术基石,已成为大模型领域的事实标准,几乎所有主流开源大模型在发布与部署时都将其作为首选支持的推理框架 [15] - vLLM已进入工业界实际生产环境,亚马逊已将其直接应用于自身核心购物应用的内部系统 [10] - 在万亿级商业场景、真实高并发流量下的部署,验证了技术的稳定性与大规模商业落地的确定性 [11] - vLLM的核心技术创新包括Paged Attention算法,解决了KV Cache显存碎片化问题,提升了吞吐量性能 [31] 团队背景 - CEO Simon Mo,加州大学伯克利分校EECS系背景,主攻机器学习系统设计,曾任Anyscale早期工程师,是vLLM项目的原始维护者之一 [25][26][27][28] - 联合创始人Woosuk Kwon,加州大学伯克利分校计算机科学博士,师从Ion Stoica教授,研究重点为大语言模型高效服务系统,是vLLM项目发起人及Paged Attention算法提出者 [30][31] - 核心技术力量包括清华特奖得主游凯超,曾在伯克利EECS系担任访问学者,主攻分布式深度学习系统,主导了vLLM基于张量并行的分布式推理功能实现 [33][34] - 核心团队与顾问团还包括前Roblox高级机器学习工程师Roger Wang,以及伯克利教授Joseph Gonzalez、Databricks联合创始人Ion Stoica教授等学术界与工业界资深力量 [35][36] 发展历程与行业洞察 - vLLM最初仅是创始团队在伯克利求学期间的Side Project,驱动源于“开源代码必须是全球AI基础设施的地基”的技术信仰 [17] - 项目在没有商业推广的情况下,迅速成为开发者社区的宠儿 [18] - 随着项目从实验室走向工业界,团队角色发生质变,通过与全球顶尖开发者协作,积累了独有的技术洞察并确立了行业权威 [20][21] - 团队发现,当推理任务从Demo演示变为数千张GPU集群的生产级部署时,挑战量级呈指数级上升,现有开源方案在深度底层优化、大规模集群线性扩展及复杂GPU部署流程上力不从心 [21][22] - 企业需求已从零散代码库转变为能稳定承载万亿次调用的工业级引擎,这需要引入严密的商业组织形式来构建下一代引擎 [23][24]
告别「上帝视角」,机器人仅凭几张图精准锁定3D目标,新基准SOTA
量子位· 2026-01-23 13:03
文章核心观点 - 研究团队针对具身智能体在真实稀疏视角下难以进行3D指代分割的难题,提出了全新的多视图3D指代表达分割任务及MVGGT模型,通过几何与语言双分支架构及创新的PVSO优化策略,实现了在仅有稀疏多视角RGB图像输入下的高效3D场景理解与精确目标分割 [4][10][30] 现有技术瓶颈与任务定义 - 现有三维指代表达分割方法基于理想化假设,依赖密集、完整且可靠的点云输入,与真实世界智能体仅能通过少量随机RGB图片感知的稀疏、不一致情况不符 [8][9] - 研究团队定义了更贴近实际应用的新任务——多视图3D指代分割,要求模型在没有稠密点云输入的情况下,直接利用稀疏的多视角RGB视图和文本指令,联合重建场景并分割被指代对象 [10] MVGGT模型架构 - MVGGT采用端到端的双分支架构,包括一个参数冻结的几何重建分支和一个可训练的多模态分支 [11][13] - 几何重建分支以预训练的几何模型为基础,提供稳定的三维几何先验信息,无需从稀疏图像中重新学习3D几何 [13][14] - 多模态分支接收几何特征,并利用交叉注意力机制将语言指令注入视觉特征,用文本语义信息辅助不完整画面的视觉判断与空间推断 [15][17] 核心优化策略PVSO - 稀疏多视图学习面临前景梯度稀释的核心优化障碍,即目标实例由极少数分散点表示,前景梯度信号微弱易被背景淹没,使模型难以收敛 [18][19][20] - 研究团队引入了逐视图无目标抑制优化方法,通过将3D预测投影回2D图像空间来放大目标区域的梯度信号,并加权抑制大量无目标视图产生的误导性梯度,防止训练偏差 [22] 实验结果与基准 - 研究团队构建了首个为多视图三维指代表达分割定义的基准测试集MVRefer,该基准基于ScanRefer和ScanNet数据集构建,模拟在场景中随机采集8个稀疏视角的情况 [23][24] - 实验结果显示,MVGGT在各项指标上均显著优于现有基线方法,在目标像素占比极低的困难模式下,MVGGT依然保持了较高的分割精度,展现了极强的鲁棒性 [25] - 具体数据表明,在困难模式下,MVGGT的全局视图精度达到24.4%,远高于Two-stage方法的8.1%和2D-Lift方法的6.4% [26] - 可视化结果证明,在深度噪声严重或遮挡复杂的场景中,MVGGT能借助多模态语义精准区分几何特征相似的目标,并利用上下文信息实现精准定位 [27]
腾讯重仓的GPU公司要上市了!燧原科技IPO获受理,拟募资60亿,All in研发
量子位· 2026-01-23 13:03
IPO受理与募资计划 - 2026年A股首单IPO新受理,上海燧原科技股份有限公司科创板IPO于2026年1月22日获受理 [1][2] - 公司计划募集资金60亿元,资金将高度集中于研发相关项目 [1][5] - 募资具体投向三个项目:第五代AI芯片系列产品研发及产业化项目(15.03亿元)、第六代AI芯片系列产品研发及产业化项目(11.96亿元)、先进人工智能软硬件协同创新项目(33亿元) [6][7] 公司业务与产品 - 公司成立于2018年3月,聚焦云端AI芯片,核心业务覆盖芯片及硬件、软件及编程平台、算力集群解决方案三层 [22][23] - 已完成四代架构、五款云端AI芯片的自研迭代,产品体系包括AI芯片(燧思系列)、AI加速卡及模组(云端系列)、智算系统及集群以及AI计算与编程软件平台 [23] - 硬件层面自研了GCU-CARE加速计算单元与GCU-LARE片间高速互连技术,软件层面自研了全栈AI计算与编程平台“驭算TopsRider” [24][25] - 公司定位专注云端AI训练与推理,重点聚焦AI推理市场,与“国产GPU四小龙”中其他公司的定位各有侧重 [37][38] 财务表现与客户 - 营业收入快速增长:2022年主营业务收入约0.9亿元,2024年超7.2亿元,两年复合增长率达183.15% [8] - 2025年1-9月营业收入已超5.4亿元,其中AI加速卡及模组收入已超过2024年全年水平 [7][11] - 收入结构显著变化:自2023年起,AI加速卡及模组、智算系统及集群成为主要收入来源,2023年度占比超过50% [10] - 客户集中度高:腾讯科技为2025年1-9月最大客户,相关销售收入占当期营收的57.28% [12] - 公司仍处投入期,持续亏损但幅度收窄:2022年净亏损约11.2亿元,2023年约16.6亿元,2024年约15.1亿元,2025年1-9月约8.87亿元 [14][15][16][28] - 研发投入巨大,2022年至2025年1-9月研发投入占营业收入比例分别为1096.12%、408.01%、181.66%、164.77% [14] - 公司最早有望在2026年达到盈亏平衡点 [17] 股权结构与市场地位 - 在最近一轮融资中估值接近200亿元 [2] - 腾讯科技及其一致行动人苏州湃益合计持股20.258%,为第一大股东 [2] - 根据IDC数据,2024年中国AI加速卡整体出货量超过270万张,英伟达出货约190万张,市占率约70% [32] - 同期,燧原科技AI加速卡及模组销量约3.88万张,对应约1.4%的国内市场份额,在国产AI芯片厂商中位居前列 [33] - 若发行成功,燧原科技将成为A股第三家GPU公司 [21] 行业背景与竞争格局 - 国内云端AI芯片仍处于发展初期,英伟达在中国市场占据主导,但本土厂商正逐步突破技术与规模门槛 [29][30] - 中国云端AI芯片厂商技术路线分为两类:以华为海思、寒武纪和燧原科技为代表的非GPGPU架构厂商;以摩尔线程、沐曦股份、天数智芯和壁仞科技为代表的GPGPU架构厂商 [31] - 燧原科技与摩尔线程、沐曦股份、壁仞科技常被并称为“国产GPU四小龙” [34] - 行业近期资本动作密集:摩尔线程(2025年12月5日)、沐曦股份(2025年12月17日)已登陆科创板,壁仞科技(2026年1月2日)已登陆港交所 [35] - 百度昆仑芯、阿里平头哥等大厂系国产芯片也不断传出推进IPO的消息 [39] - 国产GPU上市潮是技术演进、政策环境与市场需求叠加共振的结果,行业正从早期探索走向更规范、可持续的发展阶段 [40][41]
量子位编辑作者招聘
量子位· 2026-01-22 19:13
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品及硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态及体验方法论,并有强逻辑与结构化表达能力[11] 员工福利与发展机会 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 通过撰写独家原创内容,可建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] 岗位层级能力要求 - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI新进展[6] 应聘方式 - 应聘需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 需随简历附上科技行业代表作品或能展现个人写作水平和风格的作品[11]
成立两年半登顶全球AI创作社区,背后是中国团队在“卖情绪”??
量子位· 2026-01-22 19:13
平台概况与市场地位 - 平台名为SeaArt,是一个具备全链路多模态AI创作能力的平台,包括图片、视频、音频、数字人生成[3] - 平台全球访问量已超过Midjourney、Leonardo、Civitai,注册用户超过5000万,月访问量超过3000万[1] - 平台年度经常性收入超过5000万美金,用户单日能生成2000万张图和50万个视频[1] - 平台并非单一工具,被定位为“AI时代的全民级创作消费平台”[6] - 平台已构建去中心化的PUGC生态,官方称之为去中心化的“品味市场”[53] - 平台已积累全球规模最大的AI原生创作资产库之一,涵盖超过200万个AI创作SKU[55] 核心产品SeaVerse(SeaArt 2.0)功能 - SeaVerse是全新推出的全模态创作消费平台,相当于SeaArt 2.0,旨在帮助创作者打造AI时代的个人IP[8] - 平台依托多模态AI与Agent专家协作系统,通过“一句提示词生成宇宙”的极简交互,整合观看、游玩、创作、变现等场景[12] - 用户只需输入自然语言指令,即可生成图片、视频、音乐、小游戏或交互式应用[14] - 系统内置二十多个专项工具,如图像美化、一键抠图、动画细化,并可自动匹配调用底层模型与工具组件[16][17] - 在视频生成上,平台能拆解分镜、分段生成素材,再拼接整合,突破单次仅生成十几秒的局限,可生成一分钟带专属配乐的完整视频[28][30] - 生成的角色一致性保持相对稳定,且支持用自然语言在原有基础上修改,无需重新生成[23][31] - 可生成完整动画短片及音乐,例如根据描述生成复古童话风动画,或生成“马年新春祝福歌”完成作词、编曲与生成[27][32] - 所有生成素材保存在资源库,方便随时取用,生成的应用可在平台内一键发布分享[24][33] 技术架构与战略定位 - 团队明确不自研基础大模型,专注于应用层、内容层和体验层设计,定位为“应用层的调度者”[38][39] - 核心能力建立在模板体系、工作流引擎与算力调度系统之上,通过模板化、工作流与Agent架构降低用户创作门槛[40][44] - SeaVerse引入了多Agent协同工作流,配备面向影视、游戏等不同领域的制作Agency,将行业知识转化为可调用的AI工作流[41][43] - 调度系统将开源与闭源模型统一视为底层能力单元,按需调用、组合与编排[44] - 团队早期游戏行业经历积累了强大的算力资源调度和工程能力,使算力成本实现规模效应[50] - 护城河在于算力运营、用户洞察与生态构建的综合维度,而非单一技术[50] 团队背景与发展路径 - 背后团队为国内AI初创公司海艺互娱,成立于2023年[44] - 联合创始人马飞(CEO)与陈立(董事长)均拥有十余年游戏行业经验,曾参与《银河帝国》、《斯巴达战争》、《黑道风云》等爆款手游研发[45] - 2019年两人联合创立游戏公司星合互娱,旗下SLG游戏《The Ants-小小蚁国》海外连续两年流水超10亿元[45] - 团队利用AI为游戏业务提效后,决定跨足AI领域创立海艺互娱[46] - 出海游戏经验赋予平台全球化基因,率先进入巴西等市场,后布局日本、欧洲、美国等高付费市场[48] - 将构建SLG游戏复杂生态的能力,用于维系高粘性创作者社区的运营[50] 增长数据与生态运营 - 过去两年,海艺互娱的用户规模与收入每年均增长4-5倍[51] - 2024年,平台用户规模同比增长7.7倍,收入同比增长5.5倍[51] - 2025年通过发力多模态与视频创作,平台流量与收入持续加速增长[52] - 平台推出创作者激励机制,头部创作者已能实现每月3000-4000美元收益[54] - 平台上有大量用户持续使用Stable Diffusion 1.5等旧版本模型,消费核心是创作风格而非模型版本[54] - SeaVerse的上线进一步打通了“创作→发布→互动→二创→变现→再创作”的闭环机制[55] - 发展路径清晰:从工具切入,沉淀内容生态,进阶为多模态创作社区,最终锚定AI互动娱乐平台[56]
最强大模型的视觉能力不如6岁小孩
量子位· 2026-01-22 19:13
文章核心观点 - 当前顶尖多模态大模型在视觉推理能力上表现不佳,整体水平仅相当于或低于三岁儿童,与成年人水平(94.1)差距巨大[1][2][4] - 模型表现不佳的根本原因在于其主流架构依赖将视觉信息转化为语言进行推理,导致大量无法被语言精确描述的细粒度视觉信息丢失[11][20][21] - 未来的多模态智能发展需要从底层重建视觉能力,探索绕过“语言瓶颈”的新架构,例如基于生成模型的视觉推理[11][68][71] 模型在BabyVision基准上的表现 - 在BabyVision视觉推理基准测试中,表现最佳的闭源模型是Gemini 3 Pro Preview,得分仅为49.7%[14] - 其他前沿闭源模型得分更低:GPT-5.2为34.4%,豆包-Seed-1.8为30.2%,Qwen3-VL-Plus为19.2%,Grok-4为16.2%,Claude-4.5-Opus为14.2%[14][15] - 表现最好的开源模型是Qwen3VL-235B-Thinking,总分为22.2%,但仍远低于顶尖闭源系统[16][18] - 所有模型的表现与六岁儿童相比仍有约20%的差距,与成年人94.1的水平更是天壤之别[2][4] 当前多模态大模型面临的视觉核心挑战 - **非言语性精细细节的缺失**:模型将视觉输入转化为粗略的语言描述,导致如精确几何形状、边界曲率、像素级差异等无法被语言描述的细节丢失,在“找拼图”等任务中出错[25][26][29][30] - **流形一致性的丢失**:模型难以在长距离空间中维持感知一致性,例如在“连线任务”中,将连续曲线拆解为指令序列后,在交叉点容易走错路径[31][34][35][36] - **空间想象力的不足**:模型难以从二维图像构建稳定的三维内部表征并进行心理变换,在从特定视角想象物体形状的任务中,因空间信息在文本摘要中被压缩而犯错[39][43][44][45] - **视觉模式归纳的困难**:模型难以从少量视觉示例中总结通用变化规则,通常采用数属性的文本匹配方式,而非理解视觉关系的变化逻辑,在“找规律”任务中出错[47][48][50][51][52] 改善视觉推理的潜在技术方向 - **基于可验证奖励的强化学习(RLVR)**:在Qwen3-VL-8B-Thinking模型上进行RLVR微调后,整体准确率从13.1%提升至17.9%,提高了4.8个百分点,在细粒度辨别、空间感知和视觉模式识别等子类任务上均有提升[55][56][57] - **基于生成模型的视觉推理**:研究通过BabyVision-Gen基准评估生成模型,NanoBanana-Pro表现最优,整体准确率达18.3%,GPT-Image-1.5和Qwen-Image-Edit分别为9.8%和4.8%[60][61] - 生成模型如NanoBanana-Pro、Sora-2展现出显式视觉思维,能够沿逻辑路径生成物理轨迹,但单纯的生成能力仍需稳健的视觉语义理解引导[62][66] - 统一架构(如Bagel)允许模型在推理过程中保留高保真视觉表征,在视觉空间内进行“显式思考”,支持“生成本身即是推理的一种高级形式”的观点[68][69][70][71]