Workflow
量子位
icon
搜索文档
单卡2秒生成一个视频!清华联手生数开源TurboDiffusion,视频DeepSeek时刻来了
量子位· 2025-12-25 19:51
核心观点 - 清华大学TSAIL实验室与生数科技联合开源了视频生成加速框架TurboDiffusion,该框架能在保证生成质量几乎无损的前提下,将视频生成速度最高提升200多倍,使单张高端显卡实现秒级视频生成成为可能,标志着视频生成进入实时交互时代 [3][8][34][39] 技术性能与数据 - **加速效果显著**:在单张RTX 5090上,针对1.3B-480P的文生视频模型,生成时间从原始的184秒缩短至1.9秒,提速约97倍 [2][3][12][13] - **支持大模型与高分辨率**:对于14B-720P的图生视频模型,生成时间仅需38秒;720P文生视频模型仅需24秒;14B-480P图生视频模型仅需9.9秒 [12][15] - **高质量无损加速**:在生数科技Vidu模型上,生成1080P分辨率、8秒时长视频时,端到端延迟从900秒提速到8秒,且动态流畅度、光影质感及指令遵循能力保持极高水准 [16] 核心技术原理 - **SageAttention(低比特量化注意力)**:将权重和激活值压缩至INT8/INT4,通过异常值平滑等技术避免精度崩塌,使注意力计算速度提升3–5倍,显存占用减半 [24][25][26][27] - **Sparse-Linear Attention (SLA)**:结合稀疏性与线性复杂度,减少计算量,且可与SageAttention叠加使用,实现额外数倍加速 [28][29] - **rCM步数蒸馏**:通过Score-regularized Continuous-time Consistency Models减少传统扩散模型所需的迭代去噪步数 [30][31] - **W8A8量化与自定义算子**:对线性层采用权重与激活均为8位的量化,并利用Triton/CUDA重写基础算子以消除性能开销 [32][33] - **技术协同**:四项技术环环相扣,通过蒸馏减步数、量化减负载、SLA和SageAttention减算力,共同实现极限加速 [34] 行业影响与意义 - **降低使用门槛与成本**:单张消费级显卡(如RTX 5090)即可实现秒级出片,使个人创作者与中小企业可用;云端推理延迟降低百倍,同等算力可服务用户数提升百倍,大幅降低运营成本 [42] - **推动产品创新与场景拓展**:实时视频编辑、交互式视频生成、AI短剧自动制作等新场景成为可能,催生全新AIGC产品形态 [42] - **技术自主与产业落地**:核心技术由清华大学与生数科技自主研发,SageAttention为全球首个注意力计算量化加速方案,已集成至NVIDIA TensorRT,并完成在华为昇腾、摩尔线程等国产芯片平台的部署,助力AI基础设施自主可控 [37][38][42] - **获得行业认可**:技术已被腾讯混元、字节豆包、阿里、百度、Google、商汤等国内外头部科技企业应用于核心产品,创造了可观经济效益 [38]
向量检索爆雷!傅聪联合浙大发布IceBerg Benchmark:HNSW并非最优,评估体系存在严重偏差
量子位· 2025-12-25 19:51
文章核心观点 - 当前将多模态数据纳入RAG和Agent框架时,普遍依赖的embedding→向量检索→下游任务流程存在未被正确认知的陷阱,行业认为向量检索方法已标准化并倾向于无脑使用HNSW,但事实并非如此 [1] - 以真实下游语义任务为黄金基准进行评估,HNSW在许多任务上表现不佳,表明RAG在多模态领域远未达到标准化程度,过去的评估体系存在严重偏差 [1] - 研究团队推出的新基准IceBerg,以下游语义任务而非传统的Recall-QPS为基准,其发现足以颠覆过去五年的行业认知,引发向量检索算法排名的大洗牌 [1] 认知偏差:距离度量与语义相似度 - 存在一个根本性的认知偏差:距离度量并不等同于语义相似度 [3] - 在大规模人脸验证数据集Glink360K上,人脸识别准确率在按距离度量计算的Recall达到99%之前就已饱和,且基于图的SOTA算法NSG在距离度量recall上优于基于哈希的RaBitQ,但在下游人脸识别准确率上却一致弱于RaBitQ,揭示了评价体系失准和“产能过剩”问题 [5] - 针对同一embedding,不同度量空间对下游任务效果影响巨大,例如使用EVA02图片encoder时,欧氏距离可达80%+的语义识别精度,而内积度量则始终停留在1%附近,表明度量空间选择存在巨大“陷阱” [6] 端到端信息损失漏斗模型 - 为解释向量检索“真实”效果与行业认知的偏差,提出了一个端到端的信息损失漏斗模型,描述了信息逐层损失的过程 [7] - **阶段一:表征模型Capacity瓶颈**:表征学习模型的能力上限决定了embedding的语义表达力和质量 [9][10] - 影响模型表达力的因素包括:1) 模型的泛化误差,即模型在测试集上表现通常逊于训练集,且在训练数据上也常无法达到100%准确 [11];2) 模型的学习目标,表征学习常不等于度量学习,模型学习的是语义相似度,其损失函数不一定鼓励“语义相近样本在度量空间中更接近” [12] - 这些原因导致数据通过模型转为embedding时,会产生大量信息损失,特别是在语义和度量对等性问题上 [13] - **阶段二:度量选择**:对于一些生成式表征模型,如某些auto encoder pretrain model,没有对度量空间的明确约束,此时选择欧氏距离还是内积距离会对结果产生巨大影响 [14][15] - **阶段三:向量检索方法选择**:向量检索方法主要分为基于空间切分(量化)和基于图结构索引两大类,不同方法对不同数据分布有不同“亲和度”,因为它们都以近似手段最小化搜索空间,但选择性忽略的数据不同,导致下游任务表现差异 [16][17] IceBerg基准测试结果与发现 - **向量检索算法排名大洗牌**:IceBerg Bench覆盖不同模态、任务和embedding model,以下游任务为中心进行排名,结果显示HNSW并非“常胜将军”,不同交叉组合下有不同的方法胜出 [18][19] - 例如,在ImageNet图片识别任务上,欧式距离和内积距离上的最优算法(HNSW/ScaNN)均未成为下游任务的赢家,胜出的是RaBitQ [20] - **新手玩家利器:自动化算法选型**:IceBench提供了自动化算法检测方案,通过分析数据分布的统计信号(如聚类程度、向量方向分散度)构建可解释的“决策树”,帮助用户无需暴力测试即可选对方法 [21][23] - 该工具将保持对最前沿encoder的追踪,实时更新算法选择建议 [24] 行业影响与未来方向 - IceBench首次从端到端的价值体系重新度量了SOTA向量检索方法的真实能力,并暴露了向量数据库领域海平面之下的认知陷阱 [25] - 研究团队呼吁未来的向量检索研究应更深入RAG、Agent等下游应用语境,关注度量-任务匹配度、算法-数据分布兼容性,乃至跨度量/多度量/多向量的统一向量检索算法,以真正实现RAG的标准化 [25]
2500元/月雇个总监级AI数字员工,贵吗?
量子位· 2025-12-25 19:51
文章核心观点 - AI智能体正从工具进化为自主工作的“数字员工”,推动“前沿企业”的崛起,其核心特征是行动更快、决策更智能[1] - 房地产行业正成为AI原生落地的突破口,AI数字员工正在从根本上重塑该行业的用人方式和成本结构[1] - 深度智联推出的“克而瑞·数字员工”战队,通过系统化架构重构业务流程,代表了从“AI+”到“AI原生”的组织形态变革[3][11][17] AI在房地产行业的应用与价值 - **应用场景与产品**:深度智联发布“地产AI-Ready”战略,推出覆盖决策、营销、服务三大场景的“克而瑞·数字员工”战队,并呈现“1个专属空间+4大核心能力+3层应用场景”的系统架构[3] - **具体岗位对标**: - **投资决策**:数字员工可7×24小时工作,月薪2500元,能在30分钟内产出一份3万字、数据精确到个位数的专业市场分析报告,专业水平对标总监级分析师[3] - **新房销售(金牌案场)**:由四位核心成员构成,协同完成从市场研判到客户服务的全流程闭环[7] - **经纪渠道(地产销冠)**:能像资深经纪人一样生成小区测评、回复咨询、创作推广文案[8] - **未来扩展**:公司计划针对物业、康养、长租公寓等细分市场推出适用不同场景的数字员工,灵活组建“作战单元”[10] - **成本效益**:传统地产营销团队覆盖多项职能需6–8人,月人力成本超15万元,而数字员工全覆盖上述职能,月均总成本仅千元级别,直接降低人资支出90%以上[11] - **效率提升**: - **决策专家**:能在10分钟内基于克而瑞20年数据生成带可视化图表的专业报告[12] - **私域主编**:5分钟产出朋友圈文案、公众号推文初稿,将内容生产效率提升3倍以上[12] - **案场客服**:试点项目数据显示,引入数字客服后,客户转化率提升了27%[12] - **监测专家**:将市场决策周期从“周”压缩至“小时”[12] 技术架构与行业护城河 - **从工具到战队**:行业趋势正从为每个任务训练单一模型,转向构建“一个通用智能底座+一系列可插拔的专业技能”模式[14] - **通用模型的局限**:在房地产等高复杂度、强合规性行业,通用大模型存在数据黑盒(无法触及内网核心信息)、幻觉风险(参数偏差可能导致数亿元损失)、工作流割裂(无法端到端执行)三大缺陷[15] - **深度智联的专属AI空间**:构建了四大不可复制的护城河[13][16] 1. **数据护城河**:基于克而瑞20年积累的海量结构化数据库,覆盖全国98%新房交易、土地出让、政策文件[16] 2. **知识护城河**:将160万份非结构化行业文档转化为可推理的知识图谱,确保AI输出符合行业话术[16] 3. **行业护城河**:通过“专家思维编码”技术,将顶尖分析师、营销总、工程总的研判逻辑注入模型,实现专业智慧的规模化传承[16] 4. **技术护城河**:稳定应用Agentic架构,支持多智能体(如数据抓取、分析、写作、校验Agent)协同完成长周期复杂任务[16] - **平台化与开放**:深度智联的地产AI专属空间旨在为行业提供一个智能操作系统底座,并计划开放核心能力与接口,构建适用于房地产行业的“AI操作系统”[18] 行业趋势与广泛实践 - **市场增长**:2024年中国AI数字人市场规模已达41.2亿元,同比增长85.3%[19] - **企业采纳**:普华永道调研显示,79%的中大型企业已将Agent融入工作流程[19] - **跨行业案例**: - **金融**:百度智能云曦灵平台在国有大行市占率超50%,浦发银行“小浦”、交通银行“姣姣”等数字员工已成为7x24小时理财顾问[23] - **保险**:有企业为10万经纪人团队配备销售Copilot,构建覆盖超6万种产品的知识大脑,使保险经纪人学习效率提升3倍以上[23] - **电商零售**:AI数字主播实现24小时不间断带货,AI客服在“大促”期间将服务效率提升22倍[23] - **未来竞争力**:企业的竞争力将取决于“智力密度”,即能否通过AI将顶尖专业能力以低成本、可复制、可持续的方式规模化复用[20]
量子位编辑作者招聘
量子位· 2025-12-25 19:51
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - AI产业方向:关注基建层创新,包括芯片、AI Infra、云计算[6] - AI财经方向:关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向:关注AI在应用和硬件终端方向的进展[6] - 招聘面向社招(覆盖编辑、主笔、主编层级)和校招(应届毕业生,接受实习转正)[6] 岗位职责详情 - AI产业方向岗位职责:跟进AI基建层新进展(芯片、AI Infra、云计算)及核心玩家动态[6];解读前沿论文、开源社区、技术大会(如Hot Chips、NeurIPS、MLSys)报告[6];参与核心采访,对话产业专家并撰写AI云落地案例[7] - AI财经方向岗位职责:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11];产出创投融资、招股书财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者及产业分析人士[11] - AI产品方向岗位职责:关注AI在终端的落地,包括软件应用产品和硬件方向[11];撰写AI应用产品深度评测,跟踪多终端新品发布(如手机、PC、XR、车机)[11];对话访谈AI应用创业者、产品专家及终端技术专家[11] 任职要求 - AI产业方向任职要求:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11];熟悉AI行业供应链与生态(训练-推理、算力-成本、云-芯片关系)[11];具备将复杂技术内容结构化表达的能力[11];有技术背景、理工或CS/EE方向优先[11] - AI财经方向任职要求:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,具备社交型人格[11] - AI产品方向任职要求:对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态及体验方法论[11];具备强逻辑、体验表达和结构化能力[11] - 主编需具备选题和带队能力及经验[6] - 主笔需具备原创深度稿件能力[6] - 编辑需热爱表达,喜欢挖掘信息,能够用通俗语言解读AI新进展[6] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉与视野[6] - 应届新人将由主编级编辑担任mentor,提供一对一指导[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 提供行业TOP薪资待遇,福利包括五险一金、餐补、项目绩效、商务绩效、加班补助等[6]
揭秘Agent落地困局!93%企业项目卡在POC到生产最后一公里|亚马逊云科技陈晓建@MEET2026
量子位· 2025-12-25 14:08
文章核心观点 - Agent的真正价值在于能否在生产环境中稳定运行,而非仅展示惊艳的演示效果,数据显示超过93%的企业Agent项目在从概念验证到生产的最后阶段受阻[1][5][7] - 亚马逊云科技认为,一个成功的Agent需要模型、代码与工具三大模块的有效连接,这是当前最大的工程挑战[7][8][9] - 行业正意识到Agent是释放AI生产力的关键枢纽,亚马逊云科技通过一系列产品与更新,旨在降低开发门槛、解决工程化难题,并帮助企业跨越从概念验证到生产的鸿沟[5][6][19] Agent成功三要素与工程挑战 - **模型是大脑**:负责推理、规划与执行的核心决策职能[10] - **代码是逻辑**:服务于特定场景的功能实现,与传统软件开发类似[11] - **工具是手脚**:连接模型与物理世界,包括知识库、数据库、浏览器等外部能力[12] - **核心挑战**:如何高效连接模型、代码与工具三大模块,并解决工具间的编排复杂性[12] 开发效率提升:模型驱动开发 - **Strands Agents工具**:采用模型驱动方法论,大幅简化开发代码量,使过去需数千行代码的场景现仅需十几行代码即可实现[13] - **开源与开放**:Strands Agents定位为开源项目,提供完整源码,并采用开放架构兼容业界各种流行框架[13] - **重要更新**:在re:Invent 2025大会上,宣布Strands Agents支持TypeScript语言及边缘设备部署,以拓展开发者群体和应用场景[14][15] 从概念验证到生产的跨越难题 - **严峻数据**:93%的客户在从概念验证迈向生产环境时遇到重大障碍,仅不到10%的项目能成功推进到生产[16][17] - **核心原因一:数据质量落差**:概念验证阶段可使用精心筛选的高质量数据,而生产环境的数据无法人为优化,导致效果差异[18] - **核心原因二:工程化能力缺失**:生产环境需直面安全、扩容、成本、高可用等概念验证阶段无需考虑的问题[18] - **解决方案**:推出Amazon Bedrock AgentCore,提供底层基础架构编排工具箱,动态管理计算、网络、安全等资源,以解决工程化难题[19][20] 模型定制与效率优化 - **定制挑战**:通用大模型在垂直场景可能不足,定制需专业技能与高质量数据[22] - **最佳时机**:模型定制在基础模型训练阶段(类比人类幼年学习语言)进行,效果远优于模型完成后再调整[23][24] - **定制工具**:Amazon SageMaker AI提供强化微调、模型定制化训练等多种能力,其中Amazon Nova Forge允许在基础模型训练阶段注入用户数据[22][23] Agent的安全管控与自动化 - **行为边界**:需避免对Agent严防死守或过度放任两种极端,正确做法是通过策略框架划定行为边界[7][26] - **Policy策略**:为Amazon Bedrock AgentCore发布的新特性,可定义行为框架并配置合规性、安全红线等不可逾越的边界[27] - **工作流自动化**:推出Amazon Nova Act,深度集成大模型与AgentCore工程化能力,打造新型工作流自动化方案,整体成功率超80%,超越传统机器人流程自动化技术[29] 企业应用案例 - **Blue Origin(蓝色起源)**:通过亚马逊云科技服务构建超过2700个内部Agent,实现交付效率提升75%,设计质量提高40%[30] - **Sony(索尼)**:基于Bedrock构建企业级大模型,每天服务超过57000名内部用户,处理15万次推理请求,并通过微调将合规审核效率提升100倍[30]
字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌
量子位· 2025-12-25 14:08
核心观点 - 字节跳动旗下Seed AI4Math团队发布数学推理专用模型Seed Prover 1.5,在Scaling Law和强化学习加持下,其数学推理能力达到国际顶尖水平,在IMO竞赛中取得金牌成绩,并在多项基准测试中刷新SOTA记录 [1][4][5][6] 模型性能与成就 - Seed Prover 1.5在16.5小时内解决了IMO 2025的前5道题目,仅失一题,获得35分,达到今年IMO金牌线 [1] - 该成绩与谷歌Gemini的IMO金牌成绩持平,并大幅超越了其前代模型(前代模型耗时3天完成4道题及一道题的部分证明,仅获银牌成绩)[3] - 模型在北美本科级别数学竞赛Putnam基准上,大幅刷新了SOTA成绩 [4] 技术架构与创新 - 模型采用“Agentic Prover”架构,这是一种新的形式化数学推理范式,将Lean等形式语言视为工具,允许模型在证明过程中自主调用多种工具进行交互和验证 [12][13][14] - 核心创新之一是引入了“Sketch Model”,它模拟人类数学家的工作方式,先将自然语言证明转化为非形式化的逻辑草稿和引理结构,从而将复杂问题拆解为更易解决的子目标 [14][22][23] - 工作流采用分层级的多智能体协作系统:Natural Language Prover提供高层数学直觉,Sketch Model转化为形式化引理结构,Agentic Prover并行攻克各个引理 [37] - 模型采用基于引理的交互式证明方式,既非低效的逐步证明,也非高风险的一次性完整证明,提升了推理的并行度和成功率 [15][17] 训练方法与效率提升 - 模型进行了大规模的Agentic强化学习训练,随着训练步数增加,模型在训练集上的证明通过率从初始的50%提升至接近90% [18][19] - 强化学习带来了显著的效率提升,Seed Prover 1.5仅需少量计算资源,就能在Putnam等高难度数据集上击败消耗大量算力的上一代模型 [19] - 实验数据对比显示,在Putnam数据集上,Seed-Prover 1.5(agentic prover only)以特定的测试配置(pass@8 × 8)取得了57/100的成绩,优于前代模型(35/100)及其他竞品 [20] - 研究验证了测试时Scaling的有效性,即投入更多计算资源(测试时)能显著提高解题率,且解决率随计算资源投入呈对数线性增长 [5][28][29] 模型规格与背景 - Seed Prover 1.5的参数规模为230B总参数,23B激活参数,与其基础模型Seed 1.6相同 [8] - 该研究团队为字节跳动Seed AI4Math团队,核心成员包括来自清华大学、牛津大学、卡内基梅隆大学等背景的研究人员 [30][32][33][34]
LeCun哈萨比斯神仙吵架,马斯克也站队了
量子位· 2025-12-25 08:27
核心观点 - AI领域两位顶尖学者Yann LeCun与Demis Hassabis就“智能的本质”展开激烈论战,核心分歧在于对“通用智能”的定义和理解,这场辩论也指向了实现AGI的不同技术路径——世界模型 [1][2][3][8][30][31][42] 关于“通用智能”的争论 - **Yann LeCun的观点**:认为“通用智能”是胡扯(complete BS),人类智能是高度专业化的,是为了适应现实物理世界而专门进化出的能力,并非真正通用 [3][9][13][31] - 论证1:人类在某些领域(如国际象棋)表现很差,而有些动物更强,证明人类是“专才” [10] - 论证2:人类能理解的问题局限于自身认知范围,“通用”是一种错觉 [11] - 论证3:理论上的图灵完备不等于实际通用,人脑在资源受限下解决现实问题的效率远非最优,是高度优化的结果 [34][35] - 论证4:以视觉为例,人脑能实现的布尔函数在所有可能函数中只占一个无穷小的比例,证明其高度专业化而非通用 [36][37] - **Demis Hassabis的观点**:认为LeCun大错特错,混淆了“通用智能”与“普适智能”的概念,坚信通用智能存在且潜力巨大 [3][15][16][31] - 论证1:大脑是宇宙中已知最精妙复杂的事物,具有极强的通用性,是通用智能可行性的存在性证明 [17][24] - 论证2:从图灵机理论看,只要给予足够时间、内存和数据,人脑及AI基础模型能够学习任何可计算内容,具有通用性核心 [18] - 论证3:人类能发明国际象棋乃至整个现代文明,展现了人脑惊人的通用潜力 [19][20] - 论证4:衡量智能的关键标准是通用性和学习能力,以“深蓝”为例,其虽擅长象棋但不会玩井字游戏,足见其死板,反衬人脑的通用 [22] 争论的实质与共识 - **分歧核心**:双方承认分歧部分在于用词,LeCun反对用“通用”指代“人类水平” [32][33] - **实质差异**:两人谈论的是不同问题,LeCun强调“我们是什么”(智能是高度专业化的产物),Hassabis强调“我们能成为什么”(智能具有通用潜力) [41] - **共同指向**:辩论共同指向如何实现AGI这一更深层议题,答案都聚焦于“世界模型” [42] 实现AGI的路径:世界模型 - **Yann LeCun的路径**:即将创业,新公司名为Advanced Machine Intelligence Labs,目标估值30亿欧元(约247亿人民币),专注于世界模型 [43] - 核心理念:世界模型即认知框架,追求掌握控制理论和认知科学,关注世界的抽象表征而非像素渲染,旨在捕捉用于AI决策的世界状态 [44][45][50] - **Demis Hassabis/谷歌DeepMind的路径**:同样将世界模型作为重点,已推出Genie 3等模型 [46][47] - 核心理念:世界模型即模拟器,指能够理解世界运行机制中因果关系与协同效应的模型,是一种“直观物理学” [47] - 实践形式:通过构建逼真的、可交互的世界(如视频模型Genie, Veo)来检验和理解世界,视为通往AGI的关键一步 [48][49][50] 行业背景与相关动态 - **历史争论**:AI领域的跃迁常伴随类似争吵,如符号主义与连接主义、端到端学习与模块化系统、开源与闭源之争等 [51] - **相关人物动态**:LSTM之父Jürgen Schmidhuber指出其团队在2014年已涉猎与LeCun创业方向高度相似的世界模型技术 [51][53] - Schmidhuber被称为“成熟人工智能之父”,其发明的LSTM在ChatGPT前被称为“最具商业价值的人工智能成就” [53] - 马斯克评价Jürgen Schmidhuber为“一切的发明者” [58]
黄仁勋200亿美元带走「TPU核心班底」
量子位· 2025-12-25 08:27
交易事件概述 - 英伟达官宣与AI芯片初创公司Groq达成一项价值200亿美元现金的交易[1][2] - 该交易规模创下英伟达历史纪录,远超其2019年收购Mellanox的70亿美元[3] - 交易性质在几小时后被澄清,并非收购,而是一份非排他性技术许可协议,Groq核心团队将加入英伟达,但Groq公司保持独立运营[5][6][7][12][13] 交易结构与战略意图 - 交易本质为“人才收购”,英伟达以200亿美元获得技术授权并吸纳Groq创始人兼首席执行官Jonathan Ross、总裁Sunny Madra等核心高管团队[9][10][11][12] - 英伟达CEO黄仁勋在内部邮件中阐明战略意图:计划将Groq的低延迟处理器整合到英伟达AI工厂架构,以服务更广泛的AI推理和实时工作负载[16][20] - Groq的技术专长在于AI推理,其自研语言处理单元运行大模型的速度据称比传统方案快10倍,能耗仅十分之一[20] - 创始人Jonathan Ross背景特殊,曾是谷歌张量处理单元的核心研发者之一,而TPU是英伟达GPU的主要竞争对手[22][23] 行业并购趋势 - “人才收购”在科技巨头中已成常见操作,旨在快速获取顶尖人才与技术,同时规避传统并购的监管审查[13] - 近期案例包括:微软以6.5亿美元挖走Inflection创始人及团队;亚马逊以约4亿美元挖走Adept创始人及团队;谷歌以约27亿美元挖走Character.AI创始人及30多人核心团队;Meta以约150亿美元挖走Scale AI创始人及核心团队;谷歌以约24亿美元挖走Windsurf创始人及团队;苹果吸收了Prompt AI核心团队[13][14][15][17] 公司财务状况与投资动态 - 截至2025年10月底,英伟达账上现金和短期投资达606亿美元,相比2023年初的133亿美元增长近5倍[26] - 除Groq外,英伟达近期还投资了Crusoe、Cohere,追加了对CoreWeave的投资,并于今年9月宣布计划向OpenAI投资最高1000亿美元,向英特尔投资50亿美元[27][28] 行业竞争格局 - 其他AI芯片初创公司动态:英特尔正深入谈判有意收购SambaNova;Cerebras在10月撤回IPO申请,转而完成一轮超过10亿美元的融资[30][31][33][34] - Groq、SambaNova和Cerebras最初均以GPU颠覆者形象登场,行业巨头正运用资本手段吸收潜在颠覆者[36][37]
攻克长视频生成记忆难题:港大与快手可灵MemFlow设计动态自适应长期记忆,告别快速遗忘与剧情错乱
量子位· 2025-12-25 08:27
文章核心观点 - 由香港大学与快手可灵团队联合研发的MemFlow模型,通过创新的流式自适应记忆机制,解决了AI生成长视频时存在的叙事不连贯、角色特征遗忘与混淆等关键问题,将AI视频生成从“片段拼接”推向“故事编写”的新高度 [2][3][26][27] 技术背景与现有问题 - 当前主流AI长视频生成采用“分块生成”策略,但如何让后续片段精准记忆前面内容存在巨大技术鸿沟 [4] - 现有解决方案存在明显局限:“只记开头”策略在故事发展引入新角色或场景时会迷失;“一刀切”压缩策略会丢失关键细节;“各自为政”的流程缺乏全局一致性 [5] - 这些僵化、非自适应的记忆策略无法满足交互式创作中流动、不可预测的叙事需求,是导致长视频生成一致性差的主要原因 [6] MemFlow的核心创新与优势 - 核心创新在于建立了一套动态、以语义为桥梁的记忆系统,而非依赖死板、固定的记忆 [7] - 具备长时记忆能力:即使在长视频中存在场景切换、镜头变换或角色暂时消失等复杂情况,也能记住每个主体的核心视觉特征,维持视觉一致性 [8] - 确保叙事连贯性:在涉及多个主体的叙事中,能避免错误重复引入角色或发生主体混淆,能准确理解并延续用户引入新主体后的叙事,让故事流畅推进 [9] - 核心技术设计包括叙事自适应记忆(NAM)与稀疏记忆激活(SMA):NAM能根据当前提示词智能检索最相关的视觉记忆;SMA则只激活最关键信息以提升效率,在一致性、质量和计算开销间取得平衡 [11] 定量分析结果 - 在“多提示词60秒长视频生成”任务中,MemFlow在VBench-Long评估体系下的质量总分为85.02,美学小分为61.07,均为所有对比模型中最高分 [13][14] - 在衡量核心能力的一致性评分上,MemFlow取得96.60的高分,处于领先位置 [17] - 通过逐段评估的CLIP分数显示,在视频后半段(如40-60秒),许多模型因误差累积导致语义一致性明显下滑,而MemFlow的分数能持续保持较高水平,证明了其动态记忆机制在维持长期叙事一致性方面的有效性 [15] - 消融实验表明,MemFlow采用的“NAM+SMA”策略,在主体一致性(98.01)和背景一致性(96.70)上均优于“无记忆”或仅“记住第一段”的方案,同时实现了比采用完整记忆库更高的运行效率(吞吐量FPS=18.7) [17][18] 定性分析结果 - 在引入“一位穿着休闲毛衣的女士”的多镜头场景中,MemFlow成功在多个镜头中维持了同一人物形象,避免了其他模型出现的人物外貌不一致或重复引入主体的问题 [19] - 在处理角色互动时(如沙滩上的孩子与小狗、家庭装饰圣诞树场景),MemFlow能确保核心角色在多段视频中保持一致,而基线模型则出现了引入多余或不一致新角色、质量漂移和主体遗忘等问题 [21] - 视觉对比直观证明了动态记忆的必要性:“无记忆”版本出现场景不一致;“只记第一段”方案无法保持后续新引入人物特征;只有MemFlow能平滑承接剧情并保证主体一致性 [23] 效率与综合表现 - MemFlow在单个NVIDIA H100上实现了FPS=18.7的实时推理速度,与无记忆的基线模型相比,性能损耗极小 [25] - 该模型在一致性、美学评分和文本对齐度等多项关键指标上,均达到SOTA(当前最优)水平 [25]
用编程大模型登顶开源第一后,智谱GLM团队被拷问了3小时
量子位· 2025-12-24 20:46
文章核心观点 - 智谱公司发布新一代开源大模型GLM-4.7,在代码竞技场WebDev榜单上超越GPT-5.2,位列开源模型第一,并在多项实际应用测试中表现出色,被社区高度认可 [1][2][41] - 模型性能的显著提升源于对后训练阶段的深度优化,包括精细化的发布配方、复杂的预训练数据流程以及创新的自研强化学习框架Slime [4][7][8][24] - 公司强调其产品设计核心是平衡训练/部署成本与性能,致力于让模型在消费级硬件上高效运行,并承诺上市后将持续投入开源,视其为保持技术领先和建立生态的关键 [9][42][46] 模型性能与市场表现 - 在代码竞技场WebDev榜单中,GLM-4.7以1449分(初步分数)排名总榜第6,在开源模型中位列第一,超越了GPT-5.2(1398分)等闭源模型 [2] - 社区实测反馈积极,在编程、游戏开发、PPT制作、海报设计等任务中表现卓越,被用户评价为“Amazing”和“完胜”竞品 [2][3][35][38][39] - 模型获得市场认可,估值400亿美元的Fireworks公司在发布首日(Day0)即宣布支持GLM-4.7,且其订阅价格被认为极具竞争力(一年订阅费约等于Claude Code一个月的Max Plan) [47][51] 技术优化与创新 - 性能提升主要来自后训练阶段的优化:在监督微调(SFT)和强化学习(RL)阶段采用了更精细的“发布配方”,通过对不同领域数据集进行对齐,提升了基准测试分数和实际部署的稳定性 [7][8] - 引入“交错思考”(Interleaved Thinking)机制,使模型在执行动作前进行隐性思考,类似于思维链,从而在处理复杂的多模态任务(如图表分析、看图写代码)时提高了准确度,减少了鲁莽操作 [19][21] - 针对编程能力进行了大量专项优化,使其在多语言编码(包括Python、JS及冷门语言)和复杂逻辑架构理解上表现出色,并深度打磨了智能体框架(影响性能高达30%)、系统提示词和工具调用层级 [15][16][17] 产品设计与战略 - 模型设计以训练成本和部署成本为核心锚点,旨在让模型在消费级显卡上也能运行,同时保持接近300亿参数模型的逻辑能力,体现了在有限参数下压榨极致性能以实现AI真正落地的思路 [9] - 公司建立了一套复杂的预训练数据流程,包括多源采集(高质量论文、小说等)、极致清理(去重、质量过滤、敏感词筛查)以及对齐策略,旨在让模型的写作风格更生动、更人性化 [11][12][18] - 在创意写作和角色扮演方面取得进步,通过从小说和剧本中学习,模型能进行更丰富的细节描写并更好地维持角色设定,减少了“出戏”频率 [14][18] 开源承诺与生态建设 - 面对即将赴港IPO的传闻,公司团队在Reddit AMA中明确承诺,上市后将持续投入开源,并强调开源是公司的核心基因,是回馈生态、保持技术领先和建立开发者标准的最优路径 [42][44][46] - 公司开源了自研的强化学习框架Slime,该框架专为大规模强化学习设计,支持多种对齐算法,旨在帮助开发者更容易地复现GLM级别的模型对齐效果,体现了其对开源生态的回馈 [24][25][27] - 公司在Reddit AMA活动中展现了高透明度和接地气的沟通风格,详细分享了从数据收集到质量过滤的完整流程,赢得了开发者社区的尊重 [28][29][31] 应用场景与功能演示 - 在游戏开发实测中,仅根据提供的素材链接和简单提示,GLM-4.7成功生成了一个“声色俱全”的《植物大战僵尸》游戏 [33][35] - 在办公自动化方面,模型能根据“做一个介绍巴黎的PPT”的简单指令,生成达到直接商用程度的PPT演示文稿 [35][36] - 在创意设计方面,例如生成运动鞋宣传海报,GLM-4.7的效果相比前代GLM-4.6有显著提升,差距一目了然 [38][39]