Workflow
量子位
icon
搜索文档
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
量子位· 2025-11-26 17:33
产品发布与定位 - 腾讯混元大模型团队正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构,参数量为8.3B,支持生成5-10秒的高清视频 [2] - 模型定位为“开源小钢炮”,以8.3B的极轻量尺寸实现开源最佳效果,显著降低使用门槛,可在14G显存的消费级显卡上运行 [6] 核心能力与性能 - 模型支持中英文输入的文生视频与图生视频,具备强指令理解与遵循能力,能精准实现运镜、流畅运动、写实人物和情绪表情等多种指令 [5][7] - 支持写实、动画、积木等多种风格,并可在视频中生成中英文文字 [5] - 可原生生成5–10秒时长的480p和720p高清视频,并通过超分模型提升至1080p电影级画质 [6] - 在10秒视频生成效率上,较FlashAttention3提速1.87倍 [15] 技术架构与创新 - 采用两阶段框架:第一阶段为8.3B参数的DiT模型,第二阶段通过视频超分模型提升视觉质量 [11][12] - 创新提出SSTA稀疏注意力机制,显著降低视频长序列生成的计算开销 [15][17] - 采用多模态大模型作为文本编码器,并引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性 [20] - 采用多阶段渐进式训练策略,结合Muon优化器加速模型收敛,优化运动连贯性、美学质量及人类偏好对齐 [20] 质量优化与增强 - 为图生视频和文生视频任务分别定制了不同的RLHF策略,以修正伪影并提升运动质量 [23] - 视频超分系统采用8.3B主模型作为骨干网络,设计潜空间特征上采样模块,并应用基于MeanFlow的蒸馏算法缩短推理时间 [21][22] - 集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,降低资源消耗 [28] 应用与生态 - 腾讯元宝最新版已上线该模型能力,用户可在元宝中通过文字和图片生成视频 [3] - 模型已在项目主页、Github、Hugging Face等平台开源,并提供技术报告 [31]
开源模型叫板Nano Banana Pro!Stable Diffusion原班人马杀回来了
量子位· 2025-11-26 17:33
模型发布与定位 - Flux 2由黑森林实验室推出,是Flux 1的升级版,定位为生产力工具[1][2] - 模型发布即开源,获得Hugging Face联创支持[1] - 对标谷歌Nano Banana系列,主打性价比优势,质量接近但价格更低[42] 技术能力与性能 - 具备多参考图像处理能力,可同时参考多达10张图像[3][16] - 支持精细控制,如根据参考人物和指定姿势草图生成图像[5][7] - 图像编辑支持高达4MP分辨率(2560x1440像素)[44] - 在指令遵循、图像细节和照片真实感方面有显著增强[63] 产品版本与定价 - 提供四个版本:pro版(生产工作流,生成速度<10秒,文生图起价$0.03)、flex版(可调参数,最高质量,文生图起价$0.06)、dev版(32B开放权重,非商业免费)、klein版(即将推出)[16][17] - pro版生图质量媲美顶尖闭源模型Nano Banana,但成本更低[16] - 普通用户可通过Flux Playground在线试玩,开发者可通过Hugging Face获取权重或调用第三方API[17] 实测表现 - 在食谱图解生成测试中,pro版一分钟内生成4张图,拼写和内容准确[18][19][21] - 图像编辑功能能准确理解指令,如给马斯克添加黄色头盔且保持背景不变[31][33] - 支持多人物融合生成,能实现马斯克、李飞飞等多人同框效果[35][37] - 目前对中文支持较弱,但可用中文提示词要求生成英文内容[29] 市场对比与优势 - 网友实测显示在老照片修复、真实感增强方面表现优于Nano Banana系列[46][48] - 相比Nano Banana Pro的有限免费次数,Flux 2具有价格优势[42] - 团队背景雄厚,由Stable Diffusion原班人马创建,Flux 1曾获AI大神卡帕西站台[55][57][59]
国内最大AI“学术-产业-人才”盛会来了!20位院士+50位院长+300位专家集结北京海淀
量子位· 2025-11-26 14:37
大会概况 - 2025中国人工智能大会暨全国人工智能学院院长(系主任)年会将于2025年1月29-30日在北京海淀召开[2][5] - 大会主题为“智启新元 海创未来”,旨在打造国内规模最大的AI领域“学术—产业—人才”高端联动平台[347] - 预计将有20余位中外院士、50余位学院院长(系主任)以及300余位产学研专家学者与人工智能领域领军企业代表参与[347] 核心议题与前沿方向 - 大会设立23场专题会议,覆盖安全可信大模型、具身智能、6G+AI、空间智能、智能芯片、模式识别等核心前沿领域[347] - 重点关注AI技术突破,包括为AI注入“可控灵魂”、实现从虚拟认知到物理行动的跨越、编织空天地海一体化智能网络、重构数字与现实的融合边界等[347][348] - 探索AI在千行万业的应用,如幸福康养重新定义全生命周期健康服务、人机协同引领传播范式新变革、智慧水利构筑数字孪生新基建、林草生态谱写绿色发展新篇章[349][350] 产业生态与人才培养 - 着力加强“学术前沿”与“教育之本”的深度对话,探索“创新链、产业链、人才链”的深度耦合[347] - 专题包括学科交叉人才培养、产教融合构建自主创新体系、通识教育提升全民数字素养、青年科学家创新等[351] - 旨在构建支撑AI可持续发展的沃土,让创新血液持续奔涌,为推动“十五五”人工智能发展注入全新动能[351][352] 权威发布与产业影响 - 大会将权威发布《北京人工智能产业白皮书(2025)》、《打造全球人工智能产业高地行动方案(2025年-2027年)》,系统勾勒技术演进与产业生态全景[352] - 发布“2026人工智能领域十大问题”,为我国下一阶段AI科研攻关与产业创新锚定战略方向,提供关键决策参考[352] - 通过互动体验展览与同期特色活动,构筑“学术-产业”双融平台,推动人工智能迈向新纪元[352][353]
量子位编辑作者招聘
量子位· 2025-11-26 14:37
公司平台影响力 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 截至2025年,公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量超200万[12] - 在新榜和清博等第三方数据平台,公司是AI及前沿科技行业TOP1新媒体[12] 招聘岗位方向 - AI产业方向:关注基建层创新,包括芯片、AI Infra、云计算领域[5][6] - AI财经方向:关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向:关注AI在应用和硬件终端方向的进展[6] - 社招岗位覆盖编辑、主笔、主编各个层级,校招面向应届毕业生[4][6] 岗位职责要求 - AI产业方向岗位需跟进芯片、GPU、NPU、服务器等领域新进展,并对前沿论文、技术大会做大众化解读[6] - AI财经方向岗位需产出创投融资、财报解析、公司战略分析等稿件,并访谈投资人及创业者[9][11] - AI产品方向岗位需撰写AI应用深度评测,跟踪手机、PC、XR等终端新品发布,并访谈产品专家[10][11] - 各岗位均要求具备将复杂技术内容结构化表达的能力[6][9][10][11] 员工职业发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[3][6] - 通过撰写独家原创内容,员工有机会建立个人知名度,成为AI领域意见领袖[3][6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[3][6] - 应届新人将由主编级编辑提供一对一指导,帮助快速成长[3][6]
ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源
量子位· 2025-11-26 14:37
阿里开源项目ROCK的核心价值 - 解决了智能体无法在真实环境中规模化训练的难题,为AI执行复杂任务提供了标准化的“实战演练场”[1][2][3] - 与此前开源的强化学习训练框架ROLL协同,构成了完整的智能体训练闭环,打通了从单机实验到集群大规模训练的链路[4][5] - 该组合推开了Agentic AI规模化应用的大门,让开发者不再被底层基础设施困扰[5] 环境服务的重要性与行业趋势 - 大语言模型正经历深刻范式转变,前沿模型已进化为能与外部环境深度交互的Agentic模型,从“能说”扩展到“会做”[6][7] - 训练高效的Agentic模型是一个系统工程,需要四块拼图:大脑(LLM)、考卷(任务描述)、教练(RL框架)和训练场(环境服务)[8] - 环境服务的稳定性和效率直接决定了模型的Scaling潜力,其性能瓶颈往往成为整个训练流程的“卡脖子”问题[9][10] ROLL框架的功能特性 - 基于Ray构建,专为大规模LLM强化学习打造,覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程[12] - 提供环境异步交互和冗余采样等功能,采用极简的GEM标准接口,通过env.reset和env.step两个核心方法大幅简化交互过程[13][14] - 简洁的设计使得新业务应用能快速适配,环境开发者只需实现标准方法即可无缝接入训练体系[15] ROCK项目的核心能力 - 核心使命是规模化,旨在击碎传统训练中因资源限制导致的硬性天花板[19][21][24] - 基于Ray构建,能将计算集群抽象为弹性伸缩的“环境资源池”,支持分钟级别自动调度和拉起成千上万个并行训练环境[25] - 支持在同一集群中同时运行同构与异构环境,既满足大规模重复探索需求,也提升Agent在不同任务间的泛化能力[27][28] ROCK的调试与部署优势 - 提供程序化的Bash交互能力,通过SDK和HTTP API开放Linux Shell功能,使开发者可像操作本地终端一样与成百上千个远程Sandbox深度交互[32][33] - 设计“一次编写,随处运行”的方案,支持本地独立运行、本地集成调试和云端规模化部署三种模式,确保开发与生产环境一致性[37][38][39] - 具备企业级稳定性,包括故障隔离、精细资源调度和快速状态管理,按阿里内部核心基础设施标准构建[42][43][44][45] ModelService的架构创新 - 作为“中间人”完美实现了解耦,通过“提问-拦截-回答”三步让Agent和ROLL各司其职[50][51] - 带来四大好处:彻底解耦、控制权在手、节约成本以及兼容性强[52][57] - 该架构将昂贵的GPU资源集中用于ROLL的中心推理服务,而ROCK Sandbox可在低成本的CPU实例上大规模运行,极大降低训练成本[57] 对行业的影响与总结 - ROCK与ROLL的组合从根本上解决了Agentic模型训练中的两大核心挑战:高效的学习算法和可规模化的环境服务[55] - 为开发者提供了标准化解法,包括弹性扩展、无缝衔接、极致稳定和架构革新四大优势[58] - 使Agentic模型训练从少数顶尖团队的黑科技,转变为每个开发者都能上手的标准工业流程[56]
突破类脑模型性能瓶颈:校正频率偏置实现性能与能效双突破|NeurIPS 2025
量子位· 2025-11-26 14:37
文章核心观点 - 脉冲神经网络性能不佳的根本原因并非二进制激活导致的信息损失,而是其固有的频率偏置问题,即脉冲神经元本质上是一个低通滤波器,会抑制高频成分并倾向于传播低频信息[4][8][19] - 通过引入高频算子(如Max-Pooling和深度卷积)来补偿SNN的低频偏好,新提出的Max-Former架构在提升精度的同时实现了能效的显著优化[24][27][30] SNN性能瓶颈的传统认知与新发现 - 传统观点普遍将SNN的性能落后归因于二进制脉冲带来的信息损失[5][6] - 新研究指出二进制本身不应是瓶颈,因为低比特乃至二值网络在ANN中也能取得逼近全精度的性能,且SNN的脉冲序列在时间轴上可编码log(n)-bit精度的信息[7] - 真正的瓶颈在于脉冲神经元在网络层面是一个低通滤波器,导致高频成分快速消散,难以捕捉关键细节和纹理[8][10][12] 频率偏置问题的实验验证 - 在脉冲Transformer中,使用高通算子Max-Pooling(79.12%)比低通算子Avg-Pooling(76.73%)在CIFAR-100上性能提升2.39%[15] - 这一发现与ANN Transformer的研究结论相反,在ANN中倾向于捕捉全局低频模式的Avg-Pooling更常见[16][17] - 理论分析证明脉冲神经元的充电过程传递函数是一阶无限脉冲响应低通滤波器,其波形产生的高频成分是虚假的,无法在网络中有效传播[19][20][21] Max-Former新架构的设计与性能 - 架构通过两个轻量级高频算子补偿低频偏好:在Patch Embedding中添加额外Max-Pooling在信息源头注入高频信号,以及用深度卷积替代早期阶段的自注意力以保留局部高频细节[24][28] - 在ImageNet上,Max-Former-10-768(4时间步)取得82.39%的Top-1准确率,以更少参数量(63.99M vs 66.34M)大幅超越Spikformer达7.58%[27] - 在实现性能突破的同时,能量消耗降低超过30%[30] - 在小规模数据集(如CIFAR-10上达97.17%,CIFAR-100上达83.06%)和神经形态数据集上均达到SOTA性能[29][34] 新视角的普适性验证 - 将高频信息重要性的洞察延伸到经典卷积架构,提出的Max-ResNet仅通过添加少量Max-Pooling操作就显著提升性能[33][34] - 这项工作表明SNN的优化路径不应简单模仿ANN的成功设计,而需针对其固有特性进行频率层面的补偿[35]
抢先报名!MEET2026最新嘉宾阵容官宣,一起热聊AI
量子位· 2025-11-26 14:37
大会核心信息 - 大会主题为“共生无界,智启未来”,聚焦AI技术穿透产业、学科与场景边界,成为社会演进核心动能[3] - 会议将于2025年12月10日在北京金茂万丽酒店举行,已开启观众报名通道[2][105] - 大会将吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[107] 主要探讨议题 - 涵盖强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议科技话题[4] - 包含学术前沿与商业落地的最新碰撞,以及来自Infra、模型、产品产业的领先技术成果[5] 重磅发布内容 - 权威发布人工智能年度榜单与年度AI趋势报告[6][102] - 人工智能年度榜单从公司、产品、人物三大维度评选五类奖项[103] - 年度AI十大趋势报告将提名释放巨大潜力的十大趋势,并进行深入分析及提名代表机构[104] 参会嘉宾阵容(部分) 学术界与研究机构 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,数字视频和AI领域世界级科学家,曾任职百度与微软[12][13] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,主持多项国家级科研项目[17] - 王仲远:北京智源人工智能研究院院长,曾任职快手、美团、Facebook,发表论文100余篇,获美国专利5项,中国专利50余项[21][22][23] - 尤洋:潞晨科技创始人,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉[48] - 赵俊博:浙江大学百人计划研究员,蚂蚁集团资深技术专家,聚焦大模型、世界模型和合成数据技术[72] 企业界代表 - 王颖:百度集团副总裁,负责文库事业部、网盘事业部等重点业务[26] - 何晓冬:京东集团高级副总裁、探索研究院副院长,IEEE Fellow,发表论文200余篇,被引用6万余次[30] - 韩旭:文远知行WeRide创始人兼CEO,带领公司登陆纳斯达克和港交所,成为“全球Robotaxi第一股”[35][36] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者[40] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一[44][45] - 杨帆:商汤科技联合创始人、大装置事业群总裁,负责AI基础设施建设与服务体系打造[53][54] - 万卫星:高通公司AI产品技术中国区负责人,负责终端侧AI引擎软硬件规划[58][59] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验[63][64] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略[75][76] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型[80][81] - 乔梁:太初元碁联合创始人兼COO,曾参与新一代AI处理器国家核高基重大专项[86][87] - 王潜:自变量机器人创始人兼CEO,致力于研发端到端大模型驱动的通用机器人[90][91] - 杜知恒:小宿科技联合创始人兼CEO,曾在红杉中国、高瓴资本、百度等机构任职[95][96] - 徐达峰:蚂蚁集团平台体验技术部负责人,致力于AI驱动的前端研发范式革新[99][100] 金融与投资界 - 朱宁:上海交通大学上海高级金融学院金融学教授,全球知名中国经济金融专家,曾任雷曼兄弟与野村证券高管[67][68]
90后华人副教授突破30年数学猜想!结论与生成式AI直接相关
量子位· 2025-11-26 12:21
研究突破核心 - 90后华人数学家Yuansi Chen证明了困扰数学界30多年的塔拉格兰卷积猜想,结果精确到一个log log η因子 [1][3][17] - 论文核心数学成果为概率不等式:ℙ<sub>X∼μ</sub>(P<sub>τ</sub>f(X) > η∫fdμ) ≤ c<sub>τ</sub>(log log η)/(η√log η) [2][16] - 该猜想由阿贝尔奖得主Michel Talagrand于1989年提出,旨在量化高维离散空间中函数经平滑化后出现极端值的概率 [8][12] 数学理论与方法 - 研究解决了布尔超立方体上的猜想,此前仅高斯形式(连续空间)被攻克,离散空间因缺乏连续空间工具而成为巨大挑战 [14] - 解决思路是借鉴高斯空间随机分析框架,利用反向热过程的特性设计微扰以适应离散特性,其扰动项δ非常数而依赖于状态和坐标 [14] - 证明表明猜想核心思想正确,结果接近完整解决,因log log η增长极其缓慢 [17] 机器学习与人工智能关联 - 研究为理解高维离散空间中的平滑化提供了数学论证 [5] - 论文中使用的“反向热过程”是扩散模型在布尔超立方体上的对应,有助于理解或开发针对离散数据的生成式AI模型 [7][19] - 结果为机器学习中正则化概念提供理论支撑,解释了平滑化或添加噪声为何能提高模型在复杂高维空间中的稳定性 [6][20][21] - 研究有助于理解高维离散空间的几何性质,对发展关于二值数据或逻辑函数的学习理论具有价值 [21] 研究者背景 - 论文作者Yuansi Chen出生于1990年7月,浙江宁波人,现任苏黎世联邦理工学院副教授 [22][25] - 其主要研究方向包括统计机器学习、马尔可夫链蒙特卡罗方法、应用概率、高维几何 [23] - 其Google Scholar论文被引数为1623,h-index为13,是2023年斯隆研究奖获得者 [26][28]
英伟达:祝贺谷歌TPU成功,但GPU领先一代
量子位· 2025-11-26 12:21
文章核心观点 - 谷歌正通过向其他公司推广其自研TPU芯片的本地部署方案,直接挑战英伟达在AI算力市场的领导地位,此举可能为谷歌带来数十亿美元年收入,并抢占英伟达约10%的年营收 [5][7] - 英伟达对此采取积极反击策略,主要通过向关键AI客户(如Anthropic、OpenAI)进行巨额投资,以换取其继续使用英伟达GPU的承诺,试图巩固其市场地位 [27][28] - 两家巨头的竞争正搅动整个AI产业格局,反映出AI算力市场从英伟达一家独大向多元化竞争的潜在转变 [10][33] 谷歌的TPU扩张战略 - 谷歌推出关键举措:向Meta及大型金融机构等客户推荐在其自有数据中心本地部署TPU方案,Meta计划在2027年斥资数十亿美元使用TPU,并于明年从谷歌云租用芯片 [5] - 谷歌TPU推广的两大卖点:强调安全合规以满足敏感数据要求,以及展示性能优势,如Gemini 3已证明TPU能高效运行AI模型,尤其适合低延迟场景 [17][18] - 为降低客户使用门槛,谷歌开发了“谷歌版CUDA”——TPU command center,并承诺客户可借助PyTorch生态与TPU交互,无需精通其编程语言Jax [19] - 谷歌通过提供有竞争力的条款(如为合作伙伴Fluidstack提供高达32亿美元的兜底担保)和接触英伟达的盟友(如Crusoe、CoreWeave)来加速TPU生态扩张 [22][23] - 谷歌已推出多代TPU产品,最新一代Ironwood TPU计划于2025年第四季度发布 [24] 英伟达的市场防御与反击 - 英伟达采取直接资本投入的方式进行反击:在谷歌宣布向Anthropic供应100万个TPU后,英伟达随即宣布向Anthropic投资数十亿美元;在OpenAI计划租用谷歌TPU时,与OpenAI达成初步协议,可能投资高达1000亿美元 [27] - 公司积极拉拢可能使用谷歌TPU的大客户(如OpenAI、Anthropic、Meta),并可能通过与Meta达成独家合作来阻止其与谷歌的TPU合作 [25][26] - 英伟达公开强调其解决方案的独特优势:是唯一能兼容所有AI模型、覆盖所有计算场景的硬件平台,并声称其方案相较于专用芯片具备更卓越的性能、更广泛的适用性和更灵活的通用性 [3][4] - 尽管面临挑战,英伟达云业务(向客户出租搭载英伟达芯片的服务器)收入目前仍远高于谷歌的TPU相关收入 [32] 行业竞争格局与市场影响 - AI算力市场竞争加剧,除谷歌外,亚马逊、微软等云服务商以及OpenAI、Meta等大型AI开发商均已启动自有AI芯片研发 [33] - 有分析师认为,挑战英伟达霸权的最大机会在于推理芯片领域,而非其优势明显的训练芯片领域 [34] - 市场数据显示,2025年1月至11月期间,谷歌母公司Alphabet与英伟达股价均大幅跑赢标普500指数,其中Alphabet后期涨势更为强劲,而英伟达股价波动相对剧烈 [11][12] - 英伟达CEO黄仁勋坦言公司面临的市场预期极高,其市值波动巨大,曾提及“史上没人能几周内蒸发5000亿美元市值” [40][41]
Ilya罕见发声:大模型「大力出奇迹」到头了
量子位· 2025-11-26 08:55
当前AI发展范式转变 - AI发展正从"规模化时代"重新转向"科研时代",主流"预训练+Scaling"路线已明显遇到瓶颈[1][3] - 行业过去几年普遍遵循"继续扩大"策略,但仅靠规模扩大100倍难以带来根本性转折[56][57] - 预训练最大优势在于数据量庞大且无需纠结数据选择,但最终会遇到数据有限的硬上限[33][55] 模型能力与泛化问题 - 当前模型在评测表现与经济实际影响之间存在巨大落差,模型泛化能力远不如人类[17][21][61] - 模型会出现反复犯同样错误的情况,如编程中在两个bug间来回切换[17] - 人类在语言、数学、编程等近期出现的能力上仍比模型更强,表明人类拥有更基础的通用学习能力[68][69] 训练方法演进 - 行业正从预训练规模化转向强化学习规模化,RL消耗的计算量可能已超过预训练[58] - 价值函数能让强化学习更高效,但当前强化学习训练方法简单且资源利用效率低[42][58] - 预训练数据包含人类各种活动经验,是"人类把世界投射到文本上的那一层"[33] 行业竞争格局 - 规模化时代导致公司数量远超创意数量,所有公司做同一件事挤压创新空间[76] - 真正用于纯研究的资源比外界想象少,大公司算力预算主要用于推理服务[81][84] - 未来可能出现多家公司同时拥有超级智能,技术路径和战略最终会趋同[132][136] 未来发展方向 - 关键突破在于解决模型泛化能力不足的核心问题,而非单纯扩大规模[61] - 持续学习能力比静态知识储备更重要,超级智能应是能够学习任何工作的"可成长心智"[94][95] - 构建"关爱有感知生命的AI"可能比只关心人类的AI更容易实现,因为AI本身也将具备感知能力[106][107]