Scaling Law
搜索文档
【兴证计算机】AI应用:谷歌王者归来,商业奇点临近
兴业计算机团队· 2025-11-23 17:19
本周核心观点 - 市场风险偏好下降,建议在震荡中加仓确定性方向和龙头,方向优选AI、国产化及金融科技 [1] - 当前计算机行业整体配置比例处于低位,从左侧布局春季躁动角度考虑,具备一定比较优势 [1] - 估值、业绩增长、产业景气变化是核心考虑因素 [1] AI行业动态 - 谷歌于11月19日、20日分别发布Gemini 3和Nano Banana Pro模型,性能全面反超,再次验证Scaling Law依然有效 [2] - xAI本周上线大模型Grok 4.1,性能明显提升 [2] - 国内方面,千问APP上线公测,蚂蚁集团发布“灵光”AI助手 [2] - 随着模型能力持续突破,AI应用有望迎来商业奇点,加速AI产业闭环 [2]
Generalist发现具身智能的Scaling Law,还让模型能同时思考与行动
36氪· 2025-11-21 09:52
公司概况 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,其Google学术引用数超过19000次,曾带队研发PaLM-E、RT-2等模型[4] - 联合创始人包括Andrew Barry(CTO,前波士顿动力员工)和Andy Zeng(首席科学家,曾参与PaLM-E研发)[4] - 核心团队拥有来自OpenAI、Waymo等顶尖公司的资深研究人员[4] - 早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等机构,但投资金额未披露[3] 核心产品与技术 - 发布新型具身基础模型GEN-0,基于高保真度原始物理交互数据的多模态训练,设计目标为捕捉人类水平的反应反射与物理常识[1][5] - 模型核心特征为"和谐推理",实现感知流(持续接收传感器数据)与行动流(持续输出控制指令)在连续时间域中异步交织,无需显式同步点[6][7] - 模型架构借鉴视觉和语言模型优势并实现超越,适用于6自由度、7自由度及超过16自由度的半人形机器人[5][18] 模型性能与扩展规律 - 模型参数规模达到1B(10亿)时难以吸收复杂感知运动数据,6B(60亿)参数开始展现多任务能力,7B(70亿)以上参数可快速迁移至下游任务[10][11][12] - 扩展至10B(100亿)以上参数后,模型能以更少后训练数据快速适应新任务,在零样本下游任务中性能提升(下一动作验证预测误差降低)[14] - 首次在具身智能领域观察到模型固化现象,且相变发生在远大于语言模型的参数规模上,印证莫拉维克悖论[14] 数据与训练 - 训练数据集包含27万小时真实世界操控轨迹,从全球数千个家庭、仓库和工作场所收集,数据量比某些最大规模机器人数据集高出几个数量级[16][18] - 数据质量和多样性比纯粹数据量更重要,精心构建的数据混合可产生不同特性的预训练模型[18] - 模型展现出明显Scaling Law,预训练数据规模与下游性能存在幂律关系,适用于服装、制造、物流、汽车、电子等多行业任务[15] 行业竞争与前景 - 竞争对手包括Physical Intelligence(模型迭代至π 0.6,可完成连续长序列任务)、Skild AI(支持多形态机器人泛化)、Figure(采用快慢思考双系统架构)[19] - 行业技术思路尚未收敛,数据丰富度不足,商业化落地案例仍较少[19] - 具身智能Scaling Law已被初步验证,多形态泛化、动作延时、连续长序列任务等难题正被攻克,商业化前景逐步改善[20][21]
GEN-0 以及后续的 VLA 发展的看法
具身智能之心· 2025-11-21 08:04
GEN-0模型的技术突破 - GEN-0通过数据工厂采集了270,000小时(约31年)的真实机器人操作数据,目前每周新增10,000小时采集能力[2] - 数据规模相当于每周采集三个当前最大数据集(如OXE或AgiBot-World)的总和[2] - 模型经过半年预训练后展现出比Pi系列更强的性能增益,为后训练提供了更好基础[2] 具身智能领域数据技术演进 - 真实数据采集(UMI)相比仿真数据在长时序任务中具有显著效率优势,成功率接近100%而仿真数据为子任务成功率的乘积[8] - 仿真数据面临sim2real差距挑战,包括视觉差距和物理差距,对布料和软体等物理现象仿真仍不完善[8] - 数据工厂方案在数据多样性方面超越仿真方案,GEN-0通过规模化人力投入实现了数据问题的解决[7] 视觉语言动作模型发展趋势 - 模型参数规模必须增大才能有效利用海量数据,小模型在数据过载时会出现“僵化”现象而大模型持续提升[11] - VLA基础设施(Infra)存在巨大发展空间,需要专门针对时序因果性的研究而非简单套用上游领域方法[11] - 预训练主要学习动作空间的探索能力而非概念泛化能力,模型在VL(视觉语言)能力上的泛化表现有限[12] 预训练科学发现 - 数据质量与多样性比单纯数据量更关键,不同数据混合策略会产生不同模型特性[13] - 低MSE+低reverse-KL模型适合监督后训练,高MSE+低reverse-KL模型更具分布多峰性适合强化学习后训练[13] - 预训练科学将逐渐成熟,国内数据工厂预计会跟进为行业带来预训练环境[14] 合成数据技术的现状与前景 - 仿真平台仍具有价值,特别是在强化学习、提供丰富标注和作为基准测试平台方面[9] - GenManip平台可在14K Objaverse资产上生成数万量级跨具身长时序数据,支持快速构建Manipulation基准[6] - InternData A1合成数据集展现出与Pi Dataset相当的预训练效果,证明合成数据技术的潜力[6]
国泰海通:谷歌(GOOGL.US)Gemini 3实现断层式领先 大模型竞争格局加速重构
智通财经网· 2025-11-20 21:12
核心观点 - 谷歌Gemini 3的发布标志着大模型技术进入新一轮跃迁期,在推理、多模态、代码生成等核心能力上实现断层式领先,并创新推出生成式UI与智能体平台 [1] - 此次突破验证了Scaling Law的持续有效性,将加速AI应用生态成熟,推动AI应用开发范式发生根本性变革 [1][3] 核心能力表现 - 推理能力显著进步,在Humanity's Last Exam中得分从前代Gemini 2.5 Pro的21.6%跃升至37.5%(无工具)[1] - 在ARC-AGI-2测试中以31.1%的成绩超越GPT-5.1(17.6%)近一倍,展现出接近人类的抽象推理能力 [1] - 多模态理解方面,在复杂科学图表解析和动态视频理解测试中均创下新高,具备卓越的屏幕理解能力 [1] - 数学推理能力从前代仅能处理基础运算提升至可解决复杂建模与逻辑推演问题 [1] 代码生成与前端设计 - 在LiveCodeBench上取得显著领先优势,在Design Arena的网站、游戏开发等四大赛区均位列第一,彻底扭转竞争态势 [2] - 模型具备"审美智能",能根据用户意图自动生成符合现代设计规范的交互界面,催生"生成式UI"新范式 [2] - 采用稀疏MoE的全新设计,支持百万级token上下文长度,在长文档理解和事实回忆测试中表现优异 [2] 技术架构与商业化 - 尽管API定价处于行业高端,但通过提升token效率和首答准确率,实际任务完成成本增幅有限 [2] - 性能与成本间的精细平衡为模型在企业级市场的大规模应用提供坚实支撑 [2] 智能体能力与平台 - 智能体能力实现质的飞跃,成为首个在消费级产品中深度融合通用Agent能力的基础模型 [3] - 工具使用能力较前代提升30%,在终端环境测试和长时间跨度的商业模拟中表现卓越,能够自主规划并执行复杂的端到端任务 [3] - 配合全新推出的Antigravity智能体开发平台,开发者可在更高抽象层级进行任务导向编程,将AI升级为"积极合作伙伴" [3]
国泰海通|计算机:谷歌Gemini 3实现断层式领先,大模型竞争格局加速重构
国泰海通证券研究· 2025-11-20 20:46
核心观点 - 谷歌Gemini 3的发布标志着大模型技术进入新一轮跃迁期,在推理、多模态、代码生成等核心能力上实现断层式领先 [1] - 模型创新性地推出生成式UI与智能体平台Antigravity,验证了Scaling Law的持续有效性,将加速AI应用生态成熟 [1][3] 核心能力突破 - 推理能力显著进步,在Humanity's Last Exam中得分从2.5 Pro的21.6%跃升至37.5%(无工具)[1] - 在ARC-AGI-2测试中以31.1%的成绩超越GPT-5.1(17.6%)近一倍,展现出接近人类的抽象推理能力 [1] - 多模态理解方面,在复杂科学图表解析和动态视频理解测试中均创下新高,具备卓越的屏幕理解能力 [1] - 数学推理能力从前代仅能处理基础运算提升至可解决复杂建模与逻辑推演问题 [1] 代码生成与架构创新 - 在LiveCodeBench上取得显著领先优势,在Design Arena的网站、游戏开发等四大赛区均位列第一 [2] - 不仅能够生成功能代码,更具备"审美智能",能自动生成符合现代设计规范的交互界面,催生"生成式UI"新范式 [2] - 采用稀疏MoE的全新设计,支持百万级token上下文长度,在长文档理解和事实回忆测试中表现优异 [2] - API定价处于行业高端,但通过提升token效率和首答准确率,实际任务完成成本增幅有限 [2] 智能体能力与平台发展 - 工具使用能力较前代提升30%,在终端环境测试和长时间跨度的商业模拟中表现卓越 [3] - 成为首个在消费级产品中深度融合通用Agent能力的基础模型,能够自主规划并执行复杂的端到端任务 [3] - 配合全新推出的Antigravity智能体开发平台,开发者可在更高抽象层级进行任务导向编程 [3] - 推动AI从辅助工具升级为"积极合作伙伴",加速AI应用生态成熟 [3]
谷歌 Gemini 3 实现断层式领先,大模型竞争格局加速重构
国泰海通证券· 2025-11-20 13:48
行业投资评级 - 行业评级:增持 [4] 报告核心观点 - 谷歌正式发布新一代大模型 Gemini 3,在推理能力、多模态理解、代码生成与智能体规划等方面实现断层式领先,标志着谷歌在通用人工智能(AGI)路径上迈出关键一步,或将重塑大模型竞争格局 [2][5] - 此次突破验证了 Scaling Law 的持续有效性,将加速 AI 应用生态成熟,推动 AI 应用开发范式发生根本性变革 [5] 模型核心能力总结 - **推理能力显著进步**:在 Humanity's Last Exam 中得分从前代 Gemini 2.5 Pro 的 21.6% 跃升至 37.5%(无工具),在 ARC-AGI-2 测试中以 31.1% 的成绩超越 GPT-5.1(17.6%)近一倍,展现出接近人类的抽象推理能力 [5] - **多模态理解创下新高**:在复杂科学图表解析和动态视频理解测试中均创下新高,其卓越的屏幕理解能力为构建真正实用的 AI 代理奠定了基础 [5] - **数学推理能力提升**:从前代仅能处理基础运算提升至可解决复杂建模与逻辑推演问题,为工程计算与金融分析等高阶应用提供了可靠的技术基础 [5] 代码生成与技术创新 - **代码生成革命性进步**:在 LiveCodeBench 上取得显著领先优势,在 Design Arena 的网站、游戏开发等四大赛区均位列第一,彻底扭转了谷歌在编程竞赛中的竞争态势 [5] - **催生“生成式 UI”新范式**:模型不仅能够生成功能代码,更具备“审美智能”,能根据用户意图自动生成符合现代设计规范的交互界面 [5] - **技术架构创新**:采用稀疏 MoE 的全新设计,支持百万级 token 上下文长度,在长文档理解和事实回忆测试中表现优异 [5] 智能体能力与商业化前景 - **智能体能力质的飞跃**:成为首个在消费级产品中深度融合通用 Agent 能力的基础模型,其工具使用能力较前代提升 30%,在终端环境测试和长时间跨度的商业模拟中表现卓越 [5] - **推出 Antigravity 智能体平台**:开发者可在更高抽象层级进行任务导向编程,将 AI 从辅助工具升级为“积极合作伙伴” [5] - **商业化应用支撑**:尽管 API 定价处于行业高端,但通过提升 token 效率和首答准确率,实际任务完成成本增幅有限,为模型在企业级市场的大规模应用提供了坚实支撑 [5]
OpenAI深夜双王炸,GPT-5.1 Pro紧急发布,降维打击Gemini 3
36氪· 2025-11-20 11:37
新产品发布动态 - OpenAI静默发布GPT-5.1 Pro,仅通过版本更新日志官宣,未发布专门博文 [1][8] - 同日推出全新王牌代码模型GPT-5.1-Codex-Max,并已在Codex平台正式上线 [2] - GPT-5.1 Pro已向所有Pro订阅用户推出,GPT-5.1-Codex-Max支持CLI、IDE扩展、云端和代码审查,API接口即将上线 [8] GPT-5.1 Pro性能特点 - 主打“情商智商”双强,将两大优势推向更高层次 [2] - 第三方评估显示其在high推理模式下能力指数(ECI)得分达151,与GPT-5实力相当 [30] - 在清晰度和洞察力方面有质的提升,回答内容更完整自洽、形象生动且易于理解,尤其擅长深入思考、规划和研究的任务 [34][35] - 指令遵循能力是最大亮点,能严格执行要求而不跑偏,处理棘手难题时比其他模型更聪明 [37][38] - 弱点在于反应速度较慢,前端和用户体验设计以及创意写作是弱项,且只能通过ChatGPT界面使用,无法集成到IDE [35][39][40] GPT-5.1-Codex-Max技术优势 - 基于GPT-5.1构建,专为软件、工程、数学、研究等智能体任务进行专门训练,能力更强、反应更快且更省token [4] - 是首个原生支持压缩机制的模型,可自动整理历史内容并保留关键上下文,实现长时间跨度的连贯性任务处理 [6][22] - 能连续自主工作超24小时,处理数百万token,适用于项目重构、深度调试、多小时智能体循环等长时间高强度开发任务 [5][23] - 在SWE-bench Verified评估中取得77.9%的高分,超越此前所有模型,在SWE-Lancer IC SWE评估中得分达79.9% [12][13] GPT-5.1-Codex-Max效率与成本 - 在中等推理强度下,其表现优于GPT-5.1-Codex,且思考过程所用token量减少约30% [14] - 在实际演示中,生成浏览器应用仅用27k思考token,代码更加精简,显著降低开发成本 [16][17] - 新增Extra High推理强度选项,可为不敏感延迟的任务花费更多时间以获得优质答案,但日常使用推荐中等强度 [16] 市场影响与采用情况 - OpenAI内部已有95%的工程师每周使用Codex,引入后团队Pull Request数量提升约70% [25] - 新模型搭配持续升级的CLI、IDE扩展、云集成与代码审查工具,预计将大幅提升编程效率 [25] - 2025年临近收官,AI领域竞争加剧,GPT-5.1 Pro与Gemini 3 Pro之间的对决成为焦点 [8]
一文读懂谷歌最强大模型Gemini 3:下半年最大惊喜,谷歌王者回归
36氪· 2025-11-19 17:44
文章核心观点 - Gemini 3的发布标志着AI领域取得重大突破,其跃进式的性能提升在多个基准测试中实现对竞争对手的断层式碾压 [4][5][7][10] - 该模型不仅是技术升级,更体现了谷歌以AI重新定义整个生态系统的平台级野心,在模型能力、开发者工具、用户体验等多战线同时发力 [11][12] - Gemini 3证明了Scaling Law依然有效,其通过改进预训练、后训练及采用新架构实现了巨大性能跃升,未看到明显天花板 [55][56][58] Benchmark性能表现 - 在衡量终极思考能力的Humanity‘s Last Exam测试中,Gemini 3 Pro得分达37.5%(无工具)和45.8%(带工具),远超Gemini 2.5 Pro的21.6%和Claude Sonnet 4.5的13.7% [14][16] - ARC-AGI-2测试中取得31.1%的分数,显著高于GPT-5.1的17.6%和Gemini 2.5 Pro的4.9%,展现出接近人类的流体智力 [17] - 数学能力上,在新MathArena Apex测试中获得23.4%的成绩,而Gemini 2.5 Pro仅0.5%,Claude Sonnet 4.5为1.6%,GPT-5.1为1.0% [19] - 多模态理解方面,MMMU-Pro得分81.0%,CharXiv Reasoning达81.4%,ScreenSpot-Pro取得72.7%,是GPT-5.1的二十倍 [21][22] - 编码能力实现翻盘,LiveCodeBench Pro的Elo Rating达2,439分,比第二名高出200多分,在Design Arena五个代码赛区中的四个占据榜首 [25][28] - 长上下文处理能力突出,MRCR v2 benchmark中128k上下文平均得分77.0%,1M上下文逐点得分26.3% [31] - 综合业务运营能力测试Vending-Bench 2中,实现$5,478.16平均净值,远超GPT-5.1的$1,473.43和Gemini 2.5 Pro的$573.64 [32] 前端与用户体验革新 - 推出“生成式UI”功能,能根据用户请求动态生成完全定制的用户界面,彻底改变人机交互范式 [41][42] - 模型具备审美智能,能理解用户偏好并自适应调整设计风格,在多轮对话中学习用户的审美倾向和编码风格 [41][45] - 前端开发角色被重新定义,模型能生成符合现代审美的响应式设计、色彩搭配和动画效果 [46][49] Agent能力整合 - 成为首个在模型界面融合通用Agent能力的产品,能够理解任务、制定计划、使用工具、反思改进 [50][51] - 工具使用能力相比2.5 Pro提升30%,能更准确选择工具并组合多个工具完成复杂任务 [51] - 整合Google生态系统,通过“My Stuff”文件夹设计让用户更容易管理模型创建的内容,应用内可访问超500亿条商品列表 [53] 技术架构与成本效益 - 采用稀疏MoE架构,是基于算法、感知、执行全管线优化的全新架构而非简单微调 [58] - 尽管API定价较高(每百万输入/输出Token为$2/$12),但因token效率更高,实际使用成本增加仅12%左右 [59] - 模型能一次性正确完成任务,总体使用成本可能反而更低,开启了新的性能-成本比逻辑 [60] 行业影响与定位 - 终结了OpenAI长久以来的霸榜神话,首次在语言模型领域以绝对优势占据领袖地位 [35][36] - 标志着从“聊天机器人时代”向“数字同事时代”的转变,human in the loop角色从“修复AI错误”演变为“指挥AI工作” [63] - 实际使用体验获得高度认可,在调试复杂错误、重构文件、解决困难问题等实际应用场景建立新SOTA [39]
一文读懂谷歌最强大模型Gemini 3:下半年最大惊喜,谷歌王朝回归
36氪· 2025-11-19 11:10
行业格局与产品定位 - Gemini 3的发布打破了2025年下半年AI领域的阶段性平淡,标志着谷歌在模型能力上实现了对OpenAI的超越,是谷歌第一款真正意义上让OpenAI黯然失色的模型 [1][5] - 公司不满足于单一维度领先,而是在模型能力、开发者工具、用户体验、搜索集成、多语言覆盖等所有战线上同时发力,展现出用AI重新定义整个Google生态的平台级野心 [6] - 此次发布被视作谷歌的“王者归来”,通过实实在在的数据和立即可用的产品,证明了Scaling Law依然是通往AGI道路上的指引灯塔 [42] 核心模型性能表现 - 在衡量基础思考能力的Humanity‘s Last Exam测试中,Gemini 3 Pro无工具条件下得分37.5%,带搜索和代码执行工具条件下得分45.8%,显著高于Gemini 2.5 Pro的21.6%和Claude Sonnet 4.5的13.7% [8] - 在被誉为AI界图灵测试的ARC-AGI-2视觉推理测试中,Gemini 3 Pro取得31.1%的分数,远超GPT-5.1的17.6%和Gemini 2.5 Pro的4.9%,展现出接近人类的流体智力 [9] - 在新的MathArena Apex竞赛级数学测试中,Gemini 3 Pro获得23.4%的成绩,而Gemini 2.5 Pro、Claude Sonnet 4.5和GPT-5.1的得分分别仅为0.5%、1.6%和1.0% [11] - 在多模态理解方面,MMMU-Pro得分81.0%,CharXiv Reasoning得分81.4%,ScreenSpot-Pro截图理解测试得分72.7%,是Claude Sonnet 4.5的两倍,GPT-5.1的二十倍 [13] - 在长上下文能力上,MRCR v2 benchmark中128k上下文的平均得分为77.0%,1M上下文的逐点得分为26.3%,均远超竞争对手 [21] 编码与智能体能力 - 在LiveCodeBench Pro竞争性编程测试中,Gemini 3的Elo评分为2,439分,比第二名高出200多分,而在测试智能体工具使用能力的t2-bench中取得85.4%的高分,远超Gemini 2.5 Pro的54.9% [15][16] - 在终端环境编码测试Terminal-Bench 2.0中取得54.2%的成绩,比第二名高出11个百分点,在实战编码竞技场Design Arena的五个代码赛区中的四个占据榜首 [16][18] - 在衡量长时间跨度和多步骤任务能力的Vending-Bench 2中,Gemini 3实现$5,478.16的平均净值,远超GPT-5.1的$1,473.43和Gemini 2.5 Pro的$573.64 [22] - 模型成为首个在模型界面融合通用智能体能力的产品,工具使用能力相比2.5 Pro提升了30%,能更准确地选择正确工具并理解何时需要组合多个工具完成复杂任务 [34] 前端与用户体验创新 - 模型展现出理解审美的能力,能生成响应式设计自然流畅、色彩搭配符合现代审美、动画效果恰到好处的代码,部分源于其训练数据包含大量图像、视频和网页数据 [29] - 公司推出“生成式UI”概念,AI可根据每个请求动态生成完全定制的用户界面,例如为“RNA聚合酶是如何工作的?”问题生成直观可点击的交互式工具 [29] - 模型能根据用户意图、使用场景、目标受众改变界面设计,为5岁孩子和成年人讲解微生物时会采用完全不同的界面设计、交互模式和内容深度 [30] - 在多轮对话中,模型能理解用户的审美偏好和编码风格,并自动在后续生成中调整,例如减少极简主义用户的装饰性元素或增加喜欢动画用户的交互效果复杂度 [31] 技术架构与规模定律 - 模型采用稀疏混合专家架构,表明其并非Gemini 2.5的微调而是全新架构,团队通过改进预训练和后训练实现了巨大跃升,2.5到3.0之间的差距是所见最大之一 [37][38] - 公司在多模态能力、智能体自动化强化方法以及持续学习方面取得进展,例如Veo 3、Genie 3、AI Co-scientist、SIMA 2以及DiscoRL论文,形成了从算法到感知再到执行的性能乘数效应 [38][39] - 尽管Gemini 3 Pro的API定价为每百万输入/输出Token $2/$12,是目前运行成本最高的模型之一,但其token效率更高,在相同任务上用的tokens更少,使得实际使用成本增加只有12%左右 [40] 市场影响与行业趋势 - 根据Artificial Analysis的最终排名,Gemini 3 Pro以显著优势位居第一,比GPT-5.1高出3分,这是Google第一次在其推出的语言模型中以绝对优势占据领袖地位 [24] - 行业观察指出,聊天机器人的时代正在向数字同事的时代转变,human in the loop的角色正从“修复AI错误的人”演变为“指挥AI工作的人”,这可能是自ChatGPT发布以来最大的变化 [42]
首个完整开源的生成式推荐框架MiniOneRec,轻量复现工业级OneRec!
机器之心· 2025-11-17 17:00
生成式推荐新范式概述 - 传统“召回+排序”级联式推荐架构收益触顶,生成式推荐成为行业热门话题[2] - 生成式推荐利用层次化语义ID表示用户历史序列,直接生成用户下一批可能交互的物品列表,显著提升模型智能上限并引入Scaling Law可能性[2] - 快手OneRec通过端到端推荐大模型实现资源可控且带来真实线上收益的推荐革命[2] MiniOneRec开源框架核心贡献 - 提供生成式推荐领域首个完整开源方案,实现全链路、一站式、端到端训练与研究平台[4] - 代码、数据集、模型权重全部开源,仅需4-8卡A100同级算力即可轻松复现[6] - 框架提供丰富SID Construction工具箱,集成RQ-VAE、RQ-Kmeans、RQ-VAE-v2等先进量化算法[9] 生成式推荐Scaling Law验证 - 在Amazon Review公开数据上训练从0.5B到7B的模型版本,验证模型规模增大时训练损失和评估损失持续下降[7][8] - 结果显示生成式推荐范式在参数利用效率上具有优势[8] 世界知识对推荐性能的影响 - 引入大模型世界知识能显著提升生成式推荐性能[13] - 基于预训练LLM初始化并进行语义对齐的MiniOneRec性能始终优于未对齐变体,表明通用序列处理能力和世界知识带来显著额外收益[15] - 框架将SID token添加至LLM词表,在SFT和RL阶段共同优化推荐与对齐任务[16] 面向推荐的强化学习优化 - 采用Constrained Beam-Search替代传统采样策略,高效生成多样化候选物品[21] - 在准确性奖励外引入排名奖励,对高置信度困难负样本施加额外惩罚以强化排序信号区分度[21] - 在同一Amazon基准上,MiniOneRec在HitRate@K和NDCG@K指标上全面领先传统推荐、生成式推荐及LLM推荐范式[22] 生成式推荐行业应用与展望 - 行业存在“改革派”与“革命派”两条路径:美团MTGR、淘天URM利用生成式架构能力进行增量改进;快手OneRec则颠覆传统方案实现端到端生成[25][26] - 生成式范式已在部分大厂走出可行性验证阶段,开始创造真实业务收益[27] - 生成式推荐展现出作为下一代推荐系统新范式的显著潜力[24]