强化学习
搜索文档
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-11-29 12:02
大会核心信息 - 大会名称为量子位MEET2026智能未来大会,将于2025年12月10日在北京金茂万丽酒店举行 [1][119] - 大会主题为“共生无界,智启未来”,关注AI等智能科技穿透产业、学科与场景边界,成为驱动社会演进的核心动能 [2] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿话题,涵盖学术前沿与商业落地的最新碰撞 [3][4] - 大会将吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [122] 嘉宾阵容与背景 - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁 [11][12] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士,曾主持国家973项目等20余项科研项目 [15] - 王仲远:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook、微软亚洲研究院,发表论文100余篇,获ICDE 2015最佳论文奖 [19] - 韩旭:文远知行WeRide创始人兼CEO,带领公司在全球11国超30城开展自动驾驶业务,并于2024年登陆纳斯达克 [27][28] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者 [33] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一 [36][37] - 尤洋:潞晨科技创始人兼董事长,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉 [42][43] - 杨帆:商汤科技联合创始人、大装置事业群总裁,主要负责AI大装置战略业务规划与落地,主导建设AI专用计算中心 [45] - 万卫星:高通公司AI产品技术中国区负责人,负责高通智能终端侧AI引擎软硬件的规划及生态系统建设 [48][49] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务在大中华区的落地、产品管理及业务拓展,拥有超过20年企业级业务经验 [53][54] - Dennis Yue:Google Cloud大中华区企业与中国初创业务负责人,在云计算和IT服务领域拥有超过30年领导经验 [58] - 赵俊博:浙江大学百人计划研究员、蚂蚁集团资深技术专家,聚焦大模型与合成数据技术,首创数据库大模型TableGPT [67] - 喻友平:中关村科金总裁,前百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [71][72] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念推动AGI发展 [75][76] - 乔梁:太初元碁联合创始人兼COO,清华大学计算机系博士,曾主导实现国产异构众核平台上首个超大规模并行深度学习框架 [80][81] - 王潜:自变量机器人创始人兼CEO,致力于研发由端到端大模型驱动的通用机器人 [84][85] - 姚欣:PPIO联合创始人兼CEO,P2P-Streaming协议发明人,曾创办覆盖全球4.5亿用户的PPTV网络电视平台 [88][89][90] - 屠静:卓世科技创始人兼CEO,前百度地图、百度糯米、百度APP核心高管,具备丰富的AI行业实践经验 [99][100] - 赵天成:联汇科技CEO兼首席科学家,研发的Om多模态大模型是国内首个通过工信部信通院评测认证的预训练大模型 [108][109] 大会发布内容 - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [5][116] - 人工智能年度榜单将从公司、产品、人物三大维度评选五类奖项,是AI行业最具影响力榜单之一 [117] - 年度AI十大趋势报告将提名正在释放巨大潜力的十大AI趋势,并进行深入分析,提名代表机构及最佳案例 [118]
混元OCR模型核心技术揭秘:统一框架、真端到端
量子位· 2025-11-29 12:02
模型发布与市场反响 - 腾讯混元大模型团队正式发布并开源商业级、轻量级OCR专用视觉语言模型HunyuanOCR,参数规模为10亿[1] - 模型在Hugging Face趋势榜排名前四,GitHub标星超过700,并在发布当天被vllm官方团队接入[3] - 模型已在Hugging Face和ModelScope等平台开源,并提供基于vLLM的高性能部署方案[9] 核心性能与技术突破 - 模型在ICDAR 2025 DIMT挑战赛小模型赛道荣获冠军,并在OCRBench上取得30亿参数以下模型SOTA成绩[2] - 实现全能与高效统一,在轻量框架下支持文字检测识别、复杂文档解析、信息抽取、视觉问答和图像翻译等多项功能[5] - 采用极简端到端架构,摒弃版面分析等前处理依赖,彻底解决流水线错误累积问题,大幅简化部署流程[6][18] - 通过数据驱动与强化学习创新,验证高质量数据价值并显著提升多项OCR任务性能[7][8][35] 模型架构设计 - 采用原生ViT和轻量LLM结合的协同架构,由原生分辨率视觉编码器、自适应MLP连接器和轻量级语言模型构成[16] - 视觉部分基于SigLIP-v2-400M,引入自适应Patching机制支持任意分辨率输入,避免长文档场景下的图像失真[16] - 语言模型侧基于Hunyuan-0.5B,引入XD-RoPE技术将一维文本、二维版面及三维时空信息进行解耦与对齐[17] - 贯彻端到端训推一体范式,各项任务仅需单次推理即可获取完整效果,消除传统架构中的错误累积问题[14][19] 训练数据构建 - 研究团队构建包含超2亿图像-文本对的大规模高质量多模态训练语料库,覆盖9大核心真实场景和超过130种语言[21] - 基于SynthDog框架进行深度扩展,实现130多种语言的段落级长文档渲染及双向文本支持,提升跨语言泛化能力[24] - 开发集难例挖掘、指令式QA生成与一致性校验于一体的自动化流水线,实现对同一图像进行多维度统一标注[26] - 通过合成+仿真策略增强模型鲁棒性,引入Warping变形合成流水线模拟几何变形和成像退化等自然场景缺陷[24][25] 预训练策略 - 采用四阶段预训练策略:第一阶段冻结LLM训练ViT与适配器,使用500亿token数据实现视觉语言对齐[29][30][33] - 第二阶段解冻所有参数进行端到端学习,使用3000亿token数据增强对复杂结构化内容的感知理解能力[30][33] - 第三阶段将上下文窗口扩展至32k,满足长文档图像解析需求[32][33] - 第四阶段开展应用导向的退火训练,使用240亿token人工标注与合成数据,规范模型响应模式[32][33] 强化学习方案 - 创新性将强化学习应用于轻量级OCR专家模型,针对不同任务类型采用混合奖励策略[35][36] - 文字检测识别和文档解析任务采用基于可验证奖励的强化学习,翻译和VQA任务采用LLM-as-a-judge奖励机制[36] - 采用群组相对策略优化算法,引入严格长度约束与格式规范机制,确保输出符合预定义Schema[41][42] - 通过严苛的数据筛选流程,利用LLM过滤低质数据,保持训练数据的质量、多样性与难度平衡[39]
明日开课!端到端量产究竟在做什么?我们筹备了一门落地课程...
自动驾驶之心· 2025-11-29 10:06
行业技术趋势与人才需求 - 端到端自动驾驶技术是当前车企的核心招聘方向,但具备量产经验的全栈人才稀缺 [1] - 技术层面需攻克导航信息引入、强化学习调优、轨迹建模与优化等难题,这些是目前量产工作的前沿 [1] - 行业对具备从模型优化、场景优化、数据优化到下游规划兜底等全栈能力的端到端人才需求迫切 [1] 课程核心内容与结构 - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [3] - 课程设计聚焦量产实战与就业,包含从算法框架到具体量产经验的完整链条 [3] - 课程采用小班制,仅限35个招生名额 [3][5] 讲师背景 - 讲师王路拥有C9本科和QS50博士学历,发表多篇CCF-A/B论文 [6] - 现任国内顶级Tier1算法专家,从事大模型、世界模型等前沿算法的预研与量产工作 [6] - 具备丰富的端到端算法研发和实战经验,其研发的算法已成功落地量产 [6] 详细课程大纲 - **第一章:端到端任务概述** 介绍感知任务一体化架构、规控算法学习化方案,以及开源数据集与评测方式 [9] - **第二章:两段式端到端算法** 讲解两段式框架建模、感知与PNC信息传递、优缺点,并以PLUTO算法实战 [10] - **第三章:一段式端到端算法** 介绍基于VLA、Diffusion等方法的一段式框架,并通过VAD系列深入教学 [11] - **第四章:导航信息的量产应用** 讲解主流导航地图格式、内容,及其在端到端模型中的编码与嵌入方式 [12] - **第五章:自动驾驶中的RL算法介绍** 重点介绍强化学习算法及训练策略,以弥补纯模仿学习的不足 [13] - **第六章:端到端轨迹输出优化** 进行NN Planner项目实战,涵盖基于扩散模型、自回归的模仿学习及后续的强化学习 [14] - **第七章:兜底方案 - 时空联合规划** 介绍量产中用于轨迹平滑与优化的后处理算法,如多模态轨迹打分搜索 [15] - **第八章:端到端量产经验分享** 从数据、模型、场景、规则等多视角分享量产实际问题解决经验 [16] 课程安排与学员要求 - 课程于11月30日开课,为期三个月,采用离线视频教学,辅以VIP群答疑和三次线上答疑 [17] - 章节内容按周解锁,从第一章到第八章持续至次年2月24日 [17][19] - 面向进阶学员,建议自备算力在4090及以上的GPU,并熟悉BEV感知、视觉Transformer、强化学习、扩散模型等理论基础及Python/PyTorch、mmdet3d框架 [18]
AI大神伊利亚宣告 Scaling时代终结!断言AGI的概念被误导
混沌学园· 2025-11-28 20:35
AI发展范式转变 - AI发展正从"扩展时代"回归"研究时代",仅靠堆砌算力已无法实现突破[2][18] - 当前算力规模已达到前所未有的水平,但再投入100倍资源也难以带来质变[18] - 行业将重新进入探索状态,需要尝试多种新方法并观察有趣现象[20] AI技术瓶颈与突破方向 - 当前顶尖AI存在严重的"评估表现"与"现实应用"脱节问题,核心在于模型泛化能力远不如人类[3][21] - 人类情绪相当于AI的"价值函数",能为决策提供即时反馈,这是AI缺失的关键能力[3][9] - 价值函数能让强化学习更高效,通过预训练让模型获得"情绪驱动的决策能力"是重要方向[9][21] - 人类拥有比AI更好的学习算法,在样本效率和持续学习上具有明显优势[3][27] 研究公司战略定位 - SSI定位为纯粹的"研究公司",不参与算力竞赛,专注于突破性研究[3][35] - 公司已筹集30亿美元资金,专注于研究而非产品开发,盈利模式将随研究推进自然显现[33][35] - 公司计划在"直奔超智能"与"渐进部署"间寻找平衡点,避免日常市场竞争干扰[36] 超级智能定义与发展路径 - 超级智能被定义为"能够学会做所有事"的成长型心智,而非掌握所有技能的成品[42][43] - 超级智能会像15岁少年一样在实践中学习,通过部署实现持续成长[41][44] - 广泛部署可能引发快速经济增长,实现"普遍高收入"的短期效果[46][57] AI治理与安全理念 - 主张通过"渐进式部署和公开展示"让人们感受AI能力与风险[3][49] - 建议构建关心所有"有情生命"的AI,认为这比只关心人类更根本且更简单[3][51] - 当AI变得更强大时,公司和政府会更有意愿采取安全措施,行业合作将加强[50] 技术发展趋势预测 - 预训练导致各公司模型同质化,强化学习才是产生差异化的路径[4] - 人类神经元可能比想象中进行了更多计算,这可能是AI尚未掌握的优势[30] - 研究进展受想法和实现能力双重制约,当前算力已足够支撑想法验证[32]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-11-28 12:11
大会概况 - 大会主题为"共生无界,智启未来",关注AI等智能科技穿透产业、学科与场景边界,成为驱动社会演进的核心动能[2] - 聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[3] - 涵盖学术前沿与商业落地的最新碰撞,以及来自Infra、模型、产品产业的领先技术成果[4] - 将权威发布人工智能年度榜单与年度AI趋势报告[5] 参会嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长、中国工程院院士,数字视频和AI领域世界级科学家,曾任百度总裁、微软全球资深副总裁[11][12] - 孙茂松:清华大学人工智能研究院常务副院长、欧洲人文和自然科学院外籍院士,主持国家973项目等20余项科研项目[15] - 王仲远:北京智源人工智能研究院院长,前快手、美团、Facebook、微软亚洲研究院高管,发表论文100余篇,获美国专利5项、中国专利50余项[19] - 韩旭:文远知行WeRide创始人兼CEO,带领公司在全球11国超30城开展自动驾驶业务,2024年登陆纳斯达克成为"全球通用自动驾驶第一股"[27][28] - Daniel Povey:小米集团首席语音科学家、IEEE Fellow,著名开源语音识别工具Kaldi提出者,论文引用近52000次[33] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一[36][37] - 尤洋:潞晨科技创始人、新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜等荣誉,曾任职谷歌、微软、英伟达等公司[42][43] - 杨帆:商汤科技联合创始人、大装置事业群总裁,主导建设人工智能专用计算中心,推动AI基础设施产业布局[45] - 万卫星:高通公司AI产品技术中国区负责人,负责智能终端侧AI引擎软硬件规划及生态系统建设[48][49] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验,中国公有云服务早期探索者[53][54] 大会发布内容 - 将发布2025人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[117] - 将发布2025年度AI十大趋势报告,结合技术成熟度、落地现状、潜在价值等因素深入分析行业趋势[118] 大会影响力 - 每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[122] - 已成为智能科技行业年度风向标,汇聚技术、产业、投资领域代表性企业和人物[122]
理想披露了一些新的技术信息
自动驾驶之心· 2025-11-28 08:49
端到端模型与VLA技术路线 - 理想汽车在端到端模型结合视觉语言模型量产的后期发现两大问题:训练数据量超过1000万片段后,模型性能提升速度显著变慢,5个月内平均无干预接管里程仅增长约2倍[5];端到端模仿学习缺乏深度逻辑思维能力,导致违反常理行为、决策不够智能及安全感不足[5] - 为解决上述问题,公司引入视觉语言模型,并主推视觉语言行为模型量产,期望其平均无干预接管里程达到1000公里以上[2][5] - 视觉语言行为模型具备三大核心能力:空间智能代表对远距空间和全局语义的理解能力;语言智能代表通过思维链生成决策并听懂人类指令,联合训练后推理速度可达10赫兹以上;行为策略代表使用扩散模型直接生成平滑轨迹,支持多种驾驶可能性[6] 仿真测试与闭环训练体系 - 公司升级模型评测方式,使用世界模型进行闭环仿真和测试,使后训练和强化学习环节的评测效率更高,测试成本从每公里18.4元大幅降低至0.53元[9] - 基于世界模型构建的仿真平台可实现强化学习,架构包括云端训练平台进行数据管理和奖励模型更新,更新后的模型在仿真平台运行,高价值数据反馈至样本库[11] - 为配合区域仿真,公司构建世界模型3D资产库,可根据训练需求将资产注入仿真世界作为交通参与智能体[12] 算力资源配置 - 理想汽车总算力达到13EFLOPS,其中10EFLOPS用于训练,3EFLOPS用于推理[13] - 公司拥有5万张训练和推理卡,推理卡算力等效3万个L20,训练卡算力等效2万个H20[13] - 在视觉语言行为模型时代,推理算力尤为重要,缺乏推理卡将无法生成仿真训练环境[13]
NeurIPS 2025最佳论文开奖,何恺明、孙剑等十年经典之作夺奖
36氪· 2025-11-27 15:27
NeurIPS 2025奖项概览 - NeurIPS 2025共评选出4篇最佳论文和3篇亚军论文(Runners Up)[1][2] - 本届会议是首个双城会议,分别于12月2日-7日在圣地亚哥和11月30日-12月5日在墨西哥城举办[3] - 时间检验奖(Test of Time Paper Awards)授予了10年前发表的Faster R-CNN论文,该论文已被引用超过56,700次[49][50] 最佳论文一:大语言模型多样性评估 - 研究核心是评估大语言模型(LLM)在开放式生成任务中的输出多样性,并提出了“人工蜂群思维效应”(Artificial Hivemind effect)的概念,指出现有模型存在显著的输出同质化问题[5][6][10] - 为解决评估方法不足的问题,研究团队推出了大规模数据集Infinity-Chat,该数据集包含2.6万条真实世界开放式用户查询以及31,250条人类标注,每个示例均由25位标注者独立评判[6][12] - 研究首次提出了针对LM开放式提示的完整分类体系,包含6大顶层类别及其下17个子类别,发现最先进的LM、奖励模型与LM评判器较难校准人类评分[8][12] 最佳论文二:门控注意力机制 - 论文由阿里千问团队等机构合作完成,核心发现是在缩放点积注意力(SDPA)后引入头部特异性Sigmoid门控这一简单修改,可持续提升模型性能[14][15][17] - 该改进在3.5万亿词元数据集上训练的15B混合专家模型(30种变体)与1.7B稠密模型上得到验证,能增强训练稳定性、允许更大学习率,并改善缩放特性[15][17] - 门控机制的有效性归因于两个关键因素:在Softmax注意力的低秩映射中引入非线性变换,以及采用查询依赖的稀疏门控分数调控SDPA输出,该技术已应用于Qwen3-Next模型系列[18] 最佳论文三:自监督强化学习的深度缩放 - 研究聚焦于自监督强化学习(RL)的网络深度缩放,证明将网络深度提升至1024层可带来显著性能突破,而近年多数RL研究采用的浅层架构仅约2-5层[21][24] - 在无监督目标条件设定下,新方法在模拟运动与操控任务上将自监督对比强化学习算法的性能提升了2至50倍,显著超越其他目标条件基线模型[24][26] - 网络深度的增加不仅提升了任务成功率,更引发了智能体学习行为的质性转变,实现了可扩展性的质的飞跃[24][26] 最佳论文四:扩散模型的隐式正则化 - 研究旨在理解扩散模型避免训练数据记忆并实现泛化的内在机制,发现了两个关键时间尺度:早期阶段τgen(模型开始生成高质量样本)和后期阶段τmem(记忆现象显现)[28][29] - 关键规律是τmem随训练数据量n呈线性增长,而τgen保持恒定,形成了随n扩大的有效训练时间窗口,揭示了训练动态中存在的隐式动态正则化机制[29][31] - 结论通过基于标准U-Net架构在真实与合成数据集上的数值实验,以及采用高维极限可解析随机特征模型的理论分析得到验证[31] 亚军论文核心发现 - 论文一系统评估了强化学习(RLVR)对大语言模型推理力的真实增益,结果显示RLVR主要提升采样效率,在小k(如k=1)更易命中正确路径,但在大k时基座模型表现更好,当前RL训练并未诱发全新的推理模式[33][34][37] - 论文二解决了“无标签数据在在线学习中的力量”这一开放问题,对任意Littlestone维度为d的概念类,传导式在线学习的最小错误次数精确为Θ(√d),与标准在线学习的Θ(d)形成严格的二次差距[38][39][41] - 论文三提出“表征叠加”是神经缩放律(Neural Scaling)的关键机制,指出LLM用少量维度承载超量特征,由此产生向量几何重叠并决定损失的Scaling形态,该发现与Chinchilla Scaling Law一致[42][46][48] 时间检验奖获奖工作 - 获奖论文《Faster R-CNN》由任少卿、何恺明、Ross Gisshick和孙剑合著,对计算机视觉领域产生了深远影响,成为众多后续研究工作的基石[50] - 该论文在实现极高检测精度的同时,达到了接近实时的检测速度(每秒5帧),使基于神经网络的目标检测模型得以应用于现实世界的各种场景[50] - 这是首个用完全可学习的两阶段流程(包括区域建议网络RPN和检测网络)取代传统选择性搜索和人工设计候选框方法的工作[50]
离开OpenAI后,苏茨克维1.5小时长谈:AGI最快5年实现
36氪· 2025-11-27 13:43
当前AI发展阶段的评估 - AI技术已实现但经济影响尚不显著,投资巨大但日常体验未发生根本改变[3] - 模型在评估测试中表现出色但实际应用效果和经济贡献存在明显滞后[4] - 模型能力存在"锯齿状"落差,常犯循环性低级错误,泛化能力差[5][6] AI模型训练与性能瓶颈 - 单纯堆数据与算力的"规模化"路径已见顶,预训练数据即将耗尽[5][17] - 强化学习训练使模型过于专注和狭隘,缺乏"意识"导致基础任务表现不佳[4] - 训练环境设计变量过多,可能无意中优化评估目标而忽视实际应用需求[6] - 模型像"应试专家",通过海量题目填鸭式训练成为答题高手但难以灵活应用知识[7] 价值函数与AI学习效率 - 价值函数被类比为AI的"情绪系统",可引导AI更高效、鲁棒地学习[5][14] - 价值函数能提供中间步骤反馈,加快学习过程,而非仅依赖最终结果评估[14] - 人类拥有内在价值感知,能快速自我纠正,而模型缺乏此类机制[25] - 情绪作为相对简单的价值函数机制,在进化中硬编码且至今有效服务人类[16] 行业发展阶段与范式转变 - 行业从2020-2025年的"规模化时代"回归到"研究时代",但拥有更强大计算资源[18] - 规模化"吸走了房间里的所有氧气",导致创新想法稀缺,公司数量远超新想法数量[28] - 强化学习正成为新的规模化目标,其计算投入可能已超过预训练[19] - 研究所需计算资源并非绝对最大规模,像Transformer最初仅在8-64个GPU上训练[29] SSI公司战略与差异化 - SSI已筹集30亿美元资金,专注于研究"直通超级智能"路径[5][30] - 公司不急于商业化,专注研究,与其他公司将资源用于推理和产品开发形成对比[30][32] - 采用不同的技术方法,主要区别在于技术路径,认为最终策略会逐渐收敛[52][53] - 计划可能调整,考虑渐进式部署,让AI在全球发挥作用并影响世界[33][34] 泛化能力与样本效率 - 模型泛化能力远差于人类,是当前最根本的问题之一[20][21] - 人类样本效率高可能与进化赋予的视觉、听觉和运动等先验知识有关[21][22] - 人类在语言、数学和编程领域的学习优势表明存在更高效的基础学习机制[23] - 人类学习更具无监督特性,所需数据样本少,过程更灵活和鲁棒[24][25] 超级智能发展路径与影响 - 人类级别AGI预计在5到20年内实现[5][55] - 超级智能可能表现为"超级智能的15岁少年",非常聪明但知识有限,通过部署持续学习[36] - 达到关键点后,广泛部署将引发快速经济增长,不同国家政策将导致增长差异[37][38] - 可能出现多个超级智能体,而非单一系统,形成专业化分工[58][59] AI对齐与安全策略 - 倡导构建"关心有情生命的AI",认为这比对仅关心人类更为稳健[41][45] - 随着AI能力提升,行业处理安全问题的方式将发生变化,公司会变得更加警觉[40][41] - 对齐策略最终会趋同,包括可靠沟通、确保最早超级智能是对齐的等目标[53][57] - 长期均衡可能通过人类与AI融合实现,例如通过改进版Neuralink成为半AI生物[47] 模型多样化与自我博弈 - 当前模型同质化严重,主要因预训练数据相似,强化学习是分化开始[61][62] - 自我博弈可通过计算而非数据创建模型,激励方法多样性[62][63] - 智能体间竞争自然促使差异化思考,是打破"模型同质化"的路径之一[5][63] - 完全复制相同思维收益递减,真正需要的是具有不同想法的智能体[60] 研究方法与理念 - 好研究应兼具简洁、优雅与对大脑机制的正确借鉴[5][64] - 研究需要"自上而下的信念",在实验结果与信念相悖时坚持方向[66] - AI应该具有特定"美学",思考人类本质但必须以正确方式理解[64] - 分布式表示、从经验中学习等概念受到大脑运作方式的启发[65]
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
量子位· 2025-11-27 12:34
核心技术突破 - 月之暗面联合清华大学推出全新加速引擎Seer,旨在不改变核心训练算法的前提下,大幅提升大语言模型的强化学习训练速度 [1] - Seer框架通过其三大核心模块(推理引擎池、请求缓冲区、上下文管理器)和三项关键技术(分段生成、上下文感知调度、自适应分组推测解码)协同工作,从内存、调度、推理三个维度全面优化rollout效率 [9][10][11][20] - 该技术针对RL训练中耗时的生成阶段,解决了其固有的工作负载不均衡和长尾延迟问题,资源利用率较低 [6] 性能提升数据 - 实验结果显示,Seer在不同工作负载下,相比基线系统veRL,吞吐量提升74%至97% [3][23] - 在长尾延迟方面,Seer表现显著优于veRL,例如在Moonlight任务中,veRL最后10%请求耗时3984秒(占总时长约50%),而Seer仅需364秒,延迟降低85% [23] - 在Qwen2-VL-72B和Kimi-K2任务中,长尾延迟分别降低93%和75% [23][24] - 专项实验表明,Seer的上下文感知调度策略在吞吐量上可达到理想Oracle水平的95%,其长尾延迟仅为无上下文调度策略的13% [27][28] 公司融资与资本动态 - 月之暗面即将完成新一轮融资,融资金额高达数亿美元,完成后公司估值将提升至40亿美元 [32][33] - 公司正与IDG Capital等投资机构洽谈,潜在投资方包括现有股东腾讯 [36] - 预期本轮融资将于今年年底前完成,并计划在明年下半年启动IPO进程 [37]
观众抢位中!锁定MEET2026,让我们畅聊AI|最新嘉宾阵容
量子位· 2025-11-27 12:34
大会核心信息 - 大会主题为“共生无界,智启未来”,关注AI等智能科技如何穿透产业、学科与场景边界,成为社会演进核心动能[2] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等年度热议话题[3] - 内容涵盖学术前沿与商业落地碰撞,以及来自Infra、模型、产品产业的领先技术成果[4] - 大会将权威发布人工智能年度榜单与年度AI趋势报告[5][93] 嘉宾阵容与研究方向 - 张亚勤:数字视频和AI领域世界级科学家,曾任百度总裁,发明多项图像视频压缩传输技术被国际标准采用[11][12] - 孙茂松:主持国家973项目、国家社科基金重大项目等20余项科研项目[15] - 王仲远:发表国际顶级学术会议及期刊论文100余篇,获得ICDE 2015最佳论文奖,研究兴趣包括大模型、多模态等[19] - 王颖:现任百度集团副总裁,负责百度文库、百度网盘等重点业务的产品创新和落地[23][24] - 何晓冬:发表论文200余篇,被引用6万余次,带领团队打造京东JoyAI大模型并应用于零售、物流、金融、健康等行业[28][29] - 韩旭:文远知行创始人,带领公司在全球11国超30城开展自动驾驶研发测试运营,并于2024年登陆纳斯达克[33][34] - Daniel Povey:小米集团首席语音科学家,著名开源语音识别工具Kaldi提出者,谷歌学术引用近52000次[38] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,是中文Linux奠基人之一[42][43][46] - 尤洋:潞晨科技创始人,曾获ACM-IEEE CS George Michael Memorial HPC Fellowship,曾任职谷歌、微软、英伟达等公司[48] - 杨帆:商汤科技大装置战略业务负责人,主导推动身份验证、娱乐、安防等核心业务规模化商业落地[51][52] - 万卫星:高通公司AI产品技术中国区负责人,负责高通智能终端侧人工智能引擎软硬件规划及生态系统建设[54][55] - 陈晓建:亚马逊云科技大中华区产品部总经理,负责云服务在大中华区落地、产品管理及业务拓展[58][59] - 朱宁:研究涵盖行为金融学、中国宏观经济等领域,所著《刚性泡沫》等畅销书被译为多国语言[62][63] - 赵俊博:首创数据库大模型TableGPT,参与过PyTorch早期研发,师从图灵奖得主Yann LeCun[66] - 喻友平:提出“平台+应用+服务”大模型落地三级引擎战略,带领公司入选2025《财富》中国科技50强[69][70] - 刘凡平:RockAI CEO,主导实现国内首个非Transformer架构大模型,首倡“群体智能”理念推动AGI发展[73][74] - 乔梁:太初元碁联合创始人,曾主导计算生物、流体力学等AI4S前沿领域国产应用研发及成果转化[78][79] - 王潜:自变量机器人创始人,致力于研发由端到端大模型驱动的通用机器人[81][82] - 杜知恒:小宿科技联合创始人,曾在红杉中国对冲基金、高瓴资本、百度等企业从事投资、战略岗位[86][87] - 徐达峰:蚂蚁集团平台体验技术部负责人,致力于通过AI驱动的前端研发范式革新实现企业级研发效能突破[90][91] 大会发布内容 - 将发布2025人工智能年度榜单,从公司、产品、人物三大维度评选五类奖项[94] - 将发布2025年度AI十大趋势报告,结合技术成熟、落地现状、潜在价值等因素提名十大AI趋势并进行深入分析[95] 大会影响力 - 每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[98] - 已成为智能科技行业年度风向标,汇聚技术、产业、投资领域代表性企业和人物[98]