大语言模型
搜索文档
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-10-11 07:32
自动驾驶VLA行业趋势 - 端到端技术之后,视觉语言动作模型成为学术界和工业界聚焦的核心方向,其提供类人思考能力并通过思维链形式展现车辆决策过程,以实现更可靠安全的自动驾驶能力[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案,主流自动驾驶企业及智驾方案供应商均在发力自研[4] 自动驾驶VLA技术核心 - 技术涉及视觉感知、大语言模型、Action建模、大模型部署及数据集制作等核心内容[6] - 最前沿算法包括思维链、混合专家模型、检索增强生成及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型从被动场景描述演变为主动规划组件[16] - 一体化VLA直接连接动作解码器,实现感知到控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA趋势由解释转向长思维链推理、记忆和交互,新增推理模块并同步输出控制信号和自然语言解释[17] 行业应用与课程设计 - 课程由清华大学教研团队联合开展,包含自动驾驶VLA三个子领域前沿算法细致讲解及两个实战加一个课程大作业[6] - 课程大纲涵盖VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及大作业共六章[12][13][14][15][16][17][20] - 课程选取华科与小米提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等主流算法进行实战代码学习[16][19] - 课程进度安排自10月20日开始,预计两个半月结课,采用离线视频教学配合VIP群答疑及三次线上答疑模式[23]
用4.39亿方块在《我的世界》手搓一款ChatGPT?玩家又一次“整活”,还把游戏玩出了新高度!
猿大侠· 2025-10-10 12:11
项目概述 - 开发者在《我的世界》游戏中构建了一个名为CraftGPT的功能性语言模型,该项目在社交媒体引发广泛关注[1] - 该项目完全使用游戏内的红石电路搭建,未使用命令方块或数据包等辅助工具[14] - 整个建筑占地规模达长1020方块×高260方块×宽1656方块,总计使用约4.39亿个方块[9] 技术规格 - 模型参数量为5,087,280个,在TinyChat数据集上使用Python进行训练,内容为基础英语对话[15] - 模型架构包含6层网络,embedding维度为240,词汇表大小为1920个token[16] - 为节省计算资源,大部分权重被量化为8位,但embedding和LayerNorm的权重分别保留18位和24位精度[17] - 模型上下文窗口仅为64个token,处理能力有限[18] 运行性能 - 生成一次回复需要约两个小时,若在标准游戏环境中运行可能耗时10年以上[22] - 必须使用MCHPRS(Minecraft高性能红石服务器)才能实现合理运行速度[22] - 最低需要32GB内存的电脑,推荐64GB或更高配置[23] 行业意义 - 该项目展示了在游戏环境中实现复杂计算系统的技术可行性[25] - 此前《我的世界》社区已出现16位CPU、运行《毁灭战士》的IRIS电脑等红石创新项目[25][26] - 有玩家在游戏中构建完整CNN神经网络,还有用红石实现神经网络的项目[26][29] - 开发者曾用红石搭建1Hz CPU,本次项目进一步提升了创意天花板[33]
Nature子刊:山东大学张磊/赵国平团队开发AI大模型,用于发现抗菌肽,对抗多重耐药菌
生物世界· 2025-10-10 12:05
行业背景与核心问题 - 世界卫生组织(WHO)列出的最棘手、最常见的多重耐药菌(ESKAPE)名单中,耐碳青霉烯类鲍曼不动杆菌(CRAB)位居首位[2] - 碳青霉烯类抗生素是治疗失败时的“最后一道防线”,但极易受到抗生素耐药性影响[2] - 抗菌肽因其广谱活性、快速杀菌机制及诱导耐药性可能性较小,成为传统抗生素有前景的替代品[2] 研究突破与核心方法 - 山东大学研究团队于2025年10月3日在《Nature Microbiology》发表研究,提出了一种生成式人工智能方法用于发现针对多重耐药菌的新型抗菌肽[3][10] - 研究开发了一个预训练的蛋白质大语言模型——ProteoGPT,用于挖掘和生成新型抗菌肽[4] - 该模型通过迁移学习被赋予特定领域知识,能够对数亿种多肽序列进行快速筛选,确保强抗菌活性并最小化细胞毒性风险[7] - 该方法利用数据挖掘和文本生成策略,实现高效且安全的抗菌肽高通量发现[10] 技术原理与模型优势 - 通用大语言模型在处理科学数据(如蛋白质)时存在不足,针对科学领域定制的模型应运而生[6] - ProteoGPT被进一步开发成多个专业化子模型,构建了一个顺序流程,在统一框架内实现抗菌肽的高通量挖掘和生成[7] 实验验证与效果 - 在体外实验中,无论是挖掘筛选还是生成的抗菌肽,对从重症监护病房分离出的CRAB和耐甲氧西林金黄色葡萄球菌(MRSA)均表现出较低的耐药性发展易感性[8] - 在小鼠大腿感染的体内动物模型中,这些抗菌肽显示出与临床使用抗生素相当甚至更优的治疗效果[8] - 这些抗菌肽不会造成器官损伤和破坏肠道微生物群,其作用机制包括破坏细胞质膜和膜去极化[8]
用4.39亿方块在《我的世界》手搓一款ChatGPT?玩家又一次“整活”,还把游戏玩出了新高度
36氪· 2025-10-09 19:44
项目概述 - 开发者Sammyuri在《我的世界》游戏中构建了一个名为CraftGPT的功能性小型语言模型[4][5] - 该项目在游戏内占地面积巨大,长1020方块、高260方块、宽1656方块,总计使用了约4.39亿个方块[7] - 整个系统完全基于游戏内的红石电路搭建,未使用命令方块或数据包[13] 技术规格 - CraftGPT是一个拥有5,087,280个参数的小型语言模型[7][13] - 模型采用6层结构,embedding维度为240,词汇表大小为1920个token[13] - 大部分权重被量化为8位,但embedding和LayerNorm的权重分别保留了18位和24位的精度[14] - 模型使用Python在TinyChat数据集上训练,内容为基础英语对话[13] 系统组件 - 核心组件包括分词器、位置嵌入、词元嵌入、层归一化、240×240矩阵乘法器(4个)[12] - 其他关键部件包括多头注意力机制、键值缓存、960×240矩阵乘法器、修正线性单元[12] - 系统还包含240×960矩阵乘法器、第二层到第六层的循环处理、解嵌入矩阵乘法器等功能模块[12] 性能表现 - 模型上下文窗口非常小,仅能处理64个token的对话[14] - 生成一次回复需要等待数小时,在标准游戏设置下生成一次回复可能耗时10年以上[16] - 即使使用MCHPRS高性能红石服务器优化,生成一次回复仍可能需要几个小时[16] 运行要求 - 运行服务器至少需要32GB内存的电脑,推荐配置为64GB或更多[17] - 用户需要下载MCHPRS并设置plot scale为7,编译过程大约需要10分钟[17][18] - 运行时可使用-io参数启用优化编译,防止向玩家发送非输入/输出方块更新[17] 行业意义 - 该项目展示了在游戏环境中实现复杂计算系统的可能性,刷新了《我的世界》的创意天花板[20] - CraftGPT比GPT-1小约23倍,比GPT-3小175,000倍,但在有限资源下实现了AI功能[25] - 该项目被视为计算机领域令人佩服的成就,能力远超10年前开发的同类系统[25]
开发智能康养机器人,「如身机器人」完成千万级天使++轮融资 | 36氪首发
36氪· 2025-10-09 15:50
公司概况与融资进展 - 康养具身智能公司如身机器人(RobotGym)近日获得千万元级人民币天使++轮融资,由力合金融独家投资[1] - 融资资金主要用于核心技术的持续迭代、产品工程化落地推进、养老场景规模化试点及市场前期布局[1] - 公司目前已启动Pre-A轮融资[1] 团队背景与创业初衷 - 创始人及CEO师云雷师从德国国家工程院院士张建伟,团队核心成员来自德国顶尖人工智能机器人研究所、港股医疗机器人龙头企业微创机器人及欧洲超级独角兽企业Agile Robots[1] - 公司致力于解决"一人失能,全家失衡"的养老照护难题,创始人基于在微创医疗机器人主导手术机器人控制系统研发的经验,投身康复养老赛道[1] 市场机遇与技术路径 - 公司认为大语言模型技术突破了自然语言交互瓶颈,使机器人能"听懂人话"并执行复杂指令,这是机器人进入家庭的"敲门砖",打造通用型养老服务机器人的窗口期已经到来[2] - 公司采取商业化先行的策略,通过销售产品建立能够快速、大规模采集多模态数据(如触觉、力觉)的硬件网络,为未来AI模型迭代积累数据优势[2] 产品线规划:格物(UniGym)系列 - 格物系列是多合一智能康复机器人,主要面向居家康复场景,覆盖手部、上肢与下肢等全身康复训练[2] - 该系列产品支持个性化康复训练计划、实时调节训练参数及查看训练报告,产品相对轻量,已实现千台量产并出口至北美、欧洲、东南亚等市场[2] - 该系列产品为公司带来持续现金流,同时也是公司深入康复场景、积累真实世界数据和用户的触角[2] 产品线规划:齐家(Qijia)系列 - 齐家系列是养老照护机器人,直接切入独居、半失能及失能老人的日常照护刚需场景[3] - 齐家Q1系列核心功能规划为三个层级模块:辅助移动、情感陪伴、智能照护[3] - 在辅助移动方面,机器人具备自动导航与智能避障能力,旨在解决因护工配比不足导致老人无法自由外出的痛点,拓展老人安全行动半径[5] - 在情感陪伴方面,基于多模态大模型,机器人能与用户自然对话,提供生活助手服务,如提醒用药、安排行程,并可集成书写回忆录、生成生活日报发送给子女等软件服务[5] - 在智能照护方面,公司参考自动驾驶分级,将任务分为L1-L5级,L1-L2级可执行递送物品等低风险任务,L3级可辅助起身、居家康复等,L4-L5级则需能执行紧急扶助等高强度力控任务[5] - 公司判断实现L3及以上成熟的自主照护服务仍需五年左右,因此当前采用"AI+远程操作"混合架构,通过24小时远程监护中心,由机器人协助远端护工共同操作复杂照护任务[6][7] - 公司为齐家系列开发了高精度力反馈技术,以保证远程操作的安全与柔和[7] 产品安全设计与商业化进展 - 产品设计注重安全性,采用稳定的轮式底盘确保低重心和高通过性,能平稳越过家庭常见门槛和地毯,杜绝倾倒风险[7] - 机械臂经过严格风险评估,未来部署的家庭硬件将配备远程急停开关[7] - 齐家产品系列已与国内多家头部养老服务机构达成试点合作意向,并入选腾讯"银发科技伙伴计划",预计2026年实现标准化量产[7]
更大,还能更快,更准!蚂蚁开源万亿参数语言模型Ling-1T,刷新多项SOTA
机器之心· 2025-10-09 10:24
文章核心观点 - Ling-1T作为一款万亿参数的开源大模型,通过高效的MoE架构实现了规模、速度与推理精度的兼顾,标志着大模型竞争正转向效率范式 [2][5][53] - 该模型在多项基准测试中表现亮眼,尤其在编程、数学推理等高推理密度任务上稳居第一梯队,同时实现了“万亿级储备,百亿级开销”的产业级落地 [3][8][53] - 蚂蚁集团通过开源Ling-1T及其底层技术,旨在降低AI应用门槛,推动技术普惠,特别是在金融、医疗等高合规要求的行业场景中 [71][72][74] 模型性能表现 - 在编程能力上,LiveCodeBench得分61.68,CodeForces-rating达1901,显著高于DeepSeek等对比模型 [7][8] - 在数学推理方面,Omni-Math与UGMathBench得分均突破74分,FinanceReasoning达到87.45,展现出强大的逻辑一致性 [7][8] - 知识理解维度表现出色,C-Eval得分92.19,MMLU-Redux得分92.25,OlympiadBench得分91.3,多项指标领先竞争对手1-3个百分点 [7][9][10] - 在AIME-25推理测试中准确率达70.42%,与Gemini-2.5-Pro精度相当,但消耗的token更少,实现了更高的思考效率 [14][15] 技术架构与效率创新 - 模型采用高效MoE架构,总参数规模达1T,但每次推理仅激活约500亿参数,通过“按需思考”机制实现低成本、高效率 [5][55][56] - 支持128K上下文长度,结合分组查询注意力技术,使长文档理解与敏捷响应兼得,推理速度不受长上下文拖累 [62][63] - 训练数据超过20T+ token的高质量、高推理浓度语料,为模型提供了更强的逻辑密度与思维深度 [55][66] - 采用三阶段精英教育训练路径,并自研WSM调度器和LPO优化方法,使模型在综合能力上普遍跑赢旧策略 [67][69][70] 实际应用与场景体验 - 在代码生成任务中能精准理解抽象视觉要求,完成度高,并展现出一定的审美能力 [19][21] - 具备强大的逻辑推理与科普能力,能用通俗比喻解释复杂概念如量子隧穿效应,有效降低理解门槛 [28][34] - 创意写作能力出色,能为播客节目撰写富有张力的开场白和可直接发布的小红书文案 [37][43] - 拥有工具调用能力,能执行复杂任务如推荐真实存在的小众徒步路线,并给出自洽的理由判断 [46][48] 行业影响与开源战略 - 2025年9月全球开源大模型数量较8月翻倍不止,中国力量表现亮眼,蚂蚁集团以“开源风暴”密集上线7款新品 [3] - 开源路线能降低技术迭代成本,加快版本演进,并通过社区的“质量与安全红队”效应降低边际改进成本 [72] - 开源透明性有助于金融、医疗等高合规行业审计决策路径,植入自有知识,在可控的安全边界内释放智能价值 [72] - 蚂蚁集团开源了从模型到训练框架的整套底层能力,旨在让AI能力像电力与支付一样无感却无处不在 [74]
清华、北信科、复旦团队解读具身智能!大语言模型与世界模型如何让机器人懂物理、会思考?
机器人大讲堂· 2025-10-06 12:05
文章核心观点 - 具身智能是人工智能在物理世界中实现感知-认知-互动闭环的关键方向,其终极目标是实现人类级别的通用智能[4] - 大语言模型与世界模型的协同是推动具身智能发展的核心技术,前者负责语义理解和任务规划,后者负责物理规律预测和动作验证[9][14][19] - 大语言模型与世界模型的结合能形成语义指导物理、物理约束语义的闭环,实现1+1>2的效果,是具身智能走向实用的关键[14][19] - 具身智能技术已在服务、工业、救灾等领域实现应用,显著提升了机器人的自主性和适应性[20] - 未来具身智能需在自主进化、硬件优化、群体智能及安全性等方面取得突破[21] 具身智能定义与特点 - 具身智能核心在于物理世界互动,需通过传感器感知环境、认知系统处理经验、执行器做出动作,形成闭环[4] - 与离身智能不同,具身智能直接与物理世界互动,例如扫地机器人避障规划、救灾无人机自主避障等[2][4] - 终极目标是实现接近人类级别的通用智能,能在动态不确定的物理世界中自主适应,例如听懂指令并安全移动易碎品[4] 技术发展脉络:从单模态到多模态 - 早期具身智能为单模态模式,仅依赖视觉或语言等单一感官,存在明显短板,如纯视觉机器人在昏暗环境中易迷路[5][7] - 技术转向多模态融合,整合视觉、语言、触觉、听觉等信息,使机器人能更灵活处理复杂任务,例如服务机器人可协同感知物体位置、用户需求及物体重量[8] - 多模态能力推动感知、认知、互动三者从各自为政转向互相配合,关键驱动因素是大语言模型和世界模型的突破[8][9] 大语言模型的作用与演进 - 大语言模型核心作用是赋予语义智能,使机器人从执行固定指令升级为理解模糊复杂的人类语言并进行任务分解[10] - 例如Google SayCan案例,通过搭配真实世界动作库和价值函数验证动作可行性,但早期模型依赖固定动作库,适应性有限[10] - 多模态大语言模型(如PaLM-E、RT-2)直接处理图像、语言、触觉等多模态信息,输出动作序列,不再依赖固定动作库[12] 世界模型的功能与架构 - 世界模型相当于机器人大脑中的物理世界模拟器,负责预测动作后果,确保符合物理规律[14][18] - 主要功能包括构建内部表征(压缩传感器信息为结构化地图)和预测未来变化(预判动作风险,如推桌子是否碰倒杯子)[18] - 主流架构包括RSSM(擅长时序信息和短期预测)、JEPA(擅长语义特征提取)、Transformer-based模型(擅长长序列规划和复杂环境)[14] 大语言模型与世界模型的协同 - 两者具强互补性:大语言模型懂语义但不懂物理,世界模型懂物理但不懂语义,单独使用均无法实现高级具身智能[14][19] - 结合后形成闭环:大语言模型生成初步计划,世界模型验证物理可行性并反馈调整,最终输出符合需求与规律的动作序列[19] - 例如EvoAgent具身智能体,结合两者后能在不同环境中自主完成长期任务,无需人类干预[19] 应用场景与案例 - 服务机器人从预设路线升级为听懂指令、实时避障、根据语气调整服务,如酒店送物机器人[20] - 工业机械臂从专机专岗变为通过大语言模型理解指令、世界模型预判抓取力度,实现柔性任务切换[20] - 救灾无人机从人类遥控升级为通过世界模型模拟风险、大语言模型理解指令,自主规划安全路径[20] 未来挑战与方向 - 需突破自主进化能力,使机器人能在新环境中探索学习,减少对人类标注数据的依赖[21] - 硬件需优化算法-硬件协同,设计专用加速器或通过模型压缩支持边缘设备运行[21] - 需发展群体具身智能,解决多机器人协同中的信息共享、任务分配和容错问题[21] - 安全性与可解释性至关重要,需确保动作可追溯、符合人类伦理,如危险时优先保护人类[21]
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 14:42
文章核心观点 - 当前大语言模型在代码、数学等任务上表现出色,但距离成为真正的“用户伙伴”仍有差距,核心挑战在于缺乏“知人”的能力,即理解用户动态、不确定和多目标的意图 [2] - 智能体发展的下一个时代课题是从“会解题”迈向“懂用户”,这需要全新的动态评测框架与训练机制 [2] - 来自UIUC与Salesforce的研究团队提出了系统化方案:UserBench(用于评测)和UserRL(用于训练),二者相辅相成,将“以用户为中心”从理念落地为可复现的流程、接口与评测指标 [2][3] UserBench:量化用户价值的评测框架 - **核心思想**:真正的智能体价值不在于完成任务本身,而在于是否能够理解用户、服务用户,UserBench旨在通过刻画用户特征,将“用户价值”从抽象理念转化为可量化的研究对象 [4] - **设计原则**:针对传统评测集中在工具调用与任务完成,却鲜少触及模型是否对齐用户潜在与动态意图的缺口 [5] - **三大用户交互特征**:UserBench将现实交互的三大特征作为评测核心,包括用户目标未完全成形(模糊性)、在多轮对话中逐步显露(渐进性)、以含蓄间接的方式表达(间接性)[3][6][8] - **环境与数据构造**:标志性设计是旅行规划任务,覆盖五个子场景,每个维度设置数十条隐式偏好表述,要求模型理解用户话语背后的语义逻辑 [8] - **数据难度与真实性**:环境内置稳定数据库后端,搜索返回采用混合式选项(正确项、错误项、噪声项)增加模型认知难度,数据根据偏好复杂程度分为Easy/Medium/Hard三档,既保真实性又具备实验可控性 [9][10] - **标准化交互接口**:将复杂的模型、用户及环境三方交互抽象为三类原语操作:Action(与用户对话)、Search(检索数据库)、Answer(提交推荐),高度浓缩了“理解—检索—决策”的链路 [11][15] - **评价指标**:核心指标是归一化得分(选到最优解记1.0,正确但次优解记0.8,其余记0),并辅以过程指标如有效搜索/对话操作率、偏好揭示率进行综合分析 [13][16] UserBench关键评测发现 - **模型普遍表现**:在评测的主流模型中,GPT-4o的归一化得分为0.329,Gemini-2.5-Pro为0.317,Claude-4-Sonnet为0.307,Deepseek-V3为0.210 [12] - **核心挑战定位**:模型并非输在“不会算”,而是常常没能问对问题、没能挖出关键信息,真正的挑战是智能体与人的交互中进行有效的“用户价值”提炼与捕捉 [13] - **单选比多选困难**:当模型可回答次数限制为一次时,平均分数下滑约40%,暴露了“只能给一次答案”时的抉择困难 [16] - **用户偏好揭示率低**:主流模型仅约20%的答案完全贴合全部用户意图,即便是强模型,通过主动互动挖掘到的偏好不到30% [16] - **工具使用与用户理解脱节**:模型普遍有效搜索率超过80%(如Gemini-2.5-Flash达83.62%),但有效对话率显著更低(如GPT-4o为27.82%),说明“循证澄清”的难度更高 [12][16] - **约束复杂度影响**:当总偏好数固定时,把偏好更平均地分散到多个旅行需求中更容易,而集中在少数需求上会显著拉低分数,揭示了本质挑战来自局部约束的组合复杂度 [16] - **交互轮数与质量非正相关**:盲目拉长交互轮数并不能带来收益,同时,命中答案的“时效性”与整体模型对话质量也并不总是正相关 [16] UserRL:以用户为中心的强化学习训练框架 - **核心思想**:在UserBench抽象出的三个原语接口之上,构建一个统一的gym环境,把用户在多轮交互中的参与转化为一个可训练的强化学习问题,优化智能体在交互中的回报 [18] - **八大Gym Environments**:覆盖从个性化推荐到复杂推理的多维能力,包括TravelGym、TauGym、PersuadeGym、TurtleGym、TelepathyGym、FunctionGym、IntentionGym、SearchGym,所有环境统一在Action/Search/Answer接口下 [19][20][25] - **用户模拟与多轮Rollout**:每个环境中的用户由LLM模拟,并可更换不同用户模拟模型以实现交互多样性,框架特点包括确定性任务状态、可验证奖励函数、自然语言互动以及多轮rollout [22][26] - **双层奖励设计**:探索回合层(Turn-level)与轨迹层(Trajectory-level)奖励设计,回合层方法包括Naive、Equalized、Reward-to-Go(R2G)及Exponential Mapping(EM),轨迹层整合方式包括Sum和R2G [22][23][24][26][27] - **训练与优化方法**:主要采用GRPO算法进行优化,在同一query下采样多条轨迹,组内归一化优势,再结合回合与轨迹奖励进行联合优化,在RL训练前进行了SFT小规模优化 [30] UserRL关键训练发现 - **奖励组合效果**:回合均等(Equalized)加轨迹Reward-to-Go(R2G)在4B/8B模型上最稳健、平均表现最好,而回合均等加轨迹Sum最弱,说明轨迹级计分比回合级细分更具有决定性价值 [29][34] - **训练模型表现**:经过UserRL训练的Qwen3-8B(Equalized/R2G)在8个gym上的平均得分为0.5652,在TravelGym、PersuadeGym、IntentionGym等交互型任务上超过强闭源模型,整体平均也领先闭源对照 [29][34] - **闭源模型对照**:作为对照的闭源模型中,Gemini-2.5-Pro平均得分为0.4702,GPT-4o为0.4449,GPT-4o-mini为0.1729 [29] - **SFT冷启动必要性**:先做SFT再RL能显著避免早期坍塌,部分任务收益超过100% [30][34] - **用户模拟器选择关键**:使用GPT-4o作为模拟用户训练的模型下游更强,但Qwen3-32B作为开源模拟器具备性价比高且可迁移的优势 [34]
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 17:55
文章核心观点 - 理想基座模型团队提出RuscaRL框架,旨在通过结合教育心理学的脚手架理论和量规学习,解决大语言模型在强化学习中面临的探索瓶颈问题,以提升模型的推理能力和智能上限 [1][2][8][12] - 该技术被视为一个体系性创新,其价值在于算法与基础设施的融合,而非单一算法的突破,有望同时受益于面向数字世界的MindGPT和物理世界的MindVLA [2][9] - 团队认为强化学习是大模型智能提升的关键,而当前的关键问题是如何让模型在更广泛的问题上实现能力泛化,其核心挑战在于奖励函数在非客观且结果难以准确量化的场景中的应用 [1][8] RuscaRL框架的技术原理 - 框架核心是引入“显性脚手架”机制,通过为每个任务提供包含不同评价标准的量规来指导模型生成响应,并采用组内差异化和跨步退化策略,逐步减少外部支持以促进模型独立推理 [12][14] - 框架采用“可验证奖励”机制,利用量规设计多维度评分标准,并借助大语言模型作为评判器来生成稳定可靠的奖励信号,以增强探索的多样性和训练稳定性 [13][15] - 该框架被类比为英伟达Eureka水准的工作,同属创建元框架来解决强化学习中的关键难题,但不同于DPO那种基础理论层面的突破,其贡献更偏向框架创新和应用成效 [6] 技术价值与行业定位 - 该工作被定位为探索前景广阔但不成熟领域的高水平工作,其价值体现在明确了强化学习领域的关键问题,并提供了创新且可应用的解决方案 [8][9] - 技术潜在瓶颈包括对人工设计的高质量量规依赖较高,以及因多次采样和复杂评估导致的较大训练量和计算开销 [16] - 创新被认为源于体系能力建设,智能体强化学习的关键问题已从单点算法突破转向算法与基础设施融合的体系性问题解决 [2][9]
人工智能就是大语言模型?丨中新真探
中国新闻网· 2025-10-03 16:40
人工智能与大语言模型的关系 - 大语言模型只是人工智能技术中的一种,二者并不等同 [1] - 人工智能是一个广泛的研究领域,包括机器学习算法、图像识别、语音识别、机器人行动策略优化以及自然语言处理等 [1] - 大语言模型最初是人工智能在自然语言处理领域的突破性进展,并在多模态技术帮助下可处理声音、图片和视频等信息 [1]