Workflow
大语言模型
icon
搜索文档
蚂蚁发布并开源万亿参数思考模型Ring-1T
新京报· 2025-10-14 12:20
公司产品发布 - 蚂蚁集团于10月14日正式推出万亿参数思考模型Ring-1T并全面开源模型权重和训练配方 [1] - 新模型在9月30日开源的预览版基础上扩展了大规模可验证奖励强化学习训练以激发推理能力并通过RLHF训练完善通用能力 [1] - 用户可通过HuggingFace和魔搭社区下载模型并通过蚂蚁百宝箱等平台在线体验 [1] 公司产品矩阵与发展阶段 - 蚂蚁百灵大模型已累计发布18款模型形成从160亿总参数到1万亿总参数的大语言模型产品矩阵 [1] - 产品矩阵中包含两款万亿参数模型分别为万亿参数通用大语言模型Ling-1T和万亿参数思考模型Ring-1T [1] - 随着两款万亿参数模型的发布百灵大模型正式步入2.0阶段 [1]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 11:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
36氪· 2025-10-14 11:40
项目概述 - 项目nanochat是一个极简、从零开始构建的全栈训练/推理pipeline,用最少量依赖的单一代码库实现了简易版ChatGPT [1] - 项目整体约8000行代码,基于Rust语言实现,可实现训练分词器、预训练大语言模型、指令微调、强化学习及高效推理等功能 [2] - 在8×H100 GPU上训练约4小时,整体成本仅需约100美元,即可训练出一个可进行基础对话、创作故事诗歌、回答简单问题的模型 [1][2] 技术架构与流程 - 训练流程始于在FineWeb-EDU数据集上预训练Transformer架构模型,该数据集被重新打包为简单、完全打乱的分片,总计约24GB [15][16] - 项目训练了自定义分词器,词汇表大小为65,536个tokens,在训练集包含2B字符上训练约1分钟,实现了约4.8的压缩比 [16][18] - 预训练后进行了中期训练,在SmolTalk对话数据集和多项选择题数据集上微调,使模型适应对话格式并理解多选题机制,此过程约8分钟 [35][36][37] - 随后进行监督微调(SFT)以提升对话质量,并可选地进行强化学习(RL)训练,针对GSM8K数学数据集使用简化的GRPO算法优化模型答案正确率 [41][46][48] 性能表现 - 模型在预训练后CORE指标达到0.2219,略高于GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [3][32] - 经过中期训练和监督微调后,模型在多项基准测试上表现提升:ARC-Easy从0.3561提升至0.3876,GSM8K从0.0250提升至0.0455,HumanEval从0.0671提升至0.0854 [3][52] - 进行强化学习训练后,模型在GSM8K数据集上的表现进一步提升至0.0758 [3][52] - 训练深度为30的模型24小时后(算力消耗为GPT-3的千分之一),在MMLU数据集上可达40多分,在ARC-Easy上达70多分,在GSM8K上达20多分 [6] 项目特点与影响 - 项目代码完全手写,作者尝试使用AI编程助手但效果不佳,最终产出约8000行代码,旨在提供统一、极简、易读、可修改的技术栈 [9][7] - 项目作为LLM101n课程的压轴项目,有潜力发展为研究工具框架或基准测试工具,类似之前的nanoGPT项目 [7] - 项目发布后迅速获得社区关注,GitHub Star数飙升至4.8k,被评论为具有高教育价值和可理解智慧 [8] 成本与效率 - 使用云服务(如Lambda GPU Cloud)启动一台8卡H100服务器,每小时成本约24美元,总训练时间约4小时,成本约100美元 [10][53] - 若将成本提升至约1000美元(训练约41.6小时),模型表现显著提升,能解决简单的数学/代码问题及多项选择题 [4] - 到监督微调阶段为止的总用时为3小时51分钟,总成本约为92.4美元 [53]
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
量子位· 2025-10-14 10:19
项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目,旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时,复刻基础对话功能的模型 [4] - 整个代码库约8000行,基于Rust语言实现,包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5] 技术架构与流程 - 采用Transformer架构,在FineWeb-EDU数据集上预训练,使用自定义分词器(词汇量65,536)实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练(BASE)、中期训练(MID)、监督微调(SFT)和强化学习(RL)四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用(如Python解释器),提供CLI和类ChatGPT的WebUI交互界面 [5][43] 性能表现 - 预训练模型CORE指标达0.2219,超越GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [7][41] - 经过中期训练和监督微调后,模型在多项基准测试中提升:ARC-Easy从0.3561升至0.3876,GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化,性能进一步提升至0.0758,总训练耗时3小时51分钟,成本约92.4美元 [7][53][56][57] 可扩展性与社区影响 - 项目设计为可调优框架,用户可通过修改深度参数(如depth=30)探索更大模型,预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性,已获GitHub 4.8k星关注,被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容,推动AI教育普及 [12][75]
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升
量子位· 2025-10-13 16:47
RLVR方法的重要性与当前瓶颈 - 2024年以来以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型在数学、代码和科学推理任务上取得显著突破主要得益于RLVR方法[1] - RLVR通过数学验证、单元测试等可自动判断对错的方式提供训练信号替代了传统依赖人类评判的流程使模型能够进行大规模高效率的自我改进[1] - RLVR在实践中面临探索机制极易失衡的关键瓶颈要么探索受限陷入熵崩塌要么探索失控引发熵爆炸[2] 传统熵正则化方法的困境 - 传统熵正则化方法在RLVR训练中面临两难陷阱探索强度系数β过小会导致探索受限发生熵崩塌模型迅速退化为近似确定性策略所有回答高度相似[9] - 当β稍大时模型易在庞大的动作空间与超长的推理轨迹中失控概率分布被摊平导致熵爆炸生成内容充斥无意义符号逻辑断裂[10] - 传统方法失效的根本原因是熵正则化的激励是无差别的而大语言模型的生成过程具有鲜明的结构性忽略了探索价值的非均匀分布[10] SIREN方法的创新机制 - 选择性熵正则化方法通过三重机制实现对探索行为的精准调控包括划定探索范围识别关键决策点稳定训练过程[14] - Top-p掩码机制将熵的计算范围严格限定于概率最高的核心token集合确保探索仅在语义合理的候选词中进行避免无效探索[14][15] - 峰值熵掩码机制自动识别生成序列中熵值显著高于平均水平的逻辑关键词并将探索激励集中作用于这些关键位置[16] - 自锚定正则化将熵值目标从最大化调整为维持合理区间通过动态锚定机制使探索强度始终处于可控范围避免训练失稳[17] SIREN方法的实验效果 - 在Qwen2.5-Math-7B上SIREN平均maj@k达到54.6%超越最强基线4.8%[22][24] - 在最具挑战的AIME24/25数据集上性能提升均达到6.6%[34] - 该方法在1.5B到8B不同规模不同基座的模型上均稳定有效展现出良好的泛化能力[34] - 与传统的熵正则方法相比SIREN展现出更合理有效的探索模式能够避免困惑度坍缩保持答案多样性训练过程平稳可控[25][28][30] 行业影响与未来展望 - 随着强化学习成为大模型后训练的主流方法如何实现稳定可控高效的探索将成为释放大模型潜力突破性能瓶颈的核心议题[35] - 该研究提出的选择性探索调控机制为探索的精细化提供了一种可行的解决方案有望为下一代推理模型的训练范式提供启发[35] - 该方法有望推动大模型在数学代码科学推理等复杂任务以及其他更广阔的应用领域取得进一步突破[35]
马斯克AI公司开发“世界模型”,从英伟达挖专家将推游戏
凤凰网· 2025-10-13 11:21
根据英伟达的官方介绍,世界模型是一种生成式AI模型,能够理解现实世界的动态特征,包括物理属 性和空间特性。这类模型利用文字、图像、视频以及动作在内的输入数据来生成影片。 今年夏天,xAI从英伟达挖来了专家,研发这类新一代AI模型。这些模型通过学习视频以及来自机器人 的数据,理解现实世界。世界模型有望将AI的能力提升到超越大语言模型的水平。目前,大模型主要 接受文本训练,是ChatGPT以及xAI自家Grok等热门AI工具的技术基础。 凤凰网科技讯 北京时间10月12日,据《金融时报》报道,埃隆·马斯克(Elon Musk)旗下xAI公司正加紧 构建所谓的"世界模型",与Meta和谷歌等对手一同角逐下一代AI系统。这些系统能够实现对物理环境的 自主导航与设计。 当前,OpenAI旗下Sora等视频生成模型,主要通过从训练数据中学习到的模式进行预测,从而逐帧生 成视频图像。但是世界模型则会向前迈进一大步,因为它能实时理解物理世界的因果关系,掌握物体在 不同环境中的实时互动机制。 巨大挑战 除了xAI外,谷歌、Meta等领先的AI实验室也在研发这类系统。 然而,世界模型仍面临巨大的技术挑战。要找到足够的数据来模拟现 ...
专访 AirPods 团队:一只小小的耳机,如何学会追踪 50 种运动?
36氪· 2025-10-13 10:31
产品技术突破 - AirPods Pro 3的心率监测精度达到与专业级Garmin HRM600胸带几乎重合的水平,尤其在稳态跑和间歇跑等高精度要求场景下表现优异[1] - 产品采用红外光PPG方案,每秒脉冲约250–256次红外光,结合IMU数据消除运动伪影,实现多模态数据协同[7] - 耳机能在播放音乐的同时实时监测心跳频率、步伐节奏,并自动识别超过50种运动类型[3][14] 生理监测优势 - 耳道因靠近颞浅动脉、血流灌注稳定且无光线干扰,成为比手腕更理想的生理信号采集点[5] - 美国学术论文指出耳道PPG信号在血管分布、抗运动干扰和环境光抑制方面优于腕部与指端[7] - 在力量训练、划船等手部活动场景下,腕部设备心率数据易受干扰,而耳道信号更加连贯稳定[7][9] 算法与系统集成 - 心率算法基于Apple Watch十年积累的神经网络模型开发,并针对耳道特性进行小型化适配和微调[10] - 当用户同时佩戴Apple Watch和AirPods Pro 3时,系统会在最近5分钟内自动选择更可靠的心率信号源[8] - 通过Apple Heart and Movement Study约5000万小时的真实运动数据,训练出可理解动作语法的基础模型[15] 传感器生态与验证 - AirPods Pro 3内置加速度计、陀螺仪和心率传感器,与iPhone的GPS、气压计形成协同感知系统[15] - 实验室采用代谢面罩观测氧气交换率验证卡路里模型,并通过标定跑步机和压力传感器校准步态数据[16] - 通过优化耳塞贴合度与自适应调音算法,在提升声学体验的同时保障生理监测数据的准确性[10][11] 战略定位 - 产品设计延续技术回归感知的哲学,使耳机从声音输出设备转变为双向感知界面[17] - Apple Watch与AirPods Pro 3在不同运动场景下形成互补关系,共同构建身体数字镜像[9] - 动作识别能力通过基础模型一次性实现50余种运动追踪,较Apple Watch的迭代效率显著提升[15][16]
全球AI数据视角看机器人市场
2025-10-13 09:00
行业与公司 * 涉及的行业为人工智能与机器人行业,具体公司包括美国的Figure、特斯拉以及中国的宇树、淘淘车业、科沃斯等[1][5][6][9] 核心观点与论据 AI产业处于早期且潜力巨大 * AI产业仍处于早期阶段,Transformer模型及其衍生技术仍在持续推进[1][3] * 各大厂商在AI上的投资规模已达数百亿至千亿美元级别,并已开始产生收入,形成良性循环[1][3] * 硅谷创业与创投活动活跃,表明该领域仍有大量潜力可供发掘[1][3] * AI相关算力占总用电量和装机功率比例不到1%,在总体经济中占比小,增长空间大[1][4] * 训练与推理算力比例为1:1,表明当前仍处于早期投入阶段,产出应远大于投入[1][4] 机器人作为AI应用正加速发展 * 机器人作为AI应用的一部分,正处于加速发展的基点[1][5] * Figure公司已开始量产机器人,计划未来四年建设10万套产能,标志着进入量产阶段[1][5] * 特斯拉三代机器人也即将推出[5] 北美市场机会优于中国 * 美国科技大厂年均资本支出约270至680亿美元,带来的收入ROI约40%至50%[6] * 中国大厂年均资本支出150亿美元,但ROI远低于美国,仅有10%左右[6] * 应更多关注北美市场机会以提升回报率[1][6] AI发展推高通胀并利好机器人替代 * 美国AI产业高速增长导致AI相关人员工资非理性上涨[1][7] * 人工成本上升促使企业更倾向于使用性价比更高的AI技术进行替代,形成ROI正循环,推动AI投资热潮[1][7] * 工资上涨蔓延到消费品价格,加速通胀,在这种环境下AI替代人力更加有利可图[1][7][10] * 美国工资至少是中国的五六倍,而硬件成本基本相同,使得机器人在美国市场具有更高性价比[8] * 美国消费者对高价科技产品接受度高,2万美金甚至4万美金的机器人也能销售良好[8][10] 具体投资标的与市场预期 * 在美国市场建议关注两类公司:直接买气链公司(如淘淘车业、科沃斯)和在北美打开市场的中国公司(如宇树)[1][6][9] * 这些公司通过亚马逊等渠道进入海外市场,其海外场口和链条拉动能力可能带来增量新逻辑[1][9] * 未来几年新能源车及机器人市场规模预期乐观,机器人领域第一批1万台、10万台落地节点后,整体天花板高度随技术上移[12] * 到2025年,新能源车销量预计将从初期的10万台达到1,000万台以上[12] * 美国公司每年平均投入600亿美金用于AI,到2030年可能达到每家公司1,000亿以上,将推动白领到蓝领工人的替代浪潮,提升机器人板块潜力[10][11] 其他重要内容 * 美国市场对科技产品消费意愿强烈,利好机器人和电动车行业,例如曹操车业的电动车主要面向追求科技感的新型社区用户[8]
吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事
量子位· 2025-10-12 12:07
Agentic AI核心概念与方法论 - Agentic AI通过多步骤任务分解、反思、执行与优化的循环工作流显著超越传统端到端Agent的性能表现[5][6][74] - 核心理念是让大语言模型以多步推理与分阶段执行的方式工作而非一次性生成结果这与人类解决复杂问题的方式高度契合[9][14] - 通过系统化的工作流设计甚至可以让GPT-3.5在编程任务中轻松超越GPT-4的性能表现[3][75] Agentic工作流四大核心设计模式 - **反思模式**:让大模型检视自身输出并思考改进可通过双模型协作、量化评分机制或引入外部反馈(如参考答案)来提升输出质量[18][21][24][27] - **工具调用模式**:由大语言模型自主决定调用外部功能(如网页搜索、编写代码)传统方式依赖开发者手动实现而MCP等统一协议将其标准化极大提升效率[28][29][38][43] - **规划模式**:使大模型能根据不同请求灵活调整工具序列执行顺序通过将步骤转化为JSON或代码形式实现任务离散化从而优化性能与资源使用[45][46][47] - **多智能体协作模式**:构建多个具备不同专长的智能体通过结构化分工协作(类似企业组织架构)提升复杂任务的处理效率与质量并可实现智能体间的嵌套调用[51][52] Agentic系统构建与优化流程 - 构建流程遵循"采样-评估-改进"的闭环迭代:先搭建工作流收集输出然后进行端到端或组件级评估定位错误最后针对性优化参数、工具或提示词[55][58][59] - 错误分析是关键通过追踪中间执行轨迹定位薄弱环节(如工具调用或识别模块问题)组件级评估能更快速精准地指导系统改进[61][63][64][67] - 模型选择与优化需多尝试不同模型参考他人提示词设计并将模型置于工作流中观察各步骤表现以持续提升系统可靠性[68][69][70] Agentic AI的行业意义与发展前景 - Agentic被定义为描述系统自主性程度的形容词而非二元分类这为开发者提供了更连续、准确的能力评估框架[72] - 与传统端到端Agent相比Agentic AI通过组件拆分和逐步优化使每个环节可迭代改进为开发者提供了可落地的系统优化路径而非仅依赖模型自身能力提升[76][77][78] - 除成熟代码Agent外基于步骤的Agentic AI在复杂多步骤工作流领域仍有广阔发展空间为行业探索更智能、可控的AI系统提供方法论支持[79][80]
冯帅章:部分院校的专业设置与实际需求脱节
经济观察报· 2025-10-11 17:15
就业问题尤其是青年人就业值得全社会重视,但没有必要过于 焦虑。今年就业市场整体相对稳定,企业、应届毕业生、学校 都在积极调整心态,以适应新的就业形势。未来,应谨慎对待 高等教育扩招,需更注重质量而非数量。 作者: 田进 封图:图虫创意 近几年,随着应届生毕业规模与新型灵活就业群体规模不断增长,两类群体的就业现状备受关注。 一方面,高校毕业生数量屡创历史新高,2025年预计达1222万人,较去年增加43万;另一方面,据暨南大学经济与社会研究院院长冯帅章的最新测 算,2023年中国平台就业者总规模已达2.47亿人,占当年劳动年龄人口的28.6%,其中不乏一定比例的大学毕业生。 国家统计局数据显示,8月全国城镇16—24岁劳动力(不含在校生)失业率为18.9%,相比7月上升1.1个百分点,为2023年12月按新标准公布该数据以 来的新高。 冯帅章表示,就业问题尤其是青年人就业值得全社会重视,但没有必要过于焦虑。今年就业市场整体相对稳定,企业、应届毕业生、学校都在积极调整 心态,以适应新的就业形势。未来,应谨慎对待高等教育扩招,需更注重质量而非数量。 针对规模仍在持续增长的灵活就业群体,冯帅章表示,新型灵活就业中的" ...