Workflow
大语言模型
icon
搜索文档
卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了
量子位· 2025-10-14 10:19
项目概述 - Andrej Karpathy发布名为nanochat的极简全栈项目,旨在从零开始构建简易版ChatGPT [1] - 项目核心目标是以约100美元成本在8×H100 GPU上训练4小时,复刻基础对话功能的模型 [4] - 整个代码库约8000行,基于Rust语言实现,包含训练分词器、预训练、中期训练、指令微调等完整流程 [4][5] 技术架构与流程 - 采用Transformer架构,在FineWeb-EDU数据集上预训练,使用自定义分词器(词汇量65,536)实现约4.8的文本压缩比 [5][25][26] - 训练流程分为预训练(BASE)、中期训练(MID)、监督微调(SFT)和强化学习(RL)四个阶段 [5][45][48][51] - 推理引擎支持KV缓存、预填充/解码流程及工具使用(如Python解释器),提供CLI和类ChatGPT的WebUI交互界面 [5][43] 性能表现 - 预训练模型CORE指标达0.2219,超越GPT-2 large(0.21)但略低于GPT-2 xl(0.26) [7][41] - 经过中期训练和监督微调后,模型在多项基准测试中提升:ARC-Easy从0.3561升至0.3876,GSM8K从0.0250升至0.0455 [7][56] - 强化学习阶段针对GSM8K数学题优化,性能进一步提升至0.0758,总训练耗时3小时51分钟,成本约92.4美元 [7][53][56][57] 可扩展性与社区影响 - 项目设计为可调优框架,用户可通过修改深度参数(如depth=30)探索更大模型,预期在MMLU和ARC-Easy分别达40多分和70多分 [10][61] - 代码库强调易读性和可修改性,已获GitHub 4.8k星关注,被社区评价为“可被理解的智慧” [11][13][14] - nanochat将作为Karpathy教育项目LLM101n课程的压轴内容,推动AI教育普及 [12][75]
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型学会“精确探索”,推理成绩飙升
量子位· 2025-10-13 16:47
RLVR方法的重要性与当前瓶颈 - 2024年以来以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型在数学、代码和科学推理任务上取得显著突破主要得益于RLVR方法[1] - RLVR通过数学验证、单元测试等可自动判断对错的方式提供训练信号替代了传统依赖人类评判的流程使模型能够进行大规模高效率的自我改进[1] - RLVR在实践中面临探索机制极易失衡的关键瓶颈要么探索受限陷入熵崩塌要么探索失控引发熵爆炸[2] 传统熵正则化方法的困境 - 传统熵正则化方法在RLVR训练中面临两难陷阱探索强度系数β过小会导致探索受限发生熵崩塌模型迅速退化为近似确定性策略所有回答高度相似[9] - 当β稍大时模型易在庞大的动作空间与超长的推理轨迹中失控概率分布被摊平导致熵爆炸生成内容充斥无意义符号逻辑断裂[10] - 传统方法失效的根本原因是熵正则化的激励是无差别的而大语言模型的生成过程具有鲜明的结构性忽略了探索价值的非均匀分布[10] SIREN方法的创新机制 - 选择性熵正则化方法通过三重机制实现对探索行为的精准调控包括划定探索范围识别关键决策点稳定训练过程[14] - Top-p掩码机制将熵的计算范围严格限定于概率最高的核心token集合确保探索仅在语义合理的候选词中进行避免无效探索[14][15] - 峰值熵掩码机制自动识别生成序列中熵值显著高于平均水平的逻辑关键词并将探索激励集中作用于这些关键位置[16] - 自锚定正则化将熵值目标从最大化调整为维持合理区间通过动态锚定机制使探索强度始终处于可控范围避免训练失稳[17] SIREN方法的实验效果 - 在Qwen2.5-Math-7B上SIREN平均maj@k达到54.6%超越最强基线4.8%[22][24] - 在最具挑战的AIME24/25数据集上性能提升均达到6.6%[34] - 该方法在1.5B到8B不同规模不同基座的模型上均稳定有效展现出良好的泛化能力[34] - 与传统的熵正则方法相比SIREN展现出更合理有效的探索模式能够避免困惑度坍缩保持答案多样性训练过程平稳可控[25][28][30] 行业影响与未来展望 - 随着强化学习成为大模型后训练的主流方法如何实现稳定可控高效的探索将成为释放大模型潜力突破性能瓶颈的核心议题[35] - 该研究提出的选择性探索调控机制为探索的精细化提供了一种可行的解决方案有望为下一代推理模型的训练范式提供启发[35] - 该方法有望推动大模型在数学代码科学推理等复杂任务以及其他更广阔的应用领域取得进一步突破[35]
马斯克AI公司开发“世界模型”,从英伟达挖专家将推游戏
凤凰网· 2025-10-13 11:21
公司战略与进展 - xAI公司正加紧构建能够理解现实世界动态特征的“世界模型”,旨在实现对物理环境的自主导航与设计 [1] - 公司计划将世界模型应用于游戏领域,用于生成可交互的3D环境,并计划在明年年底前推出一款由AI生成的优秀游戏 [1][2] - xAI已从英伟达聘请了两位具备世界模型研发经验的AI研究员泽尚·帕特尔与何宜晖,以加强研发能力 [2] - 公司于近期推出了最新的图像和视频生成模型,并进行了重大升级,且免费向用户开放使用 [2] 技术定义与潜力 - 世界模型是一种生成式AI模型,能利用文字、图像、视频以及动作等输入数据来生成影片,其核心是理解现实世界的物理属性和空间特性 [1] - 世界模型通过学习视频以及来自机器人的数据来理解现实世界,有望将AI能力提升到超越大语言模型的水平 [1] - 与OpenAI的Sora等逐帧生成视频的模型不同,世界模型能实时理解物理世界的因果关系,掌握物体在不同环境中的实时互动机制 [2] - 世界模型被认为能将AI应用从软件和计算机拓展到实体产品,例如人形机器人,其潜在市场规模可能接近当前全球经济总量 [2] 行业竞争格局 - 除xAI外,谷歌、Meta等领先的AI实验室也在研发世界模型系统 [3] - 英伟达凭借其能够创建并运行模拟环境的Omniverse平台,在该技术领域保持领先地位 [2] 行业面临的挑战 - 世界模型的研发面临巨大技术挑战,要找到足够的数据来模拟现实世界并训练这些模型被证明既困难又成本昂贵 [3] - 有行业观点指出,游戏行业面临的重大问题并非技术,而是领导力与远见的缺失,更需要能让玩家投入的世界呈现方式,而非算法生成的玩法循环 [3]
专访 AirPods 团队:一只小小的耳机,如何学会追踪 50 种运动?
36氪· 2025-10-13 10:31
产品技术突破 - AirPods Pro 3的心率监测精度达到与专业级Garmin HRM600胸带几乎重合的水平,尤其在稳态跑和间歇跑等高精度要求场景下表现优异[1] - 产品采用红外光PPG方案,每秒脉冲约250–256次红外光,结合IMU数据消除运动伪影,实现多模态数据协同[7] - 耳机能在播放音乐的同时实时监测心跳频率、步伐节奏,并自动识别超过50种运动类型[3][14] 生理监测优势 - 耳道因靠近颞浅动脉、血流灌注稳定且无光线干扰,成为比手腕更理想的生理信号采集点[5] - 美国学术论文指出耳道PPG信号在血管分布、抗运动干扰和环境光抑制方面优于腕部与指端[7] - 在力量训练、划船等手部活动场景下,腕部设备心率数据易受干扰,而耳道信号更加连贯稳定[7][9] 算法与系统集成 - 心率算法基于Apple Watch十年积累的神经网络模型开发,并针对耳道特性进行小型化适配和微调[10] - 当用户同时佩戴Apple Watch和AirPods Pro 3时,系统会在最近5分钟内自动选择更可靠的心率信号源[8] - 通过Apple Heart and Movement Study约5000万小时的真实运动数据,训练出可理解动作语法的基础模型[15] 传感器生态与验证 - AirPods Pro 3内置加速度计、陀螺仪和心率传感器,与iPhone的GPS、气压计形成协同感知系统[15] - 实验室采用代谢面罩观测氧气交换率验证卡路里模型,并通过标定跑步机和压力传感器校准步态数据[16] - 通过优化耳塞贴合度与自适应调音算法,在提升声学体验的同时保障生理监测数据的准确性[10][11] 战略定位 - 产品设计延续技术回归感知的哲学,使耳机从声音输出设备转变为双向感知界面[17] - Apple Watch与AirPods Pro 3在不同运动场景下形成互补关系,共同构建身体数字镜像[9] - 动作识别能力通过基础模型一次性实现50余种运动追踪,较Apple Watch的迭代效率显著提升[15][16]
全球AI数据视角看机器人市场
2025-10-13 09:00
行业与公司 * 涉及的行业为人工智能与机器人行业,具体公司包括美国的Figure、特斯拉以及中国的宇树、淘淘车业、科沃斯等[1][5][6][9] 核心观点与论据 AI产业处于早期且潜力巨大 * AI产业仍处于早期阶段,Transformer模型及其衍生技术仍在持续推进[1][3] * 各大厂商在AI上的投资规模已达数百亿至千亿美元级别,并已开始产生收入,形成良性循环[1][3] * 硅谷创业与创投活动活跃,表明该领域仍有大量潜力可供发掘[1][3] * AI相关算力占总用电量和装机功率比例不到1%,在总体经济中占比小,增长空间大[1][4] * 训练与推理算力比例为1:1,表明当前仍处于早期投入阶段,产出应远大于投入[1][4] 机器人作为AI应用正加速发展 * 机器人作为AI应用的一部分,正处于加速发展的基点[1][5] * Figure公司已开始量产机器人,计划未来四年建设10万套产能,标志着进入量产阶段[1][5] * 特斯拉三代机器人也即将推出[5] 北美市场机会优于中国 * 美国科技大厂年均资本支出约270至680亿美元,带来的收入ROI约40%至50%[6] * 中国大厂年均资本支出150亿美元,但ROI远低于美国,仅有10%左右[6] * 应更多关注北美市场机会以提升回报率[1][6] AI发展推高通胀并利好机器人替代 * 美国AI产业高速增长导致AI相关人员工资非理性上涨[1][7] * 人工成本上升促使企业更倾向于使用性价比更高的AI技术进行替代,形成ROI正循环,推动AI投资热潮[1][7] * 工资上涨蔓延到消费品价格,加速通胀,在这种环境下AI替代人力更加有利可图[1][7][10] * 美国工资至少是中国的五六倍,而硬件成本基本相同,使得机器人在美国市场具有更高性价比[8] * 美国消费者对高价科技产品接受度高,2万美金甚至4万美金的机器人也能销售良好[8][10] 具体投资标的与市场预期 * 在美国市场建议关注两类公司:直接买气链公司(如淘淘车业、科沃斯)和在北美打开市场的中国公司(如宇树)[1][6][9] * 这些公司通过亚马逊等渠道进入海外市场,其海外场口和链条拉动能力可能带来增量新逻辑[1][9] * 未来几年新能源车及机器人市场规模预期乐观,机器人领域第一批1万台、10万台落地节点后,整体天花板高度随技术上移[12] * 到2025年,新能源车销量预计将从初期的10万台达到1,000万台以上[12] * 美国公司每年平均投入600亿美金用于AI,到2030年可能达到每家公司1,000亿以上,将推动白领到蓝领工人的替代浪潮,提升机器人板块潜力[10][11] 其他重要内容 * 美国市场对科技产品消费意愿强烈,利好机器人和电动车行业,例如曹操车业的电动车主要面向追求科技感的新型社区用户[8]
吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事
量子位· 2025-10-12 12:07
Agentic AI核心概念与方法论 - Agentic AI通过多步骤任务分解、反思、执行与优化的循环工作流显著超越传统端到端Agent的性能表现[5][6][74] - 核心理念是让大语言模型以多步推理与分阶段执行的方式工作而非一次性生成结果这与人类解决复杂问题的方式高度契合[9][14] - 通过系统化的工作流设计甚至可以让GPT-3.5在编程任务中轻松超越GPT-4的性能表现[3][75] Agentic工作流四大核心设计模式 - **反思模式**:让大模型检视自身输出并思考改进可通过双模型协作、量化评分机制或引入外部反馈(如参考答案)来提升输出质量[18][21][24][27] - **工具调用模式**:由大语言模型自主决定调用外部功能(如网页搜索、编写代码)传统方式依赖开发者手动实现而MCP等统一协议将其标准化极大提升效率[28][29][38][43] - **规划模式**:使大模型能根据不同请求灵活调整工具序列执行顺序通过将步骤转化为JSON或代码形式实现任务离散化从而优化性能与资源使用[45][46][47] - **多智能体协作模式**:构建多个具备不同专长的智能体通过结构化分工协作(类似企业组织架构)提升复杂任务的处理效率与质量并可实现智能体间的嵌套调用[51][52] Agentic系统构建与优化流程 - 构建流程遵循"采样-评估-改进"的闭环迭代:先搭建工作流收集输出然后进行端到端或组件级评估定位错误最后针对性优化参数、工具或提示词[55][58][59] - 错误分析是关键通过追踪中间执行轨迹定位薄弱环节(如工具调用或识别模块问题)组件级评估能更快速精准地指导系统改进[61][63][64][67] - 模型选择与优化需多尝试不同模型参考他人提示词设计并将模型置于工作流中观察各步骤表现以持续提升系统可靠性[68][69][70] Agentic AI的行业意义与发展前景 - Agentic被定义为描述系统自主性程度的形容词而非二元分类这为开发者提供了更连续、准确的能力评估框架[72] - 与传统端到端Agent相比Agentic AI通过组件拆分和逐步优化使每个环节可迭代改进为开发者提供了可落地的系统优化路径而非仅依赖模型自身能力提升[76][77][78] - 除成熟代码Agent外基于步骤的Agentic AI在复杂多步骤工作流领域仍有广阔发展空间为行业探索更智能、可控的AI系统提供方法论支持[79][80]
冯帅章:部分院校的专业设置与实际需求脱节
经济观察报· 2025-10-11 17:15
当前就业市场整体形势 - 就业市场整体相对稳定,企业、应届毕业生、学校都在积极调整心态以适应新形势 [2][5] - 全国城镇16—24岁劳动力失业率为18.9%,相比7月上升1.1个百分点,为2023年12月以来的新高 [2] - 自2020年起年轻人就业压力越来越大,但在近几年的宏观经济背景下,就业市场没有出现大幅波动被视为好消息 [4][5] 应届毕业生就业现状与挑战 - 高校毕业生数量屡创历史新高,2025年预计达1222万人,较去年增加43万 [2][6] - 大学生就业问题需追本溯源至高等教育体系本身,现有院校专业设置与实际需求脱节,调整空间很大 [7] - 应届毕业生在求职时应考虑工作长远发展,大胆尝试不同行业和地域,而非仅看重短期待遇 [9] 高等教育体系的结构性问题 - 应谨慎对待高等教育扩招,需更注重质量而非数量 [1][7] - 高等教育扩张若师资、宿舍等资源未相应增长,会摊薄教育投入并降低人才培养质量 [7] - 研究生宿舍资源紧张、大班授课等扩招"后遗症"屡见不鲜,建议在质量和数量间取舍时优先保障培养质量 [8] 新型灵活就业的发展与挑战 - 2023年中国平台就业者总规模达2.47亿人,占当年劳动年龄人口的28.6% [2][18] - 平台就业者中全职为1.29亿人(占劳动年龄人口14.9%),兼职为1.18亿人 [18] - 新型灵活就业分为"基于云端"(如直播带货)和"基于位置"(如外卖、网约车)两大类 [12] 不同类型灵活就业的容量与前景 - 基于位置的新型灵活就业受当地市场需求限制,吸纳就业已趋于饱和 [12][13] - 基于云端的新型灵活就业面向全国乃至全球市场,就业吸纳能力更强,并能创造新需求和新业态 [13][14] - 平台就业达到峰值后,市场机制会通过调节从业者收入引导劳动力流向其他行业 [15] 灵活就业群体的社会保障问题 - 政策层需积极引导灵活就业向社保缴纳方向推进,但短期内需量力而行,综合考虑个人和平台的缴纳意愿与压力 [2][16] - 建议根据灵活就业者收入水平灵活调整社保缴纳金额,并鼓励甚至要求平台基于管理关系帮助劳动者参保 [17] - 社保缴纳与劳动关系不应绑定,政府应引导平台为长期稳定服务的全职司机等缴纳社保 [18]
北大 & 作业帮团队提出 Text-to-SQL 新框架 Interactive-T2S,攻克宽表处理与低资源对齐难题
AI前线· 2025-10-11 12:14
论文核心创新 - 提出Interactive-T2S框架,将大型语言模型塑造为能与数据库进行多轮、迭代式交互的智能代理,通过"思考-行动-观察"循环逐步构建SQL查询,突破传统方法将LLM视为一次性SQL翻译器的局限 [2] - 框架设计四大核心工具(SearchColumn、SearchValue、FindShortestPath、ExecuteSQL)将SQL生成拆解为"找列找值-表关联-执行验证"三步,避免LLM直接处理海量冗余信息 [6][7] - 采用统一交互流程(问题拆解→信息定位→表关联→SQL执行),每一步均要求LLM输出思考过程与工具行动,确保生成逻辑可追溯,同时仅需2个标注示例即可实现少样本学习 [10] 技术性能优势 - 在BIRD-Dev数据集上执行准确率达54.56%,较当前最优方法ExSL(51.69%)提升2.87个百分点,在金融去噪数据集BIRD-FinC上准确率49.06%,显著高于Zero-shot(31.13%)与DIN-SQL(47.17%) [14] - 在Spider-Dev与BIRD-Dev上的prompt token消耗仅为DIN-SQL的36%(4.6k vs 12.8k)与22%(4.7k vs 21.6k),效率提升源于动态获取必要信息的设计,无需输入全表列信息 [15] - 在仅使用2个示例的少样本设置下,Spider-Syn与Spider-Realistic数据集上的执行准确率分别达78.7%、80.7%,与依赖6-7个示例的基准方法性能接近,且在跨领域场景中泛化能力更优 [16] - 消融实验显示移除FindShortestPath工具后,在需4个及以上表关联的场景中,Spider-150与BIRD-150子集的执行准确率分别下降22个、12个百分点,证明该工具能有效降低LLM的多表关联推理负担 [17] 行业应用潜力 - 智能教育领域可适配"知识点-题库-学生答题记录"多表关联场景,教师通过自然语言查询(如"某知识点错题率Top3的班级")无需编写复杂SQL [18] - 企业数据分析场景能处理含数百列的业务宽表(如销售数据表),市场人员可快速查询"某季度某区域客单价变化",降低对数据分析师的依赖 [18] - 政务公开查询可简化数据查询流程,市民通过自然语言提问(如"查询某区2024年社保参保人数")即可获取精准结果 [18]
中康科技·天宫一号:完成对前沿大语言模型DeepSeek-V3.2-Exp的适配,持续深化开放的健康产业AI应用生态
格隆汇· 2025-10-11 10:03
公司战略与技术架构 - 公司核心战略为技术自主与生态开放并重 [1] - 公司技术体系基石为自主研发的“卓睦鸟”医疗大模型与“天宫一号”决策大模型构成的双核心驱动架构 [1] - 该双核心架构深度融合医学专业性与商业决策广域性,旨在确保在复杂多变的健康产业应用场景中的领先地位与专业壁垒 [1] 平台生态与模型适配 - 平台智能体生态采用“超市”与“工厂”相结合的模式 [2] - “超市”模式提供覆盖“医、药、患、管”全场景的标准化智能体产品,支持用户开箱即用以快速解决常见问题 [2] - “工厂”模式提供强大的智能体创作工具,支持客户根据自身独特业务流程自主编排,沉淀企业专属智能体资产,实现核心能力的长期锁定与持续进化 [2] - 完成对前沿大语言模型DeepSeek-V3.2-Exp的适配工作,此举极大地丰富了“工厂”模式下的“原材料”库 [1][2] - 企业构建专属智能体时,可根据具体任务的性能、成本和效率要求,自由组合调用“卓睦鸟”医疗大模型、“天宫一号”决策大模型以及DeepSeek等多种模型,以实现协同效应 [2]
开发智能康养机器人,「如身机器人」完成千万级天使++轮融资 | 早起看早期
36氪· 2025-10-11 07:57
公司概况与融资情况 - 康养具身智能公司“如身机器人”(RobotGym)近日获千万元级人民币天使++轮融资,由力合金融独家投资,资金主要用于核心技术迭代、产品工程化落地、养老场景规模化试点及市场前期布局 [3] - 公司已启动Pre-A轮融资 [3] - 创始人及CEO师云雷师从德国国家工程院院士张建伟,核心团队成员来自德国顶尖人工智能机器人研究所、港股医疗机器人龙头企业微创机器人、欧洲超级独角兽企业Agile Robots等 [3] 市场机遇与核心观点 - 打造通用型养老服务机器人的窗口期已经到来 [2] - 大语言模型技术突破了自然语言交互瓶颈,使机器人能够“听懂人话”、拆解复杂指令并分步骤执行,这是机器人进入家庭的“敲门砖” [4] - 市场需要高通用性、高智能化的康养服务机器人 [4] - 养老照护机器人市场包括养老院、康复机构等B端和大量C端个人用户,需从分散需求中找到核心痛点 [3] 产品线规划与商业化策略 - 公司规划两条产品线:格物(UniGym)多合一智能康复机器人系列,以及齐家(Qijia)养老照护机器人系列 [4] - 格物系列面向居家康复场景,覆盖手部、上肢与下肢等全身康复训练,支持个性化计划、实时调节参数、查看报告,产品相对轻量,已实现千台量产并出口至北美、欧洲、东南亚等市场 [5] - 格物系列产品为公司带来持续现金流,同时也是深入康复场景、积累真实世界数据和用户的触角 [5] - 公司选择商业化先行,尽可能多地卖出产品,以建立能够快速、大规模采集多模态数据(如触觉、力觉)的硬件网络,为未来技术迭代积累先机 [5] - 齐家系列直接切入养老刚需,针对独居、半失能及失能老人的日常照护场景,其Q1系列核心功能规划为三个层级:辅助移动、情感陪伴、智能照护 [5] 齐家系列养老机器人功能详解 - **辅助移动**:具备自动导航、智能避障能力的移动辅助机器人,旨在解放老人双腿,拓展其日常安全行动半径,满足老人“能出门遛弯”的强烈需求 [7] - **情感陪伴**:基于多模态大模型,能与用户自然对话,提供情感陪伴和生活助手功能,如提醒用药、安排行程,并可作为一个新家庭终端平台,集成帮助书写回忆录、生成生活日报发送给子女等软件服务 [7] - **智能照护**:技术挑战最大、产品价值最高的功能,公司参照自动驾驶分级进行类比 [7] - L1-L2级:能执行非接触或轻接触的低风险任务,如根据语音指令递送水杯、药品、食物等 [7] - L3级:可实现更复杂的辅助任务,如辅助老人起身、进行居家康复训练等 [7] - L4-L5级:要求能够执行高强度、高风险的力控接触任务,如在老人摔倒时进行紧急扶助或急救操作 [7] 技术路径与安全设计 - 要实现L3及以上较为成熟的自主照护服务,可能仍需五年左右 [8] - 为让产品当下具备商业化落地能力,公司尝试“AI +远程操作”混合架构,即通过24小时远程监护中心,由机器人协助远端护工一起操作复杂照护任务 [8] - 公司开发的高精度力反馈技术,能够保证远程操作的安全与柔和 [8] - 产品设计注重安全性,采用稳定的轮式底盘确保低重心和高通过性,能平稳在家庭门槛、地毯上行驶,杜绝倾倒风险 [9] - 机械臂设计经过严格风险评估,未来部署入家庭的硬件将配备远程急停开关 [9] 合作与量产计划 - 齐家产品系列已与国内多家头部养老服务机构达成试点合作意向,并入选腾讯“银发科技伙伴计划” [9] - 齐家系列预计2026年实现标准化量产 [9]