大语言模型(LLM)
搜索文档
LeCun怒揭机器人最大骗局,坦白Llama与我无瓜
36氪· 2025-10-26 17:22
人形机器人行业现状与挑战 - 行业面临从特定任务训练到通用智能的鸿沟,家用机器人实现叠衣服、倒水等任务仍需AI领域取得一系列突破[1] - 行业秘密在于公司尚不知晓如何让机器人变得足够聪明以达到实用级别[21] - 人形机器人拥有40个自由度,可能产生的位姿组合数量超过宇宙原子总数,该问题无法通过编程解决,唯一途径是神经网络[25] 技术路径分歧:世界模型与LLM - Meta首席AI科学家Yann LeCun认为突破核心在于打造可规划的世界模型架构,以学习理解和预测物理世界系统[1] - LeCun指出大语言模型是一条死胡同,仅靠文本训练无法实现人类水平智能,智能源于视觉、听觉、触觉等多模态经验[15] - 四岁儿童通过视觉接收的数据量已相当于所有公开文本训练的最大规模LLM的数据量[15] - LeCun预测未来3-5年内,世界模型会成为AI架构的主流模型,届时头脑清醒的人都不会再用生成式LLM的路子[20] 主要公司动态与战略 - **特斯拉**:公司内部对于如何快速实现通用人形机器人已有非常明确的思路[1];正建设年产百万台Optimus机器人的生产线,目标2026年初推出具备量产意向的V3原型机[26];其神经世界模拟器能够基于当前状态与后续动作直接合成未来状态,该架构将无缝迁移至Optimus机器人[28][31] - **Figure AI**:公司CEO宣称明年就能实现通过语音指令让人形机器人在陌生环境完成各类通用工作[23];强调其机器人所有操作都由神经网络驱动,否认某些公开演示仅为戏剧表演或预设程序[25] - **1X Technologies**:公司发布自研世界模型,该模型允许从相同初始条件出发并行部署不同策略进行直接对比[35][37];公司CEO坦言让机器人进入家庭存在理想与现实的落差,现实环境复杂得离谱[37] 世界模型技术架构 - 世界模型定义为给到时刻t的世界状态及智能体可能动作,以预测动作执行后的环境[16] - 系统配备世界模型后可进行规划,设想连续动作并预测结果,结合代价函数评估任务完成情况,运用优化方法搜索最优动作序列[18] - 环境动力学模型完全通过自监督学习,机器人无需针对特定任务反复训练,能从模拟数据或真实操作中学习动作-结果关系,零样本完成新任务[18][19] - 1X世界模型包含视觉编码器、动作编码器、核心网络及视频与状态价值解码器,通过对成功标签进行监督学习生成的状态价值预测可量化评估输入动作质量[35]
5年内再现巴菲特传奇?AI能否成为投资“神手”
日经中文网· 2025-10-25 08:33
AI在资产管理行业的应用现状 - 总部位于加利福尼亚州的Voleon Group是一家专门采用量化策略的对冲基金公司,管理着160亿美元资产,自2007年由两名机器学习研究人员创立以来,一直作为AI投资领域的先驱而闻名[4] - Voleon每天买卖多达约5000只股票及债券、货币等,没有人类参与操作,除股价、买卖数据、财务状况、分析师报告外,AI还学习新闻报道、产品信息乃至线上商店购买记录,从这些数据中找出与股价的相关性并自动判断买卖操作[5] - 自2020年以来,该公司每年保持近两位数的总回报率,2024年全年实现了与标普500指数相同的回报率[5] AI投资决策的技术特点 - 在Voleon的AI交易中,两成处于接近黑箱的状态,即便专业人士也无法轻易解释投资决策的依据[2][7] - 公司首席投资官表示同时投资5000只股票的情况是人类无法做到的,在唯有AI才能做到的领域发现了潜力[2][7] - 随着AI进步,交易范围已从股票扩大至债券及货币[5] 大语言模型在投资分析中的应用 - 管理着280亿美元资产的对冲基金公司Balyasny Asset Management将日本央行总裁植田和男在记者会上说的每一句话导入自主AI,大约60秒就生成一份分析报告[7] - 日本银行总裁的记者会因解读难度高被戏称为"日银文学",而AI生成的报告能精准捕捉总裁发言的细微语气与深层含义,分析精度已经与年轻分析师相当[7] - 该公司首席经济学家表示多亏了技术,才能够为所有投资团队配置专属的'日本银行观察者'[7] AI投资的未来发展与潜在影响 - 研究金融与AI的美国麻省理工学院罗闻全教授表示5年内也许可以使用AI重现沃伦·巴菲特传奇[2][8] - 如果AI能够实现与人类相似的直觉能力,中长期推理的准确性将大幅提升,可能成为投资的神之手[8] - 随着AI普及,如果投资策略变得相似,AI自身可能会产生新的脆弱性,人类的干预将变得困难,市场可能像闪电崩盘一样暴跌,金融危机可能迅速加剧[8]
教全世界与AI对话的男人,正式加入DeepMind,提示工程封神
36氪· 2025-10-24 20:57
核心事件 - 提示工程师Riley Goodside官宣入职谷歌DeepMind [1] - Riley Goodside在2022年凭借与ChatGPT互动年入百万美金而闻名 [1][6] - 此次加盟受到DeepMind CEO Demis Hassabis和产品负责人Logan Kilpatrick的公开欢迎 [2][3] 职业背景 - Riley Goodside本科毕业于西宾夕法尼亚大学计算机科学专业 [8] - 其职业经历包括在Verisk Analytics、OkCupid、AngelList等公司担任业务分析师、数据科学家等数据相关职位 [8] - 此前在Scale AI的入职被其创始人兼CEO Alexandr Wang称为可能是人类史上首次招聘提示工程师 [9] 提示工程行业 - “提示工程师”这一职业因Riley Goodside等人在ChatGPT发布后迅速走红 [1][6] - ChatGPT的发布被视为提示工程发展史上的里程碑事件,显著降低了提示工程的难度 [12][13] - 提示工程可被视为大型语言模型发展的前沿试验场,出色的提示想法最终可能被整合进模型系统 [13] 技术观点与贡献 - Riley Goodside将提示工程分为“上下文工程”和“提示词编程” [13] - 其经典杰作包括“忽略之前所有的指令”这一提示词 [10] - 他发现了GPT-4中的“故障token”现象,例如字符串“ davidjl”拥有专属的单个Token ID 23282 [15][16] - 在2022年设计了“你是一个GPT-3模型”的提示词,用于辅助进行精确的算术、字符串操作和维基百科查询 [19]
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
AI前线· 2025-10-21 12:54
DeepSeek-OCR模型技术突破 - 模型发布6.6GB专门为OCR微调的模型,首次量化视觉-文本token压缩比,验证10倍近无损压缩、20倍仍保有60%精度的可行性[2] - 提出DeepEncoder解决现有编码器高分辨率-低内存-少token不可兼得的问题,在实用场景达到SOTA且token消耗最少[2] - 采用仅12层的精简架构,因OCR本质是模式识别任务,不需要太多推理或长程记忆[5] - 进入新兴小型专家混合范式,总规模较大但每次推理仅激活5亿参数,能单批次处理大量数据[7] - 采用激进编码策略结合语义池化,在输入阶段进行大量信号压缩,显著提升处理速度[7] 输入范式革命性观点 - Karpathy提出根本性问题:对大语言模型而言像素可能比文本是更好的输入形式,文本token可能是浪费而糟糕的输入方式[3] - 认为Tokenizer必须被淘汰,许多文本到文本任务可重构为视觉到文本任务,但反过来行不通[4] - 未来用户输入可能都是图像,模型输出仍是文本,因生成像素级输出不现实且暂时不需要[4] - 图像输入优势:信息压缩更高效,在更短上下文窗口中包含更多信息;信息流更丰富,能自然包含加粗、颜色、格式等视觉要素[6] - 输入可天然使用双向注意力,而非语言模型必须的自回归逐步处理,结构表达更强大[6] 行业影响与竞争格局 - 代表轻量高效OCR模型最佳范例,可能成为未来所有OCR系统的起点[4] - 在多模态视觉语言模型出现前,业界领先的Google Cloud OCR模型规模仅一亿参数左右[4] - 17亿参数的dots.ocr在内部和公开基准测试中准确率普遍超过OpenAI、Anthropic,某些任务优于Gemini,成本仅为后者一小部分[4] - 模型意义在于成为真正基础型OCR模型,找到推理效率与性能最佳平衡点,奠定工程基础[8] - 要在大规模真实业务中应用,仍需针对特定领域进行数据标注和定制化流程设计[8] 开发者实践与部署案例 - 资深开发者Simon Willison花40分钟成功在NVIDIA Spark上运行模型,通过Claude Code用4次提示解决兼容问题[9] - 环境搭建涉及Docker容器、CUDA配置、npm安装Claude Code等步骤[10] - 遇到PyTorch 2.5.1不支持新GPU问题,通过寻找ARM版本CUDA wheel包,升级到PyTorch 2.9.0解决兼容性[14][15] - 模型成功识别文本与定位框,生成检测结果,不同提示词模式表现各异[16][17][19] - 实践总结成功要点:给予充分环境与目标、沙箱模式完全自主执行、关键时刻用经验引导[22]
马斯克亲自点名Karpathy迎战Grok 5,别神话LLM,AGI还要等十年
36氪· 2025-10-21 10:21
AGI发展时间表与现状评估 - 行业专家预测实现通用人工智能仍需约10年时间 [1][3][12] - 该时间线相对于当前市场炒作氛围显得保守,但相对于怀疑论者仍属乐观预期 [17] - 专家认为比旧金山同行对AGI时间线的预测悲观5-10倍 [17] AGI实现路径的技术挑战 - 强化学习方法存在信号稀疏问题,仅通过二元对错信号进行学习效率低下 [21][23] - 模型崩塌现象阻碍大语言模型实现人类式学习能力 [2] - 系统集成与安全防护构成重大技术障碍,包括越狱和投毒等风险 [17] - 环境与评估体系匮乏,需要大量多样化高质量环境集作为训练基础 [25] 大语言模型发展现状与趋势 - 行业正处于LLM炒作的"幻灭低谷期",但将进入生产力缓慢提升的"启蒙斜坡"阶段 [7][9] - 模型发展呈现"先大后小"趋势:先扩大规模承载能力,再通过架构优化实现小型化 [29] - 智能体时代将从2025年开始,未来10年都将处于"智能体时代" [15][17] 新型学习范式探索 - 系统提示学习作为强化学习替代方案,通过编辑操作而非梯度下降实现优化 [26] - 新范式可使LLM自动生成系统提示,形成强大的新型学习机制 [26] - 记忆功能等特性已成为新学习范式的早期部署样本 [27] 人机协作模式演进 - 倡导"协作式中间态"而非全自动编程,避免产生代码沼泽和安全风险 [32] - AI编程助手应定位为"天才实习生",需保持防御性、谨慎多疑的工作态度 [32][36] - 当前工具尚未充分优化人机协作流程,用户体验存在巨大改进空间 [33] 行业应用与自动化前景 - 工作自动化程度取决于输入输出标准化、错误代价和决策频率等因素 [34] - 放射科等领域呈现人机互补模式,模型作为第二读片者提升整体质量 [34] - AGI预计将融入过去约2.5个世纪以来每年约2%的GDP增长趋势 [2]
世界模型:机器能否理解现实?
36氪· 2025-10-20 21:01
世界模型的概念与重要性 - 世界模型是AI系统内部携带的环境表征,用于在执行任务前对预测和决策进行评估 [1] - 多位深度学习领域权威人物认为世界模型是构建真正聪明、科学且安全的AI系统不可或缺的部分 [1] - 该概念在心理学、机器人学和机器学习等领域已有数十年历史,类似于人类大脑中避免危险的本能模型 [1] 世界模型的历史渊源 - 世界模型的概念可追溯至1943年心理学家肯尼斯·克雷克提出的"外部现实小尺度模型"设想 [2] - 克雷克的设想预示了认知革命,并将认知与计算能力直接联系起来 [2] - 20世纪60年代末的SHRDLU等AI系统曾使用简易模型,但手工构建的模型难以规模化 [3] 当前AI与世界模型的现状 - 当前大语言模型展现的许多能力使世界模型成为一个颇具解释力的思路 [4] - 然而,生成式AI更像是在学习成百上千条互不关联的经验法则,而非一个自洽的整体世界模型 [4] - 研究者尝试寻找世界模型证据时,发现的是零散的启发式规则,而非连贯的表征 [4] 世界模型的优势与挑战 - 大语言模型可以在其数万亿个参数中编码大量启发式规则,通过数量实现质量 [5] - 缺乏连贯世界模型导致系统鲁棒性不足,例如当1%街道封闭时,LLM的导航能力明显崩溃 [6] - 一个鲁棒且可验证的世界模型有望消除AI幻觉、支持可靠推理并提升系统可解释性 [6] 未来发展方向 - Google DeepMind和OpenAI认为通过足够多的多模态训练数据,世界模型会在神经网络中自然形成 [7] - Meta的杨立昆则认为构建世界模型需要完全不同于生成式AI的全新架构 [7] - 构建世界模型是大型AI实验室和学术界的重点研发方向,但其具体实现方法仍属未知 [7]
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
量子位· 2025-10-20 18:29
技术方案与核心创新 - 提出名为Mem-α的强化学习框架,用于训练大语言模型智能体自主管理复杂的记忆系统[2] - 采用数据驱动的强化学习方法,让模型在交互中自主学习最优记忆管理策略,而非依赖预设指令[4] - 将记忆构建问题转化为可通过强化学习优化的序列决策问题,实现端到端的优化[14] - 训练时智能体依次处理信息块并决定记忆操作,通过下游任务表现获得反馈进行优化[16] 技术背景与现有挑战 - 大语言模型智能体受限于有限的上下文窗口,使得外部记忆系统对长期信息理解至关重要[5] - 即使支持100万tokens的模型如GPT-4.1,在长期交互中也会因窗口增长导致成本激增和延迟增加[6] - 当前记忆增强智能体依赖预定义指令和工具进行记忆更新,缺乏决定存储内容、组织结构和更新时机的能力[7][8] - 传统方法导致次优记忆构建和信息丢失,严重影响智能体在长期交互中的表现[9] 记忆系统架构设计 - 设计包含三种记忆类型的复杂系统:核心记忆(容量512 tokens)、情景记忆(记录带时间戳的事件)和语义记忆(存储结构化知识)[20][22] - 每种记忆类型支持插入、更新、删除操作,智能体需学习在适当时机选择合适工具和记忆类型[23] - 记忆系统灵感来源于认知科学中的记忆分类理论,涵盖持久信息、事件记录和结构化知识[20] 实验性能与效果验证 - 在30k tokens上训练后,模型在验证集上问答准确率等指标显著提升[27] - 主实验显示Mem-α在MemoryAgentBench上全面超越现有方法,平均性能达64.2%[29][33] - 相比Long-Context和RAG-Top2,记忆占用减少约50%的同时保持更优性能,在BookSum等任务上压缩效果更佳[35] - 训练仅使用平均<30K tokens的文档,成功泛化到超过400K tokens的文档,最长泛化至474K tokens[35] 技术突破与行业意义 - 证明在LLM智能体记忆管理领域,学习胜过工程,传统需精心工程化的系统组件可通过端到端学习优化[34][35] - 结构化架构必要性得到验证,扁平记忆基线性能明显受限,凸显分层记忆设计和强化学习优化的有效性[35] - 展现出对未见分布的强泛化能力,在精确检索和长期理解任务上表现尤其突出[35]
微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速
机器之心· 2025-10-20 15:48
核心技术:BitDistill框架 - 提出一种名为BitDistill的量化感知训练框架,旨在将现有全精度大语言模型高效微调为1.58比特的BitNet模型,以适配特定下游任务[4][7] - 该框架包含三个关键阶段:模型精炼阶段、持续预训练阶段和基于蒸馏的微调阶段[8][11][12] - 在模型精炼阶段引入额外的归一化层以稳定优化过程,缓解低比特量化模型激活方差过大的问题[8][9] 性能表现与效率提升 - 在文本分类和文本摘要任务上的实验表明,BitDistill模型性能与全精度基线相当,例如在MNLI任务上达到88.17准确率,与FP16基线的88.01相近[19][20] - 该技术实现了显著的内存节省和推理加速,在CPU上内存占用从1.20GB降至0.11GB,节省近10倍,推理速度从427 tokens/s提升至1,135 tokens/s,加速约2.65倍[4][19][20] - 在CNN/DailyMail摘要任务上,BitDistill模型的BLEU得分达到14.41,优于FP16基线的13.98,同时ROUGE-1得分达到40.21,与基线的40.62相当[21] 方法通用性与技术细节 - BitDistill框架展现出良好的可扩展性,在不同模型规模上性能稳定,当模型从0.6B扩大到4B时,性能差距未出现显著扩大[4][17][19] - 该方法具备跨架构通用性,在将基础模型替换为Qwen2.5和Gemma后仍能保持稳定性能[22][23] - 消融实验证明框架的三个阶段相互补充,移除任一阶段均会导致性能显著下降,例如在MNLI任务上,完整框架准确率为88.17,而移除第三阶段后降至86.73[25][26] 优化策略与关键发现 - 知识蒸馏阶段联合使用logits蒸馏和多头注意力蒸馏效果最佳,单独使用任一种技术也能提升性能,但联合使用效果最优[27][28] - 使用更大规模的FP16教师模型进行蒸馏能进一步提升学生模型性能,甚至可超越同规模FP16模型[37][38] - 持续预训练阶段使用100亿个token的语料,与从头训练所需的约4万亿个token相比,成本几乎可忽略[17]
卡帕西:强化学习很糟糕,但其他所有方法都更糟
量子位· 2025-10-18 17:30
AGI发展时间框架 - 通用人工智能至少还需要十年时间才能达到理想状态[5][6][10] - 当前智能体系统在智能水平、多模态能力和复杂任务操作方面存在明显局限[8] - 智能体需要具备持续学习能力并解决认知架构缺陷才能实现真正协作[9] 大语言模型技术局限 - 现有大语言模型存在认知缺陷,容易陷入编程范式思维定势[15] - 模型训练数据导致过度追求生产级标准代码,造成代码库膨胀和复杂度增加[15] - 业界对大语言模型能力存在过度夸大,实际仍需大量改进[16] 强化学习技术评估 - 强化学习方法存在严重缺陷,但其他替代方法表现更差[18] - 强化学习通过正确结果反向强化整个解题路径的做法充满噪声且不合理[20] - 当前系统缺乏人类式的复杂复盘机制,仅依赖正确错误二元判断[21][23] AGI经济影响预测 - AGI将延续现有2%的GDP增长趋势,不会产生突然的技术跳跃[5][29] - AGI替代人类工作将采用渐进式自动化模式,实现自主性滑块分配[26] - 智力爆炸已通过历史GDP指数增长体现,AGI只是自动化趋势的延续[28] 自动驾驶技术挑战 - 自动驾驶技术从演示到产品的差距极大,失败代价高昂[30][31] - 可靠性每增加一个9(如90%到99%)都需要大量工作[32] - 真实产品需要应对各种边缘情况,特斯拉五年仅达到两到三位9的可靠性[32] 教育领域应用前景 - 理想的教育系统应提供个性化导师体验,能够快速判断学生知识水平[36] - 优秀导师能提供适度挑战,既不太难也不太简单[36] - 当前大语言模型尚无法实现真正个性化教学,需要构建完整课程体系[36]
最新自进化综述!从静态模型到终身进化...
自动驾驶之心· 2025-10-17 08:03
文章核心观点 - 当前主流AI智能体存在静态配置的局限性,无法动态适应环境变化,而自进化AI智能体通过与环境交互持续优化内部组件,实现终身学习 [1][5][6] - 论文首次明确定义自进化AI智能体,提出三大定律和四阶段演进框架,构建从技术到落地的完整图谱 [1][7][9] - 自进化AI智能体的目标是让AI系统成为能与人类长期协作的伙伴,实现从静态模型到终身进化的范式转变 [42] 自进化AI智能体的定义与核心原则 - 自进化AI智能体是通过与环境交互,持续且系统性地优化内部组件,以适应任务、上下文和资源变化的自主系统 [6] - 提出自进化AI智能体三定律:存续定律(维持安全与稳定性)、卓越定律(保持或提升性能)、进化定律(自主优化内部组件) [8][12] - 四阶段演进历程包括模型离线预训练(MOP)、模型在线适配(MOA)、多智能体协同(MAO)和多智能体自进化(MASE) [9] 技术框架与组件 - 四组件反馈循环框架包括系统输入(定义进化目标)、智能体系统(执行任务)、环境(提供反馈信号)、优化器(迭代优化智能体) [10][11][15] - 系统输入分为任务级输入(针对特定任务的整体优化)和实例级输入(针对单个任务实例的精细优化) [13][16] - 智能体系统分为单智能体(由基础模型、提示、记忆、工具等构成)和多智能体(由多个单智能体、通信协议和拓扑结构组成) [14][17] - 环境反馈分为客观反馈(可量化的性能指标)和主观反馈(需通过LLM评估的质性指标) [14][18] - 优化器由搜索空间(定义可优化对象)和优化算法(定义如何搜索最优配置)组成 [19][22] 单智能体优化技术 - LLM行为优化分为训练式优化(通过数据反馈更新模型参数)和推理时优化(不修改模型参数,通过推理策略提升性能) [20][23] - 提示优化技术包括编辑式优化、生成式优化、文本梯度式优化和进化式优化 [26] - 记忆优化分为短期记忆优化(优化当前任务的上下文管理)和长期记忆优化(构建跨任务的持久化记忆) [26] - 工具优化分为训练式工具优化、推理时工具优化和工具功能优化(自主创建新工具) [26] 多智能体优化技术 - 手动设计多智能体系统包括并行工作流、分层工作流和多智能体辩论 [30][31] - 自进化多智能体系统优化技术包括拓扑优化、统一优化和LLM骨干优化 [30][31] - 多智能体系统通过协作提升复杂任务处理能力,例如医疗诊断多智能体系统模拟临床流程 [30][32] 领域特定优化应用 - 生物医学领域注重安全优先和精准适配,例如多智能体模拟临床流程和分子发现 [30][32] - 编程领域注重效率导向和错误修正,例如自反馈与多角色协作优化代码生成和调试 [30][38] - 金融与法律领域注重合规优先和规则对齐,例如多源信息整合优化金融决策和模拟司法流程优化法律推理 [30][33][38] 评估方法与安全伦理 - 评估方法分为基准测试评估(基于标准化数据集和任务)和LLM驱动评估(用LLM作为评估者) [35][39] - 安全与伦理风险包括安全风险(进化过程中出现有害行为)、稳定性风险(进化导致性能波动)和合规风险(进化后违反领域法规) [36][40] - 需要建立进化安全审计机制,确保每个进化步骤符合安全与伦理要求 [36] 挑战与未来方向 - 核心挑战包括安全与进化的平衡、评估体系的完善、多模态与跨领域泛化、效率与性能的权衡 [37][41] - 未来方向包括开发MASE模拟环境、推进工具自主创建、构建终身评估基准、优化多智能体效率 [37][41] - 自进化AI为构建更自适应、更自主、更可持续的AI系统提供了清晰的路径 [42]