Workflow
视觉语言模型
icon
搜索文档
DeepSeek-OCR 2发布:让AI像人一样“读懂”复杂文档
凤凰网· 2026-01-27 19:58
凤凰网科技讯 1月27日,DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源 DeepSeek-OCR 2模型。 该模型采用创新的DeepEncoder V2新型编码器结构,它能够根据图像语义动态调整视觉信息的处理顺 序,使模型在进行文字识别前先对视觉内容进行智能排序。这项技术突破源于对传统视觉语言模型处理 方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。 在传统的视觉语言模型中,图像通常会被切分为若干视觉token,并按照从左上到右下的固定栅格顺序 送入模型处理。这种方式虽然实现简单,但与人类在阅读文档、表格或公式时基于语义和逻辑关系进行 跳跃式浏览的方式并不一致。 DeepSeek论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明确的逻辑先后关系,仅 依赖空间顺序可能限制模型对内容结构的理解能力。 为验证模型性能,研究团队在OmniDocBench v1.5基准上进行了全面评估。该基准涵盖多种类型的中英 文文档,包括学术论文、杂志、报告等,重点考察文本识别、公式解析、表格结构还原以及阅读顺序等 指标。 测试结果显示,在视觉token上 ...
阶跃星辰10B视觉语言SOTA模型开源
第一财经· 2026-01-20 18:59
公司动态 - 阶跃星辰宣布开源其Step3-VL-10B模型 [1] - 该模型参数量为100亿 [1] 技术性能 - Step3-VL-10B在视觉感知、逻辑推理、数学竞赛及通用对话等一系列基准测试中均达到同规模SOTA水平 [1]
π0-FAST正式集成到LeRobot中!pytorch版本来了
具身智能之心· 2026-01-15 08:32
模型技术概览 - π0-FAST是一款融合了视觉语言模型能力与FAST(频域动作序列分词)动作编码技术的新型模型 [1] - 该模型使自回归视觉语言动作模型能够训练高精度操作任务,这是传统方法无法实现的 [1] - 相比π0等扩散模型方法,其训练速度提升高达5倍 [1] 技术方案与优势 - 传统机器人动作编码方法(如按维度、按时间步分箱方案)在处理需要精确控制和高频响应的复杂灵巧技能任务时会迅速失效 [3] - π0-FAST通过信号处理方法压缩动作序列,生成可自回归预测的密集动作词元序列,其预测方式与语言词元完全一致,从而解决了传统方法的难题 [4] - 原版π0-FAST实现仅支持JAX框架,本次已用PyTorch进行了重构,包含了交叉熵损失目标、FAST分词方案以及KV缓存等推理优化技术 [6] 框架集成与生态 - π0-FAST目前已集成到LeRobot框架中 [2] - LeRobot框架现已支持π0、π0.5、π0-fast系列模型,此外国产模型WALL-OSS也被集成进去 [7] - 相关文档和基础检查点已公开,文档位于Hugging Face,基础检查点为`lerobot/pi0fast-base` [9]
π0-FAST正式集成到LeRobot中!pytorch版本来了
具身智能之心· 2026-01-14 17:00
模型技术概览 1. π0-FAST是一款融合了视觉语言模型能力与FAST(频域动作序列分词)动作编码技术的创新模型[1] 2. 该模型使自回归视觉语言动作模型能够训练高精度操作任务,这是传统方法无法实现的[1] 3. 在训练速度上,相比π0等扩散模型方法,π0-FAST实现了高达5倍的提升[1] 技术方案与优势 1. 传统机器人动作编码方法,如按维度或按时间步的离散化方案,在处理需要精确控制和高频响应的复杂灵巧技能任务时会迅速失效[3] 2. π0-FAST通过信号处理方法压缩动作序列,生成可自回归预测的密集动作词元序列,其预测方式与语言词元完全一致,从而解决了传统方法的难题[4] 框架集成与实现 1. π0-FAST模型目前已经集成到LeRobot机器人框架中[2] 2. LeRobot框架已基本支持pi系列工作,包括π0、π0.5、π0-fast,同时国产模型WALL-OSS也被集成进去[7] 3. 原版π0-FAST实现仅支持JAX框架,本次集成用PyTorch进行了重构,包含了交叉熵损失目标、FAST分词方案以及KV缓存等推理优化技术[6] 资源与文档 1. 相关技术文档可在Hugging Face的LeRobot页面查阅[9] 2. Pi0Fast基础模型检查点已发布在Hugging Face平台上[9]
智源&港科大等出品!RoboMirror:让机器人先 “读懂” 视频,再精准复刻每一个动作
具身智能之心· 2026-01-09 08:55
文章核心观点 - 提出了一种名为RoboMirror的新型具身智能框架,其核心创新在于将机器人模仿人类动作的模式从传统的“姿态复刻”转变为“意图生成”,实现了“先理解、后模仿”的新范式 [3][6] - 该框架通过视觉语言模型理解视频中的动作意图和环境语义,并利用扩散模型直接生成符合物理规律的机器人关节动作,无需依赖传统的姿态估计和重定向步骤,从而解决了延迟高、误差大、视角局限等行业痛点 [3][5][6][8] 技术架构与原理 - **两阶段“理解-重构-控制”架构**:第一阶段利用Qwen3-VL视觉语言模型理解视频中的动作意图,并通过流匹配扩散模型将其重构为包含运动学信息的运动潜变量 [6][12][14] - **Teacher-Student双策略控制**:第二阶段采用Teacher-Student策略架构,其中Teacher Policy由多个专家组成以确保动作多样性,轻量化的Student Policy则接收运动潜变量和机器人本体感知信息,通过两步DDIM采样快速生成可执行的关节动作,实现毫秒级推理延迟 [7][10][12] - **端到端映射**:整个流程从视频像素输入到机器人动作输出端到端完成,避免了传统流水线中因多步骤转换而导致的误差累积 [6][7][14] 性能与效果评估 - **定量分析表现卓越**:在Nymeria数据集上,RoboMirror的任务成功率达到了0.99,显著高于基线方法的0.92;其关节位置误差相比基线降低了近50%;端到端延迟从9.22秒大幅降低至1.84秒,效率提升约80% [13][16][17] - **定性分析展示精准理解**:框架不仅能复制动作,还能理解复杂动作的语义(如“交替出拳”、“战绳训练”),并生成合理且物理可行的全身运动,即使面对“像鸟一样张开手臂跑”等高度语义化指令也能有效应对 [9][16][24] - **仿真与真机验证**:在仿真环境中,其扩散策略相比MLP基础策略能生成更稳定、追踪更精准的动作 [19][22];真机部署演示进一步验证了该架构能够精准理解并复刻输入视频中的动作,证明了其实用性与优越性 [25][27][29] 行业意义与突破 - **解决传统技术瓶颈**:传统机器人模仿技术依赖“姿态估计→重定向→追踪”的繁琐流水线,存在只会机械复刻而不理解动作目的、处理延迟长达9秒以上、面对第一人称视角视觉盲区直接失效三大瓶颈 [5][8] - **开创无需重定向的新路径**:RoboMirror是首个无需重定向的视频到人形机器人运动控制框架,利用视觉语言模型的强大理解能力,直接跨越了“感知”与“控制”之间的隔离墙 [6][8] - **提升机器人模仿的智能水平**:通过让机器人像人类一样基于语义理解来生成动作,而非基于像素复刻,使机器人能够应对各种未见过的视频场景,包括第一人称和第三人称视角 [6][9][14]
博世最新一篇长达41页的自动驾驶轨迹规划综述
自动驾驶之心· 2025-12-05 08:03
文章核心观点 - 博世发布了一篇关于基础模型在自动驾驶轨迹规划中应用的重量级综述,系统梳理了37种近期方法,提出了统一分类法,并批判性评估了其设计、优势与局限,旨在为该快速发展的领域建立结构化基础并指明未来方向 [2][11] 背景回顾 - 基础模型是利用海量数据学习表征并可适配多种下游任务的大规模模型,如大型语言模型和视觉语言模型 [4] - 研究表明,未经自动驾驶专门训练的现成基础模型已能令人惊讶地良好理解复杂驾驶场景,这使其成为构建自动驾驶专用方案的潜力基础,也是当前行业范式转变的关键驱动力 [5] - 轨迹规划是驾驶过程最核心的任务,其他能力均为其提供辅助,因此综述重点聚焦于基础模型如何助力轨迹规划模型 [8] 分层分类体系 - 利用基础模型的轨迹规划方法可分为两大主类别:为轨迹规划定制的基础模型、指导轨迹规划的基础模型 [16] - **为轨迹规划定制的基础模型**:通过微调现有预训练基础模型,直接用于自动驾驶场景,共22种方法,可进一步分为仅专注于轨迹规划的模型和具备额外能力的模型 [19][20] - **指导轨迹规划的基础模型**:不构建专用模型,而是将现成基础模型的知识转移到现有自动驾驶模型中,共15种方法,可根据知识转移发生在训练阶段或推理阶段进一步划分 [20][21][22] 为轨迹规划定制的基础模型 - **微调核心要素**:包括数据整理、模型设计和训练策略 [23] - **数据整理**:取决于模型用例,仅用于轨迹规划的数据集核心是“观测-轨迹”数据对;若需语言或动作交互能力,则需补充相应的问答对或指令-轨迹对数据 [24][28] - **模型设计**:主流思路包括直接使用现成视觉语言模型,或组合视觉编码器与大型语言模型并通过视觉适配器连接 [27][29] - **轨迹表征**:常见方式包括将轨迹作为文本生成、作为离散化的动作token、或作为数值集合通过附加的规划头单次生成 [31] - **模型训练**:通常通过单阶段或多阶段完成,例如先训练视觉适配器,再微调全部或部分参数 [29] - **仅专注于轨迹规划的模型**:根据是否使用思维链及使用方式,可细分为无思维链、文本输出作为思维链、初始轨迹预测作为思维链三类 [25][32] - **具备额外能力的模型**:除轨迹规划外,还具备语言交互和/或动作交互能力 [38] - **语言交互能力**:需要视觉问答数据对进行训练,评估采用自然语言处理领域的经典指标 [38][39][40] - **动作交互能力**:可根据用户指令规划轨迹,目前方法均在CARLA模拟器的合成数据集上训练,需具备规避误导性指令的机制 [43] 指导轨迹规划的基础模型 - **仅在训练阶段进行知识蒸馏的模型**:推理阶段无需调用基础模型,能保持效率,方法包括将CLIP表征对齐到端到端模型中,或利用GPT-4o输出元动作进行蒸馏等 [48][49][51] - **在推理阶段进行知识转移的模型**:训练和推理阶段都调用基础模型,计算成本更高,根据转移知识类型可分为转移场景描述、转移规划决策、或同时转移两者 [48][53] - **知识转移类型**:包括场景描述、元动作、轨迹等,通过不同编码方式融入到自动驾驶模型的各个层级 [53][54][55] 现有方法的数据集与代码开放性 - 开放性是推动研究进展和实际部署的关键,但无任何一种方法的所有资产均支持研究与商业双用途 [57][59] - 仅有5种方法公开了所有资产,但部分仍限制商业使用,其中4种属于“为轨迹规划定制的基础模型”,1种属于“指导模块化自动驾驶模型轨迹规划的基础模型” [59] - “指导端到端自动驾驶模型轨迹规划的基础模型”类别尚无开源实现,训练代码与模型权重是限制最严格的资产 [59] 开放问题与挑战 - **高推理成本导致部署困难**:基础模型参数庞大且自回归生成,导致推理延迟高,难以满足实际部署所需的10-30帧/秒帧率要求,例如Orion模型在A800 GPU上推理帧率仅为0.8帧/秒 [63] - **微调后的能力下降**:微调可能导致视觉语言模型丧失对轨迹规划潜在有用的能力,出现“概念遗忘”现象 [64][66] - **动作交互能力局限**:现有模型仅能处理短时域内可执行的指令,无法拆解和执行人类化的复杂多步指令 [68] - **仿真到现实的差距**:所有具备动作交互能力的模型均在合成场景中训练测试,存在域转移问题,阻碍实际部署 [69] - **性能影响因素不明**:不同方法在架构、数据、训练上差异巨大,难以厘清导致性能差异的核心因素 [70] - **缺乏推理能力评估基准**:需要建立标准基准来评估模型在复杂语言-视觉场景下的推理能力 [71]
“中文AI三大顶会”已有两家报导了理想近期AI进展
理想TOP2· 2025-11-09 22:59
中文AI媒体对理想汽车的报道热度 - 机器之心、量子位、新智元被戏称为“中文AI三大顶会”,在懂中文的AI从业者中拥有广泛读者群 [1] - 量子位于2025年11月8日发布关于ICCV自动驾驶新范式的文章,获得3.2万阅读、926大拇指赞、1617次转发和610爱心赞,阅读量在其近一周推文中排名第二 [1] - 机器之心于2025年10月31日发布关于理想汽车L4自动驾驶新范式的文章,作为次条推送获得3.9万阅读,该阅读量在机器之心的次条和头条中均属较高水平 [1] - 机器之心对理想汽车的报道跟进最为细致,覆盖了i8发布会自动驾驶内容并对多篇论文进行跟踪 [4] - 量子位除2025年11月的报道外,上一次专门撰写理想汽车的内容是对其24Q1财报的解读,再之前的报道集中在2021年 [10] - 新智元对理想汽车的上次报道集中在2022年 [15] 理想汽车自动驾驶技术进展与行业认可 - 理想汽车在ICCV 2025上提出“训练闭环”新范式,为全球首个将世界模型与强化学习结合并落地量产自动驾驶系统的公司 [2] - 该技术通过合成数据解决罕见场景问题,使MPI(人类接管里程)显著提升,技术细节扎实,对自动驾驶/AI领域从业者极具参考价值 [2] - 评论区对理想的评价非常正面,用户称赞其为“中国车企楷模”,认为其科研硬核得不像车企 [2] - 理想的研发资金近一半投在了人工智能领域 [2] - 专注于自动驾驶内容的媒体“自动驾驶之心”在2024年至2025年间约有45篇文章讲述理想汽车,表明理想已成为该领域主流玩家 [17] - 理想汽车从2021年开始辅助驾驶研发,历程从最初的BEV方案发展到无图辅助驾驶 [5] - 公司在自动驾驶技术上探索端到端(e2e)和视觉语言模型(VLM)的实现路径 [5] 理想汽车的AI战略与长期愿景 - 理想汽车在2022年9月内部达成共识,认为要实现自动驾驶,公司必须成为一家AI公司,并于2023年1月正式对外公布,目的之一是招人广告 [17] - 公司创始人李想在2015年因相信自动驾驶能实现且智能车产业足够大而选择创业,当时未意识到自动驾驶本质是AI问题 [17] - 至2024年12月,李想接受了OpenAI定义的AI五阶段理论,认为自动驾驶变成中短期可实现目标,并认为VLA是解决方案 [17] - 公司现阶段需要自己做基座模型,自己开发大语言模型(LLM) [17] - 公司从事这些研究的最终目的不仅是为了实现自动驾驶,更是基于对OpenAI AI五阶段的远期展望,为了挑战成长极限,旨在成为最顶尖的AI公司 [18] - 有AI领域账号在2025年4月对理想汽车做LLM感到困惑,不确定其是想开辟新赛道还是在车企中做差异化竞争 [17] 理想汽车在AI圈的品牌认知度 - 截至2025年5月,理想汽车在自动驾驶以外的中文AI圈知名度很低 [22] - 尽管量子位、机器之心在2025年11月的报道提升了其知名度,但预期现阶段理想在中文自动驾驶圈已非常有名并被充分认可为主流玩家,在非自动驾驶中文AI圈则知名度相当低 [22]
小米智驾正在迎头赶上......
自动驾驶之心· 2025-11-03 08:04
小米汽车技术进展概述 - 小米汽车自2021年9月成立至2025年6月YU7发布,四年内在新能源领域快速发展[2] - 2025年下半年行业竞争焦点集中在智能驾驶、性价比及座舱体验,小米智驾正迎头赶上,新版本即将发布[2] - 2025年小米汽车团队在学术研究上成果显著,论文工作涉及VLA、世界模型、端到端等多个前沿方向,包括ORION、WorldSplat、EvaDrive、Dream4Drive等,探索生成模型在自动驾驶中的落地应用[2] 视觉语言行动模型与端到端驾驶 - **AdaThinkDrive**:引入"快速应答/慢速思考"双模式推理机制,在NAVSIM基准测试中PDMS达90.3,超越最佳纯视觉基线1.7分,在96%复杂场景使用CoT,84%简单场景直接输出轨迹,推理效率提升14%[6] - **EvaDrive**:采用进化对抗策略优化框架,实现轨迹生成与评估的闭环共进化,在NAVSIM v1上PDMS达94.9,Bench2Drive驾驶分数64.96,超越DiffusionDrive等方法[9] - **MTRDrive**:通过记忆-工具协同推理框架提升决策鲁棒性,在NAVSIM和Roadwork-VLM基准上表现出色,有效缓解幻觉问题[14] - **ReCogDrive**:融合VLM认知推理与强化学习增强的扩散规划器,在NAVSIM基准PDMS达90.8,推理速度较纯文本VLM方法提升7.8倍[18] - **ORION**:通过视觉语言模型指导动作生成,在Bench2Drive数据集驾驶分数77.74,成功率54.62%,较之前最优方法提升14.28分和19.61%[23] - **AgentThink**:将动态工具调用与思维链推理结合,在DriveLMM-o1基准整体推理分数提升53.91%,答案准确率提升33.54%[22] 世界模型与场景生成 - **Dream4Drive**:首创3D感知引导的合成数据生成框架,仅插入420个样本(不足真实数据2%)即可提升感知任务性能,在1×训练轮数下mAP从34.5提升至36.1,NDS从46.9提升至47.8[26] - **WorldSplat**:采用高斯中心化前馈式4D场景生成框架,在nuScenes数据集取得最优FVD与FID指标,支持多视角驾驶视频生成[31] - **ViSE**:通过视觉街景外推框架在ICCV 2025 RealADSim-NVS挑战赛综合得分0.441,PSNR达18.228,SSIM 0.514,LPIPS降至0.288[30] - **ExtraGS**:融合几何先验与生成先验,在Waymo数据集NTA-IoU达0.592,NTL-IoU达58.49,nuScenes外推FID@3m降至77.19[35] - **Genesis**:实现多视角视频与LiDAR点云序列联合生成,在nuScenes基准视频生成FVD 16.95、FID 4.24,LiDAR生成Chamfer距离0.611[41] - **Uni-Gaussians**:统一高斯表示方法结合光栅化与光线追踪,在Waymo数据集实现相机与LiDAR数据高效仿真[42] - **CoGen**:通过3D语义条件生成框架提升视频生成3D一致性,在nuScenes数据集FVD指标最优[44] - **MiLA**:实现长达一分钟多视角高保真视频生成,在nuScenes数据集FID与FVD指标达到最先进水平[48] 运动风险预测与感知增强 - **DriveMRP**:基于BEV运动仿真方法合成高风险运动数据,零样本评估准确率从基线29.42%大幅提升至68.50%,增强VLM在长尾场景的风险预测能力[13][15] 深度估计技术 - **Pixel-Perfect Depth**:采用像素空间扩散生成模型,在NYUv2、KITTI等基准AbsRel最低达4.1%,δ1准确率最高97.7%,边缘感知点云Chamfer距离仅0.08[51]
ICCV 2025「端到端自动驾驶」冠军方案分享!
自动驾驶之心· 2025-10-29 08:04
赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军,EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一,得分显著领先于第二名(51.31)和第三名(51.08) [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制,通过将前视图像与车辆状态输入VLM生成认知指令,使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制,包括权重融合器和基于VLM的选择融合器,融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹,运用ViT-L等先进视觉骨干网络进行特征提取,并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识,限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力,比赛分为两阶段,第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者",要求模型具备交互式预测与意图理解能力,而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台,考验纯视觉环视相机输入的轨迹预测与行为规划能力,并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路,突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向 [5]
DeepSeek的终极野心:把大语言模型的基本语言都改造成图像
36氪· 2025-10-21 20:52
核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型,该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈,通过将文本信息渲染成图像进行高效压缩,从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式,实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度,其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身,而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元,一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token,表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损,20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器,这是一个约3.8亿参数的串联三级架构,完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下(用64个视觉token解码600-700个文本token),OCR精度高达96.5% [17] - 在20倍压缩率下(用64个token解码1200+token),模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中,DeepSeek-OCR(Small模式)仅用100个视觉token,性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR(Gundam模式)使用不到800个视觉token,性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器(每台搭载8颗A100 GPU)时,系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言,能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本,因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制,通过多分辨率设计实现分层记忆管理,为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩,未来的方向是让压缩变得有选择性,更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一,因为图像模态更合乎人类认知,所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]