多模态大语言模型
搜索文档
VLA的基础模型与大规模训练任务汇总
具身智能之心· 2025-10-08 10:49
视觉-语言-动作模型优化 - 机器人思维链推理通过预测中间表征提升策略性能与泛化能力,但存在依赖专用数据和推理速度慢的局限性 [3] - 研究提出推理提升性能的三种机制:更优表征学习、更完善学习课程化、更强表达能力,并设计简化变体验证每种机制作用 [3] - 基于机制理解提出两种轻量级机器人推理替代方案,在LIBERO-90基准实现最先进结果,推理速度较标准方法提升3倍 [3] - 利用视觉语言模型生成反事实标签扩充机器人数据集,解决现有数据语义多样性和语言接地性不足问题 [5] - 反事实重标记方法在无需额外采集数据下,使VLA模型导航任务成功率提升27%,指令跟随能力媲美最先进方法 [5] 机器人脑与操作能力构建 - 多模态大语言模型在机器人长周期操作任务中缺乏规划能力、可供性感知和轨迹预测三大关键能力 [7] - 引入ShareRobot高质量异构数据集,标注任务规划、对象可供性和末端执行器轨迹等多维度信息,基于此开发RoboBrain模型 [7] - RoboBrain结合机器人与通用多模态数据,采用多阶段训练策略,融入长视频和高分辨率图像,在各种机器人任务中实现最先进性能 [7] - 提出DROID大规模机器人操作数据集,包含7.6万条演示轨迹(350小时交互数据),由50名采集者在564个场景中完成86项任务 [9] - 利用DROID训练的策略在性能和泛化能力上均有提升,数据集及学习代码已开源 [9] 视觉表征与技能学习迁移 - 针对具身智能预训练视觉表征的最大规模实证研究构建CORTEXBENCH基准,包含17项任务,发现无单一表征在所有任务中占优 [13] - 整合超过4000小时第一视角视频(含超430万张图像)与ImageNet训练视觉Transformer,发现扩大数据规模多样性不普遍提升所有任务性能但平均有提升 [13] - 规模最大模型VC-1平均性能优于所有现有预训练视觉表征,任务或领域特异性适配可带来显著提升,适配后VC-1在所有基准任务上达到或优于最佳结果 [13] - 提出语义动作流作为中间表示捕捉操作者-物体交互,ViSA-Flow框架从无标签大规模视频数据中自监督学习该表示 [11] - ViSA-Flow在CALVIN基准和真实任务实现最先进性能,低数据情况下通过将知识从人类视频迁移到机器人执行超越现有方法 [11] 通用策略微调与模仿学习 - 通用机器人操作策略微调性能因策略设计选择而有显著差异,包括动作空间、策略头、监督信号及可调参数选择 [15] - 深入实证研究评估每个单一配置2500次rollout,低数据情况下精心选择的微调策略使GMPs显著优于最先进模仿学习算法 [15] - CACTI框架通过数据收集、增强、视觉表征学习和模仿策略训练四阶段实现机器人学习可扩展性,专注于多任务多场景操作 [17] - CACTI在真实机器人设置中训练单一策略完成10项厨房操作任务,在仿真环境中完成18项语义任务(每项100种布局变化) [17] - R3M视觉表示在Ego4D人类视频数据集上预训练,下游机器人操作任务中比从头训练成功率提高超过20%,比CLIP和MoCo提高超过10% [19] - R3M使机械臂在仅20次演示下于真实杂乱公寓环境中学习操作任务,作为冻结感知模块实现数据高效学习 [19]
NeurIPS 2025 | SURDS 数据集与 GRPO 全面强化自驾空间推理
自动驾驶之心· 2025-09-28 07:33
文章核心观点 - 武汉大学联合多家机构推出了首个面向自动驾驶场景的视觉语言模型空间推理大规模基准SURDS,旨在解决该领域缺乏系统性评估工具的挑战[2] - 研究通过结合有监督微调和强化学习训练,并设计定位与逻辑一致性奖励,显著提升了模型在多项空间推理任务上的性能,其中深度估计准确率相比第二名提升近60%[2][14] - 评测结果揭示了当前主流VLM在精细空间理解上存在明显不足,模型参数量并非决定空间理解能力的关键因素[14][16] SURDS基准概述 - SURDS基于nuScenes数据集构建,包含41,080条训练问答对和9,250条验证样本,涵盖方向识别、像素级定位等六类空间推理任务[4][7] - 数据集经过多阶段严格筛选,最终保留27,152张训练图像和5,919张验证图像,确保样本清晰无歧义[6][7] - 基准数据采集自波士顿和新加坡城市环境,包含多模态信息,覆盖多种交通、天气和昼夜场景[6] 模型训练方法 - 研究提出自动化流程生成高质量推理思维链,先由QVQ模型进行推理,再由Qwen2.5-VL-72B总结泛化规则[8][10] - 采用SFT与GRPO结合的强化学习框架,设置定位奖励、格式奖励、准确率奖励和逻辑奖励等多重奖励机制[10][11] - 创新性地让模型自我验证推理链一致性,降低计算开销并实现动态适应,显著增强逻辑可靠性[11] 实验结果分析 - 在单目标任务中,大部分模型准确率接近随机水平,像素级定位准确率很少超过10%[14][16] - 研究提出的Qwen2.5-VL-3B-SFT-GRPO-LocLogic模型在深度估计任务达到69.84%准确率,整体平均分超过第二名14.25%[14] - 消融实验表明定位能力是空间推理的基础,定位奖励与逻辑奖励结合时模型性能提升最显著[16][17] 行业意义与局限性 - 该研究为自动驾驶VLM空间理解能力提供了系统评估标准,填补了学术界大规模基准的空白[2][4] - 当前方法尚未在更大规模模型上验证,线性奖励缩放和多阶段GRPO训练等方向有待进一步探索[20]
VLA空间理解的能力还远未被挖掘!OccVLA的新尝试(上海期智&清华&上交等)
自动驾驶之心· 2025-09-16 07:33
核心观点 - 多模态大语言模型在自动驾驶领域缺乏鲁棒的3D空间理解能力,主要受限于3D表示构建难度和细粒度空间细节丢失问题 [3][5] - OccVLA框架通过将3D占用率表示整合为预测输出和监督信号,使模型直接从2D视觉输入学习细粒度空间结构,无需额外计算开销 [3][9] - 该模型在nuScenes基准的轨迹规划任务中取得SOTA结果(平均L2距离0.28米),在3D视觉问答任务中准确率达59.5%,为自动驾驶提供可扩展的纯视觉解决方案 [3][38][42] 技术框架创新 - 采用隐式3D占用监督机制,将占用率令牌作为隐式推理过程,通过交叉注意力从VLM中间层接收视觉特征 [9][21] - 设计潜在空间占用率预测(下采样率r=16)解决原始占用网格内存占用高问题,使用VQ-VAE解码器还原高分辨率3D占用预测 [23] - 引入元动作预测机制(速度动作3类+方向动作6类),通过思维链监督实现自然语言推理与运动语义保留 [26][30] - 规划头采用轻量级MLP架构,输入元动作嵌入/速度/视觉token,输出未来3秒轨迹坐标(MSE损失监督) [29][33] 性能表现 - 运动规划任务平均L2距离0.28米,超越依赖激光雷达的OmniDrive(0.33米)和需要3D标注的EMMA(0.32米) [38] - 3D视觉问答任务整体准确率59.5%,超越7B参数的LLaVA(47.4%)和LiDAR-LLM(48.6%),接近8B参数OccLLaMA3.1(54.5%) [42] - 占用预测任务mIoU达10%,虽受限单帧输入但在关键元素(车道/车辆/行人)预测表现突出 [43] - 模型参数量仅3B,性能超越7B参数模型,显示更高计算效率 [38][42] 训练方法论 - 三阶段训练流程:自动驾驶场景预训练(使用OmniDrive数据)、占用率-语言联合训练(损失函数含λ因子平衡文本与占用任务)、规划头专项训练 [31][32][33] - 采用适配器微调Transformer块,保持原有VLM能力同时注入3D感知能力 [22][32] - 全自动数据构建流程生成元动作标签,20%数据经人工优化确保标注一致性 [27] 行业应用价值 - 突破2D感知与3D感知间差距,使纯视觉方案具备高精度3D理解能力(仅需相机输入) [4][10] - 支持占用率表示灵活解码,生成可解释且可定量评估的输出,增强自动驾驶系统透明度 [10][11] - 推理阶段可跳过占用预测,无额外计算开销,解决现有3D VLM因参数庞大导致的延迟问题 [3][48]
从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了
机器之心· 2025-09-15 20:19
技术框架 - 采用多模态大语言模型赋能的两阶段生成框架 通过多模态导演模块将音频 图像和文字提示组织成结构化故事线 [6][7][8] - 首先生成蓝图视频明确整体节奏和风格 然后基于首尾帧条件并行生成子段落视频 最后拼接完整视频 [10][11][12] - 引入音频对齐插帧策略保证口型与声学节奏的帧级同步 并通过负向CFG抑制身份漂移模式 [12][17] 数据与训练 - 从演讲 对话 歌唱等语料库收集数千小时视频 通过专家模型筛选嘴部清晰度 音画同步等维度 再经人工复核得到数百小时高质量训练数据 [14] - 构建包含375个"参考图-音频-文本提示"的测评基准 涵盖多语言 多情感 多动作场景 未来将开源 [14] 性能表现 - 在GSB测评体系中总体效果对比OmniHuman-1达2.39 对比HeyGen达1.37 在口型同步维度对比HeyGen达2.35 [16][24] - 在英语演讲场景对比OmniHuman-1的口型同步指标为1.00 中文演讲场景对比OmniHuman-1达3.90 [24] - 支持分钟级长视频生成 总生成时间理论上与单段生成相当 在1分钟视频中保持身份一致性和动态性 [28] 应用功能 - 能够准确还原高难度音节口型(如"truth"的[u:]发音)和高频语音中的静音段落口型状态 [25] - 精准响应情绪 动作 镜头三类文本控制 包括"兴奋"情绪和"镜头缓慢上移"等指令 [26] - 已集成至可灵平台开启公测 支持用户通过图像 音频和文本生成数字人视频 [2][31]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 08:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~
自动驾驶之心· 2025-08-07 07:34
视觉语言模型在自动驾驶中的应用 - 视觉语言模型(VLM)通过跨模态理解能力赋能自动驾驶系统,使其从"看得清"升级为"懂得深",实现场景理解和推理[2][3] - VLM在环境感知方面能识别复杂语义信息,如"行人挥手示意过马路"、"车辆打开双闪可能抛锚"等,提供更贴近人类认知的环境模型[6] - VLM可将视觉场景转化为自然语言描述,增强自动驾驶决策的可解释性,帮助开发调试并提升乘客信任感[6] - 在智能座舱交互中,VLM能准确理解口语化指令如"在下一个便利店靠边停",实现自然语言交互[6] 自动驾驶场景生成技术 - CrashAgent框架利用多模态大语言模型将事故报告转换为结构化场景,生成高质量碰撞数据集支持安全关键场景算法开发[7] - CurricuVLM利用VLM分析智能体行为并动态生成个性化训练场景,在Waymo数据集上导航成功率提升至73.4%,碰撞率降至25.1%[13][15] - TRACE框架从真实车祸报告生成测试场景,在290个场景中识别127个关键场景,重建准确率达77.5%,显著优于基线方法27%的准确率[17][19] - OmniTester利用多模态大语言模型生成高真实性测试场景,在复杂挑战性场景中展现优异可控性[30][32] 自动驾驶边缘案例处理 - 生成OOD场景的框架利用LLM构建分支树结构,在CARLA仿真器中实现多样化边缘场景,引入"OOD偏离度"指标量化场景异常程度[21][22] - WEDGE数据集包含3360张极端天气图像,用于微调检测器后在真实基准上提升4.48 AP,特别在卡车类别表现良好[39][41] - From Dashcam Videos框架将行车记录仪视频自动转换为仿真场景,保持高保真度同时实现分钟级转换效率[26][29] - INSIGHT框架整合语义和视觉表征,在BDD100K数据集上危险预测准确率显著提升,BLEU-4达88.087%[95][97] 自动驾驶评估与基准 - DriveBench基准评估12个主流VLM在19,200帧数据上的可靠性,发现模型常依赖文本线索而非真正视觉理解,存在安全风险[119][124] - CODA-LM是首个自动驾驶极端场景下LVLM自动评估基准,其CODA-VLM模型在区域感知任务上超过GPT-4V达21.42%[133][135] - Reason2Drive数据集包含60万视频-文本对,描述感知-预测-推理链条,Vicuna-7B模型推理指标达0.463[152][154] - OmniDrive数据集通过反事实推理增强3D理解,Omni-Q++模型在nuScenes规划任务上碰撞率降至0.3%[158][162] 自动驾驶决策与规划 - CBR-LLM框架结合案例推理和LLM,在风险场景中生成符合人类行为的机动建议,决策准确性显著提升[44][47] - FutureSightDrive提出时空思维链推理方法,通过生成未来帧预测进行轨迹规划,推动视觉推理发展[49][52] - ThinkDriver模型利用多视角图像生成可解释驾驶决策,在闭环实验中优于其他VLM基线[140][143] - LLM-Augmented-MTR使用0.7%的LLM增强数据即提升运动预测准确性,mAP从0.3432提升至0.3527[144][149]
AI打假AI,拿下SOTA丨厦大&腾讯优图
量子位· 2025-07-20 10:49
AI生成图像检测技术 - 核心观点:厦门大学与腾讯优图实验室联合提出AIGI-Holmes方法,通过"大模型+视觉专家"协同架构解决AI生成图像检测的可解释性与泛化能力问题 [2][5] - 技术亮点:采用双视觉编码器架构(LLaVA+NPR视觉专家)同时处理高级语义和低级视觉特征 [6] - 训练流程:包含视觉专家预训练、监督微调(SFT)和直接偏好优化(DPO)三阶段 [7] - 推理优化:协同解码策略融合视觉专家与大语言模型预测结果,权重分配为1:1:0.2 [8][25] 性能表现 - 基准测试:在POGAN、StyleGAN2等17种生成模型检测中平均准确率达93.16%,显著优于CNNSpot(70.78%)等传统方法 [11] - 跨数据集验证:在COCO、Flickr等数据集上检测准确率保持100%,对SDXL、DALL·E-3等新模型检测准确率超99% [29][30] - 鲁棒性测试:JPEG压缩(98.7%)、高斯模糊(97.9%)等干扰下性能下降幅度小于5%,显著优于AIDE(90.7%)等竞品 [35] 关键技术实现 - 数据构建:Holmes-Set数据集含45K图像+20K标注,覆盖13类生成缺陷(人脸异常/物理法则错误等) [15][19] - 自动标注:采用Qwen2VL-72B等4种大模型进行多专家评审,设计通用正向/负向/特定缺陷三类prompt [18][19] - 偏好修正:通过人工标注修正SFT输出,使用Deepseek生成修改前后解释对用于DPO训练 [21] 解释能力评估 - 客观指标:BLEU-1(0.622)、ROUGE-L(0.375)等自然语言指标超越GPT-40(0.433) [32] - 主观评分:人类ELO评分达11.42,优于Pixtral-124B(10.472)等基线模型 [32] - 抗干扰性:JPEG压缩下解释指标(BLEU-1等)波动小于5%,保持语义一致性 [34] 行业应用前景 - 技术局限:存在幻觉问题(错误解释正常特征)及细粒度缺陷检测挑战 [36][37] - 迭代方向:将针对多模态大模型幻觉问题、解释客观评估指标开展优化 [39] - 开源资源:代码与论文已在GitHub和arXiv平台公开 [39]
自驾搞科研别蛮干!用对套路弯道超车~
自动驾驶之心· 2025-07-11 09:14
课程核心价值 - 通过1v6精英小班模式快速掌握LLM/MLLM领域科研全流程,包括模型理论、代码实践、论文写作与投稿技巧 [1][5][10] - 提供经典与前沿Baseline资源,导师定制化分配研究idea,确保学员产出完整论文初稿 [6][7][20] - 系统性解决知识碎片化问题,帮助构建算法设计、创新思路及论文写作方法论体系 [10][22] 导师资质 - 毕业于知名计算机院校,具备计算机视觉、模型压缩、多模态大语言模型等领域的算法研究经验 [2] - 在CVPR/ICCV/EMNLP等顶会发表论文十余篇,担任CVPR/ICML/NeurIPS等会议审稿人,拥有多项发明专利 [3] 目标学员 - 自动驾驶领域硕博生(感知/预测/规划方向)、车企算法工程师、AI从业者 [11] - 需具备Python/PyTorch基础,熟悉深度学习框架,最好拥有4张4090显卡级别算力设备 [16][17] 课程设计 - 授课周期3.5-4个月,提供6个月答疑服务,采用腾讯会议直播+小鹅通回放形式 [19][21] - 产出对标SCI 1-4区或CCF A/B/C级别论文,定制化调整idea难度 [20][22] - 配套班主任督学服务,要求学员全勤参与、完成作业并保持学术诚信 [23] 技术门槛 - 最低硬件要求为2张4090显卡,建议掌握Linux开发调试及CUDA语法基础 [16][17] - 需通过1v1面试评估基础能力,课程深度根据学员水平动态调整 [14][16]
ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
机器之心· 2025-07-10 12:26
研究背景 - 多模态大语言模型(MLLMs)通过结合视觉、语音等模态编码器与文本生成模型,展现出处理多模态数据的强大能力,但在实际应用中面临灾难性遗忘问题[3] - 持续多模态指令微调(CMIT)成为核心挑战,目前研究刚起步,传统持续学习策略针对小规模单模态模型,在多模态场景下面临任务架构冲突和模态不均衡两大新挑战[4] - 任务架构冲突表现为不同任务对模型不同层次依赖程度差异明显,例如视觉任务中部分依赖视觉编码器浅层,另一些则依赖语言模型深层[4] - 模态不均衡表现为不同任务对图像、文本等模态依赖程度差别大,导致训练中各模态更新不平衡[7][8] 研究方法 - 提出D-MoLE框架,通过动态调整模型结构解决任务架构冲突和模态不平衡问题,包含动态分层专家分配器和基于梯度的跨模态持续课程两大核心组件[10][16] - 动态分层专家分配器通过零成本代理评估识别关键层并分配LoRA专家,实现按需适配新任务[23] - 基于梯度的跨模态持续课程通过评估各模态学习难度动态分配参数预算,解决模态不均衡问题[24] - 框架保留通用基础、按需适配新任务、情境化利用旧经验,实现高效适应新任务同时保留过往知识[21][23] 实验结果 - 在包含9个数据集的CMIT基准测试中,D-MoLE在AVG指标上比次优方法提升15.08%,在Last指标上提升20.14%,BWT指标从-21.31%改善至-1.49%[29] - 通用能力评估显示D-MoLE在MME-Sum(1754.6)、MMMU-Val(32.7)和POPE-Sum(88.1)上接近原始预训练模型水平,优于Seq-FT和O-LoRA[31] - 消融实验验证各组件有效性,移除跨模态课程或动态分层专家分配器均导致性能显著下降[34] - 训练效率与vanilla LoRA微调相当(12.40小时),远快于复杂持续学习方法如MOLA(23.03小时)[36] 业务应用 - 可提升阿里安全多模态审核大模型在交互内容安全场景下的持续适应能力,支持多平台差异化审核规则[38] - 模型能快速适配新平台或规则而不影响原有能力,仅需引入少量参数,降低运维成本并提升多任务环境灵活性[39]
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 15:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]