Workflow
视觉语言模型
icon
搜索文档
连发Nature、Cancer Cell:上海交大团队利用AI增强罕见病及癌症诊断
生物世界· 2026-03-02 16:00
AI在医疗诊断领域的突破性进展 - 上海交通大学与上海人工智能实验室团队于2026年2月在《Nature》发表研究,开发了全球首个AI智能体罕见病循证推理诊断系统DeepRare [3] - DeepRare系统在罕见病诊断准确性上首次超越了拥有十年以上经验的临床专家,为全球约三亿罕见病患者带来希望 [3] - 该研究展示了大语言模型驱动的AI智能体系统有潜力重塑当前的临床工作流程,是AI在医疗领域的一个里程碑 [3] 知识增强型病理基础模型KEEP的发布 - 研究团队于2026年2月19日在《Cancer Cell》期刊发表论文,开发了用于癌症诊断的知识增强型视觉语言病理基础模型KEEP [6] - KEEP模型的表现优于现有的基础模型,尤其是在罕见癌症亚型上,确立了知识增强型视觉语言建模作为推进计算病理学的强大范式 [6] - 该模型系统地将疾病知识融入到癌症诊断的预训练中,以解决现有模型的局限性 [10] 计算病理学的发展背景与挑战 - 病理学诊断是临床癌症诊断应用的金标准,但基于深度学习的专门模型受限于标注成本高昂、数据稀疏及泛化能力有限 [8] - 自监督学习策略虽能在大量未标注病理图像上预训练,但在标注数据量少的场景中可扩展性受限,尤其是在罕见癌症亚型分类任务中 [8] - 视觉语言模型的兴起为计算病理学开辟了新范式,通过联合利用视觉和文本数据,减少对大量标注数据的依赖 [9] - 然而,现有的病理学视觉语言模型因训练数据集规模相对较小、数据噪声大、质量有限而面临重大局限 [9][10] - 这些模型缺乏对医学知识的明确整合,限制了其在罕见疾病诊断方面的表现 [10] KEEP模型的技术创新与性能表现 - KEEP模型利用一个包含11454种疾病和139143个属性的全面疾病知识图谱,将数百万个病理图像文本对重新组织成143000个语义结构化的组 [11] - 这种知识增强型预训练使视觉和文本表示在层次语义空间中对齐,从而能够更深入地理解疾病关系和形态学模式 [11] - 在18个公共基准(超过14000张全切片图像)和4个机构的罕见癌症数据集(926例)上,KEEP一直优于现有的基础模型 [11] - 知识注入可提升癌症分割、检测及亚型分类的效果,并促进罕见癌症的诊断和推广 [13]
路标文字可“劫持”自动驾驶汽车与无人机 具身智能面临“视觉攻击”风险
科技日报· 2026-01-28 09:56
文章核心观点 - 美国加州大学圣克鲁兹分校的科学家首次揭示,攻击者可通过在物理环境中植入特定文字信息,直接“劫持”自动驾驶汽车、无人机等具身AI系统的决策,使其做出危险行为,这构成了前所未有的“视觉攻击”威胁 [1] - 研究提出名为“CHAI”的攻击框架,通过生成式AI优化攻击文本并调整其视觉属性,可有效操纵依赖视觉语言模型的自主系统,在无人机模拟测试中攻击成功率最高达95.5% [2] - 研究明确显示此类物理世界攻击完全可行,为行业敲响安全警钟,呼吁产业界尽快形成新的安全标准和防护机制 [1][2] 行业安全风险 - 具身AI(如自动驾驶汽车、配送机器人)依赖的视觉语言模型成为安全研究新焦点,其在帮助机器适应复杂环境的同时,也打开了被物理世界文字信息攻击的新突破口 [1] - 新研究首次提出“环境间接提示”风险,恶意文本可被嵌入路标、海报等物理载体,误导机器人或车辆,干扰其正常判断与操作 [2] - 攻击在自动驾驶、无人机紧急降落、目标搜索三类典型场景中得到验证,在自动驾驶场景中,生成的误导图像成功干扰了测试车辆的导航判断 [2] 攻击方法与效果 - “CHAI”攻击框架首先利用生成式AI优化攻击文本,提高其被系统执行的概率,进而调整文字在环境中的颜色、大小、位置等视觉属性以增强效果 [2] - 实验证明,CHAI攻击可有效操纵搭载不同视觉语言模型的自主系统,在无人机场景的模拟测试中,攻击成功率最高可达95.5% [2] - 研究结果表明,无需进行远程攻击,只需在环境中略动手脚,在路标、海报、指示牌上植入攻击文本,就能让AI自乱阵脚,做出危险行为 [3] 行业影响与呼吁 - 随着AI在物理系统中的融合不断加深,该研究为行业提前敲响了安全警钟 [2] - 研究呼吁产业界需尽快形成新的安全标准和防护机制 [1] - 该研究提醒行业,新技术可能是脆弱的,有太多因素会影响AI安全,必须考虑得更全面,进行更多前瞻性研究,为技术大规模普及筑牢安全根基 [3]
具身智能面临“视觉攻击”风险
科技日报· 2026-01-28 09:19
文章核心观点 - 美国加州大学圣克鲁兹分校的科学家首次揭示,攻击者可通过在物理环境中植入特定文字信息,直接“劫持”自动驾驶汽车、无人机等具身AI系统的决策,使其做出危险行为,这构成了前所未有的“视觉攻击”威胁 [1] - 研究提出名为“CHAI”的攻击框架,利用生成式AI优化攻击文本并调整其视觉属性,在自动驾驶、无人机等场景中验证了攻击的有效性,在无人机模拟测试中攻击成功率最高可达95.5% [2] - 研究呼吁产业界需尽快形成新的安全标准和防护机制,并为行业提前敲响了安全警钟,指出必须进行更多前瞻性研究,为技术大规模普及筑牢安全根基 [1][2][3] 研究背景与威胁定义 - 具身AI即具备物理载体的智能系统,如自动驾驶汽车、配送机器人,其依赖的视觉语言模型能够同时理解图像与文本,帮助机器适应复杂现实环境 [1] - 随着具身AI日益普及,其视觉语言模型也成为安全研究的焦点,但这也打开了被物理世界文字信息攻击的新突破口 [1] - 新研究首次提出“环境间接提示”对具身AI系统的风险,恶意文本可被嵌入路标、海报等物理载体,误导依赖于视觉语言模型的机器人或车辆,从而干扰其正常判断与操作 [2] 攻击方法与实验验证 - 科学家们针对自动驾驶、无人机紧急降落、目标搜索三类典型应用场景,设计并验证了一套名为“CHAI”的攻击框架,实现“针对具身AI的命令劫持” [2] - 该框架首先利用生成式AI优化攻击文本,提高其被系统执行的概率,进而调整文字在环境中的颜色、大小、位置等视觉属性,以增强攻击效果 [2] - 实验证明,CHAI攻击可有效操纵搭载不同视觉语言模型的自主系统,在自动驾驶场景中,生成的误导图像被放置在真实环境中,成功干扰了测试车辆的导航判断 [2] - 在无人机场景的模拟测试中,攻击成功率最高可达95.5%,结果明确显示此类攻击在物理世界中完全可行,对智能系统的安全构成实际威胁 [2] 行业影响与未来方向 - 随着AI在物理系统中的融合不断加深,该项研究为行业提前敲响了安全警钟 [2] - 研究呼吁产业界需尽快形成新的安全标准和防护机制 [1] - 该研究提醒行业,人类引以为傲的新技术可能是脆弱的,有太多因素会影响AI安全,必须考虑得更全面,进行更多前瞻性研究,为技术大规模普及筑牢安全根基 [3]
DeepSeek-OCR 2发布:让AI像人一样“读懂”复杂文档
凤凰网· 2026-01-27 19:58
模型发布与技术突破 - DeepSeek团队发布并开源了DeepSeek-OCR 2模型,并同步发布相关技术论文 [1] - 模型采用创新的DeepEncoder V2新型编码器结构,能根据图像语义动态调整视觉信息处理顺序 [1] - 该技术旨在让机器更贴近人类的视觉阅读逻辑,是对传统视觉语言模型处理方式的重新思考 [1] 技术原理与行业痛点 - 传统视觉语言模型通常将图像切分为视觉token,并按固定栅格顺序(如左上到右下)处理 [1] - 这种方式与人类基于语义和逻辑关系进行跳跃式浏览的阅读方式不一致 [1] - 在版式复杂的文档场景中,视觉元素间存在明确逻辑先后关系,仅依赖空间顺序会限制模型对内容结构的理解能力 [1] 性能评估与结果 - 研究团队在OmniDocBench v1.5基准上进行了全面评估,该基准涵盖多种类型的中英文文档 [1] - 测试结果显示,在视觉token上限更低的情况下,DeepSeek-OCR 2的整体得分达到91.09% [2] - 相较前代DeepSeek-OCR,整体得分提升了3.73% [2] - 在阅读顺序准确度方面,编辑距离从0.085降至0.057,表明新模型能更合理地理解文档内容结构 [2]
阶跃星辰10B视觉语言SOTA模型开源
第一财经· 2026-01-20 18:59
公司动态 - 阶跃星辰宣布开源其Step3-VL-10B模型 [1] - 该模型参数量为100亿 [1] 技术性能 - Step3-VL-10B在视觉感知、逻辑推理、数学竞赛及通用对话等一系列基准测试中均达到同规模SOTA水平 [1]
π0-FAST正式集成到LeRobot中!pytorch版本来了
具身智能之心· 2026-01-15 08:32
模型技术概览 - π0-FAST是一款融合了视觉语言模型能力与FAST(频域动作序列分词)动作编码技术的新型模型 [1] - 该模型使自回归视觉语言动作模型能够训练高精度操作任务,这是传统方法无法实现的 [1] - 相比π0等扩散模型方法,其训练速度提升高达5倍 [1] 技术方案与优势 - 传统机器人动作编码方法(如按维度、按时间步分箱方案)在处理需要精确控制和高频响应的复杂灵巧技能任务时会迅速失效 [3] - π0-FAST通过信号处理方法压缩动作序列,生成可自回归预测的密集动作词元序列,其预测方式与语言词元完全一致,从而解决了传统方法的难题 [4] - 原版π0-FAST实现仅支持JAX框架,本次已用PyTorch进行了重构,包含了交叉熵损失目标、FAST分词方案以及KV缓存等推理优化技术 [6] 框架集成与生态 - π0-FAST目前已集成到LeRobot框架中 [2] - LeRobot框架现已支持π0、π0.5、π0-fast系列模型,此外国产模型WALL-OSS也被集成进去 [7] - 相关文档和基础检查点已公开,文档位于Hugging Face,基础检查点为`lerobot/pi0fast-base` [9]
π0-FAST正式集成到LeRobot中!pytorch版本来了
具身智能之心· 2026-01-14 17:00
模型技术概览 1. π0-FAST是一款融合了视觉语言模型能力与FAST(频域动作序列分词)动作编码技术的创新模型[1] 2. 该模型使自回归视觉语言动作模型能够训练高精度操作任务,这是传统方法无法实现的[1] 3. 在训练速度上,相比π0等扩散模型方法,π0-FAST实现了高达5倍的提升[1] 技术方案与优势 1. 传统机器人动作编码方法,如按维度或按时间步的离散化方案,在处理需要精确控制和高频响应的复杂灵巧技能任务时会迅速失效[3] 2. π0-FAST通过信号处理方法压缩动作序列,生成可自回归预测的密集动作词元序列,其预测方式与语言词元完全一致,从而解决了传统方法的难题[4] 框架集成与实现 1. π0-FAST模型目前已经集成到LeRobot机器人框架中[2] 2. LeRobot框架已基本支持pi系列工作,包括π0、π0.5、π0-fast,同时国产模型WALL-OSS也被集成进去[7] 3. 原版π0-FAST实现仅支持JAX框架,本次集成用PyTorch进行了重构,包含了交叉熵损失目标、FAST分词方案以及KV缓存等推理优化技术[6] 资源与文档 1. 相关技术文档可在Hugging Face的LeRobot页面查阅[9] 2. Pi0Fast基础模型检查点已发布在Hugging Face平台上[9]
智源&港科大等出品!RoboMirror:让机器人先 “读懂” 视频,再精准复刻每一个动作
具身智能之心· 2026-01-09 08:55
文章核心观点 - 提出了一种名为RoboMirror的新型具身智能框架,其核心创新在于将机器人模仿人类动作的模式从传统的“姿态复刻”转变为“意图生成”,实现了“先理解、后模仿”的新范式 [3][6] - 该框架通过视觉语言模型理解视频中的动作意图和环境语义,并利用扩散模型直接生成符合物理规律的机器人关节动作,无需依赖传统的姿态估计和重定向步骤,从而解决了延迟高、误差大、视角局限等行业痛点 [3][5][6][8] 技术架构与原理 - **两阶段“理解-重构-控制”架构**:第一阶段利用Qwen3-VL视觉语言模型理解视频中的动作意图,并通过流匹配扩散模型将其重构为包含运动学信息的运动潜变量 [6][12][14] - **Teacher-Student双策略控制**:第二阶段采用Teacher-Student策略架构,其中Teacher Policy由多个专家组成以确保动作多样性,轻量化的Student Policy则接收运动潜变量和机器人本体感知信息,通过两步DDIM采样快速生成可执行的关节动作,实现毫秒级推理延迟 [7][10][12] - **端到端映射**:整个流程从视频像素输入到机器人动作输出端到端完成,避免了传统流水线中因多步骤转换而导致的误差累积 [6][7][14] 性能与效果评估 - **定量分析表现卓越**:在Nymeria数据集上,RoboMirror的任务成功率达到了0.99,显著高于基线方法的0.92;其关节位置误差相比基线降低了近50%;端到端延迟从9.22秒大幅降低至1.84秒,效率提升约80% [13][16][17] - **定性分析展示精准理解**:框架不仅能复制动作,还能理解复杂动作的语义(如“交替出拳”、“战绳训练”),并生成合理且物理可行的全身运动,即使面对“像鸟一样张开手臂跑”等高度语义化指令也能有效应对 [9][16][24] - **仿真与真机验证**:在仿真环境中,其扩散策略相比MLP基础策略能生成更稳定、追踪更精准的动作 [19][22];真机部署演示进一步验证了该架构能够精准理解并复刻输入视频中的动作,证明了其实用性与优越性 [25][27][29] 行业意义与突破 - **解决传统技术瓶颈**:传统机器人模仿技术依赖“姿态估计→重定向→追踪”的繁琐流水线,存在只会机械复刻而不理解动作目的、处理延迟长达9秒以上、面对第一人称视角视觉盲区直接失效三大瓶颈 [5][8] - **开创无需重定向的新路径**:RoboMirror是首个无需重定向的视频到人形机器人运动控制框架,利用视觉语言模型的强大理解能力,直接跨越了“感知”与“控制”之间的隔离墙 [6][8] - **提升机器人模仿的智能水平**:通过让机器人像人类一样基于语义理解来生成动作,而非基于像素复刻,使机器人能够应对各种未见过的视频场景,包括第一人称和第三人称视角 [6][9][14]
博世最新一篇长达41页的自动驾驶轨迹规划综述
自动驾驶之心· 2025-12-05 08:03
文章核心观点 - 博世发布了一篇关于基础模型在自动驾驶轨迹规划中应用的重量级综述,系统梳理了37种近期方法,提出了统一分类法,并批判性评估了其设计、优势与局限,旨在为该快速发展的领域建立结构化基础并指明未来方向 [2][11] 背景回顾 - 基础模型是利用海量数据学习表征并可适配多种下游任务的大规模模型,如大型语言模型和视觉语言模型 [4] - 研究表明,未经自动驾驶专门训练的现成基础模型已能令人惊讶地良好理解复杂驾驶场景,这使其成为构建自动驾驶专用方案的潜力基础,也是当前行业范式转变的关键驱动力 [5] - 轨迹规划是驾驶过程最核心的任务,其他能力均为其提供辅助,因此综述重点聚焦于基础模型如何助力轨迹规划模型 [8] 分层分类体系 - 利用基础模型的轨迹规划方法可分为两大主类别:为轨迹规划定制的基础模型、指导轨迹规划的基础模型 [16] - **为轨迹规划定制的基础模型**:通过微调现有预训练基础模型,直接用于自动驾驶场景,共22种方法,可进一步分为仅专注于轨迹规划的模型和具备额外能力的模型 [19][20] - **指导轨迹规划的基础模型**:不构建专用模型,而是将现成基础模型的知识转移到现有自动驾驶模型中,共15种方法,可根据知识转移发生在训练阶段或推理阶段进一步划分 [20][21][22] 为轨迹规划定制的基础模型 - **微调核心要素**:包括数据整理、模型设计和训练策略 [23] - **数据整理**:取决于模型用例,仅用于轨迹规划的数据集核心是“观测-轨迹”数据对;若需语言或动作交互能力,则需补充相应的问答对或指令-轨迹对数据 [24][28] - **模型设计**:主流思路包括直接使用现成视觉语言模型,或组合视觉编码器与大型语言模型并通过视觉适配器连接 [27][29] - **轨迹表征**:常见方式包括将轨迹作为文本生成、作为离散化的动作token、或作为数值集合通过附加的规划头单次生成 [31] - **模型训练**:通常通过单阶段或多阶段完成,例如先训练视觉适配器,再微调全部或部分参数 [29] - **仅专注于轨迹规划的模型**:根据是否使用思维链及使用方式,可细分为无思维链、文本输出作为思维链、初始轨迹预测作为思维链三类 [25][32] - **具备额外能力的模型**:除轨迹规划外,还具备语言交互和/或动作交互能力 [38] - **语言交互能力**:需要视觉问答数据对进行训练,评估采用自然语言处理领域的经典指标 [38][39][40] - **动作交互能力**:可根据用户指令规划轨迹,目前方法均在CARLA模拟器的合成数据集上训练,需具备规避误导性指令的机制 [43] 指导轨迹规划的基础模型 - **仅在训练阶段进行知识蒸馏的模型**:推理阶段无需调用基础模型,能保持效率,方法包括将CLIP表征对齐到端到端模型中,或利用GPT-4o输出元动作进行蒸馏等 [48][49][51] - **在推理阶段进行知识转移的模型**:训练和推理阶段都调用基础模型,计算成本更高,根据转移知识类型可分为转移场景描述、转移规划决策、或同时转移两者 [48][53] - **知识转移类型**:包括场景描述、元动作、轨迹等,通过不同编码方式融入到自动驾驶模型的各个层级 [53][54][55] 现有方法的数据集与代码开放性 - 开放性是推动研究进展和实际部署的关键,但无任何一种方法的所有资产均支持研究与商业双用途 [57][59] - 仅有5种方法公开了所有资产,但部分仍限制商业使用,其中4种属于“为轨迹规划定制的基础模型”,1种属于“指导模块化自动驾驶模型轨迹规划的基础模型” [59] - “指导端到端自动驾驶模型轨迹规划的基础模型”类别尚无开源实现,训练代码与模型权重是限制最严格的资产 [59] 开放问题与挑战 - **高推理成本导致部署困难**:基础模型参数庞大且自回归生成,导致推理延迟高,难以满足实际部署所需的10-30帧/秒帧率要求,例如Orion模型在A800 GPU上推理帧率仅为0.8帧/秒 [63] - **微调后的能力下降**:微调可能导致视觉语言模型丧失对轨迹规划潜在有用的能力,出现“概念遗忘”现象 [64][66] - **动作交互能力局限**:现有模型仅能处理短时域内可执行的指令,无法拆解和执行人类化的复杂多步指令 [68] - **仿真到现实的差距**:所有具备动作交互能力的模型均在合成场景中训练测试,存在域转移问题,阻碍实际部署 [69] - **性能影响因素不明**:不同方法在架构、数据、训练上差异巨大,难以厘清导致性能差异的核心因素 [70] - **缺乏推理能力评估基准**:需要建立标准基准来评估模型在复杂语言-视觉场景下的推理能力 [71]
“中文AI三大顶会”已有两家报导了理想近期AI进展
理想TOP2· 2025-11-09 22:59
中文AI媒体对理想汽车的报道热度 - 机器之心、量子位、新智元被戏称为“中文AI三大顶会”,在懂中文的AI从业者中拥有广泛读者群 [1] - 量子位于2025年11月8日发布关于ICCV自动驾驶新范式的文章,获得3.2万阅读、926大拇指赞、1617次转发和610爱心赞,阅读量在其近一周推文中排名第二 [1] - 机器之心于2025年10月31日发布关于理想汽车L4自动驾驶新范式的文章,作为次条推送获得3.9万阅读,该阅读量在机器之心的次条和头条中均属较高水平 [1] - 机器之心对理想汽车的报道跟进最为细致,覆盖了i8发布会自动驾驶内容并对多篇论文进行跟踪 [4] - 量子位除2025年11月的报道外,上一次专门撰写理想汽车的内容是对其24Q1财报的解读,再之前的报道集中在2021年 [10] - 新智元对理想汽车的上次报道集中在2022年 [15] 理想汽车自动驾驶技术进展与行业认可 - 理想汽车在ICCV 2025上提出“训练闭环”新范式,为全球首个将世界模型与强化学习结合并落地量产自动驾驶系统的公司 [2] - 该技术通过合成数据解决罕见场景问题,使MPI(人类接管里程)显著提升,技术细节扎实,对自动驾驶/AI领域从业者极具参考价值 [2] - 评论区对理想的评价非常正面,用户称赞其为“中国车企楷模”,认为其科研硬核得不像车企 [2] - 理想的研发资金近一半投在了人工智能领域 [2] - 专注于自动驾驶内容的媒体“自动驾驶之心”在2024年至2025年间约有45篇文章讲述理想汽车,表明理想已成为该领域主流玩家 [17] - 理想汽车从2021年开始辅助驾驶研发,历程从最初的BEV方案发展到无图辅助驾驶 [5] - 公司在自动驾驶技术上探索端到端(e2e)和视觉语言模型(VLM)的实现路径 [5] 理想汽车的AI战略与长期愿景 - 理想汽车在2022年9月内部达成共识,认为要实现自动驾驶,公司必须成为一家AI公司,并于2023年1月正式对外公布,目的之一是招人广告 [17] - 公司创始人李想在2015年因相信自动驾驶能实现且智能车产业足够大而选择创业,当时未意识到自动驾驶本质是AI问题 [17] - 至2024年12月,李想接受了OpenAI定义的AI五阶段理论,认为自动驾驶变成中短期可实现目标,并认为VLA是解决方案 [17] - 公司现阶段需要自己做基座模型,自己开发大语言模型(LLM) [17] - 公司从事这些研究的最终目的不仅是为了实现自动驾驶,更是基于对OpenAI AI五阶段的远期展望,为了挑战成长极限,旨在成为最顶尖的AI公司 [18] - 有AI领域账号在2025年4月对理想汽车做LLM感到困惑,不确定其是想开辟新赛道还是在车企中做差异化竞争 [17] 理想汽车在AI圈的品牌认知度 - 截至2025年5月,理想汽车在自动驾驶以外的中文AI圈知名度很低 [22] - 尽管量子位、机器之心在2025年11月的报道提升了其知名度,但预期现阶段理想在中文自动驾驶圈已非常有名并被充分认可为主流玩家,在非自动驾驶中文AI圈则知名度相当低 [22]