Zero-shot

搜索文档
生物学专属ChatGPT来了:对话式AI智能体——ChatNT,能够理解DNA、RNA和蛋白质语言
生物世界· 2025-06-27 15:36
核心观点 - ChatGPT 掀起大语言模型浪潮后,InstaDeep 公司开发了 ChatNT,一款能理解 DNA、RNA 和蛋白质序列信息并用自然语言对话的多模态对话智能体 [2] - ChatNT 解决了生物学研究中的两大痛点:模型过多和编程门槛高 [6] - ChatNT 在多项生物信息学基准测试中表现优异,创造了新的 State-of-the-Art [17][19] - 这项研究标志着生物学 AI 研究进入新阶段,提供了革命性的交互范式 [22][24] 生物学研究痛点 - 模型海:每个任务需单独训练和维护模型,效率低下且阻碍知识共享 [6] - 编程墙:专业模型需要编程技能,限制了没有计算机背景的生物学家的使用 [6] ChatNT 技术架构 - 由 DNA 编码器和英语解码器两部分组成 [8] - DNA 编码器:Nucleotide Transformer v2 模型,5 亿参数,在 850 个物种基因组上预训练 [8] - 英语解码器:Vicuna-7B 模型,70 亿参数,基于 LLaMA [8] - 通过英语感知投影层实现关键连接,能动态筛选和提炼最相关信息 [9][10] 工作原理 1. 用户用英语提问并标记序列文件 [11] 2. DNA 编码器分析序列生成深度特征 [12] 3. 英语感知投影提取相关信息并转换格式 [12] 4. 英语解码器生成自然语言答案 [13] 5. 返回答案给用户 [14] 性能表现 - 在 Nucleotide Transformer Benchmark 上平均 MCC 达 0.77,比之前最佳专用模型提高 8 个百分点 [17] - 一个模型同时处理 18 项不同任务,解决"一任务一模型"困境 [19] - 在基因组指令数据集 27 项任务中多数表现优异: - 预测 RNA 多聚腺苷酸化位点比例 PCC 达 0.91,优于 APARENT2(0.90) [19] - 预测蛋白质熔点 PCC 达 0.89,优于 ESM2(0.85) [19] - 能识别关键生物学特征,如剪接供体位点的"GT"二核苷酸和启动子的"TATA-box"基序 [20] 行业意义 - 实现"对话式"生物信息学,大幅降低 AI 工具使用门槛 [22] - 证明统一模型处理多种生物序列任务的可行性,迈向通用型生物学 AI 模型 [22] - 模块化架构允许未来集成更强大的编码器和对话模型 [22] - 为解读基因突变提供新途径,可能直接分析突变对疾病的影响 [22] - 将加速生命科学探索进程,使生物信息学分析更直观高效 [24]
Qifu Technology's Paper Accepted by IJCAI 2025, Using MLLM to Pave New Path in Fintech
Prnewswire· 2025-05-08 13:52
公司动态 - 中国领先的金融科技公司奇富科技与北京交通大学合作论文被IJCAI 2025收录[1] - 论文提出创新框架TRIDENT 整合多模态大语言模型嵌入和属性平滑技术 在组合零样本学习领域实现突破[3] - TRIDENT框架通过特征自适应聚合等模块 在多个数据集上取得最先进性能 为图像识别和内容理解提供新方案[3] 技术应用 - TRIDENT在智能风控领域可分析交易行为和用户画像等多模态数据 比传统模型更快识别新型欺诈模式 提高评估准确性[4] - 在客户服务领域 该框架能更精准理解复杂用户查询 提供个性化高效支持[4] 研发投入 - 奇富科技持续加大AI研发投入 深化与学术机构合作 推动AI应用进步[5] - 公司通过技术创新致力于促进行业发展和社会进步[5] 行业认可 - IJCAI是国际顶级AI会议 2025年接收率仅19.3%(1042/5404篇) 被中国计算机学会列为A类会议[2]