小罗碎碎念
今天和大家分享一个国家自然科学基金青年科学基金项目,项目执行年限为2020.01 - 2022.12 ,直接费用25万。
项目旨在利用人工智能技术整合医学影像、电子病历、组学数据等异构数据,建立基于小样本数据集的人工智能算法,以提高罕见病的诊断准确性和治疗效果。
项目开发了预测引导编辑效率的人工智能模型OPED,该模型基于深度学习和迁移学习技术,通过特征学习模块和回归模块,预测目标DNA和pegRNA对的编辑效率,为设计最优pegRNA提供支持。
OPED模型在多个公开数据集上进行了评估,与多种先进计算模型相比,显示出更高的预测准确性和泛化能力。通过高通量测序实验,验证了OPED模型设计的最优引导编辑设计能力,证明了模型设计的可靠性和高效性。
项目还构建了包括罕见病在内的全部人类致病遗传突变的最优引导编辑设计数据库,为安装和纠正相应的致病突变提供了资源,并开发了用户友好的网站,方便用户利用OPED模型对任意引导编辑进行最优设计。
此外,项目还总结了空间转录组技术、数据和分析方法,讨论了其在未来疾病诊断、药物研发和临床治疗等方面的应用前景,并基于心理健康调查问卷数据,使用XGBoost机器学习方法建立了预测青少年自杀风险的模型,分析了影响自杀行为的高风险因素。
项目成果不仅对罕见病的诊断和治疗具有重要意义,还有助于包括遗传疾病、肿瘤、艾滋病在内的多个治疗领域的发展,促进了个体化精准医疗的快速发展。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
一、项目简介
研究概况
- 项目背景:罕见病患病人数占总人口比例小,但种类繁多,总患病人数可观。当前,漏诊、误诊及不适当治疗决策在罕见病患者中常见,其诊断和治疗是现代医疗难题。人工智能发展为解决这一难题带来希望,利用人工智能精准诊断罕见病和辅助治疗决策极为必要和紧迫。
- 研究目标调整:原计划利用人工智能技术及多种数据构建模型用于罕见病精确诊断和辅助治疗,筛选分析致病基因突变。但因罕见病数据稀缺、残缺不全等问题,将研究重点调整为罕见病治疗及其他疾病诊断,如儿童青少年自杀行为等。
研究内容与进展
- 引导编辑效率预测模型:设计开发基于深度学习的引导编辑效率预测模型,由输入、特征学习和回归模块组成,可预测引导编辑效率以设计最优pegRNA。通过迁移学习和重采样技术对模型进一步训练微调,得到OPED模型。在多个不同测试数据集上,OPED模型预测的编辑效率与实验真实编辑效率相关性强、误差小,且显著优于其他12种模型,具有良好的预测准确性和泛化性。
- 模型验证:在多个测试数据集及不同研究的引导编辑数据集上验证OPED模型。在HT - test、Type - test和Position - test测试集中,OPED设计的最优pegRNA实测编辑效率平均值远高于其他设计。在基因组位点HEK4、EMX1、RNF2和HEK3等数据集上,OPED预测编辑效率与实际测量效率相关性高,表现显著优于DeepPE模型。
- 人类致病遗传突变实验:利用OPED对ClinVar数据库中30个人类致病基因突变进行最优pegRNA设计,并将突变安装到人类HEK293T细胞中。PE2、PE3/PE3b和ePE编辑系统的实验结果表明,OPED的最佳引导编辑设计能高效产生目标致病性突变且副产物少,适用于各种引导编辑系统和突变类型。
- 数据库构建:从ClinVar数据库提取过滤77738个人类致病遗传变异,用OPED模型设计最优pegRNA和sgRNA,构建OPEDVar数据库,可通过多种ID查询致病突变的最优引导编辑设计,为药物开发和临床基因治疗提供参考。
- 网站搭建:搭建OPED网站,用户输入相关信息后,网站调用OPED模型识别候选pegRNA和sgRNA,并提供最优设计,对引导编辑应用及多个治疗领域发展具有重要意义。
- 空间转录组技术综述:总结空间转录组技术、数据资源和分析方法,将19种空间转录组技术分为四类介绍,收集537个数据集,整理65种分析方法。空间转录组学有助于理解组织结构和生物学机制,未来空间多模态组学将是研究热点,有望解决大规模临床应用问题。
- 青少年自杀风险预测模型:在**市对2万多名中学生进行心理健康筛查,以自杀高风险人群为预测目标,多种因素为危险因素,使用XGBoost机器学习方法建立自杀风险预测模型。通过可放回重复采样解决样本类别不平衡问题,该模型在测试集上总体AUROC为0.84,在男性和女性测试集上分别取得0.80和0.87的AUROC。经Tree SHAP方法分析,心理弹性、抑郁、年龄等是影响自杀行为的重要危险因素。
成果产出
- 知识产权:申请3项国家发明专利,分别为基于深度学习和迁移学习的引导编辑效率预测方法和系统、基于人工智能的引导编辑最优设计方法和系统、一种青少年自杀风险预测模型的生成方法和预测系统。获取2项计算机软件著作权,即基于深度学习和迁移学习的引导编辑效率预测系统、基于人工智能的引导编辑最优设计系统。
- 成果应用前景:项目成果拟应用于基因治疗、遗传病治疗、罕见病治疗等领域,预计5 - 10年推广使用。
存在问题
项目执行前期,罕见病临床和测序数据数量少或质量有问题影响研究进展。模型预测后续实验验证时,因疫情合作实验室停摆,后更换合作单位才完成实验。
此外,项目负责人追求高质量论文,反复完善优化结果,导致论文发表滞后。
二、基于深度学习和迁移学习的引导编辑效率预测模型OPED的框架
这部分展示了一个基于深度学习的模型架构,用于引导编辑效率预测,主要分为预训练(Pre-training)和微调(Fine-tuning)两个阶段。
预训练阶段(Pre-training)
- 输入模块(Input module):输入是一个大型的特定数据集(A large specific dataset),数据集中包含了编辑碱基(Edited base)、转换点突变(transversion point mutation)、从G到C的突变以及位置+5等信息,还有目标DNA序列(Target DNA)、pegRNA等内容。
- 特征学习模块(Feature learning module):该模块包含了Transformer Decoder、Transformer Encoder和Attention Network等组件。输入的数据经过这些组件进行特征学习和提取,其中涉及到PBS序列(PBS sequence)和RTT序列(RTT sequence)等的处理。
- 回归模块(Regression module):经过特征学习后的数据进入回归模块,用于进行后续的预测等操作。
微调阶段(Fine-tuning)
- 输入模块(Input module):输入是一个小型的通用数据集(A small general dataset),数据集中包含了编辑碱基(Edited base(s)),如点突变(point mutation)、插入(insertion)和/或在不同位置的删除(and/or deletion at various positions)等信息,同样也有PBS、RTT、目标DNA和pegRNA等内容。
- 特征学习模块(Feature learning module):与预训练阶段类似,也包含Transformer Decoder、Transformer Encoder和Attention Network等组件,对输入数据进行特征提取和学习,处理PBS序列和RTT序列等。
- 回归模块(Regression module):最后数据进入回归模块,完成模型的微调过程。
在预训练和微调阶段之间,通过迁移学习(Transfer learning)将预训练阶段学习到的知识和特征迁移到微调阶段,以提高模型在小数据集上的性能和泛化能力。
这种架构设计有助于利用大规模特定数据的优势来辅助小规模通用数据的模型训练,从而提升整体模型的效果和效率,特别是在引导编辑效率预测等相关任务中可能具有重要应用价值。
三、空间转录组数据分析流程总结
这部分展示了一个与空间转录组学相关的流程,涵盖了从图像预处理到多种分析和建模的多个步骤。
图像预处理
a部分:展示了图像配准(Image registration)和转录本点识别(Transcript point identification)的过程,最终得到一系列小方格图像,这些图像代表了不同位置的转录本信息,用于后续分析。
测序预处理
b部分:包括组织图像处理(Tissue image processing)和基因表达处理(Gene expressing processing),最终得到一个基因表达处理后的图像,可能反映了组织中基因表达的分布情况。
数据整合与初步处理
c部分:将图像预处理和测序预处理得到的信息整合,形成基因表达矩阵(Gene expression matrix)和位置矩阵(Location matrix),这两个矩阵是后续分析的基础数据。
降维和聚类
d部分:对整合后的数据进行降维和聚类分析,图中展示了使用不同方法(如Seurat、Scanpy、SPATA、STUtility等)得到的聚类结果,这些结果有助于揭示数据中的潜在结构和模式。
空间细胞类型注释
f部分:对细胞进行空间类型注释,通过不同颜色区分不同类型的细胞,进一步了解细胞在空间上的分布和类型特征。
其他分析和建模
- e部分:展示了scRNA-seq数据(scRNA-seq data),用于与空间转录组数据进行整合分析。
- g部分:识别空间可变基因(Spatially variable genes),使用了Seurat、SPARK、GPCounts等方法。
- h部分:分析基因模式(Gene patterns),展示了不同方法(如Cytotrack、rLem、SpatialDE、MERINGUE等)得到的基因表达模式,有助于理解基因在空间上的表达规律。
- i部分:定义空间区域(Spatial regions),根据基因表达或其他特征将组织划分为不同的区域,以便进行更细致的分析。
- j部分:研究细胞-细胞相互作用(Cell-cell interaction),使用了CellChat、NATMI、Giotto、SVCA等方法,分析细胞之间的相互作用关系及其在空间上的特点。
- k部分:分析基因-基因相互作用(Gene-gene interaction),展示了使用不同方法(如xHMF、GCNG、SeATTe、MISTy、MISTy等)得到的结果,有助于揭示基因之间的调控关系和网络。
- l部分:构建空间轨迹(Spatial trajectory),用于追踪细胞在空间上的发育或分化轨迹。
- m部分:进行3D模型构建(3D model construction),通过paste、STUtility、STAGATE等方法,将二维数据扩展到三维空间,更直观地展示组织的空间结构和基因表达情况。
整个流程从图像和测序数据的预处理开始,经过一系列的分析和建模步骤,全面深入地挖掘空间转录组数据中的信息,为理解组织的空间结构、细胞类型分布、基因表达模式及其相互关系提供了系统的方法和流程。
这在生物学、医学等领域,特别是对于研究组织发育、疾病发生发展等具有重要的应用价值和意义。
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!