基因富集分析(Gene Enrichment Analysis) 是一种生物信息学方法,用于确定一组基因(例如差异表达基因或特定生物学条件下活跃的基因)是否在某些功能注释、基因本体分类(Gene Ontology,GO)、通路数据库(如 KEGG、Reactome)或其他预定义的基因集中特别富集。其主要目的是揭示基因组数据背后的生物学意义,帮助研究者更好地理解基因表达模式与生物学功能之间的关系。
核心步骤
-
基因集合准备:从实验数据(如 RNA-seq、微阵列数据)中筛选出感兴趣的基因集合,例如差异表达基因。
-
注释数据库选择:
- Gene Ontology (GO):功能分类,包括生物学过程(BP)、分子功能(MF)、细胞组分(CC)。
- 通路数据库:KEGG、Reactome、BioCarta 等。
- 自定义基因集:如实验数据或文献中定义的特定基因列表。
-
富集分析方法:
- 超几何检验:例如 Fisher 精确检验,用于评估感兴趣基因是否在特定注释中富集。
- GSEA (Gene Set Enrichment Analysis):基于整个基因列表的排序信息,无需预先定义差异基因。
- ORA (Over-Representation Analysis):基于显著性筛选出的基因集合。
- 定量方法:结合基因表达水平计算富集程度。
-
显著性评估:对富集的基因集计算 p 值,并进行多重假设校正(如 Benjamini-Hochberg 方法),控制假阳性率。
-
结果解释与可视化:用条形图、气泡图、网络图等方式展示分析结果,以直观体现功能富集的基因集和通路。
应用场景
- 理解生物学机制:揭示特定基因群体在生物学过程中的作用。
- 疾病相关研究:分析差异表达基因的功能,探索疾病机制。
- 药物靶点发现:富集分析有助于寻找潜在的治疗靶点。
- 多组学整合:结合转录组、蛋白质组或代谢组数据进行功能探索。
常用工具
- DAVID (Database for Annotation, Visualization, and Integrated Discovery):功能注释和富集分析。
- Metascape:用于整合基因和通路富集分析。
- Enrichr:多种注释数据库的在线富集分析。
- clusterProfiler:R 语言包,支持多种富集分析。
- GSEA软件包:用于排序基因集合的分析。
基因富集分析在现代生物学研究中至关重要,是挖掘高通量组学数据背后生物学意义的核心工具。