什么是生物信息学?生物信息学(bioinformatics)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学以各种各样的生物学数据为研究材料,通过计算机处理后再进行结果解读,处理方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。当前主要的研究方向有:序列比对、序列组装、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及进化模型创建等。
从以上定义可以看出生物信息学的兴起有赖于测序技术、生物样本库以及计算机科学等的高速发展。生物信息学的发展也衍生出了一系列组学研究,包括转录组学、基因组学、蛋白质组学、代谢组学和微生物组学等,所有这些组学都是由一个个小型或大型的数据库构成的,比如我们最熟知的TCGA数据库,存储了33种肿瘤的转录组,基因组,甲基化组等多种类型的数据,而对TCGA等数据库进行研究即我们常说的数据库知识发现(Knowledge-Discovery in Databases, KDD)。KDD是指从存放在数据库、数据仓库或者其他信息库中的大量数据中挖掘出隐藏的有用信息(知识)的技术。他被广泛应用到各个领域,挖掘数据之间的潜在模式,找出有价值的信息。KDD的基本过程包括数据库的清理,集成形成数据仓库,经过选择变化后将“脏”数据变成“清洁”数据,即预处理后的数据,随后通过数据挖掘构建不同的模型和模式,用来评估和表示各种知识(图1)。数据挖掘(Data mining)又译为资料探勘、数据采矿,是KDD的核心部分,是采用机器学习、运筹学、统计方法等进行知识发现的阶段。数据挖掘一般是指从大量的数据中通过算法“自动”搜索隐藏于其中有着特殊关系信息的过程,但是从广义上讲,数据挖掘的定义就是从海量数据中提取知识的过程,也就是等同于KDD。