生物信息学数据分析的作用主要包括:
①用于生物信息学数据分析的建立与查询:包括基因和基因组数据库(如Genbank、EMBL核酸序列数据库、GDB等)、蛋白质数据库(如PIR、PSD、SWISS-PROT、PROSITE、PDB等)以及功能数据库(如KEGG、TRRD、TRNSFAC等)。
②用于序列比对:即蛋白质序列之间或核酸序列之间的比对。包括序列的两两比对和多序列比对。
③核酸与蛋白质结构和功能的预测分析。
④基因组序列信息分析。
⑤功能基因组相关信息分析:包括大规模基因表达谱分析、基因组水平蛋白质功能综合预测。
具体而言,生物信息学数据分析发现中应用的数据挖掘技术包括:
①构选基因数据库或数据仓库:由于广泛多样的DNA数据高度分数,为了便于对DNA数据库进行系统分析,需要利用数据挖掘中的数据清理和数据集成的方法来构造集成式数据仓库和开发分布式数据库。
②序列模式分析:DNA序列间的相似搜索和比较是基因分析中重要的问题之一。由于基因数据是非数字的,所以数据挖掘中针对非数字的序列模式分析方法在基因序列比对中能起到非常重要的作用。
③关联分析:大部分疾病不是由一个基因引起的,而是由多个基因组合起来共同起作用的结果。因此采用数据挖掘中的关联分析方法有助于发现基因组间的,进而揭示人类疾病背后的基因原因。
④可视化:基因的复杂结构和序列模式常常需要由各种可视化工具以图、树、链等形式来表现。可视化工具有助于生物信息的模式理解和知识发现。