通过计算方法进行基因预测以寻找蛋白质编码区的位置是生物信息学中的基本问题之一。
基因预测基本上意味着沿着基因组定位基因。也称为基因发现,它是指识别编码基因的基因组DNA区域的过程。
这包括蛋白质编码基因、RNA基因和其他功能元件,例如调节基因。
基因预测的重要性
有助于注释大的、连续的序列
有助于识别基因组的基本和必要元素,例如功能基因、内含子、外显子、剪接位点、调控位点、编码已知蛋白质的基因、基序、EST、ACR 等。
区分基因组的编码区和非编码区
预测蛋白质编码区的完整外显子 - 内含子结构
根据功能描述单个基因
它在结构基因组学、功能基因组学、代谢组学、转录组学、蛋白质组学、基因组研究和其他遗传相关研究(包括遗传疾病的检测、治疗和预防)中有广泛的应用。
生物信息学和基因预测
随着人类和模式生物 DNA 序列的数据库随着时间的推移迅速增加,几乎不可能对活细胞和生物进行传统的艰苦实验来预测基因。
以前,对几个不同基因的同源重组率的统计分析可以确定它们在某个染色体上的顺序,并且可以结合来自许多此类实验的信息来创建遗传图谱,指定已知基因相对于彼此的大致位置。
然而,今天,生物信息学研究的前沿使得仅根据其序列来预测这种大量基因的功能变得越来越可能。
基因预测方法
一般采用两类方法:
A. 基于相似性的搜索
它是一种基于序列相似性搜索的方法。
这是一种概念上简单的方法,它基于在 EST(表达的序列标签)、蛋白质或其他基因组与输入基因组之间的基因序列中寻找相似性。
这种方法基于功能区域(外显子)在进化上比非功能区域(基因间或内含子区域)更保守的假设。
一旦某个基因组区域与 EST、DNA 或蛋白质之间存在相似性,则可以使用相似性信息来推断该区域的基因结构或功能。
局部对齐和全局对齐是基于相似性搜索的两种方法。最常见的局部比对工具是 BLAST 系列程序,它检测与已知基因、蛋白质或 EST 的序列相似性。
另外两种类型的软件 PROCRUSTES 和 GeneWise 使用同源蛋白的全局比对与基因组序列中翻译的 ORF 进行基因预测。
一种基于成对基因组比较的新启发式方法已在名为 CSTfinder 的软件中实现。
B. 在预测开始时
它是一种基于基因结构和基于信号的搜索的方法。
以基因结构为模板检测基因
从头算基因预测依赖于两种类型的序列信息:信号传感器和内容传感器。
信号传感器是指短序列基序,例如剪接位点、分支点、多嘧啶束、起始密码子和终止密码子。
另一方面,内容传感器指的是一个物种独有的密码子使用模式,并允许通过统计检测算法将编码序列与周围的非编码序列区分开来。外显子检测必须依赖于内容传感器。
因此,这种方法的搜索依赖于基因中存在的主要特征。
许多算法被用于对基因结构进行建模,例如动态规划、线性判别分析、语言学方法、隐马尔可夫模型和神经网络。
基于这些模型,已经开发了大量的从头算基因预测程序。一些常用的有 GeneID、FGENESH、GeneParser、GlimmerM、GENSCAN 等。