基因组是指细胞或生物体中存在的一组完整的基因或遗传物质,而基因组学是对基因组的研究。
基因组研究的特点是使用自动数据收集工具同时分析大量基因。
基因组学是遗传学中的一门学科,它应用重组 DNA、DNA 测序方法和生物信息学对基因组的功能和结构进行测序、组装和分析。
基因组学的出现和随之而来的序列信息的爆炸式增长是当今生物信息学快速发展的主要驱动力。
基因组研究可初步分为结构基因组学和功能基因组学。
结构基因组学是指基因组分析的初始阶段,包括构建基因组的遗传和物理图谱、基因鉴定、基因特征注释和基因组结构比较。
功能基因组学 是研究基因组的基因和基因间区域如何促成不同的生物过程。功能基因组学的目标是确定生物系统的各个组成部分如何协同工作以产生特定的表型。功能基因组学侧重于基因产物在特定环境中的动态表达,例如,在特定发育阶段或疾病期间。
比较来自不同生物的全基因组是比较基因组学,其中包括比较这些基因组的基因数量、基因位置和基因含量。该比较有助于揭示基因组之间的保守程度,这将有助于深入了解基因组进化和基因组间基因转移的机制。
基因组学方法
基因组图谱
基因组作图是识别染色体上基因、突变或性状的相对位置的过程。
它涉及将特定基因分配/定位到染色体的特定区域,并确定染色体上基因的位置和基因之间的相对距离。
连锁图显示基因和遗传标记沿染色体的排列,由它们一起遗传的频率计算得出。
物理图表示染色体,并提供以核苷酸碱基为单位理想测量的染色体标志之间的物理距离。
基因组测序
基因组测序正在确定基因组中 DNA 核苷酸或碱基的顺序——构成生物体 DNA 的 As、Cs、Gs 和 Ts 的顺序。
对整个基因组(生物体的所有 DNA)进行测序是一项复杂的任务。它需要将基因组的 DNA 分解成许多更小的片段,对这些片段进行测序,并将这些序列组装成一个长的“共识”。
现代 DNA 测序技术的快速测序有助于对多种生命类型和物种的完整 DNA 序列或基因组进行测序,包括人类基因组和许多动物、植物和微生物的其他完整 DNA 序列物种。
基因组序列组装
最初的 DNA 测序反应从 DNA 克隆产生短序列读数。读取的平均长度约为 500 个碱基。为了组装全基因组序列,这些短片段在去除重叠后连接形成更大的片段。这些较长的合并序列称为重叠群,通常有 5,000 到 10,000 个碱基长。
许多重叠的重叠群可以进一步合并形成支架(30,000-50,000 个碱基,也称为超重叠群),它们沿着染色体的物理图单向定向。然后连接重叠的支架以创建基因组的最终最高分辨率图。
正确识别重叠和将序列读取组装成重叠群需要计算工具。
Phred、Phrap、VecScreen。TIGR Assembler、ARACHNE 是少数常用的汇编程序。
基因组注释
在将组装的序列存入数据库之前,必须对其进行分析以获取有用的生物学特征。基因组注释过程为特征提供注释。
这涉及两个步骤:基因预测和功能分配,两者都可以通过生物信息学工具完成。
基因本体论
需要标准化蛋白质功能描述,因为在使用现有文献时会出现问题,因为基因功能的描述使用自然语言,这通常是模棱两可和不精确的。
因此,这种需求刺激了基因本体(GO)项目的发展,该项目使用有限的词汇来描述分子功能、生物过程和细胞成分。
使用 GO 搜索特定蛋白质的数据库可以很容易地找到具有相关功能的其他蛋白质,就像使用同义词库一样。使用 GO,基因组注释器可以根据对基因产物的了解程度,在不同层次上分配基因产物的功能特性。
全基因组比对
随着可用的基因组序列数量不断增加,了解基因组之间的序列保守性变得势在必行,这通常有助于揭示保守功能元件的存在。
这可以通过直接基因组比较或基因组比对来完成。基因组水平的比对与基本序列比对基本没有区别。