相比一代测序(Sanger 测序法),高通量测序具有测序快的优点,基本原理是将基因组断成一百多个碱基的短片段,对短片段进行测序,然后序列拼接,但高通量测序准确性较低,测序结果要通过矫正来提高测序准确度,随着三代测序技术的发展(三代测序的测序长度很长),一定程度上解决了重复序列的拼接问题。
1. 高通量测序在精准医学的应用:
包括疾病基因的筛查,大规模测病人和正常人的基因,通过基因比较,得出与疾病可能相关的基因,后续再诊断这一疾病,即可筛查病人是否有这些基因的突变。比如乳腺癌,现已有较成熟的基因筛查方法;
基于组学还可对新生儿的遗传病相关基因进行筛查,如耳聋基因、唐氏综合症,唐氏综合症的发病率达到1/800,高龄产妇胎儿患有唐氏综合症的概率相比年轻产妇较高,在胎儿14-16周时用试剂盒检测,但试剂盒的假阳性高,后面再用穿刺获得胎儿的融包膜,但穿刺风险大,容易导致流产,后来发现可通过抽取孕妇外周血,检测游离DNA即可。
2. 从头测序
高通量测序使得对物种基因组测序的成本降低,速度也更快,对于没有参考基因组的物种,只能采用从头测序方法,包括overlap graph和De Bruijn Graph,overlap是序列两两比对拼接,De Bruijn Graph是将每个序列拆成更小的片段,如3个碱基为一个小段,通过统计所有序列共有的小片段数进行拼接。重复序列是从头测序的难点,人的重复序列达到50%。
3. 表观基因组学
这几年表观基因组测序很火,但我对这一领域不了解,只知道像DNA甲基化。
4. 古基因组学的应用
对于已经灭绝的生物,可通过考古获得的动物毛发、骨骼对该物种测序,还可通过样品中微生物基因组分析,判断该物种当时的生活环境。
如猛犸象线粒体基因组的测序,发现猛犸象基因复杂度低,存在高度不稳定性,可能这导致了该物种适应环境能力低,在一部分程度上导致了该物种的灭绝。
5. 高通量测序的挑战
随着测序技术的发展,大量的基因组测序已不是问题,数据规模庞大,类型复杂,包括转录组,基因组,蛋白质组等,可重复性不强,数据储存与可视化也是待优化的问题。样品污染也是影响测序结果准确度的一大问题。