完整 人 基因组 来自雌性组织来源的细胞系的两条 X 染色体和常染色体的序列已经完成。这其中包括了8% 基因组 2001 年发布的原始草案中缺少的序列。
完整 人 基因组 端粒到端粒 (T3.055T) 联盟揭示了整个 2 亿个碱基对的序列。这代表了最大的改进 人 参考 基因组 Celera Genomics 和 International 于 2001 年发布 以人为本 基因组 测序联盟。那 基因组 序列覆盖了大部分常染色质区域,同时遗漏了异染色质区域或错误表示。这些地区占全国的8% 人 基因组 这终于被揭晓了。新的 T2T-CHM13 参考1 包括所有 22 个常染色体和 X 染色体的完整序列。这个新的参考序列还纠正了许多错误,并增加了大约 200 亿 bp 的新序列,其中包含 2,226 个基因拷贝,其中 115 个预测为蛋白质编码。
当前的 GRCh38.p13 参考基因组是两次重大更新的结果,一次是在 2013 年,另一次是在 2019 年对 2001 年 Celera 基因组序列进行的更新。然而,它仍然有 151 亿个未知序列碱基对分布在整个系统中。 基因组,包括着丝粒周围和亚端粒区域、重复、基因和核糖体 DNA (rDNA) 阵列,所有这些都是基本细胞过程所必需的。新参考被命名为 T2T-CHM13,因为它来自 CHM13(完整的葡萄胎)细胞系的 DNA 测序,并由 T2T 联盟进行。该细胞系源自异常受精卵或胎盘组织的过度生长,其中女性似乎怀孕了(假怀孕),因此该序列仅代表女性的两条 X 染色体和常染色体。多种测序技术已投入使用,例如 PacBio、Oxford Nanopore、100X 和 70X Illumina 测序仪等。测序技术的进步使得上面提到的剩下的8%都得到了测序。
T2T-CHM13 序列的唯一限制是缺少 Y 染色体。 该测序目前正在进行中,使用来自 HG002 细胞系的 DNA,该细胞系具有 46(23 对)XY 核型。 然后使用为纯合 CHM13 基因组开发的相同方法组装序列。
T2T-CHM13 的可用性作为新的参考 基因组 代表了一项重大突破,将有助于理解异染色质区域的作用,并有助于更详细地了解其对细胞过程的影响。 直到 Y 染色体测序完成,这将作为未来研究了解细胞过程和功能的参考基因组。
***
参考资料
- Nurk S、Koren S、Rhie A、Rautiainen M、Bzikadze AV、Mikheenko A 等。一个完整的序列 人 基因组bioRxiv 2021.05.26.445798;数字编号: https://doi.org/10.1101/2021.05.26.445798
***