来自女性组织来源的细胞系的两条X染色体和常染色体的完整人类基因组序列已经完成。 这包括 8 年发布的原始草案中缺失的 2001% 的基因组序列。
完整 人类基因组 Telomere-to-Telomere (T3.055T) Consortium 揭示了整个 2 亿个碱基对的序列。 这是 Celera Genomics 和国际人类基因组测序联盟于 2001 年发布的人类参考基因组的最大改进。 该基因组序列覆盖了大部分常染色质区域,而忽略了异染色质区域或错误的表示。 这些区域占最终揭示的人类基因组的 8%。 新的 T2T-CHM13 参考1 包括所有 22 个常染色体和 X 染色体的完整序列。这个新的参考序列还纠正了许多错误,并增加了大约 200 亿 bp 的新序列,其中包含 2,226 个基因拷贝,其中 115 个预测为蛋白质编码。
当前的 GRCh38.p13 参考基因组是对 2013 Celera 基因组序列进行两次重大更新的结果,一次是在 2019 年,另一次是在 2001 年。 然而,它仍然有 151 亿个未知序列碱基对分布在整个基因组中,包括着丝粒周围和亚端粒区域、重复、基因和核糖体 DNA (rDNA) 阵列,所有这些都是基本细胞过程所必需的。 新的参考文献被命名为 T2T-CHM13,因为它来自对 CHM13(完整的水螅)细胞系的 DNA 测序,并由 T2T 联盟执行。 该细胞系来源于异常受精卵或胎盘组织过度生长,其中女性似乎怀孕(假妊娠),因此该序列仅代表女性的两条 X 染色体和常染色体。 多种测序技术已投入使用,例如 PacBio、Oxford Nanopore、100X 和 70X Illumina 测序仪等。 测序方面的技术进步导致了上述剩余 8% 的测序。
T2T-CHM13 序列的唯一限制是缺少 Y 染色体。 该测序目前正在进行中,使用来自 HG002 细胞系的 DNA,该细胞系具有 46(23 对)XY 核型。 然后使用为纯合 CHM13 基因组开发的相同方法组装序列。
T2T-CHM13 的可用性作为新的参考 基因组 代表了一项重大突破,将有助于理解异染色质区域的作用,并有助于更详细地了解其对细胞过程的影响。 直到 Y 染色体测序完成,这将作为未来研究了解细胞过程和功能的参考基因组。
***
参考资料
- Nurk S、Koren S、Rhie A、Rautiainen M、Bzikadze AV、Mikheenko A 等。 一个人类基因组 bioRxiv 的完整序列 2021.05.26.445798; DOI: https://doi.org/10.1101/2021.05.26.445798
***