DNA 作为存储大量计算机数据的媒介：即将成为现实？ —

一项突破性研究在寻求开发一种的DNA基于存储系统的数字数据。

数字输入型 data 由于我们对小工具的依赖，如今它正在以指数速度增长，并且它需要强大的长期存储。由于当前的数字技术无法提供解决方案，数据存储正慢慢变得具有挑战性。一个例子是，过去两年创建的数字数据比历史上所有数据还要多。电脑，事实上，世界上每天都会产生 2.5 quintillion byte {1 quintillion byte = 2,500,000 Terabytes (TB) = 2,500,000,000 GB)} 数据。这包括社交网站、网上银行交易、公司和组织记录、卫星数据、监视、研究、开发等数据。这些数据庞大且非结构化。因此，解决数据的巨大存储需求及其指数增长现在是一个巨大的挑战，特别是对于需要强大的长期存储的组织和企业来说。

当前可用的选项包括硬盘、光盘 (CD)、记忆棒、闪存驱动器以及更高级的磁带驱动器或蓝光光盘，它们可存储大约 10 太字节 (TB) 的数据。这种存储设备虽然被普遍使用，但具有许多缺点。首先，它们具有中低保质期，需要在理想的温度和湿度条件下储存才能持续数十年，因此需要专门设计的物理存储空间。几乎所有这些都消耗大量电力，体积庞大且不切实际，并且可能在简单的跌落中损坏。其中一些非常昂贵，经常受到数据错误的困扰，因此不够健壮。组织普遍接受的一种选择称为云计算——一种公司基本上雇用“外部”服务器来处理其所有 IT 和数据存储需求的安排，称为“云”。云计算的主要缺点之一是安全和隐私问题以及容易受到黑客攻击。还有其他问题，例如涉及的成本高、上级组织的控制有限以及平台依赖性。云计算仍然被视为长期存储的一个很好的选择。然而，看起来全球范围内生成的数字信息肯定会超过我们的存储能力，需要更强大的解决方案来应对这种数据洪流，同时提供可扩展性以考虑未来的存储需求。

DNA 可以帮助计算机存储吗？

我们的全球洞察力的DNA （脱氧核糖核酸）被认为是数字数据存储的一种令人兴奋的替代介质。的DNA 是几乎所有生物体中存在的自我复制物质，也是我们遗传信息的组成部分。人工或合成的的DNA 是一种耐用的材料，可以使用市售的寡核苷酸合成机器来制造。 DNA 的主要好处是它作为生物体的寿命很长。的DNA 使用寿命比硅长 1000 倍（硅片——用于建筑的材料）电脑）。令人惊讶的是，只有一立方毫米的DNA 可以容纳五亿字节的数据！的DNA 也是一种超紧凑材料，永不降解，可以在阴凉干燥的地方保存数百个世纪。使用 DNA 进行存储的想法早在 1994 年就已经存在了很长一段时间。主要原因是信息存储在计算机和我们的计算机中的方式相似。的DNA – 因为两者都存储信息蓝图。计算机将所有数据存储为 0 和 1，DNA 使用四种碱基（胸腺嘧啶 (T)、鸟嘌呤 (G)、腺嘌呤 (A) 和胞嘧啶 (C)）存储生物体的所有数据。因此，如果这些碱基可以表示为0（碱基A和C）和1（碱基T和G），那么DNA就可以被称为标准存储设备，就像计算机一样。 DNA 坚韧而持久，最简单的反映就是我们的遗传密码（DNA 中存储的所有信息的蓝图）以重复的方式有效地从一代传到下一代。所有软件和硬件巨头都热衷于使用合成 DNA 来存储大量数据，以实现解决数据长期归档的目标。这个想法是首先将计算机代码 0 和 1 转换为 DNA 代码（A、C、T、G），然后使用转换后的 DNA 代码生成合成 DNA 链，然后将其放入冷藏库。无论何时需要，DNA 链都可以从冷藏中取出，并使用 DNA 测序机对其信息进行解码，DNA 序列最终被翻译回 1 和 0 的二进制计算机格式，以便在计算机上读取。

已经显示¹ 只需几克 DNA 就可以存储 2000 亿字节的数据，并保持完整长达 0 年。然而，这种简单的理解却面临着一些挑战。首先，将数据写入 DNA（即将 1 和 XNUMX 实际转换为 DNA 碱基（A、T、C、G））非常昂贵，而且速度也非常慢。其次，一旦数据被“写入”DNA，查找和检索文件就变得具有挑战性，需要一种称为的DNA 测序——确定序列中碱基精确顺序的过程的DNA 分子 - 之后数据被解码回 0 和 1。

最近的一项研究² 来自微软研究院和华盛顿大学的科学家们已经实现了对 DNA 存储的“随机访问”。 “随机访问”方面非常重要，因为它意味着信息可以传输到或从位置（通常是内存）传输到其中的每个位置，无论在序列中的哪个位置，都可以直接访问。使用这种随机访问技术，与以前相比，可以有选择地从 DNA 存储中检索文件，当这种检索需要对整个 DNA 数据集进行排序和解码以查找和提取所需的少数文件时。当数据量增加并变得巨大时，“随机访问”的重要性进一步提高，因为它减少了需要完成的测序量。这是有史以来第一次以如此大的规模展示随机访问。研究人员还开发了一种算法，可以更有效地解码和恢复数据，对数据错误的容忍度更高，从而使测序过程也更快。本研究编码了超过 13 万个合成 DNA 寡核苷酸，这些数据大小为 200MB，由 35 个文件（包含视频、音频、图像和文本）组成，大小从 29KB 到 44MB。这些文件是单独检索的，没有错误。此外，作者设计了在写入和读取 DNA 序列时更加稳健和容错的新算法。这项研究发表在 自然·生物技术“ 在一项重大进展中，展示了一个可行的、大规模的 DNA 存储和检索系统。

DNA存储系统看起来很吸引人，因为它具有高数据密度、高稳定性、易于存储，但在得到普遍采用之前显然还存在许多挑战。很少有因素是 DNA 解码（测序）以及合成的时间和劳动密集型的DNA。该技术需要更高的准确性和更广泛的覆盖范围。尽管在这一领域已经取得了进步，但从长远来看，数据存储的确切格式的DNA 仍在不断发展。微软誓言要改进合成 DNA 的生产，并解决设计完全可操作的 DNA 的挑战。的DNA 到 2020 年的存储系统。

***

{您可以通过单击下面引用来源列表中给出的 DOI 链接来阅读原始研究论文}

来源（S）

1. Erlich Y 和 Zielinski D 2017。DNA Fountain 实现了强大而高效的存储架构。科学。 355(6328)。 https://doi.org/10.1126/science.aaj2038

2. Organick L 等。 2018. 大规模 DNA 数据存储中的随机访问。自然生物技术。 36. https://doi.org/10.1038/nbt.4079

DNA 作为存储大量计算机数据的媒介：即将成为现实？

订阅电邮通讯

最热门文章

编辑推荐

热门职位

热门类别