一项突破性研究在寻求开发一种 的DNA基于存储系统的数字数据。
数字输入型 data 由于我们对小工具的依赖,如今它正在以指数速度增长,并且它需要强大的长期存储。由于当前的数字技术无法提供解决方案,数据存储正慢慢变得具有挑战性。一个例子是,过去两年创建的数字数据比历史上所有数据还要多。 电脑,事实上,世界上每天都会产生 2.5 quintillion byte {1 quintillion byte = 2,500,000 Terabytes (TB) = 2,500,000,000 GB)} 数据。这包括社交网站、网上银行交易、公司和组织记录、卫星数据、监视、研究、开发等数据。这些数据庞大且非结构化。因此,解决数据的巨大存储需求及其指数增长现在是一个巨大的挑战,特别是对于需要强大的长期存储的组织和企业来说。
当前可用的选项包括硬盘、光盘 (CD)、记忆棒、闪存驱动器以及更高级的磁带驱动器或蓝光光盘,它们可存储大约 10 太字节 (TB) 的数据。 这种存储设备虽然被普遍使用,但具有许多缺点。 首先,它们具有中低保质期,需要在理想的温度和湿度条件下储存才能持续数十年,因此需要专门设计的物理存储空间。 几乎所有这些都消耗大量电力,体积庞大且不切实际,并且可能在简单的跌落中损坏。 其中一些非常昂贵,经常受到数据错误的困扰,因此不够健壮。 组织普遍接受的一种选择称为云计算——一种公司基本上雇用“外部”服务器来处理其所有 IT 和数据存储需求的安排,称为“云”。 云计算的主要缺点之一是安全和隐私问题以及容易受到黑客攻击。 还有其他问题,例如涉及的成本高、上级组织的控制有限以及平台依赖性。 云计算仍然被视为长期存储的一个很好的选择。 然而,看起来全球范围内生成的数字信息肯定会超过我们的存储能力,需要更强大的解决方案来应对这种数据洪流,同时提供可扩展性以考虑未来的存储需求。
DNA 可以帮助计算机存储吗?
我们的 的DNA (脱氧核糖核酸)被认为是数字数据存储的一种令人兴奋的替代介质。 的DNA 是几乎所有生物体中存在的自我复制物质,也是我们遗传信息的组成部分。人工或合成的 的DNA 是一种耐用的材料,可以使用市售的寡核苷酸合成机器来制造。 DNA 的主要好处是它作为生物体的寿命很长。 的DNA 使用寿命比硅长 1000 倍(硅片——用于建筑的材料) 电脑)。 令人惊讶的是,只有一立方毫米 的DNA 可以容纳五亿字节的数据! 的DNA 也是一种超紧凑材料,永不降解,可以在阴凉干燥的地方保存数百个世纪。使用 DNA 进行存储的想法早在 1994 年就已经存在了很长一段时间。主要原因是信息存储在计算机和我们的计算机中的方式相似。 的DNA – 因为两者都存储信息蓝图。计算机将所有数据存储为 0 和 1,DNA 使用四种碱基(胸腺嘧啶 (T)、鸟嘌呤 (G)、腺嘌呤 (A) 和胞嘧啶 (C))存储生物体的所有数据。因此,如果这些碱基可以表示为0(碱基A和C)和1(碱基T和G),那么DNA就可以被称为标准存储设备,就像计算机一样。 DNA 坚韧而持久,最简单的反映就是我们的遗传密码(DNA 中存储的所有信息的蓝图)以重复的方式有效地从一代传到下一代。所有软件和硬件巨头都热衷于使用合成 DNA 来存储大量数据,以实现解决数据长期归档的目标。这个想法是首先将计算机代码 0 和 1 转换为 DNA 代码(A、C、T、G),然后使用转换后的 DNA 代码生成合成 DNA 链,然后将其放入冷藏库。无论何时需要,DNA 链都可以从冷藏中取出,并使用 DNA 测序机对其信息进行解码,DNA 序列最终被翻译回 1 和 0 的二进制计算机格式,以便在计算机上读取。
已经显示1 只需几克 DNA 就可以存储 2000 亿字节的数据,并保持完整长达 0 年。然而,这种简单的理解却面临着一些挑战。首先,将数据写入 DNA(即将 1 和 XNUMX 实际转换为 DNA 碱基(A、T、C、G))非常昂贵,而且速度也非常慢。其次,一旦数据被“写入”DNA,查找和检索文件就变得具有挑战性,需要一种称为 的DNA 测序——确定序列中碱基精确顺序的过程 的DNA 分子 - 之后数据被解码回 0 和 1。
最近的一项研究2 来自微软研究院和华盛顿大学的科学家们已经实现了对 DNA 存储的“随机访问”。 “随机访问”方面非常重要,因为它意味着信息可以传输到或从位置(通常是内存)传输到其中的每个位置,无论在序列中的哪个位置,都可以直接访问。 使用这种随机访问技术,与以前相比,可以有选择地从 DNA 存储中检索文件,当这种检索需要对整个 DNA 数据集进行排序和解码以查找和提取所需的少数文件时。 当数据量增加并变得巨大时,“随机访问”的重要性进一步提高,因为它减少了需要完成的测序量。 这是有史以来第一次以如此大的规模展示随机访问。 研究人员还开发了一种算法,可以更有效地解码和恢复数据,对数据错误的容忍度更高,从而使测序过程也更快。 本研究编码了超过 13 万个合成 DNA 寡核苷酸,这些数据大小为 200MB,由 35 个文件(包含视频、音频、图像和文本)组成,大小从 29KB 到 44MB。 这些文件是单独检索的,没有错误。 此外,作者设计了在写入和读取 DNA 序列时更加稳健和容错的新算法。 这项研究发表在 自然·生物技术“ 在一项重大进展中,展示了一个可行的、大规模的 DNA 存储和检索系统。
DNA存储系统看起来很吸引人,因为它具有高数据密度、高稳定性、易于存储,但在得到普遍采用之前显然还存在许多挑战。很少有因素是 DNA 解码(测序)以及合成的时间和劳动密集型 的DNA。该技术需要更高的准确性和更广泛的覆盖范围。尽管在这一领域已经取得了进步,但从长远来看,数据存储的确切格式 的DNA 仍在不断发展。微软誓言要改进合成 DNA 的生产,并解决设计完全可操作的 DNA 的挑战。 的DNA 到 2020 年的存储系统。
***
{您可以通过单击下面引用来源列表中给出的 DOI 链接来阅读原始研究论文}
来源(S)
1. Erlich Y 和 Zielinski D 2017。DNA Fountain 实现了强大而高效的存储架构。 科学。 355(6328)。 https://doi.org/10.1126/science.aaj2038
2. Organick L 等。 2018. 大规模 DNA 数据存储中的随机访问。 自然生物技术。 36. https://doi.org/10.1038/nbt.4079