广告投放

DNA 作为存储大量计算机数据的媒介:即将成为现实?

工程技术DNA 作为存储大量计算机数据的媒介:即将成为现实?

一项突破性研究在寻求开发基于 DNA 的数字数据存储系统方面向前迈出了重要的一步。

数字输入型 data 由于我们对小工具的依赖,今天正在以指数速度增长,并且它需要强大的长期存储。 数据存储正慢慢变得具有挑战性,因为当前的数字技术无法提供解决方案。 一个例子是过去两年创建的数字数据比计算机历史上的所有数据都要多,实际上正在创建 2.5 quintillion byte {1 quintillion byte = 2,500,000 Terabytes (TB) = 2,500,000,000 Gigabytes (GB)} 的数据世界上的每一天。 这包括社交网站上的数据、网上银行交易、公司和组织的记录、来自卫星、监视、研究、开发等的数据。这些数据是巨大且非结构化的。 因此,现在解决数据的巨大存储需求及其指数增长是一个巨大的挑战,特别是对于需要强大的长期存储的组织和公司。

当前可用的选项包括硬盘、光盘 (CD)、记忆棒、闪存驱动器以及更高级的磁带​​驱动器或蓝光光盘,它们可存储大约 10 太字节 (TB) 的数据。 这种存储设备虽然被普遍使用,但具有许多缺点。 首先,它们具有中低保质期,需要在理想的温度和湿度条件下储存才能持续数十年,因此需要专门设计的物理存储空间。 几乎所有这些都消耗大量电力,体积庞大且不切实际,并且可能在简单的跌落中损坏。 其中一些非常昂贵,经常受到数据错误的困扰,因此不够健壮。 组织普遍接受的一种选择称为云计算——一种公司基本上雇用“外部”服务器来处理其所有 IT 和数据存储需求的安排,称为“云”。 云计算的主要缺点之一是安全和隐私问题以及容易受到黑客攻击。 还有其他问题,例如涉及的成本高、上级组织的控制有限以及平台依赖性。 云计算仍然被视为长期存储的一个很好的选择。 然而,看起来全球范围内生成的数字信息肯定会超过我们的存储能力,需要更强大的解决方案来应对这种数据洪流,同时提供可扩展性以考虑未来的存储需求。

DNA 可以帮助计算机存储吗?

我们的 的DNA (脱氧核糖核酸)被认为是一种令人兴奋的数字数据存储替代介质。 DNA 是几乎所有生物体中都存在的自我复制材料,它构成了我们的遗传信息。 人造的或合成的 的DNA 是一种耐用的材料,可以使用市售的寡核苷酸合成机器制造。 DNA 的主要好处是它的寿命,因为 DNA 的寿命是硅的 1000 倍(硅芯片——用于建筑的材料) 电脑)。 令人惊讶的是,只有一立方毫米 的DNA 可以容纳 quintillion 字节的数据! DNA 还是一种永不降解的超紧凑材料,可以在阴凉干燥的地方储存数百个世纪。 使用 DNA 进行存储的想法可以追溯到 1994 年。主要原因是信息存储在计算机和我们的 DNA 中的方式相似——因为两者都存储信息的蓝图。 计算机将所有数据存储为 0 和 1,DNA 使用四种碱基——胸腺嘧啶 (T)、鸟嘌呤 (G)、腺嘌呤 (A) 和胞嘧啶 (C) 存储生物体的所有数据。 因此,如果这些碱基可以表示为 0(碱基 A 和 C)和 1(碱基 T 和 G),则 DNA 可以称为标准存储设备,就像计算机一样。 DNA 坚韧而持久,最简单的反映是我们的遗传密码——存储在 DNA 中的所有信息的蓝图——以重复的方式有效地代代相传。 所有软件和硬件巨头都热衷于使用合成 DNA 来存储大量数据,以实现其解决长期数据存档问题的目标。 这个想法是首先将计算机代码 0 和 1 转换为 DNA 代码(A、C、T、G),然后将转换后的 DNA 代码用于生产合成 DNA 链,然后将其放入冷藏库。 在需要时,可以从冷库中取出 DNA 链,并使用 DNA 测序机对其信息进行解码,最后将 DNA 序列翻译回 1 和 0 的二进制计算机格式,以便在计算机上读取。

已经显示1 仅仅几克 DNA 就可以存储 quintillion 字节的数据并保持其完好无损长达 2000 年。 然而,这种简单的理解面临着一些挑战。 首先,将数据写入 DNA 非常昂贵,而且速度也非常缓慢,即将 0 和 1 实际转换为 DNA 碱基(A、T、C、G)。 其次,一旦数据被“写入”到 DNA 上,查找和检索文件就很困难,需要一种称为 DNA 测序的技术——确定 DNA 分子内碱基的精确顺序的过程——之后数据被解码回0 和 1。

最近的一项研究2 来自微软研究院和华盛顿大学的科学家们已经实现了对 DNA 存储的“随机访问”。 “随机访问”方面非常重要,因为它意味着信息可以传输到或从位置(通常是内存)传输到其中的每个位置,无论在序列中的哪个位置,都可以直接访问。 使用这种随机访问技术,与以前相比,可以有选择地从 DNA 存储中检索文件,当这种检索需要对整个 DNA 数据集进行排序和解码以查找和提取所需的少数文件时。 当数据量增加并变得巨大时,“随机访问”的重要性进一步提高,因为它减少了需要完成的测序量。 这是有史以来第一次以如此大的规模展示随机访问。 研究人员还开发了一种算法,可以更有效地解码和恢复数据,对数据错误的容忍度更高,从而使测序过程也更快。 本研究编码了超过 13 万个合成 DNA 寡核苷酸,这些数据大小为 200MB,由 35 个文件(包含视频、音频、图像和文本)组成,大小从 29KB 到 44MB。 这些文件是单独检索的,没有错误。 此外,作者设计了在写入和读取 DNA 序列时更加稳健和容错的新算法。 这项研究发表在 自然·生物技术“ 在一项重大进展中,展示了一个可行的、大规模的 DNA 存储和检索系统。

DNA存储系统看起来很有吸引力,因为它具有高数据密度、高稳定性和易于存储的特点,但它在被普遍采用之前显然还有很多挑战。 很少有因素是 DNA 的时间和劳动密集型解码(测序)以及 DNA 合成。 该技术需要更高的准确性和更广泛的覆盖范围。 尽管在这一领域取得了进展,但随着 DNA 的不断发展,长期存储数据的确切格式仍然存在。 微软发誓要改进合成 DNA 的生产并解决设计一个完全可操作的挑战 的DNA 到 2020 年的存储系统。

***

{您可以通过单击下面引用来源列表中给出的 DOI 链接来阅读原始研究论文}

来源(S)

1. Erlich Y 和 Zielinski D 2017。DNA Fountain 实现了强大而高效的存储架构。 科学。 355(6328)。 https://doi.org/10.1126/science.aaj2038

2. Organick L 等。 2018. 大规模 DNA 数据存储中的随机访问。 自然生物技术。 36. https://doi.org/10.1038/nbt.4079

赛欧团队
赛欧团队https://www.ScientificEuropean.co.uk
科学欧洲® | SCIEU.com | 科学的重大进步。 对人类的影响。 鼓舞人心。

订阅电邮通讯

将通过所有最新新闻,优惠和特别公告进行更新。

- 广告 -

最热门文章

威尔士救护车服务在 Covid-19 爆发期间恳求公众保持诚实

威尔士救护车服务要求公众...

利用废热为小型设备供电

科学家们开发了一种合适的材料,用于...

纤维化:ILB®、低分子量硫酸葡聚糖 (LMW-DS) 在临床前试验中显示出抗纤维化作用

众所周知,纤维化疾病会影响几个重要器官...
- 广告 -
98,927风扇喜欢
64,233粉丝关注
6,162粉丝关注
31认购购买