用于存储大量计算机数据的DNA

突破性研究朝着开发 的DNA基于存储系统的数字数据。

数字输入型 data 由于我们对小工具的依赖,如今它正在以指数速度增长,并且它需要强大的长期存储。由于当前的数字技术无法提供解决方案,数据存储正慢慢变得具有挑战性。一个例子是,过去两年创建的数字数据比历史上所有数据还要多。 电脑,事实上,世界上每天都会产生 2.5 quintillion byte {1 quintillion byte = 2,500,000 Terabytes (TB) = 2,500,000,000 GB)} 数据。这包括社交网站、网上银行交易、公司和组织记录、卫星数据、监视、研究、开发等数据。这些数据庞大且非结构化。因此,解决数据的巨大存储需求及其指数增长现在是一个巨大的挑战,特别是对于需要强大的长期存储的组织和企业来说。

当前可用的选项包括硬盘、光盘 (CD)、记忆棒、闪存驱动器以及更高级的磁带​​驱动器或蓝光光盘,它们可存储大约 10 太字节 (TB) 的数据。 这种存储设备虽然被普遍使用,但具有许多缺点。 首先,它们具有中低保质期,需要在理想的温度和湿度条件下储存才能持续数十年,因此需要专门设计的物理存储空间。 几乎所有这些都消耗大量电力,体积庞大且不切实际,并且可能在简单的跌落中损坏。 其中一些非常昂贵,经常受到数据错误的困扰,因此不够健壮。 组织普遍接受的一种选择称为云计算——一种公司基本上雇用“外部”服务器来处理其所有 IT 和数据存储需求的安排,称为“云”。 云计算的主要缺点之一是安全和隐私问题以及容易受到黑客攻击。 还有其他问题,例如涉及的成本高、上级组织的控制有限以及平台依赖性。 云计算仍然被视为长期存储的一个很好的选择。 然而,看起来全球范围内生成的数字信息肯定会超过我们的存储能力,需要更强大的解决方案来应对这种数据洪流,同时提供可扩展性以考虑未来的存储需求。

DNA 可以帮助计算机存储吗?

我们的 的DNA (脱氧核糖核酸)被认为是数字数据存储的一种令人兴奋的替代介质。 的DNA 是几乎所有生物体中存在的自我复制物质,也是我们遗传信息的组成部分。人工或合成的 的DNA 是一种耐用的材料,可以使用市售的寡核苷酸合成机器来制造。 DNA 的主要好处是它作为生物体的寿命很长。 的DNA 使用寿命比硅长 1000 倍(硅片——用于建筑的材料) 电脑)。 令人惊讶的是,只有一立方毫米 的DNA 可以容纳五亿字节的数据! 的DNA 也是一种超紧凑材料,永不降解,可以在阴凉干燥的地方保存数百个世纪。使用 DNA 进行存储的想法早在 1994 年就已经存在了很长一段时间。主要原因是信息存储在计算机和我们的计算机中的方式相似。 的DNA – 因为两者都存储信息蓝图。计算机将所有数据存储为 0 和 1,DNA 使用四种碱基(胸腺嘧啶 (T)、鸟嘌呤 (G)、腺嘌呤 (A) 和胞嘧啶 (C))存储生物体的所有数据。因此,如果这些碱基可以表示为0(碱基A和C)和1(碱基T和G),那么DNA就可以被称为标准存储设备,就像计算机一样。 DNA 坚韧而持久,最简单的反映就是我们的遗传密码(DNA 中存储的所有信息的蓝图)以重复的方式有效地从一代传到下一代。所有软件和硬件巨头都热衷于使用合成 DNA 来存储大量数据,以实现解决数据长期归档的目标。这个想法是首先将计算机代码 0 和 1 转换为 DNA 代码(A、C、T、G),然后使用转换后的 DNA 代码生成合成 DNA 链,然后将其放入冷藏库。无论何时需要,DNA 链都可以从冷藏中取出,并使用 DNA 测序机对其信息进行解码,DNA 序列最终被翻译回 1 和 0 的二进制计算机格式,以便在计算机上读取。

已经显示1 只需几克 DNA 就可以存储 2000 亿字节的数据,并保持完整长达 0 年。然而,这种简单的理解却面临着一些挑战。首先,将数据写入 DNA(即将 1 和 XNUMX 实际转换为 DNA 碱基(A、T、C、G))非常昂贵,而且速度也非常慢。其次,一旦数据被“写入”DNA,查找和检索文件就变得具有挑战性,需要一种称为 的DNA 测序——确定序列中碱基精确顺序的过程 的DNA 分子 - 之后数据被解码回 0 和 1。

最近的一项研究2 来自微软研究院和华盛顿大学的科学家们已经实现了对 DNA 存储的“随机访问”。 “随机访问”方面非常重要,因为它意味着信息可以传输到或从位置(通常是内存)传输到其中的每个位置,无论在序列中的哪个位置,都可以直接访问。 使用这种随机访问技术,与以前相比,可以有选择地从 DNA 存储中检索文件,当这种检索需要对整个 DNA 数据集进行排序和解码以查找和提取所需的少数文件时。 当数据量增加并变得巨大时,“随机访问”的重要性进一步提高,因为它减少了需要完成的测序量。 这是有史以来第一次以如此大的规模展示随机访问。 研究人员还开发了一种算法,可以更有效地解码和恢复数据,对数据错误的容忍度更高,从而使测序过程也更快。 本研究编码了超过 13 万个合成 DNA 寡核苷酸,这些数据大小为 200MB,由 35 个文件(包含视频、音频、图像和文本)组成,大小从 29KB 到 44MB。 这些文件是单独检索的,没有错误。 此外,作者设计了在写入和读取 DNA 序列时更加稳健和容错的新算法。 这项研究发表在 自然·生物技术“ 在一项重大进展中,展示了一个可行的、大规模的 DNA 存储和检索系统。

DNA存储系统看起来很吸引人,因为它具有高数据密度、高稳定性、易于存储,但在得到普遍采用之前显然还存在许多挑战。很少有因素是 DNA 解码(测序)以及合成的时间和劳动密集型 的DNA。该技术需要更高的准确性和更广泛的覆盖范围。尽管在这一领域已经取得了进步,但从长远来看,数据存储的确切格式 的DNA 仍在不断发展。微软誓言要改进合成 DNA 的生产,并解决设计完全可操作的 DNA 的挑战。 的DNA 到 2020 年的存储系统。

***

来源(S)

1. Erlich Y 和 Zielinski D 2017。DNA Fountain 实现了强大而高效的存储架构。 科学。 355(6328)。 https://doi.org/10.1126/science.aaj2038

2. Organick L 等。 2018. 大规模 DNA 数据存储中的随机访问。 自然生物技术。 36. https://doi.org/10.1038/nbt.4079

***

最新动态

未来环形对撞机(FCC):欧洲核子研究中心理事会审查可行性研究

对未解之谜的探寻(例如,哪些……)

切尔诺贝利真菌作为深空任务抵御宇宙射线的屏障 

1986年,乌克兰切尔诺贝利核电站4号机组……

儿童近视控制:依视路Stellest眼镜镜片授权  

儿童近视(或近视眼)是一种非常普遍的眼部疾病……

我们银河系中心的暗物质 

费米望远镜清晰观测到过量γ射线发射……

某些铝和黄铜炊具导致食物铅中毒 

测试结果表明,某些铝和黄铜……

NISAR:用于精确测绘地球的新型太空雷达  

NISAR(NASA-ISRO 合成孔径雷达或 NASA-ISRO 的缩写)...

订阅消息

千万不要错过

靶向下丘脑神经元治疗压力相关睡眠障碍

与压力有关的睡眠和记忆障碍是面临的重要健康问题......

牛津/阿斯利康 COVID-19 疫苗 (ChAdOx1 nCoV-2019) 被发现有效并获得批准

来自...的III期临床试验的中期数据

Sotrovimab 在英国的批准:一种有效对抗 Omicron 的单克隆抗体,也可能适用于未来的变体

Sotrovimab 是一种单克隆抗体,已被批准用于轻度至...

科学、真理和意义

这本书对……进行了科学和哲学考察。

与癌症形成和抑郁有关的 PHF21B 基因在大脑发育中也有作用

已知 Phf21b 基因的缺失与...

LignoSat2 将由木兰木制成

LignoSat2是京都大学研究室研制的第一颗木制人造卫星...
赛欧团队
赛欧团队https://www.scientificeuropean.co.uk
科学欧洲® | SCIEU.com | 科学的重大进步。 对人类的影响。 鼓舞人心。

未来环形对撞机(FCC):欧洲核子研究中心理事会审查可行性研究

对未解之谜的探索(例如,哪些基本粒子构成暗物质,为什么物质主导宇宙,为什么存在物质-反物质不对称性,什么是力……)

切尔诺贝利真菌作为深空任务抵御宇宙射线的屏障 

1986年,位于乌克兰(原苏联)的切尔诺贝利核电站4号机组发生大规模火灾和蒸汽爆炸。这场史无前例的事故释放了超过5%的放射性物质……

儿童近视控制:依视路Stellest眼镜镜片授权  

儿童近视(或近视眼)是一种非常常见的视力问题。据估计,到……年,全球近视患病率将达到约50%。