让信息保存千万年的方法是通过DNA的储存
一方面,DNA储存信息具有高效率和低损耗的特点。DNA携带的遗传信息储存于胞嘧啶(C)、鸟嘌呤(G)、腺嘌呤(A)与胸腺嘧啶(T)这四个核苷酸碱基的排列顺序之中。其中每三个碱基对应编码一个氨基酸。一个基因可能需要成百上千个碱基才能产生一个蛋白质。对于储存在DNA上的信息而言,需要200本电线亿个碱基序列印全。然而,人类23 600个基因仅占用了DNA大约2厘米的长度。
另一方面,DNA存储信息可以提供大量的信息密度和超常的半衰期。如今,全球每年产生的数据需要4180亿个1TB的硬盘才能放下,而把这些数据储存在DNA上,仅仅需要1千克DNA物质。不仅如此,依靠生物碱基不同的排列方式,这些信息还可以在-18℃的环境储存100万年之久。相比之下,纸张会腐烂,硬盘会降解,甚至连石头也会风化,DNA却可以彻底无视这些物理过程,保留人类文明的知识和历史。
几十年来,受到DNA储存人类遗传信息的启示,科学家们一直想通过DNA来解决日益困扰人类的信息储存问题。
现在,天津大学宣布,该校合成生物学团队创新DNA存储算法,将十幅精选敦煌壁画存入DNA中,通过加速老化实验验证壁画信息在实验室常温下可保存千年,在9。4℃下可保存两万年。该算法支持DNA分子成为世界上最可靠的数据存储介质之一,可以让面临老化破损危机的人类文化遗产信息保存千年万年。
值得一提的是,虽然DNA存储高效低耗,但作为一种链式生物大分子,在体外常温保存时会面临DNA断裂降解等风险,严重影响信息存储的长期可靠性。对此,此次研究团队设计了基于德布莱英图理论的序列重建算法来解决DNA断裂等问题。该算法结合贪婪路径搜索和循环冗余校验码来实现断裂DNA片段的高效从头组装,从原理上支持了DNA存储的长期可靠性。
结合该序列重建算法(内码)与喷泉码算法(外码),团队设计编码了6。8MB敦煌壁画,合成了承载图片信息的DNA片段21万条。为数据的长期可靠性,团队制备了一个没有任何特殊保护的DNA水溶液样本,并在70℃下加速样本断裂、降解长达十周。
处理后的DNA片段80%以上都发生了断裂错误,依靠设计的序列重建算法依然可以准确组装并解码96。4%以上的片段,再通过喷泉码解决少量片段丢失的问题,原始的敦煌壁画图片依然能够完美恢复。根据理论推算,这种程度的高温破坏相当于实验室常温25℃一千年或者9。4℃长达两万年的自然保存。
大数据与人工智能的大爆发,促使人类必须找到更多的新兴算力之源,而DNA储存的创新技术,很可能就是人类未来的智能新大陆,DNA储存技术的突破,自然也就是人们朝着未来储存技术的更进一步。