随着人工智能(AI)模型训练、大数据分析及智能设备被广泛应用,全球每天产生海量数据。传统硬碟及雲端存储技术面临成本高、容量受限、耗电量大及寿命较短等挑战,促使分子存储技术成为新一代数据存储的突破方向。香港理工大学(理大)研究团队提出以工程化蛋白質作为存储数据的创新方案,并首次在从头设计的人工蛋白中,实现由数据寫入至读取的完整流程,有望建立具可持续性、高容量及高稳定性的崭新存储框架,应对AI时代下全球数据的爆发式增长。
这项跨学科研究由理大应用生物及化学科技学系副系主任及教授姚鍾平教授率领,覆盖蛋白質工程、合成生物学、生物化学、分析化学及计算机科学等领域。研究团队成员包括同系助理教授(研究)伍卓知博士,以及工程学院副院长(环球事务)兼电机及电子工程学系教授刘重明教授等,相关成果已刊載于国际期刊《自然通讯》(Nature Communications)。
所有数码档案——包括文字、图像、视频等——在计算机都会被存储为由0和1组成的位元串。分子存储技术通常以大分子的组成单体对应位元组合,把数据「翻譯」成单体序列,再透过测序技术将其解读。DNA(以核苷酸为单体)是现时常用的分子存储載体,但它仅由四种核苷酸组成,存储容量较低,亦较易被降解。姚教授团队原先已开发采用多肽(以氨基酸为单体)作存储載体的新技术,多肽可由20种天然氨基酸及多种非天然氨基酸组成,存储容量远高于DNA,且可被优化达到很高的稳定性;但受限于分子链较短,存储效率有限,并主要依赖化学合成,生产成本较高。
研究团队开创性提出以蛋白質作为数据載体。相比多肽,蛋白質擁有更长的氨基酸链,能提供更高的存储效率及容量。蛋白質亦能藉由细菌或动物细胞等生物系统表达,即把基因信息植入细胞,使其合成指定蛋白,从而大规模及低成本地制造携带数据的蛋白質。此外,蛋白質可制成粉末或溶液,在不同环境下稳定地保存。
然而,蛋白質数据存储技术仍面对两大关键挑战。首先,携数据蛋白質的氨基酸序列必然高度随机且多变,容易影响其稳定性及溶解度,因此设计并成功制备此类蛋白質的难度极高。其次,目前的蛋白質测序技术多用于鑑定,只需测得部分片段的序列,再与现存的蛋白数据库比对即可;但要还原蛋白質中存储的数据,则必須把全序列精准地从头排序解析,技术要求远高于比对数据库所需。
为克服上述难题,研究团队设计出一套创新方案。为提升蛋白的结构稳定性及抗降解能力,团队参考胶原蛋白——一种可长时间保存的天然蛋白——的序列特征,设计出蛋白模板作为「骨架」。他们把由多个档案编码而成的氨基酸序列嵌入该类胶原蛋白模板之中,并成功利用大肠桿菌表达该携数据蛋白質。
在数据读取方面,团队利用液相色谱串联質谱(LC-MS/MS),把蛋白分解后所得的肽段分离及测序,再结合自行开发的演算法软件,重建完整氨基酸序列,成功把蛋白質还原为位元串。研究团队同时配合纠错编码,修复测序过程中产生的少量误差,从而高效而准确地读取出完整数据。
团队过往研发的多肽存储技术曾于2020年随中国新一代載人飞船进行太空试验,在太空探索中展现出高稳定性及应用潜力,今次提出的蛋白質存储方案更在多方面有显着提升。姚鍾平教授表示:「作为数据載体,蛋白質较常用的DNA,以及我们过去采用的多肽,展现出更多优势。今次研究中的蛋白样本,存储密度达到多肽技术的30倍,而成本仅约为其一成;此外, DNA会在溶液和强酸等条件下快速被降解,而蛋白样本在相当长时间后,还可正确读取当中数据,证明了其超强稳定性。」
研究团队更进一步设计出功能化蛋白,以实现随机存取及数据加密。使用一般蛋白質进行存储时,如要在多组数据中读取特定内容,通常需同时读取所有蛋白携带的完整资料。团队通过在携带目标内容的蛋白中加入亲和标籤,在纯化过程中利用相应抗体「捕捉」目标蛋白,成功达到随机存取。团队并以此技术存储秘密讯息,证明使用正确亲和性化合物才能正确读取此讯息,实现了数据加密功能。
姚教授表示:「蛋白質具稳定、易于保存及高存储容量等特性,极具潜力用作长期大规模数据存储載体,其良好的生物相容性更为将数据存储于活体生物内开拓新方向。我们现阶段的目标是进一步提升存储容量及资料读寫速度,同时降低生产成本,并设计多样化蛋白模板,为蛋白質数据存储技术拓展更丰富的功能。」
此研究获香港研究资助局的「协作研究金」及「研究影响基金」资助。