隨着人工智能(AI)模型訓練、大數據分析及智能設備的廣泛應用,全球每天產生海量數據,傳統硬碟及雲端存儲技術正面臨成本高、容量受限、耗電量大及壽命較短等挑戰。香港理工大學(理大)研究團隊提出以工程化蛋白質作為存儲數據的創新方案,並首次在從頭設計的人工蛋白中,實現由數據寫入至讀取的完整流程。這項技術有望建立具可持續性、高容量及高穩定性的嶄新存儲框架,以應對AI時代下全球數據的爆發式增長。
由理大應用生物及化學科技學系副系主任姚鍾平(前排中)率領的跨學科研究團隊成功在從頭設計的非天然蛋白質中完成數據存儲及讀取,為分子存儲領域帶來重大突破。團隊成員包括應用生物及化學科技學系助理教授(研究)伍卓知(後排左)、博士生周寅(後排中)與劉誠喜(後排右),以及工程學院副院長(環球事務)、電機及電子工程學系教授劉重明(前排左)與同系研究員譚偉文(前排右)。
這項跨學科研究由理大應用生物及化學科技學系副系主任及教授姚鍾平率領,覆蓋蛋白質工程、合成生物學、生物化學、分析化學及計算機科學等領域。團隊成員包括同系助理教授(研究)伍卓知,以及工程學院副院長(環球事務)兼電機及電子工程學系教授劉重明等,相關成果已刊載於國際期刊《自然通訊》(Nature Communications)。
團隊參考膠原蛋白設計出蛋白模板作為骨架,把由多個檔案編碼而成氨基酸序列嵌入,成功利用大腸桿菌表達該攜數據蛋白。
所有數碼檔案在計算機中都會被存儲為由0和1組成的位元串。分子存儲技術通常以大分子的組成單體對應位元組合,把數據「翻譯」成單體序列,再透過測序技術將其解讀。DNA(以核苷酸為單體)是現時常用的分子存儲載體,但它僅由四種核苷酸組成,存儲容量較低且較易被降解。姚教授團隊原先已開發採用多肽(以氨基酸為單體)作存儲載體的新技術,多肽可由20種天然氨基酸及多種非天然氨基酸組成,存儲容量遠高於DNA,且可被優化達到很高的穩定性;但受限於分子鏈較短,存儲效率有限,並主要依賴化學合成,生產成本較高。
蛋白質作為數據載體,在存儲容量及穩定度上均優於現時分子存儲技術常用的DNA及肽,更可以粉末或溶液形式被更穩定地保存在不同環境。
研究團隊開創性地提出以蛋白質作為數據載體。相比多肽,蛋白質擁有更長的氨基酸鏈,能提供更高的存儲效率及容量。蛋白質亦能藉由細菌或動物細胞等生物系統表達,即把基因信息植入細胞,使其合成指定蛋白,從而大規模及低成本地製造攜帶數據的蛋白質。此外,蛋白質可製成粉末或溶液,在不同環境下穩定地保存。
然而,蛋白質數據存儲技術仍面對兩大關鍵挑戰。首先,攜數據蛋白質的氨基酸序列必然高度隨機且多變,容易影響其穩定性及溶解度,因此設計並成功製備此類蛋白質的難度極高。其次,目前的蛋白質測序技術多用於鑑定,只需測得部分片段的序列,再與現存的蛋白數據庫比對即可;但要還原蛋白質中存儲的數據,則必須把全序列精準地從頭排序解析,技術要求遠高於比對數據庫所需。
為克服上述難題,研究團隊設計出一套創新方案。為提升蛋白的結構穩定性及抗降解能力,團隊參考膠原蛋白——一種可長時間保存的天然蛋白——的序列特徵,設計出蛋白模板作為「骨架」。他們把由多個檔案編碼而成的氨基酸序列嵌入該類膠原蛋白模板之中,並成功利用大腸桿菌表達該攜數據蛋白質。
在數據讀取方面,團隊利用液相色譜串聯質譜(LC-MS/MS),把蛋白分解後所得的肽段分離及測序,再結合自行開發的演算法軟件,重建完整氨基酸序列,成功把蛋白質還原為位元串。研究團隊同時配合糾錯編碼,修復測序過程中產生的少量誤差,從而高效而準確地讀取出完整數據。
團隊過往研發的多肽存儲技術曾於2020年隨載人飛船進行試驗,在探索中展現出高穩定性及應用潛力,今次提出的蛋白質存儲方案更在多方面有顯著提升。姚鍾平表示:「作為數據載體,蛋白質較常用的DNA,以及我們過去採用的多肽,展現出更多優勢。今次研究中的蛋白樣本,存儲密度達到多肽技術的30倍,而成本僅約為其一成;此外, DNA會在溶液和強酸等條件下快速被降解,而蛋白樣本在相當長時間後,還可正確讀取當中數據,證明瞭其超強穩定性。」
團隊自行開發演算法軟件,重建完整氨基酸序列,成功把蛋白質還原為位元串,完整讀取數據。
研究團隊更進一步設計出功能化蛋白,以實現隨機存取及數據加密。使用一般蛋白質進行存儲時,如要在多組數據中讀取特定內容,通常需同時讀取所有蛋白攜帶的完整資料。團隊通過在攜帶目標內容的蛋白中加入親和標籤,在純化過程中利用相應抗體「捕捉」目標蛋白,成功達到隨機存取。團隊並以此技術存儲秘密訊息,證明使用正確親和性化合物才能正確讀取此訊息,實現了數據加密功能。
姚鍾平補充:「蛋白質具穩定、易於保存及高存儲容量等特性,極具潛力用作長期大規模數據存儲載體,其良好的生物相容性更為將數據存儲於活體生物內開拓新方向。我們現階段的目標是進一步提升存儲容量及資料讀寫速度,同時降低生產成本,並設計多樣化蛋白模板,為蛋白質數據存儲技術拓展更豐富的功能。」