Skip to Content Facebook Feature Image

怎樣用1公斤DNA儲存全球數據,還要保用幾千年?華為準備投資研發

博客文章

怎樣用1公斤DNA儲存全球數據,還要保用幾千年?華為準備投資研發
博客文章

博客文章

怎樣用1公斤DNA儲存全球數據,還要保用幾千年?華為準備投資研發

2019年04月18日 10:55 最後更新:11:00


華為有興趣探索以DNA生物技術來儲存信息。這個想法很宏大,因為一公斤的DNA可以存儲存今天地球上的所有數據,而且有效保存幾千年,甚至幾萬年都有可能。

研發電腦數據儲存技術的科學家,早在大數據、雲計算等大型IT技術未盛行時,已估計電腦未來產生愈來愈多的數據,多到令我們無法負荷。Google、Facebook和亞馬遜的數據中心不斷擴充,面積以數倍於足球場計,目前全球每年數據總量已比人類歷史有文字以來加起來還要多,估計從2013年至2020年,我們的數據量會增加十一倍。如果不創新儲存技術,我們的數據中心恐怕要搬上月球。

利用DNA生物科技解決數儲存問題,為人工智能(AI)時代做好基礎建設,既是大生意,更是「大國重器」。華為日前在深圳分析師大會,宣佈成立華為戰略研究院,負責五年以上的前沿技術,DNA數據儲存是其一,這是一門很神奇的科技。《新科學家》New Scientist在2015年2月報導,1克DNA理論上可帶有455 EB (Exabyte)的數據,這已足夠google、Facebook、亞馬遜等超級企業目前加起來的數據儲存使用。

電腦產生的數據愈來愈多,將超過我們的儲存負荷。(圖片︰新華網)

電腦產生的數據愈來愈多,將超過我們的儲存負荷。(圖片︰新華網)

首先我們了解1EB約等如13億中國人,人手一本500頁書加起來的信息量,全球近年的數據總量有幾大? EMC估計2011年為1800EB,以十倍增長計,今天全球數據總量也不過是2萬EB,除非未來的數據呈幾何級數上升,否則1公斤的DNA足夠我們未來的數據儲存使用,保證AI和大數據科技無後顧之憂發展,不怕受阻於儲存技術的樽頸。

來自英國歐洲生物信息學研究所(European Bioinformatics Institute)的Nick Goldman是這項技術的先鋒人物,曾在《自然》Nature發表多篇相關的研究論文,指出DNA是比電腦磁碟、DVD更可靠的資料儲存工具,他表示︰「就連幾萬年前的長毛象骨骸中的DNA都還在,證明DNA是堅強的資料儲存工具。」不過,使用DNA的其中一個技術難題,就是要將電腦的二進制碼,即「0」與「1」,轉換成非常複雜的遺傳密碼。

Nick Goldman講解利用DNA技術儲存信息的原理。(港台節目截圖)

Nick Goldman講解利用DNA技術儲存信息的原理。(港台節目截圖)

DNA的密碼是代表四種鹼基的A、C、T、G (註︰四種鹼基在遠古的海底相遇,創造出各種生命,為地球最早出現的一套密碼系統),四個字母可應用成為數據的代碼。原理是先把信息,如相片、文字和聲音檔案,轉換成二進制數字,然後利用編碼將這一連串的「0」和「1」,變成A、C、T、G組成的DNA密碼,透過生物化學技術處理,這些DNA密碼整合出原來的信息,紀錄在人工DNA鏈條裡,數據於是便成為實體,只要在適當的低溫、乾燥,不受陽光照射的環境下,便能長期保存,並可隨時作遙距傳輸。

華為表示,將通過每年3億美元的合作經費,支援學術界開展基礎科學、基礎技術研究,探索未來五到十年以上的創新突破,除DNA數據儲存之外,華為還將涉足新電腦技術,不再依靠受晶片數目限制的處理器,以光技術做出更高100倍的電腦性能。對於以上的科技宏圖和未來景象,有點超出想像,我只可說︰「不要怕,只要信。」




深藍

** 博客文章文責自負,不代表本公司立場 **


以下是真人真事,故事教訓我們,Web 4.0已經跟我們一起生活,跟我們一起學習。

去年8月,一名亞馬遜智能音箱Alexa用戶根據歐盟數據保護法(GDPR, General Data Protection Regulation),向亞馬遜索回自己全部私隱數據,結果嚇他一跳的是亞馬遜竟然「十倍奉還」,傳給他的還有一千七百個其他用戶的Alexa錄音檔案!

亞馬遜面不紅氣不喘,接過這位用戶通報之後表示,這是一宗人為錯誤,是不幸事故,客戶資料向來嚴格保密。當日事件沒有繼續發酵,直到日前亞馬遜員工爆料,告知亞馬遜有一個數千人的團隊,每日工作九小時,專門負責監聽Alexa傳回的錄音檔案,大家才恍然大悟︰原來這是真的!亞馬遜一直利用其產品,對用戶進行「竊聽」,侵犯個人私隱。亞馬遜將面對難以估計的世紀官司,以上述歐盟的GDPR立法為例,企業發生數據泄漏事故,可能被判罰高達年收入的4%。順帶一提,GDPR覆蓋所有二十八個歐盟成員國。

亞馬遜Alexa「竊聽」事件或惹來嚴重官非。(AP圖片)

亞馬遜Alexa「竊聽」事件或惹來嚴重官非。(AP圖片)


亞馬遜的回應是「為了改善客戶體驗」,強調「所有信息都高度保密」。回應表面看來很難令人接受,不過,我們可以問一個關鍵性問題︰「亞馬遜冒如此大風險究竟為了什麼?」看看監聽的員工怎麼說︰「譬如我要專注Taylor Swift(美國樂壇天后)這個單一字詞,並對這些數據進行注釋,表明搜索這個字詞的用戶,所指的是流行音樂界那位Taylor Swift。」原來亞馬遜收集用戶的錄音,不單只為了對人工智能系統進行更精準的語音辨識訓練,而是為了讀透使用這字詞背後的「認知」和「心理」元素。為什麼亞馬遜要鑽得那麼深?因為按照互聯網產業的時程表,以社交網絡數據化為主導的Web 3.0時代是2010年至2020年,目前,包括亞馬遜在內,Facebook、Google、蘋果均已全線邁進由2020年至2030年的Web 4.0時代。

AI系統要搞清楚你講邊個Taylor Swift先? 這是Web 4.0時代的要求。(AP圖片)

AI系統要搞清楚你講邊個Taylor Swift先? 這是Web 4.0時代的要求。(AP圖片)

Web 4.0以Web 3.0為基礎發展,最大特色的是不再止於用戶過往行為紀錄作參考,以推算用戶可能感興趣的內容,而是更進一步理解用戶的性格取向、做事作風,把資料內容和產品,更精準的向用戶推送。從這方面可以理解為什麼處身Web 4.0時代的企業,要採集真實生活行為資料。「為了改善客戶體驗」之說某程度是不假的,更有甚者,除了手機米高風、智能音箱在「竊聽」之外,在公共地方,甚至你身邊的鏡頭,都可能成為「監視」的工具。過往的Web 3.0時代,我們講的是分享、共享,再多的資料還不過是社交網、購物網的公開交流,然而,科技是不斷進步的,當進入「全智慧型」的新時代,個人資訊有如在空氣中散發,別人也當空氣般採集,你需要習慣那些突如奇來、令人驚喜的服務。例如你在浴室尖聲歌唱,當浴畢到客廳打開手機上網消閒時,你或已收到幾個私人教授唱歌的宣傳電郵,往後還可能有潤喉糖廣告呢!

你 或 有 興 趣 的 文 章