<rp id="drixl"></rp>
    1. <tbody id="drixl"></tbody>
      <th id="drixl"><track id="drixl"></track></th>
    2. 影響未來10年的黑科技:DNA數據存儲吸引微軟、Illumina等15家結盟

      5G和量子計算等計算技術快速發展同時,有一個問題日益嚴重,到2040年數據存儲可能不夠用了——亟需信息密度更高的存儲介質,例如比硬盤存儲信息密度高效一百萬倍的DNA,這吸引到微軟聯合Illumina等15家機構在11月成立DNA數據存儲聯盟。DNA數據存儲,這項黑科技已經被研究了50多年,近年得到加速,將影響未來10年的IT和BT格局。
      文章 | 基因慧??編輯 | Barney? 關鍵詞 | DNA數據存儲

      圖1(來源/YOSHI SODEOKA)

      2011年2月16日,一個略顯陰沉的星期三,在德國漢堡市的一家旅館酒吧里,來自歐洲生物信息研究所的Nick Goldman與他的朋友正在為一個問題討論得面紅耳赤,結束后,大家都感到非常沮喪。是什么問題呢?

      如何負擔起在世界各地的海量基因組數據昂貴的存儲?而且,存儲可能很快就不夠用了。

      Goldman記得那天,他們甚至開始對“科幻的替代品”DNA開起開玩笑:為什么我們不用DNA來存儲DNA信息呢?

      這在當時只是一個玩笑話,后來就不只是玩笑,而是——科幻照進現實。

      大數據存儲即將不夠用了

      隨著互聯網以及5G等技術的發展,全球37億互聯網用戶每天產生約數億GB級數據。根據Nature報道,2020年,全球數字信息容量估計將達到44萬億GB,是2013年的10倍;到2040年,如果所有內容都實現即時訪問,存儲(基于閃存)將消耗的微芯片級硅是預期供應量的10–100倍。

      圖2:數據存儲的能力遠遠趕不上數據生產的速度

      (來源/Twist, IDC)

      因為硅存儲信息的密度有限,也就不難理解為什么目前數據的永久性存儲還是用老式的磁帶。雖然磁帶存儲的信息密度比硬盤大很多,但有另外兩個問題:讀起來非常慢,而且特別耗電。

      美國計算神經科學家David Markowitz表示,一個EB(百萬GB)級別數據中心如果使用磁帶,每年的建設和維護費用將需要1億美元,以及耗電千萬度級別,因此磁帶存儲不可持續。

      那么,數據存儲的未來將是什么?解決方案是DNA數據存儲。

      從物理層面,DNA是宇宙中信息密度最高的已知存儲介質,信息密度是硬盤的一百萬倍,是閃存的一千倍,單位耗電量僅為億分之一。此外,由于DNA的穩定性,目前從70萬年前的古DNA(2013年,馬基因組)中仍可進行測序解讀,其存儲時效遠非其他介質可比擬。

      圖3:存儲介質的對比

      (來源/doi:10.1038/537022a)

      David Markowitz認為,如果用DNA來存儲數據,全世界的存儲需求用1千克的DNA就可以滿足(信息封裝密度以大腸桿菌的基因為標準)。

      業內首份藍皮書《2021基因行業藍皮書》?“聯合發布“招募即將截止
      ?

      64年前就開始的DNA數據存儲研究

      圖4:DNA數據存儲研究的主要文獻發布時間表

      (來源/doi:10.1038/s41576-019-0125-3)

      DNA數據存儲的概念可以追溯到1960年代中期。當時,科學家Norbert Wiener和Mikhail Neiman首次發表了有關“遺傳內存(genetic memory)”的概念。但當時DNA測序和合成技術仍處于起步階段。直到20多年后,DNA數據存儲的概念才正式得以被知曉。

      1988年,藝術家Joe Davis與哈佛大學研究人員合作,首次將數字1和0映射到DNA的四個堿基上,并插入大腸桿菌的DNA序列,僅編碼35位(bits)。大約在同一時間的1986年,Richard Dawkins在書籍《盲人鐘表匠》 中也提到了這一想法。

      后來Joe Davis加入了哈佛大學知名遺傳學家George Church的實驗室,在2011年將DNA數據存儲的概念引入世界:把一本52,000字的書編碼到數千個DNA片段中。合作者包括加利福尼亞大學洛杉磯分校的Sri Kosuri和位于約翰·霍普金斯大學的Yuan Gao。

      圖5:華盛頓大學和微軟進行DNA數據存儲自動化的概念驗證的裝置及原理(來源/Valuewalk)

      與此同時,EBI(歐洲生物信息研究所)的Nick Goldman和Ewan Birney在2011年德國漢堡市的酒吧餐巾紙上討論完后,把DNA數據存儲的想法帶到了實驗室,兩年后宣布成功地使用DNA編碼了五個文件,容量739 KB,是有史以來最大的DNA檔案;直到2016年7月,微軟和華盛頓大學的研究人員聲稱已躍升至200 MB(其中包括音樂和視頻)。

      怎么用DNA來存儲數據?

      DNA到底怎么存儲數據呢?關鍵步驟有兩個:編碼和解碼。

      圖6:通過DNA合成存儲DNA基礎邏輯

      DNA通過密碼子合成氨基酸,信息通過二進制轉化為堿基(來源/digitaltrends)

      先說編碼。

      在計算機中,任何信息以1和0的形式存儲。而在DNA中,遺傳信息(通常)以四種堿基腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鳥嘌呤(G)且按規則在生物體內排序。將0和1以不同規則(見下圖)映射A/T/C/G,即可形成序列存儲到DNA中。

      圖7:DNA數據存儲使用的四種轉碼方法舉例

      (來源/doi: 10.1093/gigascience/giz075)

      再說解碼。

      DNA通過PCR擴增(體外),可以按照密碼子表規則(三個相鄰堿基編碼一個氨基酸)翻譯成蛋白質(體內),因此可存儲在體內或體外并進行復制(產生拷貝)。如果在生物體內,通過基因測序即可從生物組織或體液中讀取DNA序列信息,再通過原始映射規則解碼出原始存儲的字節信息。

      具體怎么操作?

       

      圖8:DNA數據存儲和解讀的流程

      (來源/Twist等)

      首先,采用計算機算法將信息字節轉換成為DNA序列;然后機器合成DNA序列(編寫), 產生每個序列的多個物理拷貝。以磷酰胺為基礎的固相柱上合成(低通量)或固相介質上陣列合成(高通量)。合成后的的 DNA 材料可以克隆并存儲在生物細胞內(體內)或者體外(更常見)。

      其次,通過檢索選擇目標DNA再使用映射到編碼過程中所生成特定數據項的引物和PCR擴增,獲得目標DNA,再通過測序儀獲取DNA對應的序列。

      最后,通過映射規則將序列轉碼成原始的0和1字節信息。

      DNA數據存儲的難點和突破

      目前,DNA數據存儲處于實驗研究階段。在成熟之前面臨以下幾個主要的問題。

      圖9:DNA數據存儲過程詳解

      (來源/doi:10.1038/s41467-019-10978-4)

      首先,要確保信息不失真。

      嚴格意義上,DNA數據存儲沒有糾錯功能,需要依靠每個序列多個副本(拷貝)所提供的冗余信息來校正。

      在2011年,George Church和Gao Yuan合作的659KB DNA數據存儲中,在序列排序后發現了22個錯誤。而在同時期,歐洲生物信息研究所確保每25個堿基片段都有四個版本的情況下,仍然在25個堿基序列中發現了2個錯誤。

      為提高準確率,2017年7月,George Church團隊采用CRISPR 編輯技術將人類手的圖像記錄到大腸桿菌基因組中,并以90%以上的準確率讀取了該圖像。

      其次,要實現快速讀取。

      使用標準測序方法,檢測任何一條數據時都需要讀取每個DNA字符串,相比傳統計算機存儲可以隨機訪問,顯得笨重地多。

      針對這個問題,2017年3月,科學家創造了一種稱為”DNA噴泉“的算法,可以從特定密度(每克DNA存儲215 PB)相對完美地檢索信息。而Catalog公司的方法是將數據轉換為合成聚合物的固體顆粒。訪問數據時,將其沉淀和再水化(rehydrate),但這個過程仍然需要至少幾個小時。

      再者,降低成本提高可及性。

      DNA數據存儲的傳統思路是依賴于每次合成新的DNA分子,然后將字節序列映射到DNA的堿基對序列。這需要制造足夠的DNA分子來存儲想要的信息,過程程緩慢且昂貴。

      在上述EBI的試驗中,花費12,660美元,其中98%是合成DNA的成本。

      為改善這個問題,Catalog公司的方法是將合成過程與編碼過程分離。即,只生成大量的幾個“預制分子”(使其便宜得多),然后通過從預制分子中產生大量多樣性來編碼信息。類比硬盤存儲的話,相當大量生產空白硬盤驅動器,然后在需要時用編碼信息填充它。即便如此,仍需要革新DNA合成的過程,目前主要的生產方法仍然是延續近30年的化學過程,需要至少花費400秒才能添加每個堿基。

      最后,實現全自動化使其易用。

      要使得DNA數據儲存成為廣泛應用的商業化產品,需要完成合成、存儲和測序等整個過程的自動化。

      2019年,華盛頓大學和微軟發布第一個處理5個字節(“hello”)的數據的端到端存儲設備(見圖5),主要的限制因素是基于液體DNA的存儲。未來有望基于納米和微流體,例如“Puddle“微流體平臺(Willsey等,2019年)和玻璃載體脫水DNA斑點(Newman等,2019)。另一種思路是基于互補金屬氧化物半導體(CMOS)技術,Twist 和Roswell正在開發相關設備。

      前景和趨勢

      圖10:DNA數據存儲的興起

      (來源/Forbes)

      得益于高通量DNA測序和合成的快速發展,使得基于DNA的數據存儲技術從科幻逐漸變成現實,尤其體現在其優異的存儲密度和穩定性上,使其成為碳基(相比當前的硅基)檔案的巨大潛力。

      隨著2007年Illumina發布下一代高通量測序儀,2015年華大發布國產NGS測序儀,分別從不同角度推進高通量測序技術應用的普及,達到每GB 200美元(人)的成本,推動全球超過10個國家進行十萬人級基因隊列研究。

      正如上文所說,DNA數據存儲的核心成本是DNA合成。這方面已得到一定的推進。在2019年初,DNA Script宣布通過酶促合成成功生產第一個200個核苷酸長的DNA片段。Twist Bioscience表示可提供長達300個核苷酸的大量無錯誤DNA片段。

      美國智能高級研究項目(IARPA)最近啟動了分子信息存儲技術(MIST)計劃,將開發每天可寫入1 TB數據并讀取10 TB數據的技術。參與者包括上述提到的微軟、DNA Script、Illumina、華盛頓大學等機構。除了DNA測序和DNA合成,從結構上講,DNA分子不能僅僅應用于現有的芯片架構,必須通過軟件和物理互連來優化和解決硅到DNA的接口,以及標準化DNA數據格式,簡化工作流程,以實現跨平臺存儲并嵌入現有數據架構的端對端解決解決方案。

      圖11:DNA數據存儲的投資形式

      (來源/doi:10.1016/j.biotechadv.2020.107639)

      風險投資關注DNA數據存儲開始不久。從數據上可以看到2010年起緩慢提高關注度(如上圖),在2019年(基于前9個月的估計數據)有所下降。而目前DNA數據存儲企業投入關鍵領域的DNA合成和設備僅占到兩成。同時,產業鏈上下游協作已引起重視,11月,微軟聯合產學研共15家機構結成DNA數據存儲聯盟。(另外14家包括Illumina、Twist、Western Digital、Ansa Biotechnologies、Catalog、The Claude Nobs Foundation、DNA Script、EPFL、ETH Zurich、Interuniversity Microelectronics Centre、Iridia、Molecular Assemblies、Molecular Information Systems Lab)

      基因慧認為,DNA數據存儲市場將大于DNA測序本身。國內公開報道的僅見華大和華為投入相關研究。預計第一批商業應用市場,包括圖像備份或流媒體服務等。

      數字革命改變了人類與數據的關系,使社會進入信息時代,數據也成為我國新時代的市場元素。DNA作為自然的禮物,正在從生命密碼的解讀,邁入基因治療、基因合成和DNA存儲等更深層次和全方位的應用。但類似基因編輯的事件教訓,數據隱私安全和生命倫理在發展過程中需要高度重視。

      目前盡管技術上有很大不完美,但隨著Twist Bioscience、DNA Script、Catalog、BGI等研究型企業的加入以及類似微軟、華為等跨學科巨頭的投入,未來可以預見DNA數據存儲從技術轉化為產品。基因慧預計,未來5-10年將有重大突破,20年內將改變目前的半導體領域格局。

      10年前在德國旅館酒吧里沮喪的Nick Goldman,最近刷新了對未來的期待,在DNA數據存儲完全普遍之前,至少需要十萬倍數量級的改善。而我們知道短短20年,基因測序已經得到了百萬倍數量級的改善。

      碳基取代硅基存儲萬物信息,未來曲折而樂觀。


      注:以上為編譯材料,僅供參考,更多信息請參考以下文獻及原始出處

      參考信息:

      1.Randolph Lopez et. al., DNA assembly for nanopore data storage readout, Nat Commun, 2019

      2.?Zhi Ping et.al., Carbon-based archiving: current progress and future prospects of DNA-based data storage, Gigascience, 2019

      3.?Philip M.Stanley et.al., Decoding DNA data storage for investment, Biotechnology Advances,2020

      4.?https://nuclineers.com/dna-data-storage

      5. https://www.digitaltrends.com/cool-tech/dna-data-catalog-startup

      6.https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496

      7.?https://www.nanalyze.com/2017/01/dna-data-storage-technology-available

      8.https://www.forbes.com/sites/johncumbers/2019/08/03/dna-data-storage-is-about-to-go-viral/?sh=3ac873b77721

      9.https://www.scientificamerican.com/article/dna-data-storage-is-closer-than-you-think

      10.https://www.technologyreview.com/2017/05/22/68387/microsoft-has-a-plan-to-add-dna-data-storage-to-its-cloud

      11.https://blocksandfiles.com/2020/03/18/catalog-cdna-data-storage-economically-feasible

      12.https://www.geneticsdigest.com/the-role-of-dna-data-storage-in-health-and-technology/

      13.https://www.nanalyze.com/2017/01/dna-data-storage-technology-available/

      14.http://www.ssbt.org.cn/upload/20191212153656_562.pdf

      15.https://www.nature.com/articles/s41576-019-0125-3


      推薦閱讀
      中國腫瘤學大會腫瘤標志分會場筆記去年預測基因行業這些事80%成真了

      蘋果投資者看好的這家公司將小說存儲到基因中

      【聲明】為傳播科學信息,推動基因及數字生命健康產學研連接,我們秉持中立、專業、賦能的理念收集、分析或發布信息。但由于時效性及行業特殊性,所刊登內容僅供研究參考,不作為決策依據;本文相關信息不代表基因慧機構的觀點;“基因慧”刊登的原創內容的知識產權為“基因慧”商標擁有者及相關權利人所有;歡迎轉載,轉載請申請并注明來源。歡迎個人及機構投稿及合作。
      ?關于基因慧?

      基因慧是數字生命健康領域創新服務平臺。團隊深耕行業十余年,從行研咨詢、媒體資訊、產業平臺等角度提供優質內容。作為國發改產業研究合作單位,基因慧聯合多家頭部機構連續四年發布公開的行研報告,為產業園、投資機構、頭部企業及政府提供咨詢規劃服務,參與組織發布行業共識和標準,致力于建設數字生命健康產業數字化平臺,服務生命科技創新創業。

      ☆?國發改《戰略性新興產業發展展望》編委

      ☆?參與組織發布行業共識、團體標準

      ☆?發布產業大數據平臺優脈通YourMap

      ☆?中國遺傳學會生物產業促進委員會委員

      ☆?發布數十份基因及數字生命健康領域行研報告

      ☆?組織基因檢測聯盟(籌)首屆、第二屆會議

      ☆?主辦數字健康私董會、大灣區生命健康創新論壇

      ☆?受邀為華西、Illumina、華大、上海交大等報告

      ☆?中國抗癌協會腫瘤標志專業委員會戰略合作單位

      ☆?廣東省精準醫學應用學會政策研究應用分會常務委員

      版權所有,未經允許不得轉載。基因慧—數字生命健康產業內容平臺 » 影響未來10年的黑科技:DNA數據存儲吸引微軟、Illumina等15家結盟

      相關推薦

      搶沙發