Naukowcy z Massachusetts Institute of Technology opracowali nową technikę oznaczania i wyszukiwania plików danych DNA. Może to oznaczać przełom w technikach przechowywania danych i wykorzystania DNA w tym celu. Nośnik informacji genetycznej może też być idealnym nośnikiem innych danych, takich jak zdjęcia, filmy czy pliki. Jest niezwykle stabilny i łatwy do sekwencjonowania. Ponadto, ze względu na dużą gęstość, eksabajt danych przechowywanych jako DNA może się zmieścić w dłoni. – Chociaż może upłynąć trochę czasu, zanim DNA stanie się opłacalne jako nośnik danych, już dziś istnieje pilna potrzeba tanich, masowych rozwiązań do przechowywania wcześniej istniejących próbek DNA i RNA z testów COVID-19, sekwencjonowania genomu człowieka i innych obszarów genomiki – podkreśla Mark Bathe z MIT.
– Potrzebujemy nowych rozwiązań do przechowywania tych ogromnych ilości danych, które gromadzi świat, zwłaszcza danych archiwalnych – wskazuje Mark Bathe, profesor inżynierii biologicznej w Massachusetts Institute of Technology, członek centrum badań Broad Institute of MIT and Harvard. – DNA jest tysiąckrotnie gęstsze niż nawet pamięć flash, a kolejną interesującą właściwością jest to, że po utworzeniu polimeru DNA nie zużywa on żadnej energii. Można zapisać i przechowywać w nim dane na zawsze.
Jak podaje MIT, obecnie na Ziemi jest około 10 bln gigabajtów danych cyfrowych. Codziennie tworzymy średnio 2,5 mln gigabajtów danych. Wiele z tych danych jest przechowywanych w eksabajtowych centrach danych, które mogą mieć rozmiar kilku boisk piłkarskich, a ich budowa i utrzymanie kosztuje około 1 mld dol. Zapotrzebowanie na przechowywanie danych rośnie wykładniczo, więc naukowcy szukają bardziej wydajnych rozwiązań niż te stosowane obecnie. Jednym z nich jest DNA. Cząsteczki DNA w wyniku ewolucji mają zdolność do pakowania informacji genetycznych w ekstremalnie dużych gęstościach. Do przechowywania wszystkich danych z całego świata wystarczyłby kubek do kawy pełen zwiniętego DNA.
Naukowcy wykazali już, że potrafią kodować obrazy i strony tekstu jako DNA. Potrzebny jest jednak równie łatwy sposób wybrania żądanego pliku z mieszanki wielu kawałków DNA. Teraz badacze z Massachusetts Institute of Technology opracowali nowatorską technikę wyszukiwania danych DNA, która przyspiesza proces syntezy i sortowania kodu z dużej bazy danych.
– Zakładając, że technologie zapisywania w DNA dojdą do punktu, w którym zapisanie eksabajta lub zettabajta danych w nim jest opłacalne, będziemy wtedy tworzyć stosy DNA składające się z miliardów plików, obrazów lub filmów i innych rzeczy, ale będzie trzeba w jakiś sposób znaleźć to konkretne zdjęcie czy film, którego poszukujemy – wskazuje Mark Bathe. – To jak szukanie igły w stogu siana.
Naukowcy MIT zamknęli każdy plik danych w 6-mikrometrowej cząsteczce krzemionki, która jest oznaczona krótkimi sekwencjami DNA, odpowiadającymi zawartości pliku. Naukowcy zakodowali 20 różnych obrazów we fragmentach DNA o długości około 3000 nukleotydów, co odpowiada około 100 bajtom. Każdy plik został oznaczony kodami kreskowymi odpowiadającymi etykietom, takim jak „kot” lub „samolot”. Kiedy chcą wyciągnąć konkretny obraz, usuwają próbkę DNA i dodają startery odpowiadające etykietom, których szukają – np. „kot”, „pomarańczowy” i „dziki” dla obrazu tygrysa lub „kot”, „pomarańcza” i „domowy” dla kota domowego.
Startery są oznakowane cząsteczkami fluorescencyjnymi lub magnetycznymi, co ułatwia wyciągnięcie i identyfikację wszelkich dopasowań z próbki. Pozwala też usunąć żądany plik, pozostawiając nienaruszoną resztę DNA do ponownego przechowania.
– Na obecnym etapie naszych badań uzyskujemy szybkość wyszukiwania 1 kilobajta na sekundę. Szybkość wyszukiwania naszego systemu plików jest determinowana przez rozmiar danych, który jest obecnie ograniczony, ponieważ koszt zapisania nawet 100 megabajtów danych w DNA jest obecnie zaporowy – wskazuje dr James Banal z MIT. – Jeśli synteza DNA stanie się wystarczająco tania, dzięki naszemu podejściu będziemy w stanie zmaksymalizować rozmiar danych, które możemy przechowywać w jednym pliku.
Jedną z przeszkód w tego rodzaju przechowywaniu danych jest koszt syntezy tak dużych ilości DNA. Obecnie zapisanie jednego petabajta danych (1 mln gigabajtów) kosztowałoby 1 bln dol. Aby stać się konkurencyjnym, koszt syntezy DNA musiałby spaść kilkukrotnie. Zdaniem ekspertów może do tego dojść w ciągu 10–20 lat, podobnie jak zmniejszył się koszt przechowywania informacji na dyskach.
– Chociaż może upłynąć trochę czasu, zanim DNA stanie się opłacalne jako nośnik danych, już dziś istnieje pilna potrzeba tanich, masowych rozwiązań do przechowywania wcześniej istniejących próbek DNA i RNA z testów COVID-19, sekwencjonowania genomu człowieka i innych obszarów genomiki – podkreśla Mark Bathe z MIT.