MetaGraph перебирает участки генома как страницы в интернете.
Биология получила собственный аналог поисковика Google. Международная группа учёных представила платформу MetaGraph — систему, способную искать нужные фрагменты ДНК, РНК и белков в колоссальных массивах данных, собранных в мировых генетических хранилищах. По масштабу информации речь идёт о «петабазах» — миллионах миллиардов нуклеотидов, то есть о массивах, превышающих объём всех веб-страниц в индексе Google.
Идея MetaGraph родилась из простой, но острой проблемы: объём геномных данных растёт быстрее, чем возможности учёных их обрабатывать. Сегодня базы данных вроде Sequence Read Archive насчитывают свыше 100 миллионов миллиардов «букв» ДНК. Эти фрагменты фрагментированы, часто содержат шум и не имеют разметки, что делает прямой поиск невозможным. «Парадоксально, но именно избыточность данных мешает ими пользоваться», — говорит Артём Бабаян, биолог из Университета Торонто.
Чтобы справиться с этим, команда исследователей под руководством Андре Кахлеса из Швейцарского федерального технологического института в Цюрихе (ETH Zurich) разработала особую математическую структуру — графовую модель, связывающую перекрывающиеся фрагменты ДНК. Это напоминает книжный индекс, где слова соединяются в смысловые цепочки. Такой подход позволил объединить информацию из семи крупнейших открытых хранилищ, сформировав 18,8 миллиона уникальных наборов ДНК и РНК и более 210 миллиардов белковых последовательностей, охватывающих все царства живого — от вирусов и бактерий до растений, животных и человека.
MetaGraph сжимает огромные массивы данных, но позволяет обращаться к ним в реальном времени. Пользователь может задать текстовый запрос и мгновенно найти нужные генетические паттерны, даже если они не были заранее аннотированы. По аналогии с YouTube, где можно отыскать все ролики с красными шарами, даже если в их названиях нет таких слов, MetaGraph способен выявлять закономерности в генетическом материале, скрытые в необработанных данных.
Возможности системы авторы продемонстрировали на примере анализа 241 384 образцов микробиома кишечника человека. За час MetaGraph просканировал все данные и выявил распространение генов устойчивости к антибиотикам по регионам мира. Ранее предыдущая версия платформы помогла отследить подобные гены в бактериях, обитающих в метрополитенах разных стран.
Однако это не единственный инструмент такого масштаба. Сам Артём Бабаян и Райан Чихи из Института Пастера создали другую платформу — Logan, которая собирает короткие фрагменты ДНК в длинные последовательности, что позволяет видеть целые гены и их варианты. По словам исследователей, Logan менее гибок, чем MetaGraph, но обеспечивает большую производительность и может работать с ещё более крупными наборами данных.
Применение Logan уже принесло впечатляющие результаты. С помощью этого инструмента учёные нашли более 200 миллионов естественных вариантов фермента, расщепляющего пластик, в бактериях, грибах и насекомых. Некоторые из них оказались эффективнее искусственно созданных аналогов. Кроме того, более ранние версии поисковых систем позволили обнаружить множество неизвестных вирусов и вирусных фрагментов в терапевтических Т-клетках, применяемых для лечения онкологических заболеваний.
По словам Бабаяна, такие открытия стали возможны благодаря двум ключевым факторам: открытым поисковым платформам, доступным на metagraph.ethz.ch и logan-search.org, и существованию публичных баз генетических данных, в которые учёные со всего мира свободно выгружают свои результаты. Он подчёркивает, что в условиях сокращения финансирования подобных хранилищ открытые системы становятся особенно ценными: «Они двигают вперёд мировую науку и создают новую область — геномику петабазового масштаба».