CRISPR был только началом… Встречайте DefensePredictor.

Поиск бактериальных систем защиты от вирусов долго напоминал ручной разбор огромного архива без карты и указателей. Исследователи из MIT решили резко ускорить этот процесс с помощью ИИ–системы DefensePredictor и в результате нашли тысячи новых белков, которые помогают бактериям отражать атаки бактериофагов. Работа, на которую раньше могли уходить месяцы лабораторного отбора, теперь за считаные минуты сужается до набора самых перспективных кандидатов.
Для микробов защита от вирусов не факультативная опция, а вопрос выживания. Бактерии постоянно сталкиваются с бактериофагами, то есть вирусами, которые заражают именно бактериальные клетки. Самый известный механизм обороны в этой области, CRISPR–Cas, давно вышел за пределы микробиологии и превратился в один из главных инструментов современной биотехнологии. Изначально он нужен бактериям, чтобы разрезать вирусную ДНК и останавливать инфекцию, а в лабораториях ту же систему приспособили для точного редактирования генов.
Но CRISPR–Cas оказался лишь частью гораздо более широкого арсенала. За последние годы стало ясно, что у бактерий есть множество других антивирусных систем, и именно их поиск всё сильнее тормозился техническими ограничениями. Классический путь был медленным и утомительным. Учёные искали в геномах подозрительные участки рядом с уже известными защитными генами, затем вручную отбирали тысячи фрагментов ДНК и по одному проверяли, могут ли они реально помогать клетке отбиваться от вирусов. При таком подходе на один удачный результат приходилось огромное количество рутинной работы.
Команда MIT решила переложить основную часть отбора на машинное обучение. Для обучения DefensePredictor исследователи использовали 17 тысяч бактериальных геномов. Поскольку именно гены содержат инструкции по сборке белков, система сначала определяла, какие белки кодируются в каждом геноме, а затем анализировала их с помощью языковой модели для белков ESM2. По сути, ИИ учился читать белковые последовательности примерно так же, как языковая модель разбирает текст, только вместо слов и фраз у неё были молекулярные структуры и закономерности.
Чтобы понять, какой белок может быть связан с защитой от вирусов, система смотрела сразу на несколько признаков. В расчет брались длина гена, соседние гены и характерные особенности последовательностей ДНК вокруг нужного участка. Такой набор параметров позволял отделять обычные белки, которые заняты повседневной работой клетки, от тех, что могут участвовать в бактериальном иммунитете.
На следующем этапе модель доучили на двух больших массивах уже размеченных данных. В один набор вошли 15 тысяч белков, о которых известно, что они помогают бороться с вирусами. В другой попали 186 тысяч обычных белков без защитной функции. Сопоставляя эти две группы, DefensePredictor учился всё быстрее и точнее замечать, где перед ним потенциальный элемент антивирусной системы, а где просто очередной белок с рутинной клеточной задачей.
Дальше настал момент практической проверки. Система проанализировала 69 разнообразных штаммов E. coli и выделила 624 белковых кластера, которые, по её оценке, могли выполнять защитную функцию. Среди них оказалось более 100 кластеров, которые раньше вообще никак не связывали с бактериальными иммунными системами. Для такой работы особенно важен именно этот результат: ИИ не просто нашёл ещё несколько вариантов в уже знакомой области, а вытащил на поверхность целые группы кандидатов, которые до сих пор проходили мимо внимания исследователей.
После вычислительного этапа началась обычная лабораторная проверка. Учёные клонировали 94 предсказанные системой защитные структуры в клетки E. coli, а затем подвергли эти бактерии атаке 24 разных бактериофагов. Почти 45% проверенных кандидатов действительно помогли клеткам защититься от инфекции. Для подобных поисковых работ это очень сильный показатель, потому что речь идет не о единичном удачном попадании, а о большом наборе новых систем, значительная часть которых реально работает.
Авторы отдельно подчеркивают, что полученные результаты показывают гораздо более широкий спектр антивирусной защиты у E. coli, чем предполагалось раньше. Иными словами, даже в одном из самых изученных бактериальных видов скрывался внушительный запас иммунных механизмов, который традиционные методы либо не замечали, либо вытаскивали слишком медленно.
На этом работа не остановилась. После испытаний на кишечной палочке исследователи прогнали систему по данным тысячи разных микроорганизмов. DefensePredictor обнаружил почти 3 тысячи белковых кластеров, не похожих ни на одну из ранее известных бактериальных иммунных систем. Масштаб находки важен сам по себе: похоже, бактериальная защита от вирусов устроена гораздо разнообразнее, чем казалось, а известные механизмы пока описывают только часть картины.
Практическая ценность работы выходит далеко за рамки каталогизации новых белков. История CRISPR хорошо показывает, что бактериальные системы защиты могут со временем превращаться в мощные инструменты для биотехнологии и медицины. Поэтому каждая новая группа антивирусных механизмов интересна не только как часть фундаментальной микробиологии, но и как потенциальный источник будущих технологий. Пока рано говорить, какие именно из найденных белков окажутся наиболее полезными, но сам темп поиска теперь явно изменился.
Исследователи открыли DefensePredictor для научного сообщества и собираются дальше улучшать систему по мере накопления новых данных. В результате у микробиологов появился не просто ещё один алгоритм для сортировки геномов, а инструмент, который может заметно ускорить поиск новых бактериальных иммунных систем и расширить представление о том, как именно микробы переживают постоянную вирусную войну.