Искусственный интеллект нашёл в ДНК 360 тысяч скрытых «выключателей»

Международная группа учёных, включая исследователей из Высшей школы экономики, создала первую полную карту ДНК-квадруплексов — кратковременных узловых структур, которые управляют включением и выключением генов.
Квадруплексы образуются, когда участки ДНК, богатые гуанином, сворачиваются в трёхмерные узлы из нескольких слоёв. Эти структуры служат ориентирами для белков, регулирующих активность генов. Проблема в том, что квадруплексы возникают быстро и так же быстро исчезают, поэтому традиционные методы картирования генома не могли их зафиксировать в полном объёме.
Для решения этой задачи исследователи использовали искусственный интеллект. Они обучили языковую модель DNABERT на базе EndoQuad — крупнейшей в мире базе экспериментально подтверждённых квадруплексов. Получившаяся модель GQ-DNABERT анализирует последовательности ДНК и предсказывает, где вероятнее всего сформируется квадруплекс, учитывая при этом окружающий генетический контекст. В результате удалось предсказать около 360 тысяч квадруплексов — значительно больше, чем выявляли экспериментальные методы.
Главное открытие состоит в том, что квадруплексы работают парами. Они одновременно формируются в промоторах, где начинается транскрипция гена, и в расположенных рядом энхансерах — элементах ДНК, усиливающих активность генов. Эти пары совместно регулируют экспрессию генов.
Чтобы проверить биологическую роль таких пар, учёные наложили карту квадруплексов на данные секвенирования отдельных клеток из шести типов тканей. В здоровых тканях пары промотор-энхансер были связаны с генами, отвечающими за специфические функции: нейронную активность в мозге, иммунный ответ в крови, работу эпителия в кишечнике.
В опухолевых клетках картина оказалась принципиально иной. Количество пар квадруплексов осталось примерно тем же, но контролируемые ими гены сместились в сторону универсальных программ роста и деления клеток. «В здоровых клетках эти пары поддерживают тканевую специализацию, тогда как в раковых они становятся частью общих программ быстрого деления клеток», — поясняет Мария Попцова, директор Центра биомедицинских исследований и технологий факультета компьютерных наук ВШЭ.
Понимание того, как пары квадруплексов перестраивают регуляцию генов при заболеваниях, может помочь в разработке противоопухолевой терапии, избирательно воздействующей на эти структуры ДНК. Исследование поддержано грантом Центра ИИ-исследований ВШЭ и опубликовано в журнале Nucleic Acids Research.