Стэнфорд построил библиотеку белков, которых не существовало.

Ученые Стэнфордского университета показали, что машинное обучение, обученное не на белковых структурах, а на бактериальных геномах, способно порождать полноценные рабочие белки, которые не похожи ни на один из известных. Команда использовала богатую особенность бактериальной ДНК, где гены со схожими функциями располагаются рядом, образуя удобные для анализа блоки. На этом основана система Evo, обученная как языковая модель, только вместо слов она предсказывает последовательности нуклеотидов.
При создании Evo авторы использовали огромный массив бактериальных геномов. Модель многократно просматривала последовательности и пыталась угадывать следующую букву ДНК, получая вознаграждение за точный прогноз. Такая схема позволила ей научиться улавливать закономерности на уровне отдельных оснований и одновременно понимать контекст на участках длиной в несколько тысяч нуклеотидов. В итоге Evo стала работать с заданным фрагментом ДНК примерно так же, как текстовая модель с запросом пользователя, предлагая варианты, структурно подходящие к исходному окружению.
Сначала исследователи проверили, насколько точно система восстанавливает недостающие части известных генов. Если ей подавали примерно треть последовательности реального белка, она воспроизводила большую часть оставшегося участка. При большем объёме подсказки точность приближалась к полной. Когда из генетического кластера удаляли один из элементов, Evo умела определять, какой именно фрагмент требуется вернуть. Причём изменения, которые она иногда вносила, приходились на участки, устойчивые к эволюционным колебаниям, что говорит о том, что модель уловила ограничения, действующие в природных последовательностях.
Следующий этап касался генерации действительно новых вариантов. Для этого использовали токсин, слегка похожий на известные образцы и не имеющий очевидной антимолекулы. Команда ввела его последовательность в Evo и отфильтровала ответы, слишком похожие на известные антигены. Из десяти взятых на проверку вариантов половина ослабляла токсичность, а два полностью восстанавливали рост бактерий, которым давали искусственно созданный токсин. Эти антимолекулы имели лишь слабейшее сходство с природными, а их структура выглядела собранной из большого числа мелких фрагментов разных белков, а не из цельных модулей.
Evo справлялась не только с белками. Когда в качестве задания использовали токсин, подавляемый РНК-инструментом, модель предложила ДНК, кодировавшую РНК с правильной вторичной структурой, хотя последовательности не напоминали известные аналоги. Ещё один эксперимент был посвящён белкам, подавляющим работу CRISPR-систем. В этой группе природные варианты очень разнообразны, поэтому исследователи снова жёстко отфильтровали всю похожую на известные белки продукцию Evo. Из полученных вариантов 17% действительно подавляли CRISPR-активность, включая два полностью уникальных белка, которые не распознавались алгоритмами предсказания структуры.
После серии успешных тестов команда загрузила в Evo более 1,7 млн генов бактерий и вирусов, получив в итоге около 120 млрд нуклеотидов синтезированной ДНК. Среди них есть как хорошо знакомые фрагменты, так и полностью новые последовательности, потенциально пригодные для дальнейших биологических исследований. Применение такого ресурса пока неочевидно, но в научной среде вряд ли возникнет нехватка идей, где его можно попробовать.
Метод вряд ли будет так же эффективен на сложных геномах, вроде человеческого. У позвоночных гены редко собираются в компактные функциональные группы, а их структура слишком усложнена для простых статистических правил. Кроме того, Evo не решает тех же задач, которые преследуют методы направленного конструирования белков. Но факт остаётся фактом: модель, сфокусированная исключительно на нуклеотидных шаблонах, научилась производить работающие белки, а в отдельных случаях совершенно новые. Эта перспектива сближает алгоритмические подходы с естественными механизмами эволюции, которые тоже начинают с мутаций в ДНК.