ИИ создает белки, которых природа не изобрела за миллиарды лет эволюции

ИИ создает белки, которых природа не изобрела за миллиарды лет эволюции

Как обычная нейросеть обогнала природу.

image

Институт AIRI совместно с немецкими учеными представили на конференции ICML 2025 новую модель искусственного интеллекта под названием DiMA, созданную для генерации белковых молекул. Разработка основана на методе латентной диффузии и выделяется тем, что она в сто раз компактнее существующих решений, при этом демонстрирует более высокую эффективность.

Главная задача DiMA — создание белков с заранее заданными свойствами. Система способна формировать последовательности аминокислот, которых нет в природе, но которые точно соответствуют условиям, заданным исследователями. Это открывает путь к проектированию белков для разработки новых лекарств и биотехнологических решений.

Чтобы понять ценность такой технологии, важно вспомнить, что белок — это длинная цепочка аминокислот. Эти звенья сворачиваются в трёхмерную структуру, и именно пространственная форма определяет функции молекулы. Последовательность аминокислот можно записать как своеобразный текст, где каждая «буква» несёт уникальные химические свойства. Перестановка этих букв меняет конечную структуру и задаёт новые характеристики.

Ранее для генерации белков применялись языковые модели двух типов. Авторегрессионные системы строили цепочку последовательно, аминокислоту за аминокислотой, по принципу ChatGPT. Дискретные диффузионные подходы генерировали всю цепочку сразу. Оба метода требовали крупных моделей и массивных датасетов для обучения.

В отличие от них, DiMA работает на основе непрерывной гауссовой диффузии. На первом этапе её обучили создавать разнообразные, биологически осмысленные белковые последовательности, которые не совпадают с уже известными природными образцами. По сути, модель научилась воспроизводить ландшафт белкового пространства. На втором этапе систему направили на решение конкретных задач: генерацию белков определённых семейств, с нужной трёхмерной укладкой или с заранее заданными функциями. Такой подход позволяет не только расширять представления о том, какие конфигурации теоретически возможны, но и выходить на практическое применение в медицине и фармацевтике.

Как отметил Павел Страшнов, ведущий научный сотрудник группы дизайна белков Центра ИИ-разработки новых лекарственных препаратов Института AIRI, в природе мы видим лишь малую часть возможных вариантов белков. Эволюция сохранила только те, что соответствовали конкретным потребностям организма. В реальности число потенциальных белковых последовательностей огромно, и DiMA способна формировать такие варианты напрямую — строго под заданные требования, например, с определённой структурой или функциональными характеристиками.