Все 40 предсказаний алгоритма из 40 сработали безошибочно.

Исследователи предложили новый способ проектирования ДНК, который может заметно упростить работу в синтетической биологии и ускорить создание клеточных терапий. Метод решает одну из самых сложных проблем этой области: даже если ученые понимают, какое поведение нужно получить от клетки, подобрать конкретную последовательность ДНК для этого оказывается крайне трудно. Возможных вариантов слишком много, и перебор быстро становится непрактичным.
Команда из Университета Райса показала, как масштабировать ключевой этап такого поиска. В основе подхода лежит одновременное создание и анализ огромных библиотек генетических конструкций с последующим обучением моделей машинного обучения. Это позволяет заранее оценивать, какие последовательности с наибольшей вероятностью приведут к нужному результату, еще до того, как их проверят в лаборатории.
Разработанный метод получил название CLASSIC. Он расшифровывается как combining long and short range sequencing to investigate genetic complexity и отражает суть технологии. Исследователи научились одновременно работать с сотнями тысяч и даже миллионами вариантов ДНК, что на порядки больше, чем было возможно раньше. Такой масштаб дает принципиально новый объем данных о том, как именно генетические схемы влияют на поведение клеток.
Цель работы - сопоставление последовательностей ДНК, которые часто называют генетическими схемами, с тем, как они проявляют себя внутри клетки. Для этого команда собрала обширные библиотеки таких схем и поочередно внедрила их в человеческие эмбриональные клетки почки. Эти клетки были модифицированы так, чтобы светиться при активации определенных генов. Чем ярче сигнал, тем сильнее работала соответствующая схема.
А главную роль сыграло сочетание двух подходов к секвенированию. Длинные прочтения позволяют считывать сразу тысячи нуклеотидов и фиксировать полную структуру каждой генетической конструкции. Короткие же дают высокую точность и скорость при анализе небольших участков. Вместо того чтобы выбирать один из этих методов, исследователи объединили оба. Это дало возможность точно отслеживать каждую схему в огромной библиотеке и связывать ее с наблюдаемым эффектом в клетке.
Каждой конструкции присваивался уникальный штрихкод. После эксперимента короткое секвенирование определяло, какие именно штрихкоды присутствуют в клетках с разной яркостью свечения. Так удалось напрямую связать конкретные последовательности ДНК с уровнем активности генов и собрать массивные наборы данных, описывающие это соответствие.
Полученные данные стали основой для обучения моделей машинного обучения. Алгоритмы анализировали, какие особенности последовательностей приводят к нужному поведению, и учились предсказывать результат для вариантов, которые еще не проверялись экспериментально. Проверка показала высокую точность подхода. Все 40 предсказанных конструкций, которые затем протестировали вручную, повели себя ровно так, как ожидалось.
Важным наблюдением можно считать и то, что для одной и той же функции часто существует не единственное оптимальное решение. Многие разные генетические схемы могут работать одинаково хорошо. Такая гибкость упрощает проектирование и делает будущие биологические системы более устойчивыми к сбоям и мутациям.
Авторы считают, что сочетание массового экспериментального скрининга и машинного обучения может существенно ускорить разработку клеточных терапий, биотехнологических производств и других приложений синтетической биологии.