Принстонские ученые используют мощь машинного обучения для борьбы с болезнями.
Группа исследователей из Принстонского университета под руководством эксперта по машинному обучению Мэнди Ванг применила технологии искусственного интеллекта, ранее использовавшиеся для программирования и сдачи экзаменов, для изучения генетического кода. Этот код, следуя правилам, напоминающим грамматику и синтаксис человеческого языка, содержит инструкции для всех жизненных функций. Исследователи использовали модели языка для оптимизации частичных последовательностей генома, чтобы изучить биологию и улучшить медицину, в том числе создав более эффективные вакцины на основе мРНК против COVID-19.
В статье, опубликованной 5 апреля в журнале Nature Machine Intelligence , авторы описывают, как их языковая модель использовала свои способности к семантическому представлению для разработки улучшенной мРНК-вакцины. Исследователи сосредоточились на не переводимой части мРНК, которая контролирует важные аспекты процесса трансляции и оптимизации эффективности производства белка. Полученные последовательности показали значительное увеличение общей эффективности производства белка на 33% по сравнению с существующими стандартами разработки вакцин.
Этот прорыв обещает улучшение не только вакцин против COVID-19, но и создание новых методов борьбы с множеством инфекционных заболеваний и раком. Модель Ванг, обученная на мРНК из нескольких видов, смогла декодировать нуклеотидные последовательности и открыть новое понимание регуляции генов, ключевого процесса жизнедеятельности.
Новая модель отличается от существующих языковых моделей, используемых в чат-ботах, тем, что была обучена на сотнях тысяч последовательностей и дополнительно учитывала знания о производстве белков, включая структурную и энергетическую информацию. Исследовательская группа использовала обученную модель для создания библиотеки из 211 новых последовательностей, каждая из которых была оптимизирована для увеличения эффективности трансляции, что важно для иммунного ответа на инфекционные заболевания.
Ванг подчеркнула, что настоящей задачей было понимание полного контекста доступных данных. Тренировка модели требовала не только сырых данных со всеми их особенностями, но и понимания последствий этих особенностей. Это подход, никогда ранее не применявшийся для анализа генетических последовательностей, открывает новые возможности для науки о жизни.
Большой взрыв знаний каждый день в вашем телефоне