Призраки в 99% генома: ИИ обнаружил армию белков в «мусорной» ДНК

Призраки в 99% генома: ИИ обнаружил армию белков в «мусорной» ДНК

Гены обманывали нас десятилетиями.

image

Учёные из Института Солка представили новый инструмент для анализа генетической информации, способный выявлять ранее незамеченные микропротеины — крошечные молекулы, играющие важную роль в регуляции биологических процессов. Эти белки долго оставались в тени своих более массивных собратьев. Разработка получила название ShortStop и предназначена для сканирования открытых геномных баз с целью поиска участков ДНК, способных кодировать функциональные микропептиды.

В отличие от классических белков, которые состоят из сотен и тысяч аминокислот, микропротеины короче 150 аминокислот и зачастую "спрятаны" в некодирующих регионах — тех самых 99% генома, которые раньше считались незначительными. Однако новые исследования заставили пересмотреть этот взгляд: оказалось, что в этих областях могут содержаться инструкции для синтеза биологически активных молекул , участвующих в ключевых физиологических процессах.

ShortStop не только находит потенциально кодирующие микропротеиновые последовательности, но и оценивает их значимость. Это достигается с помощью обученной модели машинного обучения, которая сравнивает реальные участки с искусственно созданными контрольными наборами и отсекает нерелевантные сигналы. Такой подход резко снижает нагрузку на лаборатории: исчезает необходимость вручную проверять каждый сегмент, что существенно экономит ресурсы и ускоряет анализ.

При повторной обработке уже существующих данных с помощью ShortStop команда выявила около 8% потенциально значимых smORF — коротких открытых рамок считывания, содержащих коды микропротеинов. Ранее они ускользали от внимания из-за ограничений классических методов. Инструмент не только отсеивает неактивные сигналы , но и находит новые молекулы, как это произошло в исследовании по раку лёгких: из набора данных были извлечены 210 ранее не описанных кандидатов, один из которых оказался экспрессируемым микропротеином с повышенным уровнем в опухолевых клетках.

Это открытие может иметь диагностическое и терапевтическое значение: усиленная экспрессия в раковой ткани делает такую молекулу потенциальным биомаркером. Публикация результатов в BMC Methods подчёркивает важность методики: ShortStop помогает по-новому взглянуть на архивные данные и выявить скрытые связи, незаметные при использовании стандартных инструментов.

Руководитель проекта, профессор Института Солка Алан Сагателян подчёркивает, что раньше исследователи сосредотачивались в основном на кодирующих крупных белках участках, игнорируя обширные зоны, ошибочно считавшиеся «генетическим мусором». Сейчас становится ясно: в этих регионах может скрываться множество микропротеинов, способных оказывать влияние на здоровье и развитие болезней.

По словам первого автора работы, постдока Брендана Миллера, одним из ключевых достоинств ShortStop является его совместимость с распространёнными источниками, включая данные РНК-секвенирования. Это открывает путь к масштабному изучению микропептидов в различных типах тканей, как здоровых, так и патологических, включая онкологические, нейродегенеративные и метаболические заболевания.

Команда подчёркивает, что метод был протестирован на разнообразных наборах и каждый раз демонстрировал высокую чувствительность и эффективность в ранжировании результатов. Обучение модели с использованием отрицательных контрольных примеров позволило сформировать устойчивую систему, способную отличать значимые находки от фоновых шумов.

В будущем исследователи планируют расширить применение ShortStop на другие заболевания помимо рака. Вместе с коллегами они намерены интегрировать новые алгоритмы анализа, чтобы значительно ускорить развитие фундаментальных направлений в молекулярной биологии и медицине.