Google Research открывает новые горизонты в генетике.
Исследовательская группа Google представила новый метод для генетических исследований, позволяющий использовать скрытую информацию из высокоразмерных клинических данных (high-dimensional clinical data, HDCD). Эта методика, названная REpresentation learning for Genetic discovery on Low-dimensional Embeddings (REGLE), не требует наличия меток заболеваний и способна интегрировать информацию от экспертно определенных характеристик.
Современные системы здравоохранения генерируют огромное количество высокоразмерных клинических данных, таких как спирограммы, фотоплетизмограммы (PPG), электрокардиограммы (ЭКГ), КТ и МРТ. Эти данные невозможно свести к одному бинарному или непрерывному значению, как, например, наличие астмы или рост в сантиметрах. Понимание связи между геномом и HDCD не только улучшает наше понимание заболеваний, но и критически важно для разработки новых методов лечения.
Данные HDCD хранятся в электронных медицинских записях и крупных биобанках, таких как UK Biobank в Великобритании, BioBank Japan в Японии и All of Us в США. Эти проекты получают согласие участников перед обезличиванием данных и делятся частью этих ценных ресурсов с учеными для улучшения профилактики, диагностики и лечения различных серьезных заболеваний.
Метод REGLE основан на использовании вариационного автокодировщика ( variational autoencoder , VAE) и включает три основных шага: обучение нелинейного, низкоразмерного, раздельного представления HDCD, проведение геномных ассоциативных исследований ( genome-wide association studies , GWAS) для каждого координатного представления, создание полигенных рисковых оценок ( polygenic risk scores , PRS) для общих биологических функций и потенциальное их комбинирование для конкретного заболевания или признака. Этот метод позволяет включать релевантные экспертно определенные характеристики в декодер VAE, чтобы автоэнкодер обучался только остаточным сигналам, не представленным этими характеристиками.
Исследования, проведенные с помощью REGLE, показали значительное улучшение в выявлении новых генетических локусов, связанных с функциями легких и сердечно-сосудистой системы. Например, использование спирограмм и PPG позволило обнаружить дополнительные значимые локусы по сравнению с традиционными методами. Валидация этих локусов в дальнейших исследованиях может привести к разработке новых лекарств.
Полигенные рисковые оценки ( polygenic risk scores , PRS), созданные с использованием представлений REGLE, показали улучшение предсказаний хронической обструктивной болезни легких (ХОБЛ) и астмы. Эти оценки также улучшили предсказания гипертонии и систолического артериального давления (САД) при использовании данных PPG.
Метод REGLE представляет собой перспективный инструмент для генетических исследований и создания рисковых оценок заболеваний, обходящий ограничения традиционных методов машинного обучения. Использование HDCD в сочетании с генетическими данными может значительно продвинуть наше понимание генетических основ человеческих признаков и заболеваний.
Никаких овечек — только отборные научные факты