Цифры врали. Не специально — просто их сложили неправильно. Вот как парадокс Симпсона ломает статистику

Цифры врали. Не специально — просто их сложили неправильно. Вот как парадокс Симпсона ломает статистику

Оказывается, числа обманывают даже учёных.

image

Статистика иногда показывает картину, которая на первый взгляд кажется очевидной, но при более внимательном разборе оказывается неверной. Один из самых известных примеров связан с так называемым парадоксом Симпсона. Суть в том, что общая тенденция в данных может не совпадать с тем, что видно внутри отдельных групп, а иногда и прямо противоречить ей.

Один из самых известных случаев произошел в 1970-х в Университете Калифорнии в Беркли. Тогда университет обвинили в дискриминации женщин при поступлении в магистратуру. Общая статистика действительно выглядела подозрительно: мужчин принимали в 44% случаев, женщин в 35%. Из этих цифр напрашивался простой вывод: мужчинам дают преимущество.

Но после разбивки по отдельным факультетам картина изменилась. В четырех из шести крупнейших подразделений женщин принимали даже чаще, чем мужчин. Статистик Питер Бикел и его коллеги изучили данные подробнее и пришли к выводу, что общая цифра вводит в заблуждение. Более низкий итоговый процент у женщин объяснялся не политикой университета в целом, а тем, куда именно они чаще подавали документы.

Женщины чаще выбирали направления с более высоким конкурсом и большим числом отказов. Мужчины чаще подавали заявки на программы, где мест было больше, а конкуренция ниже. Поэтому в общей сводке складывалось впечатление неравного отношения, хотя внутри самих факультетов ситуация выглядела иначе.

Именно такой эффект и называют парадоксом Симпсона. Он возникает, когда данные из разных групп объединяют в одну таблицу без учета важных различий между этими группами. В результате общий итог может показывать одну тенденцию, а данные внутри подгрупп другую.

Описывать такие случаи начали еще в конце XIX века. В 1899 году похожий эффект заметил математик Карл Пирсон. Через несколько лет к нему пришел и Джордж Юл. Широкую известность парадокс получил после статьи Эдварда Симпсона, опубликованной в 1951 году. Именно с его именем он и закрепился в статистике.

Проблема не ограничивается историческими примерами из университетской жизни. Похожая ситуация встречается и в медицине, и в эпидемиологии. В тексте приводится пример с COVID-19: по данным 2021 года в целом смертность в Италии выглядела почти вдвое выше, чем в Китае. Но если смотреть отдельно по возрастным группам, выживаемость в Италии оказывалась выше в каждой из них. Противоречие возникало из-за различий в возрастной структуре заболевших.

Парадокс Симпсона чаще всего появляется там, где на результат влияет скрытый фактор. В случае с Беркли таким фактором была конкурентность факультетов. В других задачах это может быть возраст, пол, тяжесть болезни, регион или любой другой параметр, который заметно влияет на итог, но не виден в общей цифре.

Особенно важен такой эффект для медицинских исследований. Например, препарат может выглядеть эффективнее плацебо в общей выборке. Но после деления пациентов на отдельные группы может выясниться, что в каждой из них плацебо показывает лучший результат. В такой ситуации нельзя просто выбрать ту картину, которая кажется удобнее. Нужно разбираться, какие именно факторы влияют на результат и как устроена сама выборка.

Универсального решения здесь нет. Иногда нужно строить более точную статистическую модель, иногда проводить дополнительные исследования. Главный вывод простой: общая статистика без разбивки по важным группам может привести к ошибочным выводам. Поэтому в сложных данных всегда важно смотреть не только на итоговые проценты, но и на то, как они получились.