Оказывается, числа обманывают даже учёных.

Статистика иногда показывает картину, которая на первый взгляд кажется очевидной, но при более внимательном разборе оказывается неверной. Один из самых известных примеров связан с так называемым парадоксом Симпсона. Суть в том, что общая тенденция в данных может не совпадать с тем, что видно внутри отдельных групп, а иногда и прямо противоречить ей.
Один из самых известных случаев произошел в 1970-х в Университете Калифорнии в Беркли. Тогда университет обвинили в дискриминации женщин при поступлении в магистратуру. Общая статистика действительно выглядела подозрительно: мужчин принимали в 44% случаев, женщин в 35%. Из этих цифр напрашивался простой вывод: мужчинам дают преимущество.
Но после разбивки по отдельным факультетам картина изменилась. В четырех из шести крупнейших подразделений женщин принимали даже чаще, чем мужчин. Статистик Питер Бикел и его коллеги изучили данные подробнее и пришли к выводу, что общая цифра вводит в заблуждение. Более низкий итоговый процент у женщин объяснялся не политикой университета в целом, а тем, куда именно они чаще подавали документы.
Женщины чаще выбирали направления с более высоким конкурсом и большим числом отказов. Мужчины чаще подавали заявки на программы, где мест было больше, а конкуренция ниже. Поэтому в общей сводке складывалось впечатление неравного отношения, хотя внутри самих факультетов ситуация выглядела иначе.
Именно такой эффект и называют парадоксом Симпсона. Он возникает, когда данные из разных групп объединяют в одну таблицу без учета важных различий между этими группами. В результате общий итог может показывать одну тенденцию, а данные внутри подгрупп другую.
Описывать такие случаи начали еще в конце XIX века. В 1899 году похожий эффект заметил математик Карл Пирсон. Через несколько лет к нему пришел и Джордж Юл. Широкую известность парадокс получил после статьи Эдварда Симпсона, опубликованной в 1951 году. Именно с его именем он и закрепился в статистике.
Проблема не ограничивается историческими примерами из университетской жизни. Похожая ситуация встречается и в медицине, и в эпидемиологии. В тексте приводится пример с COVID-19: по данным 2021 года в целом смертность в Италии выглядела почти вдвое выше, чем в Китае. Но если смотреть отдельно по возрастным группам, выживаемость в Италии оказывалась выше в каждой из них. Противоречие возникало из-за различий в возрастной структуре заболевших.
Парадокс Симпсона чаще всего появляется там, где на результат влияет скрытый фактор. В случае с Беркли таким фактором была конкурентность факультетов. В других задачах это может быть возраст, пол, тяжесть болезни, регион или любой другой параметр, который заметно влияет на итог, но не виден в общей цифре.
Особенно важен такой эффект для медицинских исследований. Например, препарат может выглядеть эффективнее плацебо в общей выборке. Но после деления пациентов на отдельные группы может выясниться, что в каждой из них плацебо показывает лучший результат. В такой ситуации нельзя просто выбрать ту картину, которая кажется удобнее. Нужно разбираться, какие именно факторы влияют на результат и как устроена сама выборка.
Универсального решения здесь нет. Иногда нужно строить более точную статистическую модель, иногда проводить дополнительные исследования. Главный вывод простой: общая статистика без разбивки по важным группам может привести к ошибочным выводам. Поэтому в сложных данных всегда важно смотреть не только на итоговые проценты, но и на то, как они получились.