Наконец появилась возможность с академической точностью строить графики потери вторых носков.

Колоколообразная кривая, о которой часто говорят статисты, встречается куда чаще, чем кажется. Достаточно после каждого дождя ставить во дворе мерный стакан и записывать, сколько воды в нем собралось по итогу. Можно попросить сто человек на глаз оценить число драже в банке. Можно собрать рост женщин, вес мужчин, баллы SAT или результаты марафонов. Во всех таких наборах данных снова проступает одна и та же форма: на графике в середине скапливается основная масса значений, а по краям остаются редкие отклонения. Математики давно объяснили, почему мир так упорно рисует этот знакомый силуэт, за что ни возьмись.
За повторяющейся формой стоит центральная предельная теорема - один из главных результатов теории вероятностей. Смысл у формулы на удивление простой, хотя звучит почти неправдоподобно: если брать много независимых случайных величин и усреднять их, распределение средних значений начинает напоминать нормальное распределение, ту самую колоколообразную кривую. Исходные данные при таком переходе могут быть неровными, рваными, плоскими или вообще неудобными для описания. Усреднение постепенно сглаживает хаос и вытягивает из него предсказуемую структуру.
Для современной науки значение такой закономерности трудно переоценить. Почти вся эмпирическая статистика держится на возможности взять выборку, посчитать средние, разбросы и вероятности, а затем сделать вывод о более широкой картине. Без центральной предельной теоремы любой разговор о надежности измерений, доверии к выборке и вероятности ошибки выглядел бы куда слабее. По сути, статистика как практический инструмент выросла из идеи, что средние величины ведут себя понятнее и устойчивее, чем отдельные случайные наблюдения.
История открытия началась в довольно прозаическом месте, среди игроков и любителей ставок. В начале XVIII века в лондонских кофейнях работал Абрахам де Муавр, выдающийся математик, которого ценили Исаак Ньютон и Эдмонд Галлей. Де Муавр состоял в Королевском обществе, но прочного академического положения так и не получил. Француз-протестант покинул родину из-за преследований, а в Англии, несмотря на талант и репутацию, остался без той университетской должности, которая позволила бы жить спокойно. Чтобы зарабатывать, математик консультировал игроков, пытавшихся найти хотя бы небольшой численный перевес в азартных играх.
Работа с играми случая привела де Муавра к важному наблюдению. Один бросок кости, одно подбрасывание монеты или одна карта из колоды выглядят совершенно случайными. В каждом таком действии возможные исходы заранее заданы, а шансы в простейших задачах одинаковы. Но когда похожие случайные действия повторяются много раз, разрозненные результаты перестают быть просто набором несвязанных событий. В совокупности начинает проявляться устойчивый рисунок.
Проще всего увидеть его на монете. Если подбросить монету 100 раз и посчитать число орлов, итог почти наверняка окажется где-то рядом с 50, но точного совпадения ждать не стоит. Одна серия из ста бросков даст 47 орлов, другая 54, третья 51. Разброс неизбежен. Однако картина меняется, если повторять уже весь эксперимент снова и снова. При миллионе серий большинство результатов сгрудится возле отметки 50. Числа вроде 10 или 90 орлов останутся на самой периферии и будут встречаться крайне редко. Если нанести все итоги на график, в центре вырастет плавный горб, а к краям частоты начнут быстро спадать.
Де Муавр сумел описать форму такого графика математически. Позже за ней закрепилось название нормального распределения. Формула позволяла заранее оценивать вероятность разных исходов, не проигрывая каждую серию на практике. Например, для 100 бросков можно посчитать, насколько вероятно получить число орлов в определенном диапазоне. Интервал от 45 до 55 покрывает примерно 68% случаев. Для XVIII века такой переход от игры и интуиции к строгому расчету был по-настоящему важным сдвигом.
Де Муавра поразило не только удобство вычислений, но и сама устойчивость найденного порядка. Любые отклонения, которые сначала кажутся хаотичными и непредсказуемыми, при большом числе повторений начинают подчиняться одной и той же форме. В таком поведении случайности математик видел почти универсальный закон. Впрочем, даже де Муавр еще не понимал, насколько далеко тянется открытый им принцип.
Полный масштаб идеи раскрыл Пьер-Симон Лаплас. В 1810 году, спустя десятилетия после смерти де Муавра, французский математик показал, что дело вовсе не ограничивается монетами и азартными играми. Главную роль играет не конкретный тип случайного опыта, а сам механизм усреднения. Именно Лаплас превратил частное наблюдение в общий принцип, который позже и стали называть центральной предельной теоремой.
Разница хорошо видна на примере игральной кости. Один бросок дает шесть равновероятных результатов: 1, 2, 3, 4, 5 и 6. Если долго записывать результаты одиночных бросков, на графике получится почти ровная полоса. Единицы будут выпадать примерно так же часто, как двойки, четверки или шестерки. Никакой колоколообразной формы в исходном распределении нет. Теперь стоит изменить процедуру. Вместо одного броска нужно бросить кость 10 раз и вычислить среднее значение по серии. Средний результат чаще всего окажется где-то рядом с 3,5. Если повторять уже такой эксперимент много раз и собирать именно средние значения, плоский график начнет превращаться в колокол с вершиной около 3,5.
В таком переходе и состоит главная сила центральной предельной теоремы. Исходное распределение может быть каким угодно, даже совсем не похожим на нормальное. Но распределение средних значений постепенно начинает подчиняться вполне конкретному закону. Для статистика такой результат особенно ценен по одной причине: часто не нужно до мелочей понимать устройство исходного процесса, чтобы работать со средними. Достаточно знать, что наблюдений много и что отдельные величины не тянут друг друга за собой.
На бумаге правило выглядит как формула, но в реальном мире механизм усреднения встроен во множество явлений сам по себе. Рост человека хорошо показывает, как работает такой принцип. На итоговое значение влияет масса отдельных причин: наследственность по отцу и матери, питание, состояние здоровья, среда, условия развития организма. Каждая причина вносит небольшой вклад. Вместе такие вклады складываются в общую величину, и распределение роста в популяции начинает напоминать нормальное. По похожей логике колоколообразная форма возникает и во множестве других данных. За внешне простым графиком часто скрывается сумма большого числа мелких, относительно независимых воздействий.
Центральная предельная теорема нужна не только для красивых объяснений. Формула помогает замечать ситуации, где что-то идет не так. Представим старую кофейню в Лондоне, азартный спор и монету, которую кто-то предлагает проверить. Если за 100 бросков выпадает всего 20 орлов, сразу возникает вопрос: дело в невероятном невезении или в подмене? Теорема позволяет оценить, насколько редок такой результат для честной монеты. Область значений до 20 занимает примерно 0,15% кривой. Значит, шанс увидеть такой исход в нормальной серии ничтожен. Подозрение в мошенничестве в таком случае опирается не на эмоции, а на расчет.
Именно здесь особенно ясно видно, почему работа Лапласа оказалась такой важной. Усреднение дает способ говорить о свойствах процесса, даже когда внутренний механизм плохо известен. Исследователь может не знать всех деталей, но все равно способен оценить, насколько результат типичен, куда смещен центр и каков риск случайной ошибки.
При всей универсальности у центральной предельной теоремы есть границы. Формула работает при большом числе наблюдений и требует независимости между ними. Если данные связаны друг с другом слишком сильно, колокол может просто не появиться. Хороший пример дает социология. Национальный опрос не станет надежным, если собрать ответы только в одном маленьком городке штата Мэн и повторить измерение там же еще много раз. Проблема в таком случае сидит в самой выборке, а не в количестве повторов.
Есть и другая важная оговорка. Среднее значение полезно далеко не всегда. В ряде задач главную роль играют не типичные случаи, а крайние события. Наводнения, которые когда-то считались столетними, в последние годы происходят заметно чаще. Для климатических рисков, катастроф и других экстремумов изучение хвостов распределения может быть не менее важным, чем работа со средним. Там обычной опоры на центральную предельную теорему уже недостаточно, и аналитикам приходится использовать другие инструменты.
Тем не менее сама идея оказалась удивительно живучей. Во многих сложных задачах статистики пытаются представить интересующую величину как среднее по выборке плюс некоторую ошибку. После такого преобразования начинают работать более сложные варианты той же логики. Благодаря таким обобщениям центральная предельная теорема давно вышла за пределы учебных примеров с монетами и костями и превратилась в один из базовых способов понимать случайность.
Причина такой устойчивости проста. Мир постоянно складывает большие эффекты из множества мелких причин. Когда разные независимые влияния собираются вместе, данные начинают группироваться вокруг центра, а по краям остаются редкие отклонения. Статистика научилась использовать такую структуру как инструмент. Так что случайный шум теперь можно считать не помехой, а способом узнать, как устроены процессы, которые порождают наблюдаемые числа.