7 Августа, 2015

Книга. Как лгать при помощи статистики

Andrey Prozorov
Я часто читаю аналитические отчеты по информационной безопасности. При этом я уделяю особое внимание методологии исследования, описанию границ и допущений, проверяю и перепроверяю выводы. К сожалению, иногда встречаются логические ошибки, подмены понятий, сверх обобщения и другие случайные ошибки или умышленное искажение.

Пожалуй, одной из самых полезных книг на тему понимания количественных исследований является "Как лгать при помощи статистики" (Дарелл Хафф). Это книга давно стала "классической", первое ее издание было в 1954 году, но до сих пор она актуальна.
"Эта книга - своего рода руководство для начинающих, в котором изложены азы применения статистики в целях обмана. У читателя могут возникнуть подозрения, что издание слишком уж смахивает на инструкцию для мошенников. Полагаю все же, что смогу оправдать ее в манере бывшего грабителя, опубликовавшего мемуары, в сущности представляющие собой учебный курс на тему о том, как подобрать отмычку к замку и научиться ступать бесшумно: жуликам и ворам все эти трюки и так давно известны, а порядочные люди должны узнать о них, чтобы уметь защитить свой дом от непрошеных гостей."
В книге представлено много примеров и идей случайного или умышленного искажения выводов и восприятия результатов исследований. К сожалению, единого списка не представлено, и книга, вообще, не очень хорошо структурирована, поэтому перечень составил самостоятельно:
  1. Необъективная выборка.
  2. Слишком маленькая выборка, результат в которой вполне мог получиться случайным.
  3. Подмена объекта исследования.
  4. Грамотно выбранное среднее значение ("лучшее" из одного: среднее арифметическое, медиана или мода).
  5. Забывание про вероятность ошибок и погрешности.
  6. Использование псевдообоснованных цифр.
  7. Нарушение причинно-следственной связи.
  8. "Игры" с масштабом графиков, подписью осей и другим визуальным оформлением результатов.
  9. Представление величин в виде картинок, на восприятие которых сильно влияет их площадь. При этом разница величин представлена в виде разницы в высоте изображений.
  10. "Игры" с процентами (некорректное сложение, выбор удобного начального).

Про все писать не буду, лучше посмотрите саму книгу. Приведу лишь несколько примеров и комментариев по отдельным.

По 1му:
  • Один психиатр заявлял, что практически любой человек - неврастеник. Спросим себя: каких именно людей наблюдал данный психиатр? Оказывается, он пришел к такому поучительному выводу, изучая своих пациентов, а они более чем неподходящие кандидатуры на роль выборки из всего населения. Если человек был нормален, у нашего психиатра не было никаких шансов увидеть его у себя на приеме.
  • Проверить, действительно ли выборка имеет случайный (произвольный) характер, можно с помощью такого вопроса: каждое ли имя или предмет из обследуемой совокупности имеют равный шанс попасть в выборку? Безупречная случайная - единственный тип выборки, которую можно исследовать при помощи статистических методов с полной уверенностью в надежности результата. Но у нее имеется один недостаток. Получить такую выборку для множества надобностей настолько трудно и дорого, что чисто материальные соображения заставляют отказаться от этой идеи.
По 2му приведу свой пример:
  • Классическим примером тут является идея (ошибочная) ставить при игре в рулетку на "черное" при 9 раз подряд выпавшем "черном". На маленькой выборке выпадание подряд 10 раз одного цвета будет математическим чудом, но при большом числе наблюдений количество выпавших "красных" и "черных" практически сравняются.
По 3му:
  • Рост зарегистрированных случаев заболевание - не всегда тоже самое, что рост самих случаев заболевания.
По 4му приведу термины из Википедии:
  • Среднее арифметическое (в математике и статистике) — одна из наиболее распространённых мер центральной тенденции, представляющая собой сумму всех зафиксированных значений, делённую на их количество.
  • Медиана (от лат. mediāna — середина) 50-й перцентиль или квантиль 0,5 — статистика, которая делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» членов ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана. Предположим, что в одной комнате оказалось 19 бедняков и один миллиардер. Каждый кладёт на стол деньги — бедняки из кармана, а миллиардер — из чемодана. По $5 кладёт каждый бедняк, а миллиардер — $1 млрд (109). В сумме получается $1 000 000 095. Если мы разделим деньги равными долями на 20 человек, то получим $50 000 004,75. Это будет среднее арифметическое значение суммы наличных, которая была у всех 20 человек в этой комнате. Медиана в этом случае будет равна $5 (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив нашу компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе каждый положил на стол не больше $5, во второй же не меньше $5. В общем случае можно сказать, что медиана это то, сколько принёс с собой средний человек. Наоборот, среднее арифметическое — неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющуюся у среднего человека.
  • Мода — значение во множестве наблюдений, которое встречается наиболее часто. (Мода = типичность.) Иногда в совокупности встречается более чем одна мода (например: 6, 2, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению. Мода как средняя величина употребляется чаще для данных, имеющих нечисловую природу. Среди перечисленных цветов автомобилей — белый, черный, синий металлик, белый, синий металлик, белый — мода будет равна белому цвету. При экспертной оценке с её помощью определяют наиболее популярные типы продукта, что учитывается при прогнозе продаж или планировании их производства.
По 6му:
  • Например эффективность лекарства в лабораторных условиях может не соответствовать реальной жизни.
  • Вот сообщают, что за один из прошлых годов в происшествиях на железной дороге погибли 4712 человек. Это, согласитесь, веский аргумент, чтобы отказаться от железнодорожных поездок в пользу передвижения на личном автомобиле. Но когда вы решите разобраться, что на самом деле означает эта цифра, то увидите, что дело тут совсем в другом. Почти половину жертв составляют те, кто ехал в автомобилях, столкнувшихся с поездами на железнодорожных переездах. А что до большей части остальных жертв, то эти люди погибли из-за того, что ехали на сцепке между вагонами. И только 132 человека из 4712 были пассажирами поездов. Но даже эта цифра немного стоит, если она не привязана к сведениям об общем пассажирообороте на железной дороге.
По 8му:
  • Представление одной и той же информации с искажением масштаба:
По 9му:
  • Пример про сравнение 2х величин зарплат:

Книга мне очень понравилась! Рекомендую к прочтению, она интересна, а представленные в ней знания пригодятся и в реальной жизни. Общую оценку поставлю "4+", снизил из-за не самой удобной структуры книги.

Кстати, на тему математической статистики рекомендую еще посмотреть: