Читаем без скачивания Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Дальше наступает черед самой большой хитрости. В этот момент новые взаимные фонды, которые продемонстрировали не особо впечатляющие результаты по сравнению с S&P 500, по-тихому прикрываются (их активы включаются в другие существующие фонды). Затем компания может запустить массированную рекламу двух или трех новых фондов, которые «год за годом превосходят S&P 500», – даже если результат, достигнутый ими, такая же случайность, как выпадание решки три раза подряд. Дальнейшие показатели эффективности этих фондов наверняка приблизятся к среднему значению – правда, по пути они привлекут к себе толпы новых инвесторов. На самом деле количество взаимных фондов или инвестиционных гуру, которые на протяжении достаточно продолжительного времени превосходят S&P 500, удручающе мало[38].
Систематическая ошибка здорового человека. Те, кто заботится о наличии в своем рационе достаточного количества витаминов, как правило, отличаются крепким здоровьем – поскольку это люди, потребляющие достаточное количество витаминов! Играют ли какую-то роль в этом витамины – другой вопрос. Рассмотрим следующий мысленный эксперимент. Допустим, чиновники Министерства здравоохранения пропагандируют теорию, согласно которой всем молодым родителям следует укладывать своих детей в постель лишь в лиловых пижамах, поскольку это стимулирует умственное развитие ребенка. Спустя двадцать лет повторное исследование подтверждает, что те, кто в детстве спал в лиловых пижамах, достигли заметных успехов во взрослой жизни. Например, оказалось, что 98 % студентов-первокурсников Гардардского университета в детстве спали в лиловых пижамах (а многие и по сей день продолжают это делать), тогда как лишь 3 % из тех, кто в детстве спал в пижамах лилового цвета, сидят в тюрьмах штата Массачусетс.
Разумеется, лиловые пижамы здесь абсолютно ни при чем, однако наличие родителей, которые заставляют своих детей спать в таких пижамах, еще как «при чем». Даже когда мы пытаемся контролировать уровень образования родителей, нам все равно приходится иметь дело с не поддающимися наблюдению различиями между теми родителями, которые придают огромное значение цвету пижамы своего ребенка, и теми, кому это совершенно безразлично. Гэри Тобис, обозреватель The New York Times, специализирующийся на вопросах здоровья, объясняет: «Попросту говоря, проблема в том, что те, кто с огромным энтузиазмом выполняет все рекомендации, которые кажутся им чрезвычайно полезными (неукоснительно принимают лекарства, прописанные врачом, или соблюдают диеты), принципиально отличаются от тех, кто к таким советам не считает нужным прислушиваться»{56}. Данный эффект способен обесценить любое исследование, пытающееся определить реальную пользу действий, якобы благотворно влияющих на здоровье человека (например, регулярные занятия спортом или употребление в пищу листовой капусты). Мы полагаем, что сравниваем влияние на здоровье двух диет: с капустой и без нее. В действительности, если подопытная и контрольная группы сформированы случайным образом, мы сравниваем две диеты, которых придерживаются две разные категории людей. У нас есть подопытная группа, и она отличается от контрольной группы в двух аспектах, а не в одном.
Если статистика напоминает работу следователя, то данные являются аналогом вещественных улик. Моя жена год работала преподавателем в старших классах сельской школы штата Нью-Гэмпшир. Одного из ее учеников арестовали за ограбление магазина хозтоваров. Полиции удалось быстро раскрыть это преступление, потому что 1) накануне кражи выпал снег и следы от магазина вели к дому, где проживал грабитель; и 2) в доме были найдены похищенные товары. Таким образом, надежные вещественные доказательства действительно помогли.
Цените надежные данные. Но для начала вам понадобится их добыть, а это гораздо труднее, чем может показаться на первый взгляд.
8. Центральная предельная теорема
Леброн Джеймс статистики
Порой статистика подобна магии. Она позволяет делать далекоидущие важные выводы на основе относительно небольшого объема данных. Каким-то образом нам удается предсказать исход президентских выборов, опросив лишь тысячу избирателей. Или, проверив на птицефабрике сотню куриных тушек на наличие сальмонеллы, оценить, исходя из этой информации, общее санитарное состояние предприятия.
Что же является источником столь необычайной силы обобщения? Это центральная предельная теорема, значение которой для статистики соизмеримо со значением Леброна Джеймса[39] для профессионального баскетбола. Центральная предельная теорема – «источник энергии» для многих статистических действий, предполагающих использование той или иной выборки для получения выводов относительно некой более крупной совокупности данных (например, опрос населения или тест на наличие сальмонеллы). Хотя порой такого рода выводы могут казаться мистическими, фактически это просто сочетание двух инструментов, уже рассмотренных нами в этой книге: теории вероятностей и правильного формирования выборки. Прежде чем приступить к подробному рассмотрению механизма (на самом деле не такого уж сложного) центральной предельной теоремы, ознакомьтесь с примером, который поможет вам на интуитивном уровне понять, о чем пойдет речь.
Допустим, вы живете в городе, где будет проходить марафон. В нем примут участие бегуны со всего мира, а значит, многие из них не говорят по-английски. Чтобы своевременно и с максимальным комфортом доставить спортсменов к месту старта, всем участникам необходимо зарегистрироваться утром в день забега, после чего их произвольным образом рассадят по автобусам и отвезут на старт. К сожалению, один из автобусов затерялся где-то в пути. (Ладно, вам придется предположить, что ни у одного из его пассажиров не было мобильного телефона, а у водителя не оказалось GPS-навигатора; если не хотите заниматься утомительными математическими выкладками, всегда держите мобильный телефон при себе.) Будучи одним из общественных активистов города, вы подключаетесь к поискам пропавшего автобуса.
Вам повезло: вы натыкаетесь на какой-то сломавшийся автобус неподалеку от своего дома; возле автобуса коротает время группа расстроенных пассажиров, причем ни один из них не говорит по-английски. Наверное, это и есть тот автобус, который вы разыскиваете! У вас появляется шанс стать героем дня. Правда, вас смущает одно обстоятельство: пассажиры автобуса – слишком упитанные люди. Окинув эту группу взглядом, вы заключаете, что средний вес ее пассажиров превышает 220 фунтов. Трудно представить, что в случайно сформированной группе бегунов-марафонцев могут оказаться столь колоритные экземпляры. Вы звоните по мобильному телефону в штаб-квартиру поисковой команды и сообщаете: «Мне кажется, это не тот автобус, который мы ищем. Продолжайте поиск».
Дальнейший анализ подтверждает ваше первоначальное предположение. Когда на место прибывает переводчик, оказывается, что сломавшийся автобус направлялся на Международный фестиваль любителей сосисок, который также проводится в вашем городе, причем в тот же день, что и марафонский забег. (Для большего правдоподобия замечу, что участники фестивалей любителей сосисок нередко ходят в спортивных брюках свободного покроя, которые не стесняют их движений.)
Примите мои поздравления! Если вам понятно, каким образом человек, просто окинув беглым взглядом группу пассажиров автобуса и оценив их вес, может прийти к выводу, что конечным пунктом назначения этого автобуса вряд ли может быть место старта марафонского забега, значит, на интуитивном уровне вы уже постигли базовую идею центральной предельной теоремы. И все, что вам остается, это уяснить некоторые детали. А если вы понимаете центральную предельную теорему, то и большинство форм статистических выводов наверняка покажутся вам интуитивно понятными.
Базовый принцип, лежащий в основе центральной предельной теоремы, заключается в том, что большая, надлежащим образом сформированная выборка будет похожа на совокупность, из которой она извлечена. Разумеется, от выборки к выборке будут наблюдаться определенные вариации (например, группа пассажиров в каждом автобусе, направляющемся к месту старта марафонского забега, будет несколько отличаться от группы пассажиров в других автобусах), однако вероятность того, что какая-либо выборка будет существенно разниться с генеральной совокупностью, крайне низка. Именно эта логика позволила вам прийти к указанному выше интуитивному умозаключению, когда вы подошли к сломавшемуся автобусу и беглым взглядом оценили средний вес его пассажиров. Да, марафонскую дистанцию нередко бегут люди довольно плотного телосложения; среди участников каждого крупного марафона немало спортсменов, вес которых превышает 200 фунтов. Однако большинство бегунов-марафонцев – худощавые люди. Таким образом, вероятность того, что столь значительное число упитанных бегунов по случайному стечению обстоятельств окажется в одном автобусе, чрезвычайно мала. Вы могли бы вполне уверенно заключить, что встретившийся вам автобус перевозит не марафонцев. Конечно, не исключено, что вы ошибаетесь, однако, согласно теории вероятностей, шансы на ошибку в данном случае очень и очень невелики.