Читаем без скачивания Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Нулевая гипотеза: новый экспериментальный препарат не более эффективен для профилактики малярии, чем плацебо.
Альтернативная гипотеза: новый экспериментальный препарат способствует профилактике малярии.
Данные: члены случайным образом сформированной группы будут принимать новое экспериментальное лекарство, а контрольная группа будет принимать плацебо. По окончании определенного периода в группе, принимавшей новый препарат, было зафиксировано значительно меньше случаев заболевания малярией, чем в контрольной группе. Это было бы крайне маловероятно, если бы новое экспериментальное лекарство не оказывало медицинского воздействия. Таким образом, мы отвергаем нулевую гипотезу, что новый препарат не имеет медицинских последствий (конечно же, помимо известного эффекта плацебо), и принимаем логическую альтернативу, то есть альтернативную гипотезу: новое экспериментальное лекарство способствует профилактике малярии.
Такой методологический подход достаточно необычен, поэтому приведу еще один пример. Опять же обратите внимание, что нулевая и альтернативная гипотезы логически дополняют друг друга. Если одна оказывается истинной, то другая таковой не является. Или если мы отвергаем одну гипотезу, то должны принять другую. Теперь еще один пример.
Нулевая гипотеза: лечение заключенных от наркозависимости не снижает вероятности их повторного ареста после выхода из тюрьмы.
Альтернативная гипотеза: лечение заключенных от наркозависимости снижает вероятность их повторного ареста после выхода из тюрьмы.
Данные (гипотетические): заключенных случайным образом разделили на две группы, «подопытная» группа проходила курс лечения от наркозависимости, а контрольная группа – нет. Через пять лет оказалось, что вероятность повторного ареста членов обеих групп примерно одинакова. То есть в этом случае мы не можем отвергнуть нулевую гипотезу[43]. Эти данные не дают нам повода отклонить исходное предположение о том, что лечение заключенных от наркозависимости не спасает их от повторного попадания за решетку.
Это может показаться нелогичным, но исследователи часто формулируют нулевую гипотезу в надежде, что им удастся отвергнуть ее. В обоих приведенных выше примерах «успех» исследования (создание нового лекарства для профилактики малярии или снижение вероятности повторного ареста) подразумевал отказ от нулевой гипотезы. Сделать это на основе имеющихся данных удалось лишь в одном из случаев (лекарство для профилактики малярии).
В зале суда порогом для отмены презумпции невиновности является качественная оценка, что подсудимый «виновен ввиду разумных оснований для сомнения». Что именно означает в каждом конкретном случае такая формулировка, решает судья или присяжные заседатели. Статистика использует аналогичную основополагающую идею, но формула «виновен ввиду разумных оснований для сомнения» определяется не качественно, а количественно. Исследователи обычно спрашивают: если нулевая гипотеза истинна, то какова вероятность того, что мы наблюдаем такую картину данных по чистой случайности? Если мы воспользуемся приведенным в начале главы примером, то ученые-медики могут спросить: если это экспериментальное лекарство не способствует излечению сердечно-сосудистых заболеваний (нулевая гипотеза), то какова вероятность того, что состояние здоровья 91 из 100 пациентов, принимавших его, улучшилось, если учесть, что улучшение состояния здоровья было отмечено лишь у 49 из 100 пациентов, принимавших плацебо? Если имеющиеся в нашем распоряжении данные свидетельствуют о крайней маловероятности нулевой гипотезы (как в примере с экспериментальным лекарством), то мы должны отвергнуть ее и принять альтернативную гипотезу (о том, что экспериментальное лекарство способствует излечению от сердечно-сосудистых заболеваний).
С учетом этого давайте еще раз вернемся к скандалу, вызванному махинациями с результатами стандартизированных тестов в Атланте, о которых мы неоднократно упоминали в этой книге. Эти результаты привлекли к себе внимание контролирующих органов из-за высокого количества исправлений неправильных ответов на правильные. Понятно, что учащиеся, которым приходится сдавать стандартизованные тесты, время от времени исправляют свои ответы. Не исключено и то, что каким-то группам учащихся, прибегающих к таким исправлениям, особенно везет – и это вовсе не связано с какими-либо махинациями. Именно поэтому основная гипотеза сводится к тому, что результаты сдачи стандартизированных тестов в любом конкретном учебном округе правильны (с точки зрения закона) и что любые исправления – не более чем продукт случайного стечения обстоятельств. Мы ни в коем случае не хотим наказывать учеников, преподавателей или администраторов из-за того, что необычайно высокий процент учащихся внесли в свои листы с ответами разумные исправления, сделав это буквально за несколько минут до окончания важного государственного экзамена.
Но словосочетание «необычайно высокий» отнюдь не описывает того, что происходило в Атланте. Количество исправлений неправильных ответов на правильные в листах с ответами некоторых классов превышало норму данного штата на 20–50 среднеквадратических (стандартных) отклонений. (Чтобы было понятнее, что это означает, вспомним, что большинство наблюдений в любом распределении, как правило, отклоняется от среднего значения не более чем на два среднеквадратических отклонения.) Так какова же вероятность того, что учащимся в Атланте удалось по чистой случайности исправить столь большое количество неправильных ответов на правильные? Официальный представитель Министерства образования, который проанализировал эти данные, описал вероятность того, что картина, зафиксированная в Атланте, сложилась исключительно в силу случайного стечения обстоятельств и вовсе не является результатом махинаций, как примерно равную вероятности появления на трибунах стадиона Georgia Dome 70 000 зрителей ростом свыше семи футов{59}. Может такое случиться? Теоретически да, может. Насколько велика вероятность? Чрезвычайно мала!
Тем не менее власти штата Джорджия, столицей которого является Атланта, не смогли предъявить кому-либо обвинение в манипулировании результатами стандартизированных тестов, точно так же как мой преподаватель статистики не мог (и не должен был) вышвырнуть меня из школы только потому, что я сдал выпускной экзамен по статистике успешнее, чем промежуточный. Властям штата Джорджия не удалось доказать факт мошенничества с оценками стандартизированных тестов. Они, конечно, могли отвергнуть нулевую гипотезу, что эти результаты законны, причем «с высокой степенью уверенности» (это означало, что наблюдаемая ими картина была почти невозможной в обычных условиях), и принять альтернативную гипотезу, согласно которой результаты сдачи стандартизованных тестов в Атланте стали следствием махинаций. (В официальных документах они, наверное, использовали более дипломатичную формулировку.) В ходе дальнейшего расследования удалось выявить факты мошенничества с оценками стандартизированных тестов. В объяснительных записках преподавателями приводились факты исправления ими неправильных ответов на правильные, заблаговременного ознакомления учащихся с правильными ответами, предоставления возможности отстающим ученикам списывать правильные ответы у отличников и даже указания учителем правильных ответов в тот момент, когда он останавливался возле парты ученика. Самым вопиющим примером махинаций было исправление ответов преподавателями непосредственно во время пикника, на который они собрались после экзаменов, прихватив с собой экзаменационные работы.
В примере с экзаменами в Атланте мы могли отвергнуть основную гипотезу («махинаций не было»), поскольку картина, зафиксированная в результате сдачи тестов, представлялась крайне маловероятной, если исходить из того, что обмана не было. Но насколько неправдоподобной должна быть нулевая гипотеза, чтобы мы могли ее отклонить и прибегнуть к какому-то альтернативному объяснению?
Одно из самых распространенных пороговых значений, используемых исследователями для отклонения нулевой гипотезы, – 5 % (его нередко представляют в форме десятичной дроби: 0,05). Данная вероятность известна как уровень значимости и представляет собой верхнюю границу вероятности возникновения некой картины данных в случае, если бы основная гипотеза оказалась верна[44]. Не спешите выражать свое возмущение: в действительности это не так сложно, как могло показаться на первый взгляд.
Что такое уровень значимости 0,05? Мы можем отвергнуть при нем основную гипотезу, если вероятность исхода, по крайней мере такого же экстремального, как тот, который мы наблюдали бы, если бы она была истинной, оказывалась меньше 5 %. Попытаюсь объяснить это положение на простом примере. Хоть я себя и ругаю, но вынужден опять вернуться к нашему пресловутому пропавшему автобусу. Предположим, вам поручено пролить свет на очередную ситуацию, в которую он угодил (честь выполнить эту важную миссию вам оказана, в частности, с учетом героических усилий, приложенных в предыдущей главе). На сей раз вы прикомандированы к группе исследователей Americans’ Changing Lives, которые предоставили вам чрезвычайно ценные данные, призванные помочь в выполнении важной миссии. В каждом из автобусов, арендованных организаторами исследования, находится примерно 60 пассажиров, поэтому мы можем рассматривать их как случайную выборку, сформированную из всей совокупности Americans’ Changing Lives. Итак, вас разбудили рано утром, сообщив о захвате одного из автобусов группой террористов (ярых поборников прав людей, страдающих ожирением) в районе Бостона[45]. Ваша задача – спрыгнуть с вертолета на крышу движущегося автобуса, проникнуть внутрь через аварийный выход и тайком определить, основываясь исключительно на собственных оценках веса пассажиров, являются ли они участниками исследования Americans’ Changing Lives. (Между прочим, этот сюжет ничуть не менее правдоподобен, чем сюжеты большинства приключенческих фильмов, зато гораздо более поучителен с образовательной точки зрения.)