Читаем без скачивания Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
У нас должны быть все основания полагать, что наши объясняющие переменные влияют на зависимую переменную, а не наоборот.
Систематическая ошибка, вызванная пропущенной переменной. Увидев в газете броский заголовок: «Игроки в гольф чаще болеют сердечно-сосудистыми заболеваниями, раком и артритом!», не относитесь к нему серьезно. Я не был бы удивлен, если бы это было так. Я также подозреваю, что гольф полезен для здоровья, поскольку обеспечивает не только возможность социализации, но и умеренную физическую нагрузку. Как совместить оба утверждения? Очень просто! Любое исследование, измеряющее влияние игры в гольф на состояние здоровья человека, должно надлежащим образом контролировать возраст. Вообще говоря, гольфом в большей степени увлекаются люди старших возрастов – особенно пенсионеры. Любой анализ, не принимающий во внимание возраст как объясняющую переменную, упускает из виду тот факт, что гольфисты в среднем – более пожилые люди, чем те, кто в него не играет. Не гольф убивает людей, а старость. Так уж случается, что гольф предпочитают именно пожилые люди. Я полагаю, что при использовании возраста в регрессионном анализе в качестве управляющей переменной мы получим другой результат: для людей одного и того же возраста игра в гольф может стать профилактикой серьезных заболеваний. Это весьма существенная разница.
В данном примере возраст – важная «пропущенная переменная». Когда мы не учитываем его в уравнении регрессии, объясняющем развитие сердечно-сосудистых заболеваний или какие-то другие исходы, неблагоприятные для здоровья человека, переменная «увлечение игрой в гольф» исполняет две объясняющие роли, а не одну. Она говорит о влиянии игры в гольф на состояние сердечно-сосудистой системы и о влиянии старости на состояние сердечно-сосудистой системы. На языке статистики это будет звучать примерно так: переменная «увлечение игрой в гольф» подхватывает (учитывает) влияние возраста. Проблема заключается в том, что эти два влияния объединяются. В лучшем случае наши результаты оказываются весьма запутанными. В худшем мы приходим к ошибочному выводу, что гольф плохо сказывается на здоровье человека, хотя на самом деле вероятнее обратное утверждение.
Результаты регрессии будут вводить нас в заблуждение и страдать неточностью в случае отсутствия в уравнении регрессии какой-либо важной объясняющей переменной, особенно если другие переменные в этом уравнении «подхватывают» данный эффект. Допустим, мы пытаемся объяснить качество школ. Нам очень важно понять, что именно делает школы хорошими. Нашей зависимой переменной – численным показателем качества – будут, вероятнее всего, результаты экзаменов. Мы почти наверняка станем рассматривать расходы школы как одну объясняющую переменную в надежде найти численное выражение связи между расходами и результатами экзаменов. Можно ли утверждать, что школы, у которых больше расходы, добиваются лучших результатов? Если бы расходы школы были единственной объясняющей переменной, я не сомневаюсь, что нам удалось бы выявить четкую и статистически значимую зависимость между ними и итогами экзаменов. Однако такой вывод, а также вытекающее из него следствие, будто улучшить качество школ можно путем повышения расходов, глубоко ошибочны.
Здесь есть немало потенциально значимых пропущенных переменных, однако важнейшей из них будет уровень образования родителей. Высокообразованные семьи, как правило, проживают в престижных районах. А расположенные в этих районах школы обычно расходуют немалые средства. К тому же дети в таких семьях демонстрируют хорошие результаты на экзаменах (тогда как баллы детей из малоимущих семей гораздо хуже). Если у нас нет какого-либо показателя социально-экономического статуса учащихся, который можно было бы использовать в качестве управляющей переменной, то результаты нашей регрессии наверняка укажут на четкую положительную зависимость между расходами школы и итогами экзаменов, тогда как в действительности эти результаты могут быть функцией социально-экономического положения учащихся школы, а не суммы денег, израсходованных ею.
Я помню, как один из преподавателей нашего колледжа утверждал, что результаты школьных экзаменов высоко коррелированны с количеством автомобилей, которыми владеет семья. Этим он как бы намекал на несправедливость школьных тестов и невозможность использовать их итоги в качестве основного критерия при поступлении в колледж. Разумеется, система школьных экзаменов не лишена недостатков, но корреляция между их результатами и количеством автомобилей в семье вовсе не то, что тревожит меня больше всего. Меня мало волнует, что богачи могут устроить своих детей в колледж, купив еще три автомобиля. Количество автомобилей в семейном гараже является показателем дохода соответствующей семьи, уровня образования ее членов и прочих признаков их социально-экономического статуса. То обстоятельство, что дети из состоятельных семей сдают экзамены успешнее их менее зажиточных сверстников, не новость. (Как отмечалось ранее, средний балл сдачи стандартизированного теста по чтению у учащихся из семей, совокупный доход которых превышает 200 000 долларов, на 134 балла выше, чем средний результат сдачи такого же теста детьми из семей, совокупный доход которых не превышает 20 000 долларов.){80} Гораздо больше меня интересует вероятность улучшить результаты сдачи стандартизированного теста путем «натаскивания» ученика. Насколько ученик может их улучшить, воспользовавшись услугами частных репетиторов? Очевидно, у состоятельных семей гораздо больше возможностей нанять для своих детей хороших репетиторов. Любое улучшение результатов сдачи экзаменов учащимися, занимающимися с репетиторами (если, конечно, это не чистая случайность), говорит в пользу детей из состоятельных семей по сравнению с их менее зажиточными сверстниками, даже если способности тех и других совершенно одинаковы, – ведь ученики из малообеспеченных семей тоже могли бы улучшить свои результаты, если бы воспользовались услугами частных репетиторов (однако им это не по карману).
Сильно коррелированные объясняющие переменные (мультиколлинеарность). Если уравнение регрессии включает две объясняющие переменные (или даже больше), сильно коррелированные между собой, то анализ вполне может не выявить истинной зависимости между каждой из этих переменных и исходом, который мы пытаемся объяснить. Приведу соответствующий пример. Допустим, мы хотим измерить влияние противозаконного использования наркотиков на результаты сдачи экзаменов. В частности, мы располагаем данными о том, употребляли ли когда-либо участники нашего исследования кокаин и «баловались» ли когда-либо героином. (Будем исходить из того, что в нашем распоряжении есть и много других управляющих переменных.) Каково влияние употребления кокаина на результаты сдачи экзаменов (при условии неизменности всех остальных факторов, включая употребление героина)? А каково влияние употребления героина на итоги экзаменов (при условии неизменности всех остальных факторов, включая употребление кокаина)?
Вполне возможно, что коэффициенты по употреблению героина и кокаина не смогут ответить на интересующие нас вопросы. Методологическая проблема в данном случае заключается в том, что те, кто «баловался» героином, наверняка употребляли и кокаин. Если поместить в уравнение обе переменные, то число тех, кто употреблял один из этих наркотиков, но не употреблял другой, окажется очень незначительным. Это оставит нам довольно мизерное расхождение в данных, на основании которого мы могли бы вычислить их независимые влияния. Вспомните мысленный эксперимент, который мы провели в предыдущей главе, чтобы объяснить регрессионный анализ. Мы распределили выборку данных по разным комнатам, в которых каждое наблюдение идентично за исключением одной переменной, что позволяло затем вычленить влияние этой переменной, параллельно контролируя другие факторы, потенциально способные сказываться на интересующем нас исходе. В нашей выборке может быть 692 человека, которые употребляли и кокаин, и героин. Но у нас может быть и всего три человека, которые употребляли только кокаин, и два человека, употреблявших только героин. Любой вывод относительно независимого влияния лишь одного или другого наркотика будет основываться на этих крошечных выборках.
Вряд ли нам удастся получить достоверные коэффициенты регрессии по какой-либо из этих двух переменных (кокаин или героин); мы можем также проигнорировать более сильную и важную зависимость между результатами экзаменов и употреблением какого-то одного из этих наркотиков. Когда две объясняющие переменные сильно коррелированны между собой, исследователи обычно используют в уравнении регрессии какую-то одну из них; как вариант, они могут создать некую составную переменную, например «употреблял кокаин или героин». Если же исследователи хотят контролировать в целом социально-экономическое положение учащегося, они могут включить переменные «образование матери» и «образование отца», поскольку это обеспечивает важное указание на уровень образования соответствующей семьи в целом. Однако если цель регрессионного анализа – вычленить влияние либо образования отца, либо образования матери, то включение в уравнение обеих переменных скорее запутает вопрос, чем внесет в него ясность. Корреляция между уровнями образования мужа и жены столь высока, что мы не можем полагаться на то, что регрессионный анализ даст нам коэффициенты, которые позволят надлежащим образом вычленить влияние образования кого-либо из родителей (это так же трудно, как обособить влияние употребления кокаина от влияния употребления героина)[69].