Читаем без скачивания Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Пока ограничимся данными исследования Americans’ Changing Lives, а затем я вернусь и предложу интуитивно понятное объяснение того, как действует этот механизм. Мы можем начать с добавления в уравнение регрессии еще одной переменной, которая объясняет вес участников Americans’ Changing Lives, – «возраст». Когда мы вычислим уравнение регрессии, включающее рост и возраст в качестве объясняющих переменных, то получим вот что:
Вес = −145 + 4,6 × (Рост в дюймах) + 0,1 × (Возраст в годах)
Коэффициент возраста равняется 0,1. Это можно интерпретировать так: каждый дополнительный год к возрасту человека ассоциируется с 0,1 дополнительных фунта к весу человека при неизменном росте. Для любой группы людей одного и того же роста те, кто на десять лет старше, весят в среднем на один фунт больше. Как видим, влияние возраста на вес человека не так уж велико, но это соответствует тому, что мы обычно наблюдаем в реальной жизни. Данный коэффициент является значимым на уровне 0,05.
Возможно, вы заметили, что коэффициент для роста несколько увеличился. После того как мы включили в нашу регрессию возраст, у нас появилось уточненное понимание зависимости между ростом и весом. Среди людей одного возраста в выборке (иными словами, при фиксированном возрасте) каждый дополнительный дюйм роста ассоциируется с дополнительными 4,6 фунта веса.
Теперь давайте добавим еще одну переменную – пол. Тут есть один нюанс: пол может принимать лишь два значения (мужской и женский). Как вставить эти «М» и «Ж» в регрессию? Благодаря использованию так называемой двоичной, или фиктивной переменной. Вводим в нашей совокупности данных 1 для участников-женщин и 0 – для участников-мужчин. (Дорогие мужчины, пожалуйста, не обижайтесь!) При этом коэффициент пола можно интерпретировать как влияние на вес того обстоятельства, что данный участник является женщиной – при прочих равных условиях (ceteris paribus). Этот коэффициент составляет –4,8, что не должно вызывать у вас удивления. Это можно истолковать так: когда речь идет об участниках одного и того же роста и возраста, женщины обычно весят на 4,8 фунта меньше мужчин. Теперь вам уже должны быть в какой-то мере ясны богатые возможности множественного регрессионного анализа. Нам известно, что женщины обычно ниже мужчин, и наш коэффициент учитывает это обстоятельство, поскольку мы уже контролируем рост (мы его «зафиксировали»). В данном случае мы рассматриваем влияние пола – точнее говоря, женского пола. Новая регрессия принимает следующий вид:
Вес = −118 + 4,3 × (Рост в дюймах) + 0,12 × (Возраст в годах) − 4,8 (Если пол женский)
Наша «наилучшая» оценка веса пятидесятитрехлетней женщины, рост которой равен 5 футов и 5 дюймов, такова: −118 + 4,3 × 65 + 0,12 × 53 − 4,8 = 163 фунта.
Наша «наилучшая» оценка веса тридцатипятилетнего мужчины, рост которого составляет 6 футов и 3 дюйма, такова: −118 + 4,3 × 75 + 0,12 × 35 = 209 фунтов. Мы опускаем последний член (−4,8) при вычислении результата регрессии, поскольку рассматриваемый нами человек не является женщиной.
Теперь давайте приступим к проверке более интересных и менее предсказуемых вещей. Что можно сказать по поводу образования? Как оно может влиять на вес? Я бы выдвинул гипотезу, что более образованные люди в большей степени заботятся о своем здоровье и, следовательно, весят меньше. Кроме того, мы еще не проверяли влияние занятий спортом; я полагаю, что при прочих равных условиях члены нашей выборки, регулярно занимающиеся спортом, весят меньше.
А что можно сказать по поводу бедности? Не сказываются ли низкие доходы части американцев на их весе? В исследовании Americans’ Changing Lives есть вопрос о том, получает ли его участник продовольственные талоны. (Продовольственные талоны в Соединенных Штатах выдаются только малоимущим гражданам.) Наконец, меня интересует расовая принадлежность человека. Нам известно, что люди разных рас в США имеют разный жизненный опыт именно вследствие своей расовой принадлежности. С той или иной расой в Соединенных Штатах ассоциируются определенные культурные факторы и места компактного проживания. Все эти факторы могут оказывать влияние на вес человека. Многие города Америки характеризуются высокой степенью расовой сегрегации: афроамериканцы чаще других американских граждан проживают в так называемых продовольственных пустынях, то есть территориях с ограниченным доступом к продовольственным магазинам, где продаются свежие фрукты, овощи и другая свежая продукция.
Регрессионный анализ можно использовать для обособления независимого влияния каждого из потенциальных объясняющих факторов, описанных выше. Например, мы можем вычленить связь между расовой принадлежностью и весом человека, сохраняя постоянными другие социально-экономические факторы, такие как уровень образования и бедность. Существует ли статистически достоверная связь между весом человека и его принадлежностью к негроидной расе, если речь идет о людях, окончивших среднюю школу и имеющих право на получение продовольственных талонов?
В данном случае уравнение регрессии окажется таким длинным, что было бы весьма проблематично привести его здесь полностью. Научные статьи обычно включают огромные таблицы, обобщающие результаты разных уравнений регрессии. В приложении к этой главе вы найдете таблицу с полными результатами этого уравнения регрессии. Между тем, я могу подсказать, что произойдет, если мы добавим в уравнение такие факторы, как уровень образования человека, его склонность к занятиям спортом, показатель бедности (исходя из которого определяется его право на получение продовольственных талонов) и расовая принадлежность.
Все наши исходные переменные (рост, возраст и пол) по-прежнему остаются значимыми. При добавлении объясняющих переменных несколько изменяются коэффициенты. Новые переменные являются статистически значимыми на уровне 0,05. Значение R² для этой регрессии повысилось с 0,25 до 0,29. (Вспомните: нулевая величина R² означает, что уравнение регрессии прогнозирует вес любого человека в данной выборке ничуть не лучше, чем среднее значение; если же R² равно 1, то наше уравнение регрессии идеально прогнозирует вес каждого человека в данной выборке.) Существенная доля разброса величин веса среди членов данной выборки остается необъясненной.
Как я и предполагал, зависимость между образованием и весом человека оказалась отрицательной. Среди участников исследования Americans’ Changing Lives каждый дополнительный год образования ассоциируется с −1,3 фунта веса.
Неудивительно, что физические упражнения также отрицательно связаны с весом человека. Исследование Americans’ Changing Lives включает индекс, который оценивает каждого участника исследования с точки зрения уровня его физической активности. Те, кто находится в нижнем квинтиле[61] склонности к регулярным занятиям спортом, весят в среднем на 4,5 фунта больше, чем другие взрослые в этой выборке, ceteris paribus. И примерно на 9 фунтов больше, чем взрослые в верхнем квинтиле склонности к регулярным занятиям спортом.
Вес тех, кто получает продовольственные талоны (что служит показателем бедности в этой регрессии), больше, чем у других взрослых. Получатели продовольственных талонов весят в среднем на 5,6 фунта больше, чем другие участники исследования Americans’ Changing Lives, ceteris paribus.
Переменная расовой принадлежности представляет особый интерес. Даже если мы зафиксируем все остальные вышеперечисленные переменные, расовая принадлежность сыграет довольно важную роль в объяснении веса. Неиспаноязычные взрослые негроидной расы в выборке Americans’ Changing Lives весят в среднем примерно на 10 фунтов больше, чем другие взрослые в выборке. Десять фунтов – весьма существенная прибавка в весе как в абсолютном выражении, так и по сравнению с влиянием других объясняющих переменных в нашем уравнении регрессии. И это вовсе не какой-то случайный «выверт» данных. p-значение по фиктивной переменной для неиспаноязычных взрослых негроидной расы равняется 0,000, а 95 %-ный доверительный интервал охватывает величины веса от 7,7 фунта до 16,1 фунта.
Что же происходит? Честно говоря, не имею понятия. Могу лишь повторить замечание, сделанное мною выше в одной из сносок: я лишь экспериментирую с данными, чтобы проиллюстрировать принцип действия регрессионного анализа. Представленные здесь аналитические материалы призваны подтвердить результаты научного исследования значения дворового хоккея для НХЛ. (Шутка.) Если бы это был реальный исследовательский проект, то для подтверждения правильности его выводов понадобились бы недели и даже месяцы аналитической работы. Могу лишь сказать, что я продемонстрировал вам, почему множественный регрессионный анализ – лучший из имеющихся в нашем распоряжении инструмент для поиска существенных закономерностей в больших и сложных совокупностях данных. Мы начали со смехотворно банального упражнения: поиска численного выражения связи между ростом и весом, а затем перешли к рассмотрению вопросов, имеющих реальное социальное значение.