Читаем без скачивания Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
Вес тех, кто получает продовольственные талоны (что служит показателем бедности в этой регрессии), больше, чем у других взрослых. Получатели продовольственных талонов весят в среднем на 5,6 фунта больше, чем другие участники исследования Americans’ Changing Lives, ceteris paribus.
Переменная расовой принадлежности представляет особый интерес. Даже если мы зафиксируем все остальные вышеперечисленные переменные, расовая принадлежность сыграет довольно важную роль в объяснении веса. Неиспаноязычные взрослые негроидной расы в выборке Americans’ Changing Lives весят в среднем примерно на 10 фунтов больше, чем другие взрослые в выборке. Десять фунтов – весьма существенная прибавка в весе как в абсолютном выражении, так и по сравнению с влиянием других объясняющих переменных в нашем уравнении регрессии. И это вовсе не какой-то случайный «выверт» данных. p-значение по фиктивной переменной для неиспаноязычных взрослых негроидной расы равняется 0,000, а 95 %-ный доверительный интервал охватывает величины веса от 7,7 фунта до 16,1 фунта.
Что же происходит? Честно говоря, не имею понятия. Могу лишь повторить замечание, сделанное мною выше в одной из сносок: я лишь экспериментирую с данными, чтобы проиллюстрировать принцип действия регрессионного анализа. Представленные здесь аналитические материалы призваны подтвердить результаты научного исследования значения дворового хоккея для НХЛ. (Шутка.) Если бы это был реальный исследовательский проект, то для подтверждения правильности его выводов понадобились бы недели и даже месяцы аналитической работы. Могу лишь сказать, что я продемонстрировал вам, почему множественный регрессионный анализ – лучший из имеющихся в нашем распоряжении инструмент для поиска существенных закономерностей в больших и сложных совокупностях данных. Мы начали со смехотворно банального упражнения: поиска численного выражения связи между ростом и весом, а затем перешли к рассмотрению вопросов, имеющих реальное социальное значение.
В этом ключе я могу предложить вам реальное исследование, в котором регрессионный анализ использовался для решения социально значимой проблемы – дискриминации по половому признаку на рабочем месте. Такую дискриминацию, как правило, трудно наблюдать непосредственно. Никто из работодателей не скажет вам напрямую, что тому или иному работнику платят меньше только по причине его расовой или половой принадлежности или что кого-то не приняли на работу по каким-либо дискриминационным соображениям (в результате чего этот человек, наверное, нашел другую работу, но с более низкой заработной платой). Однако на практике мы наблюдаем различия в зарплате по расовому или половому признаку, которые могут быть следствием дискриминации: белые зарабатывают больше, чем черные; мужчины – больше, чем женщины, и т. д. Методологическая проблема заключается в том, что эти различия могут также оказаться результатом других различий между работниками, которые не имеют ничего общего с дискриминацией (например, женщины зачастую предпочитают работать неполный рабочий день). В какой мере имеющаяся разница в оплате труда обусловлена факторами, связанными с производительностью на работе, а в какой – с дискриминацией работников (если таковая вообще присутствует)? Никто не станет утверждать, что этот вопрос относится к разряду тривиальных.
Регрессионный анализ может помочь нам на него ответить. Однако в этом случае наша методология будет несколько более «окольной», чем в примере с анализом, объясняющим вес. Поскольку дискриминация не поддается непосредственному измерению, нам придется исследовать другие факторы (например образование, производственный стаж, род занятий и т. п.), которые традиционно объясняют уровень заработной платы. Мы можем действовать методом исключения: если после фиксации этих факторов все же останется существенная разница в зарплате, то дискриминация на работе, по-видимому, имеет место. Чем больше необъясненная доля разницы в заработной плате, тем сильнее подозрения в наличии дискриминации на рабочем месте. Рассмотрим статью трех экономистов, исследующих траектории заработной платы в выборке, состоящей примерно из 2500 мужчин и женщин – выпускников Booth School of Business Чикагского университета (все они обладатели степени MBA){72}. Сразу после выпуска средний начальный уровень заработной платы у мужчин и женщин приблизительно одинаков: 130 000 долларов у мужчин и 115 000 долларов у женщин. Однако через десять лет образуется огромный разрыв: женщины в среднем зарабатывают на целых 45 % меньше, чем их бывшие однокурсники-мужчины: 243 000 долларов против 442 000 долларов. В более широкой выборке, включающей свыше 18 000 выпускников (обладающих степенью MBA), которые приступили к работе в период с 1990 по 2006 год, у женщин на 29 % ниже заработки, чем у мужчин. Что же происходит с женщинами, после того как они выходят на рынок труда?
Согласно авторам данного исследования (Марианна Бертран из Booth School of Business, Клаудиа Голдин и Лоуренс Кац из Гарвардского университета), дискриминация не является вероятным объяснением большей доли разрыва в зарплатах. Причем разрыв по половому признаку исчезает, когда авторы добавляют в анализ дополнительные объясняющие переменные. Например, при прохождении программы MBA мужчины посещают дополнительные курсы финансов и на выпускных экзаменах получают в среднем более высокие оценки. Когда эти данные используются в уравнении регрессии в качестве управляющих переменных, необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до 19 %. Когда же в это уравнение включаются переменные, позволяющие учитывать рабочий стаж после окончания университета, необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до 9 %. А когда в уравнение добавляются объясняющие переменные для других характеристик (например, тип работодателя и количество реально отработанных часов), необъясненная доля разрыва в уровнях зарплаты мужчин и женщин снижается до менее 4 %.
Что касается работников, стаж которых превышает десять лет, то авторы исследования могут в конечном счете объяснить все, кроме 1 %-ного разрыва в уровнях зарплаты мужчин и женщин, факторами, не имеющими никакого отношения к дискриминации на работе[62]. Авторы пришли к следующему выводу: «Мы выявили три непосредственные причины существования большого увеличивающегося разрыва в уровнях зарплаты мужчин и женщин: разница в уровнях знаний, полученных в высшем учебном заведении; разница, обусловленная большими перерывами в стаже у женщин; разница в количестве реально отрабатываемых часов в неделю. Эти три детерминанта могут объяснить львиную долю разрыва в уровнях зарплаты мужчин и женщин по окончании ими вуза и после начала трудовой деятельности».
Я надеюсь, что убедил вас в полезности множественного регрессионного анализа, особенно в возможности делать выводы по результатам исследований путем обособления влияния какой-то одной объясняющей переменной и фиксации («контроля») других факторов, способных вносить искажения в выводы. Я еще не предложил вам интуитивно понятного объяснения того, как этот статистический «волшебный эликсир» работает. Когда мы используем регрессионный анализ для оценивания зависимости между образованием и весом человека, ceteris paribus, как применяемый нами статистический пакет контролирует такие факторы, как рост, пол, возраст и доход, когда нам доподлинно известно, что участники исследования Americans’ Changing Lives вовсе не идентичны в других отношениях?
Чтобы уяснить, каким образом можно изолировать влияние на вес какой-либо отдельно взятой переменной, например образования, давайте представим следующую ситуацию. Допустим, что все участники исследования Americans’ Changing Lives собрались в каком-то одном месте, например во Фрамингеме. Теперь предположим, что мы отделили мужчин от женщин, а затем распределили их по росту. В одном помещении собрали всех мужчин, рост которых равняется шести футам; в соседнем – рост которых равняется шести футам и одному дюйму и т. д. для представителей обоих полов. Если в нашем исследовании участвует достаточно много людей, мы можем разбить их на группы по уровню дохода и распределить по разным комнатам. В каждой комнате будут находиться люди, идентичные во всех отношениях, за исключением образования и веса, которые и являются двумя интересующими нас переменными. В результате описанного распределения обязательно окажется комната, где соберутся сорокапятилетние мужчины ростом 5 футов и 5 дюймов, годовой доход которых составляет от 30 000 до 40 000 долларов. В соседней комнате будут находиться сорокапятилетние женщины ростом 5 футов и 5 дюймов и годовым доходом от 30 000 до 40 000 долларов. И так далее.