Читаем без скачивания Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан
Шрифт:
Интервал:
Закладка:
В совокупности эти две ситуации дают 5 %, как следует из приведенного ниже графика.
Чтобы решить, какой вариант проверки гипотез – с одно– или двусторонним критерием – больше подходит для того или иного анализа, понадобится рассудительность.
10. Опрос общественного мнения
Откуда нам известно, что 64 % американцев поддерживают смертную казнь (ошибка выборки ±3 %)
В конце 2011 года в газете The New York Times вышла передовая статья, в которой сообщалось, что «страну охватило чувство сильной тревоги и неуверенности в будущем»{64}. Авторы публикации всесторонне исследовали психологическое состояние американцев, выяснив общественное мнение по широкому кругу вопросов, от оценки эффективности администрации Обамы до отношения населения к распределению общественного богатства страны. Ниже приведена небольшая выдержка мнений американцев, которые высказывались осенью 2011 года.
• Около 89 % американцев (шокирующий показатель!) заявили, что не доверяют правительству (самый высокий уровень недоверия к власти за все время проведения подобных опросов).
• Две трети опрошенных считают, что общественное богатство страны должно распределяться среди граждан более равномерно.
• Сорок три процента жителей страны сказали, что в целом согласны со взглядами участников движения Occupy Wall Street (довольно аморфное протестное движение, стартовавшее в Нью-Йорке вблизи Уолл-стрит и впоследствии охватившее другие города страны)[51]. Чуть больше опрошенных, 46 %, заявили, что взгляды участников движения Occupy Wall Street «в целом отражают взгляды большинства американцев».
• Сорок шесть процентов американцев одобрили деятельность Барака Обамы на посту президента США – и такие же 46 % выразили неудовлетворенность тем, как он справляется со своими обязанностями.
• Лишь 9 % жителей страны поддерживают деятельность Конгресса США.
• Несмотря на то что президентские праймериз должны были начаться только через два месяца, примерно 80 % избирателей, во время праймериз обычно голосующих за республиканцев, заявляли, что «еще слишком рано говорить о том, кого именно они будут поддерживать».
Впечатляющие данные, приведенные выше, давали политическим аналитикам обильную пищу для изучения настроений американцев за год до президентских выборов. Правда, возникает резонный вопрос: откуда все это известно? Как удалось сделать столь далекоидущие выводы о настроениях сотен миллионов взрослых американцев? И почему мы должны верить, что эти выводы верны?
Ответ очевиден: это результат опросов общественного мнения. К тому же в приведенном выше примере их проводили The New York Times и CBS News. (То обстоятельство, что две конкурирующие новостные организации совместно реализовывали проект, подобный этому, является первым указанием на то, что такие исследования довольно затратны.) Я не сомневаюсь, что вы знакомы с результатами этих опросов. Возможно, не столь явно выраженным кажется тот факт, что методология их проведения представляет собой всего лишь еще одну форму статистического вывода. Опрос общественного мнения – это получение выводов о настроениях определенной совокупности людей, основанных на мнениях, высказанных некоторой выборкой, сформированной из генеральной совокупности.
Эффективность опросов обусловливается использованием того же источника, что и в предыдущих примерах с выборками, – центральной предельной теоремы. Если мы опрашиваем достаточно большую репрезентативную выборку избирателей (или любую другую группу), то у нас есть все основания полагать, что она будет очень похожа на совокупность, из которой извлечена. Если ровно половина взрослых американцев не одобряют однополые браки, то мы вполне можем рассчитывать, что в репрезентативной выборке из 1000 американцев примерно половина ее членов также выступят против однополых браков.
И наоборот (что гораздо важнее для проведения опросов общественного мнения), если в репрезентативной выборке из 1000 американцев удалось выявить определенные настроения, например 46 % недовольны деятельностью Обамы на посту президента США, то это дает веский повод думать, что среди населения в целом – примерно в такой же пропорции – также присутствуют подобные настроения. Вообще говоря, мы можем рассчитать вероятность того, что результаты, полученные с помощью нашей выборки, будут значительно отклоняться от доминирующих настроений в обществе. Когда вы читаете, что статистическая погрешность составляет ±3 %, в действительности речь идет о том же 95 %-ном доверительном интервале, который мы вычисляли в предыдущей главе. Наш «95 %-ный доверительный интервал» означает, что если бы мы провели 100 разных опросов общественного мнения в выборках, сформированных из одной и той же совокупности, то, предположительно, полученные ответы в 95 из 100 опросов отличались бы (в ту или другую сторону) от истинных настроений этой совокупности не более чем на 3 %. В контексте вопроса об оценке деятельности Обамы на посту президента США, фигурировавшего в опросе, проводившемся The New York Times и CBS News, мы могли на 95 % быть уверены, что истинная доля американцев, не одобряющих его деятельность, находится в диапазоне 46 ± 3 %, то есть от 43 % до 49 %. Если вы прочитаете сопроводительный текст к опросу, набранный мелким шрифтом (между прочим, я бы настоятельно рекомендовал вам всегда это делать), то увидите, что его смысл заключается в следующем: «Теоретически в 19 случаях из 20 результаты, базирующиеся на таких выборках, будут отличаться не более чем на 3 % (в ту или другую сторону) от результатов, которые были бы получены в ходе опроса всех взрослых американцев».
Одно из фундаментальных отличий опросов общественного мнения от других форм использования метода выборки состоит в том, что интересующим нас статистическим показателем выборки будет не среднее значение (например, 187 фунтов веса), а некий процент или доля (например, 47 % избирателей, или 0,47). В остальном же процессы идентичны. При наличии крупной репрезентативной выборки (опрос общественного мнения) можно ожидать, что доля респондентов, охваченных определенными настроениями (например, 9 % респондентов в этой выборке одобряют деятельность Конгресса США), примерно равна доле американских избирателей в целом, испытывающих аналогичные настроения. Это в принципе ничем не отличается от предположения о том, что средний вес выборки из 1000 мужчин-американцев должен примерно равняться среднему весу всех мужчин-американцев. Тем не менее мы допускаем вероятность какого-то разброса от выборки к выборке доли тех, кто одобряет деятельность Конгресса США, точно так же как у нас есть все основания ожидать какого-то разброса в средних значениях веса при использовании разных произвольных выборок из 1000 мужчин-американцев. Если бы The New York Times и CBS News провели еще один опрос – задавая те же вопросы другой выборке из 1000 взрослых американцев, – то очень маловероятно, что его результаты полностью бы совпали с результатами первого опроса. С другой стороны, можно ожидать, что ответы, полученные в ходе первого и второго опросов, будут незначительно отличаться между собой. (Воспользуюсь метафорой, к которой уже прибегал в этой книге: если вы попробуете ложку супа из кастрюли, затем хорошенько перемешаете суп и попробуете ложку супа еще раз, то его вкус, скорее всего, покажется вам примерно таким же) Стандартная ошибка – вот что указывает на то, какого разброса результатов от выборки к выборке (в данном случае от опроса к опросу) мы можем ожидать.
Формула расчета стандартной ошибки в случае, когда речь идет о процентной величине или доле, несколько отличается от формулы, с которой вы уже познакомились; впрочем, интуитивные соображения остаются такими же. Для любой произвольной выборки, сформированной надлежащим образом, стандартная ошибка равняется √(p(1 − p)/n), где p – доля респондентов, выражающих определенную точку зрения, (1 − p) – доля респондентов, имеющих противоположную точку зрения, а n – общее количество респондентов в выборке. Обратите внимание, что стандартная ошибка будет уменьшаться с увеличением размера выборки, поскольку n находится в знаменателе. Стандартная ошибка также будет уменьшаться с увеличением разности между p и (1 − p). Например, стандартная ошибка будет меньше в случае опроса, в ходе которого 95 % респондентов выражают определенную точку зрения, чем в случае опроса, в котором мнения респондентов разделяются примерно 50 на 50. Это чисто математический результат, поскольку 0,05×0,95 = 0,047, тогда как 0,5×0,5 = 0,25; меньшая величина в числителе формулы ведет к уменьшению стандартной ошибки.