Категории
Самые читаемые
💎Читать книги // БЕСПЛАТНО // 📱Online » Бизнес » Бизнес » Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан

Читаем без скачивания Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан

Читать онлайн Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 48 49 50 51 52 53 54 55 56 ... 82
Перейти на страницу:

Допустим, что в результате проведения простого экзитпола репрезентативной выборки из 500 избирателей выяснилось, что 53 % проголосовали за кандидата от республиканцев, 45 % – за кандидата от демократов и 2 % поддержали независимого кандидата. Если использовать кандидата от республиканцев как интересующую нас долю, то стандартная ошибка для этого экзитпола составит: √[(0,53)(1–0,53)/500] = √[(0,53)(0,47)/500] = √[0,25/500] = √0,0005 = 0,02236

Для упрощения округлим стандартную ошибку для этого экзитпола до 0,02. Пока это всего лишь некое число. Подумаем, почему оно так важно для нас. Предположим, избирательные участки только что закрылись, и вашему работодателю (коим является некая телекомпания) не терпится объявить победителя выборов еще до того, как станут известны официальные результаты. Вам как человеку, уже прочитавшему две трети этой книги, поручено заниматься обработкой данных, полученных в ходе экзитпола. Ваш начальник желает знать, можно ли на их основании назвать победителя выборов.

Вы объясняете, что ответ на этот вопрос зависит от того, насколько уверенной хочет быть телекомпания в правильности своего заявления – или, точнее говоря, какой риск она готова принять на себя, если оно окажется ошибочным. Вспомните: стандартная ошибка дает нам представление о том, как часто можно ожидать, что доля в выборке (экзитпол) окажется достаточно близкой к истинной доле в совокупности (результат голосования). Нам известно, что примерно в 68 % случаев мы можем ожидать, что доля в выборке – в данном случае 53 % избирателей, которые утверждают, что проголосовали за кандидата от республиканцев, – отстоит от истинного окончательного результата голосования не более чем на одну стандартную ошибку. Таким образом, вы говорите начальнику «с 68 %-ной уверенностью», что ваша выборка, которая показывает, что кандидат от республиканцев получил голоса 53 % избирателей ± 2 %, то есть между 51 и 55 %, соответствует истинному достигнутому им результату. Между тем, согласно тому же экзитполу, за кандидата от демократов отдали голоса 45 % избирателей. Если предположить, что итог голосования за кандидата от демократов имеет ту же стандартную ошибку (упрощение, суть которого я объясню ниже), то с 68 %-ной уверенностью можно утверждать, что наша выборка (экзитпол), которая показывает, что за кандидата от демократов проголосовали 45 % избирателей ± 2 %, то есть между 43 и 47 %, заключает в себе истинный результат этого кандидата. Согласно этому подсчету, победителем становится кандидат от республиканцев.

Группа графического дизайна бросается строить красочную трехмерную диаграмму, чтобы вы могли отобразить ее на экранах ваших телезрителей:

Представитель Республиканской партии 53 %

Представитель Демократической партии 45 %

Независимый кандидат 2 %

(Предел погрешности 2 %)

Поначалу ваш босс приходит в восторг – главным образом потому, что диаграмма представлена в трехмерном виде, насыщена яркими красками и даже может вращаться на экране вокруг вертикальной оси. Однако когда вы объясняете, что примерно в 68 случаях из 100 результаты экзитпола будут отличаться от действительных результатов выборов не более чем на одну стандартную ошибку, ваш начальник, которому уже не раз приходилось посещать курсы аутотренинга и управления негативными эмоциями, указывает на совершенно очевидную вещь: в 32 случаях из 100 результаты экзитпола будут отличаться от действительных результатов выборов более чем на одну стандартную ошибку. И что тогда?

Вы объясняете, что есть два варианта: 1) кандидат от республиканцев мог получить даже больше голосов, чем предсказывал экзитпол, тогда все равно вы назвали бы победителя правильно; 2) но существует достаточно высокая вероятность того, что кандидат от демократов набрал гораздо больше голосов, чем предсказывал экзитпол; в этом случае ваша восхитительная красочная вращающаяся трехмерная диаграмма объявит победителя неправильно.

Босс запускает чашкой с кофе в стену, из чего вы делаете вывод, что посещение курсов аутотренинга и управления негативными эмоциями не пошло ему на пользу. Между тем, начальник продолжает бушевать: «Как, черт бы вас побрал, мы можем быть уверены в правильности результата, показанного на вашей …ной диаграмме?»

Понимая кое-что в статистике, вы указываете ему, что не можете быть уверены в каком-либо результате до тех пор, пока не будут подсчитаны все голоса. И предлагаете в качестве критерия уверенности воспользоваться 95-процентным доверительным интервалом. В данном случае ваша восхитительная красочная вращающаяся 3D-диаграмма предскажет победителя неправильно в среднем лишь в 5 случаях из 100.

Начальник закуривает сигарету и пытается успокоиться. Вы решаете не напоминать ему о запрете курения на рабочем месте, несмотря на участившиеся в последнее время случаи пожаров в офисах, однако все же отваживаетесь поделиться кое-какими плохими новостями: единственный способ, позволяющий вашей телекомпании повысить уверенность в результатах экзитпола, – расширить предел погрешности, но тогда однозначно назвать победителя выборов будет невозможно. После этого вы показываете начальнику новую 3D-диаграмму:

Представитель Республиканской партии 53 %

Представитель Демократической партии 45 %

Независимый кандидат 2 %

(Предел погрешности 4 %)

Из центральной предельной теоремы вам известно, что приблизительно 95 % пропорций выборки будут отстоять от истинной пропорции доли голосов совокупности на расстоянии, не превышающем двух стандартных ошибок (в данном случае 4 %). Таким образом, если мы хотим обеспечить большую уверенность в результатах экзитпола, то нам придется умерить свои амбиции в том, что касается точности прогноза. Как следует из приведенной выше пропорции доли голосов (к сожалению, мы не можем показать здесь соответствующую красочную вращающуюся 3D-диаграмму), ваша телекомпания может, при 95 %-ном доверительном уровне, объявить о том, что кандидат от республиканцев получил 53 % голосов избирателей ± 4 %, то есть между 49 и 57 % голосов избирателей, а кандидат от демократов – 45 % ± 4 %, то есть между 41 и 49 % голосов избирателей.

Правда, теперь вы сталкиваетесь с новой проблемой. При 95 %-ном доверительном уровне вы не можете отвергнуть вероятность того, что каждый из кандидатов мог набрать по 49 % голосов избирателей. Это неизбежный компромисс; единственная возможность обрести большую уверенность в том, что результаты вашего экзитпола будут соответствовать истинным результатам выборов без использования новых данных, – обуздать свои амбиции относительно точности прогнозов. Подумайте об этом вне статистического контекста. Допустим, вы говорите приятелю, что «почти не сомневаетесь» в том, что Томас Джефферсон был третьим или четвертым президентом США. Каким образом вы можете обрести большую уверенность в своих исторических познаниях? Снизив категоричность утверждений. Можно, например, сказать, что вы «абсолютно уверены» в том, что Томас Джефферсон был одним из первых пяти президентов США.

Ваш начальник предлагает вам заказать пиццу и быть готовым к тому, что придется поработать вечером (или даже всю ночь). На этот раз статистические боги оказываются к вам милостивы. Вам на стол кладут данные второго экзитпола, для проведения которого использовалась выборка из 2000 избирателей. Его результаты таковы: кандидат-республиканец – 52 % голосов, кандидат-демократ – 45 % голосов, независимый кандидат – 3 % голосов. На этот раз ваш босс совершенно взбешен, поскольку эти данные показывают, что разрыв между кандидатами сократился, а это еще больше затрудняет своевременное предсказание итогов голосования. Но не нужно спешить с выводами! Вы указываете (стараясь сохранять присутствие духа), что размер второй выборки (2000) в четыре раза больше первой, которая использовалась при проведении первого экзитпола. Таким образом, стандартная ошибка существенно уменьшилась. Новая стандартная ошибка для кандидата от республиканцев равняется √[0,52(0,48)/2000], что составляет 0,01.

Если вашего начальника по-прежнему устраивает 95 %-ный доверительный интервал, то вы можете объявить победителем кандидата от республиканцев. С учетом вашей новой стандартной ошибки 0,01 95 %-ные доверительные интервалы для кандидатов таковы: кандидат-республиканец: 52 ± 2, или между 50 и 54 % голосов избирателей; кандидат-демократ 45 ± 2, или между 43 и 47 % голосов избирателей. Теперь между этими двумя доверительными интервалами нет никакого взаимного перекрытия. Вы можете в прямом эфире сообщить, что на выборах победил кандидат от республиканцев; такой прогноз окажется правильным более чем в 95 случаях из 100[52].

1 ... 48 49 50 51 52 53 54 55 56 ... 82
Перейти на страницу:
На этой странице вы можете бесплатно скачать Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан торрент бесплатно.
Комментарии