Читаем без скачивания Гиппократ не рад. Путеводитель в мире медицинских исследований - Ирина Игоревна Бодэ
Шрифт:
Интервал:
Закладка:
Ситуация немного усложняется, если мы хотим проверить: кто же болеет гриппом чаще? Мальчики или девочки? Второклассники или третьеклассники? То есть теперь нам нужно ещё и сравнить результаты между группами испытуемых. Для того, чтобы тому, кто потом будет читать наш отчёт, было понятно, по какому признаку мы разделяли учеников, мы должны как-то охарактеризовать всю выборку школьников. Нужно будет указать информацию о том, сколько девочек, сколько мальчиков, сколько учеников какого класса вошло в итоговый статистический анализ. Тут важно помнить, что изначально мы принимаем, что никаких различий между группами не существует. Такое утверждение иначе называется нулевой гипотезой, Н0. В зависимости от цели исследования мы можем пытаться или доказать нулевую гипотезу, или опровергнуть её. Если окажется, что разница в заболеваемости гриппом между мальчиками и девочками всё же существует, мы напишем в отчёте, что нулевая гипотеза была отвергнута. Если же разницы в результатах не будет наблюдаться, мы напишем, что нулевая гипотеза была принята.
Но и это ещё не всё. Согласитесь, будет странно делать выводы о различиях в распространённости гриппа А в разных группах, если в одну группу входит только один человек, а в другую – двадцать. То есть наши группы должны быть каким-то образом сопоставимы. В них необязательно должно быть одинаковое количество человек. Допустимая разница в группах рассчитывается отдельно. Но если в одну группу войдёт 25 человек, а в другую – 26, мы всё равно сможем обработать такую информацию.
Сколько же человек должно вообще нужно исследовать для того, чтобы наши выводы стали корректными и могли применяться повсеместно? По данным сайта Statdata на 1 января 2017 года в России проживает около 8.5 млн детей в возрасте от 5 до 9 лет. Можно ли будет распространить наши результаты на все эти 8.5 млн детей? Нет, ведь наша выборка неидеальна. Мы выбрали только учеников из одной школы. Ситуация улучшится, если мы выберем для анализа данные об учениках из школы № 2? Совсем немного, ведь мы всё ещё находимся в одном городе. Мы хотим получить результаты, которые можно будет распространить на всю страну целиком, значит, нам надо подключить и другие города к нашему анализу.
То, что мы сейчас с вами проговорили, – это мысленная часть эксперимента, всего лишь подготовка к нему. Несмотря на то, что наше исследование казалось совсем простым, в итоге оказалось, что и в этом случае надо аккуратно подходить к делу. Анализ объёма выборки, который необходим для получения результатов исследования, – это крайне важный этап планирования эксперимента. Без проведения вычислений на этапе планирования исследователь может получить слишком маленький объём данных на выходе. В результате наше исследование будет ненадёжным. Если же исследователь, напротив, проводит исследование на очень большой выборке, то он рискует получить слишком много данных. Избыточность данных для статистического анализа не беда, но вот потраченное время и ресурсы могут быть очень ценными. Если речь идёт о клинических испытаниях, то здесь к вопросу о высчитывании необходимой выборки подходят со всем тщанием (конечно, если речь идёт о добросовестных исследователях).
Кроме того, планирование эксперимента позволяет исследователю определить, какова вероятность того, что выбранные им статистические методы будут обнаруживать различия? Насколько велика вероятность ошибки? К сожалению, полностью избавиться от ошибок не удаётся. Как известно, всегда существует вероятность того, что что-то пошло не так. В нашем случае с исследованием распространённости гриппа А добавляется ещё один элемент ошибки. Действительно ли мы можем распространить наши результаты на всех учеников начальных классов в стране? Экономически провести интересующие нас анализы у 8.5 млн детей совершенно невыгодно. То есть мы изначально принимаем, что какая-то вероятность ошибки наших суждений всё же будет существовать. С этим, к сожалению, надо смириться. Но вот второй вопрос более важен: какова величина той ошибки, с которой мы готовы смириться? Пусть мы получили данные о том, что третьеклассники болеют чаще, чем второклассники. Готовы ли мы смириться с тем, что мы ошибаемся в некоторых случаях?
Если вы начнёте читать какие-то биомедицинские исследования, вы практически в любой статье наткнётесь на такой параметр, как p. В английской литературе он называется p-value, в русской – уровень значимости, p-критерий, p-значение. Суть его заключается в том, что он показывает вероятность того, что мы ошиблись. Говоря совсем точно и сухими определениями: это вероятность того, что нулевая гипотеза верна, а мы её отвергли, получив данные, которые мы сочли отличающимися.
В зависимости от типа исследования выбирается определённое значение p. Например, в биоинформатических исследованиях работают с большими объёмами данных. Если выборка составляет 10 000 000, то 1 % ошибки будет для нас слишком велик, ведь 1 % от 10 000 000 равен 100 000. Именно столько раз мы ошибёмся. Поэтому в биоинформатике, как правило, значение p устанавливается совсем маленьким. Если в сравнении в каких-то статистических тестах программа ругается и говорит, что значение p больше установленного числа, означает, что нулевая гипотеза принимается, то есть отличий нет.
В биомедицинских исследованиях критическое значение р, как правило, равно 0.01 или 0.05, что означает 1 % и 5 % ошибок соответственно. Если при сравнении мы обнаружим, что p больше или равно установленному нами порогу, мы смело принимают нулевую гипотезу. На самом деле многими исследователями сейчас критикуется такой подход к оценке полученных результатов. Это связано с тем, что иногда самое по себе значение меньше 0.01 или 0.05 может ни о чём не говорить. Грубое принятие альтернативной гипотезы без каких-то других подтверждающих данных в клинических исследованиях подвергается критике. То есть необходимо учитывать «контекст», а именно остальные данные об