Определение. Доверительная вероятность – величина, принятая как разделяющая вероятные и маловероятные события.
Доверительная вероятность обычно обозначается маленькой латинской буквой «p». В качестве доверительной вероятности обычно выбирают круглые числа: 0,05, 0,01, 0,001 и т.д.
В настоящее время современные статистические пакеты программ рассчитывают не только величину различия, но и точную величину соответствующей доверительной вероятности.
Доверительная вероятность это не вероятность некоторого события, а оценка доверия. При проверке статистической гипотезы возможны ошибки двух родов.
Ø Ошибка первого рода – принять на веру неправильную статистическую гипотезу, то есть принятие ложноположительной гипотезы(чрезмерная легковерность) равна доверительной вероятности.
Ø Ошибка второго рода – отказ от правильной гипотезы, только на основании доверительной вероятности рассчитать нельзя, нужно знать какие именно гипотезы поступают на проверку.
Уменьшение доверительной вероятности, т.е. ужесточение критериев проверки, уменьшает вероятность ошибок первого рода. но увеличивает вероятность ошибок второго рода. Поэтому нет единого оптимального выбора доверительной вероятности. И выбирать ее нужно на основании величины ущерба от ошибок первого и второго рода.
В медицине традиционно принята величина доверительной вероятности равная p=0,05.
Рассмотрим пример расчета частоты совместного распределения и определения достоверности различия при помощи критерия c2:
Запустите пакет SPSS. Откройте копию файла пневмония.sav. Рассмотрим связь между смертностью пациента (переменная «Умер») и количеством лейкоцитов в его крови (переменная «white blood cell count»). Причем при кодировке количества лейкоцитов они были поделены на 4 группы: «меньше 4», «от 4 до 9», «от 9 до 25» и «больше 25», переменная «Умер» имеет всего два значения: 0 – жив, 1 – умер.
Построим график частот летального исхода в зависимости от числа лейкоцитов. Воспользуемся опцией Graphs à Bar, далее выберем Stacked, в Category Axis занесем переменную «white blood cell count», а в Define Stacks by – переменную «Умер»
В результате получаем график:
Предположим наличие связи между переменной «Умер» переменной «white blood cell count».
Рассчитайте коэффициент корреляции между этими величинами:
получаем таблицу:
Correlations
white blood cell count
УМЕР
white blood cell count
Pearson Correlation
,062(*)
Sig. (2-tailed)
.
,048
N
УМЕР
Pearson Correlation
,062(*)
Sig. (2-tailed)
,048
.
* Correlation is significant at the 0.05 level (2-tailed).
Получаем в ячейке пересечения переменных три цифры в столбец. Первая - Pearson Correlation ,062(*) ,определяющая коэффициент взаимосвязи переменных между собой. Вторая цифра Sig. (2-tailed) - ,048это доверительная вероятность. Третья цифра N – это количество исследуемых пар. В данном случае, связь слабая, но достоверная за счет большого количества наблюдений.
Поскольку коэффициент корреляции определяет только общую линейную компоненту связи двух переменных, попробуем исследовать эту пару переменных другим методом.
При расчете частот летального исхода по подгруппам используем критерий «хи-квадрат»:
В Row внесите группирующую переменную «Умер», а Column сравниваемую переменную «white blood cell count»
Для определения достоверности связи исхода и количества лейкоцитов необходимо пометить, что используется критерий «хи-квадрат», для этого нажмите на кнопку «Statistics», поставьте флажок в окошке «Chi-square».