I Описание распределения непрерывных случайных величин и определение достоверности различий функций распределения критериями Колмогорова-Смирнова и Манна-Уитни
В том случае, если исследуемая случайная величина принимает только несколько значений, то для ее описания достаточно задать вероятности отдельных значений, и определение независимости двух таких случайных величин можно исследовать при помощи теста «хи-квадрат».
Однако если переменная может принимать бесконечно много разных значений (или хотя бы достаточно много), то описание путем задания вероятности каждого отдельного значения оказывается малопродуктивным. При использовании критерия «хи-квадрат» появляются как технические, так и содержательные проблемы.
Технические проблемы связаны с тем, что количество отдельных комбинаций признаков оказываются слишком большим. Действительно, пусть мы исследуем связь систолического артериального давления и возраста. Если испытуемые – люди в пределах от 14 до 90 лет, то всего имеется 77 вариантов значений. Если же артериальное давление встречается в пределах от 90 до 200 мм.рт.ст. и измеряется с шагом в 5 единиц, то это дает 23 разных варианта. Итого имеется 77´23=1771 комбинация, причем нужно, чтобы все комбинации, даже редкие, были в достаточном количестве.
Вторая проблема связана с тем, что при тесте «хи-квадрат» не учитываются величины, которыми закодированы отдельные значения. Например, не учитывается, что возраст 20 и 21 год ближе, чем 14 и 90. Поэтому если есть тенденция к увеличению давления с возрастом, то тест «хи-квадрат» не будет ее «складывать» и «не почувствует». А если и «почувствует», то будет непонятно, каков характер связи исследуемых случайных величин.
Поэтому для описания характера распределения «истинно числовых» случайных величин и поиска их связей используются другие методы.
Если у нас имеется числовая случайная величина x, то для описания ее распределения достаточно задать функцию Fx(x)=P(x<x). Она называется функцией распределения.
Это – универсальный способ задания распределения числовых случайных величин. Если случайная величина x дискретна, то есть принимает значения x1,…,xn с вероятностями p1,…,pn, то ее функция распределения будет кусочно-постоянна, иметь вид «ступенек» и иметь разрывы в точках x1,…,xn величины p1,…,pn. Разрыв в некоторой точке функции распределения означает, что это значение принимается с вероятностью, равной величине разрыва.
Если же функция распределения не имеет разрывов, то соответствующая случайная величина называется непрерывной. Производная функции распределения называется плотностью распределения, .
Если наблюдаемым проявлением вероятности события является частота, то наблюдаемым проявлением функции распределения будет частота нарастающим итогом, а наблюдаемым аналогом плотности распределения будет частота.
Откроем файл jazvasi и выполним команду Graph / Bar , выберем вариант Simple и нажмем кнопку Define. Выберем переменную kogaokr , а в верхней части формы выберем вариант «Cumulative % of cases». В результате получим:
Видно, что для значений x<1 функция распределения равна нулю, так как меньшие значения у этой переменной не встречаются. В точке х=1 имеется разрыв величиной около 0,3, соответствующий тому, что около 30% больных при госпитализации имели нормальный цвет кожных покровов, и т.д.
Теперь проведем расчет для переменной vozrast
Видно, что в данном случае выраженных разрывов нет. Наибольшая «скорость подъема» графика – в районе около 50 лет, так как именно в этом возрасте больше всего госпитализированных.
Можно также строить подобные графики для подгрупп, определяемых значением другой переменной, однако это лучше видно, если выбрать не столбиковую, а линейную диаграмму. Для начала повторим построение функции распределения для возраста больных в целом. Для этого выполним команду Graph / Line, далее аналогично:
Теперь выполним команду Graph / Line и выберем вариант Multiple. Опять выберем в верхней части формы вариант «Cumulative % of cases», в качестве «Category Axis» выберем vozrast, а в качестве «Define Lines by» - pol:
Для этой переменной значение 1 соответствует мужчинам, 2 – женщинам, так что красная линия – функция распределения по возрасту для мужчин, и зеленая – для женщин. Из рисунка видно, что для каждого значения зеленая линия ниже красной, то есть для каждого значения возраста доля мужчин, которые моложе этого значения, больше, чем у женщин. Следовательно, распределение по возрасту для женщин сдвинуто на более старшие возраста.
Рассчитаем плотность распределения, для чего вместо «Cumulative % of cases» выберем «% of cases»:
Видно, что для расчета шаг в один год – слишком мелкий, и для более красивого графического представления желательно перейти к более крупному шагу, например, в 5 лет. Как это делать, мы проходили ранее. (Transform àCompute в Target Variable задаем имя новой переменной, например voz5, в Numeric Expression задаем формулу TRUNC(vozrast/5)*5)
Однако видимые на глаз различия функций распределения могут оказаться случайными. Для определения достоверности различий функции распределения между двумя подгруппами можно пользоваться разными статистическими критериями, наиболее популярными среди которых являются Колмогорова-Смирнова и Манна-Уитни.
Они близки по идеологии, обычно на больших группах лучше работает критерий Колмогорова-Смирнова, на небольших – Манна-Уитни.
При использовании этих тестов необходимо, чтобы исследуемая переменная была непрерывна. Поэтому при работе с сильно округленными переменными или переменными, имеющими значение типа легкий-средний-тяжелый, эти критерии рассчитывают достоверность различий некорректно.
Для их использования выполним команду Analize / Nonparametric Tests / 2 Independent Samples. Непрерывная переменная, у которой анализируется функция распределения, задается как Test Variable, а переменная, по значениям которой выделяются две подгруппы – как Grouping Variable:
Далее надо нажать кнопку «Define groups» и указать два числа, которыми кодировались значения переменной, по которой выделяются подгруппы. В этом файле мужчины кодировались как 1, женщины – как 2, поэтому вводим соответствующие значения и нажимаем «Continue»
Благодаря этому можно выделять две сравниваемые группы из переменной, имеющей большее количество значений, чем два, например, проводить анализ для группы крови.
После этого отмечаем «галочками» применение критериев Манна-Уитни и Колмогорова-Смирнова и нажимаем на кнопку «ОК».
В данном случае оба теста дали достоверные различия с p<0,001.