Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

I Описание распределения непрерывных случайных величин и определение достоверности различий функций распределения критериями Колмогорова-Смирнова и Манна-Уитни



 

В том случае, если исследуемая случайная величина принимает только несколько значений, то для ее описания достаточно задать вероятности отдельных значений, и определение независимости двух таких случайных величин можно исследовать при помощи теста «хи-квадрат».

Однако если переменная может принимать бесконечно много разных значений (или хотя бы достаточно много), то описание путем задания вероятности каждого отдельного значения оказывается малопродуктивным. При использовании критерия «хи-квадрат» появляются как технические, так и содержательные проблемы.

Технические проблемы связаны с тем, что количество отдельных комбинаций признаков оказываются слишком большим. Действительно, пусть мы исследуем связь систолического артериального давления и возраста. Если испытуемые – люди в пределах от 14 до 90 лет, то всего имеется 77 вариантов значений. Если же артериальное давление встречается в пределах от 90 до 200 мм.рт.ст. и измеряется с шагом в 5 единиц, то это дает 23 разных варианта. Итого имеется 77´23=1771 комбинация, причем нужно, чтобы все комбинации, даже редкие, были в достаточном количестве.

Вторая проблема связана с тем, что при тесте «хи-квадрат» не учитываются величины, которыми закодированы отдельные значения. Например, не учитывается, что возраст 20 и 21 год ближе, чем 14 и 90. Поэтому если есть тенденция к увеличению давления с возрастом, то тест «хи-квадрат» не будет ее «складывать» и «не почувствует». А если и «почувствует», то будет непонятно, каков характер связи исследуемых случайных величин.

Поэтому для описания характера распределения «истинно числовых» случайных величин и поиска их связей используются другие методы.

Если у нас имеется числовая случайная величина x, то для описания ее распределения достаточно задать функцию Fx(x)=P(x<x). Она называется функцией распределения.

Это – универсальный способ задания распределения числовых случайных величин. Если случайная величина x дискретна, то есть принимает значения x1,…,xn с вероятностями p1,…,pn, то ее функция распределения будет кусочно-постоянна, иметь вид «ступенек» и иметь разрывы в точках x1,…,xn величины p1,…,pn. Разрыв в некоторой точке функции распределения означает, что это значение принимается с вероятностью, равной величине разрыва.

Если же функция распределения не имеет разрывов, то соответствующая случайная величина называется непрерывной. Производная функции распределения называется плотностью распределения, .

Если наблюдаемым проявлением вероятности события является частота, то наблюдаемым проявлением функции распределения будет частота нарастающим итогом, а наблюдаемым аналогом плотности распределения будет частота.

Откроем файл jazvasi и выполним команду Graph / Bar , выберем вариант Simple и нажмем кнопку Define. Выберем переменную kogaokr , а в верхней части формы выберем вариант «Cumulative % of cases». В результате получим:

 

Видно, что для значений x<1 функция распределения равна нулю, так как меньшие значения у этой переменной не встречаются. В точке х=1 имеется разрыв величиной около 0,3, соответствующий тому, что около 30% больных при госпитализации имели нормальный цвет кожных покровов, и т.д.

Теперь проведем расчет для переменной vozrast

Видно, что в данном случае выраженных разрывов нет. Наибольшая «скорость подъема» графика – в районе около 50 лет, так как именно в этом возрасте больше всего госпитализированных.

Можно также строить подобные графики для подгрупп, определяемых значением другой переменной, однако это лучше видно, если выбрать не столбиковую, а линейную диаграмму. Для начала повторим построение функции распределения для возраста больных в целом. Для этого выполним команду Graph / Line, далее аналогично:

Теперь выполним команду Graph / Line и выберем вариант Multiple. Опять выберем в верхней части формы вариант «Cumulative % of cases», в качестве «Category Axis» выберем vozrast, а в качестве «Define Lines by» - pol:

Для этой переменной значение 1 соответствует мужчинам, 2 – женщинам, так что красная линия – функция распределения по возрасту для мужчин, и зеленая – для женщин. Из рисунка видно, что для каждого значения зеленая линия ниже красной, то есть для каждого значения возраста доля мужчин, которые моложе этого значения, больше, чем у женщин. Следовательно, распределение по возрасту для женщин сдвинуто на более старшие возраста.

Рассчитаем плотность распределения, для чего вместо «Cumulative % of cases» выберем «% of cases»:

Видно, что для расчета шаг в один год – слишком мелкий, и для более красивого графического представления желательно перейти к более крупному шагу, например, в 5 лет. Как это делать, мы проходили ранее. (Transform àCompute в Target Variable задаем имя новой переменной, например voz5, в Numeric Expression задаем формулу TRUNC(vozrast/5)*5)

Однако видимые на глаз различия функций распределения могут оказаться случайными. Для определения достоверности различий функции распределения между двумя подгруппами можно пользоваться разными статистическими критериями, наиболее популярными среди которых являются Колмогорова-Смирнова и Манна-Уитни.

Они близки по идеологии, обычно на больших группах лучше работает критерий Колмогорова-Смирнова, на небольших – Манна-Уитни.

При использовании этих тестов необходимо, чтобы исследуемая переменная была непрерывна. Поэтому при работе с сильно округленными переменными или переменными, имеющими значение типа легкий-средний-тяжелый, эти критерии рассчитывают достоверность различий некорректно.

Для их использования выполним команду Analize / Nonparametric Tests / 2 Independent Samples. Непрерывная переменная, у которой анализируется функция распределения, задается как Test Variable, а переменная, по значениям которой выделяются две подгруппы – как Grouping Variable:

Далее надо нажать кнопку «Define groups» и указать два числа, которыми кодировались значения переменной, по которой выделяются подгруппы. В этом файле мужчины кодировались как 1, женщины – как 2, поэтому вводим соответствующие значения и нажимаем «Continue»

Благодаря этому можно выделять две сравниваемые группы из переменной, имеющей большее количество значений, чем два, например, проводить анализ для группы крови.

После этого отмечаем «галочками» применение критериев Манна-Уитни и Колмогорова-Смирнова и нажимаем на кнопку «ОК».

В данном случае оба теста дали достоверные различия с p<0,001.

 

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.