3. Определение достоверности отличия полученной оценки коэффициента корреляции от ожидаемого значения 8
4. Расчет доверительных границ к коэффициенту корреляции. 11
5. Определение достоверности различий двух оценок коэффициента корреляции. 16
6. Расчет частных коэффициентов корреляций. 18
ЗАНЯТИЕ №8
Расчет коэффициента корреляции.
Для поиска связи между «истинно числовыми» случайными величинами используется коэффициент корреляции, который определяется как
.
Коэффициент корреляции - это статистический показатель вероятностной связи между двумя переменными. Величина коэффициента корреляции колеблется в пределах от -1 до +1, и показывает величину и направление линейной связи. Если увеличение одной переменной в целом соответствует увеличению другой переменной, то коэффициент корреляции положителен. Если увеличение одной переменной в среднем соответствует уменьшению другой переменной, то коэффициент корреляции отрицателен.
Например, для детей коэффициент корреляции между возрастом и количеством зубов положителен, а для взрослых – отрицателен.
Для независимых случайных величин коэффициент корреляции равен нулю. Обратное неверно – если связь немонотонна, то коэффициент корреляции может быть равен нулю даже для сильно связанных переменных.
В SPSS для расчета коэффициента корреляции можно выполнить команду Analyze / Correlate / Bivariate и выбрать интересующие нас переменные. В результате получается таблица следующего вида (первой переменной стоит «Умер»):
Таблица 1 Рассчет коэффицентов корреляций
На диагонали стоят единичные корреляции, так как корреляция с собой – самая сильная положительная корреляция. Таблица симметрична, так как корреляции А и Б те же, что Б и А.
В каждой ячейке таблицы стоит три числа. Верхнее – коэффициент корреляции переменных по столбцам и строкам, среднее – достоверность отличия от 0, нижнее – количество исследуемых пар.
В приведенном примере присутствует сильная корреляция, поэтому коэффициенты, для которых р < 0,001 (cверхзначимые) помечены **. Одной * помечены коэффициенты корреляции c p < 0,05 незначительно. Значение коэффициента корреляции близкое к нулю говорит о том, переменные невзаимосвязаны с достоверностью отличия p больше 0,05.
Например, для переменной «Умер» коэффициент корреляции с полом (sex of patient) от нуля статистически не отличается, что говорит о том, что у мужчин и женщин летальность примерно одинаковая. Коэффициент корреляции с возрастом (age of patient) +0,112, то есть с возрастом летальность постепенно увеличивается. С годом исследования (year of study) достоверной корреляции нет, то есть тенденции к повышению или понижению летальности в процессе исследования, занявшего несколько лет, не выявлено.
С переменной «Помутненное сознание» (decreased lever of consciousness) коэффициент корреляции сильный отрицательный, -0,736, но надо учитывать, что для переменной «Умер» кодировка была 0 = выжил, 1 = умер, а для спутанного сознания кодировка была неудачна: 1=да, 2=нет. Поэтому наличие спутанного сознания – неблагоприятный признак.
Из таблицы также следует, что неблагоприятными признаками являются повышение частоты дыхания (respiratory rate) и пульса (pulse of the patient in minuite) и снижение артериального давления (systolic blood pressure).
Отсутствие корреляции с температурой (temperature of the patient) означает, что средняя температура у умерших и выживших одинакова, однако тонкости при анализе этой связи мы уже обсуждали.
Как видно, считать корреляции технически очень просто, в том числе и для переменных типа «да-нет», однако полученные величины не очень информативны. Поэтому для таких переменных найденные при помощи коэффициента корреляции связи лучше давать в более понятном для врача виде. Например, для связи частоты дыхания и исхода – рассчитать среднюю частоту дыхания для выживших и умерших, а для связи наличия спутанного сознания и исхода – рассчитать летальность у больных со спутанным и ясным сознанием.