Предположим, что у нас есть два качественных признака, характеризующие обследованных лиц. Занесем эти данные в таблицу сопряженности 35
Таблица 35. Таблица сопряженности
Первый признак (первая градация)
Первый признак (вторая градация)
Всего
Второй признак (первая градация)
Частота встречаемостиa
Частота встречаемостиb
a +b
Второй признак (вторая градация)
Частота встречаемостиc
Частота встречаемостиd
с+d
n1=a+c
n2=b+d
n =a+b+c+d
Критерий хи-квадрат Пирсона вычисляется по формуле
(29)
Но для таблицы 2х2 более точные результаты дает критерий с поправкой Йетса
(30)
Его критическое значение находится для заданного уровня значимости α и числа степеней свободы f=(n-1)(m-1), где n и m число строк и число столбцов в таблице сопряженности (Приложение 5).
Если то Н(0) принимается,
В случае принимается Н(1)
Когда число наблюдений невелико и в клетках таблицы встречается частота меньше 5, критерий хи-квадрат неприменим и для проверки гипотез используется точный критерий Фишера. Процедура вычисления этого критерия достаточно трудоемка и в этом случае лучше воспользоваться компьютерными программами статанализа.
По таблице сопряженности можно вычислить меру связи между двумя качественными признаками – ею является коэффициент ассоциации Юла Q (аналог коэффициента корреляции)
(31)
Q лежит в пределах от 0 до 1. Близкий к единице коэффициент свидетельствует о сильной связи между признаками. При равенстве его нулю – связь отсутствует.
Аналогично используется коэффициент фи-квадрат (φ2)
(32)
В примере с беременными, страдающими преэклампсией, была получена следующая таблица сопряженности 36
Таблица 36. Данные к примеру
Преэклампсия есть
Преэклампсии нет
Всего в строке
Ожирение есть
120 (a)
140 (b)
Ожирения нет
332 (c)
1520 (d)
Всего в столбце
Н(0): наличие у беременной выраженного ожирения не влияет на риск возникновения преэклампсии
Н(1): наличие у беременной выраженного ожирения увеличивает риск возникновения преэклампсии
Выберем уровень значимости: α=0,05
для α=0,05 и f=(n-1)(m-1)=1
Т.к. принимается Н(1)
Вывод: наличие у беременной выраженного ожирения статистически значимо (с вероятностью не менее 95%) увеличивает риск возникновения преэклампсии.
А теперь рассмотрим клиническую значимость влияния фактора ожирения на протекание беременности. Из таблицы сопряженности можно посчитать, что доля лиц с ожирением среди тех, у кого нет преэклампсии, составляет 140/1660*100%=8,4%. Среди лиц с преэклампсией эта доля 26,5%, разница составляет 18,1%. Это выборочная разница и для нее необходимо определить 95% доверительный интервал. Как это сделать мы уже рассматривали. После расчетов получаем, что генеральная разница лежит в пределах от 13,8% до 22,4%. Даже нижний предел ДИ свидетельствует о клинической значимости этих различий.
Коэффициент ассоциации Юла Q=0,6 указывает на среднюю по силе связь между фактором риска и предродовым осложнением.
Эти же данные, обработанные в программе STATISTICA (модуль «непараметрическая статистика, таблицы 2×2»)
Таблица 37. Результаты статобработки
Столбец 1
Столбец 2
Всего
Частоты, стро
а 1
% случаев
5,7 %
6,6 %
12,3 %
Частоты, строка 2
% случаев
15,7 %
72 %
87,76 %
Всего
% всего
21,4 %
78,6 %
Хи-квадрат (f=1)
107,99
p=0,0000
Поправка Йетса
106,32
p=0,0000
Фи-квадрат
,05113
Точный
ритерий Фишера, одностор.
----
Точный критерий Фишера, двустор.
----
Хи-квадрат Макнемара
1193,42
p=0,0000
Таблицы сопряженности могут иметь и более сложный вид, когда каждый признак имеет более двух градаций. Нулевая гипотеза заключается в отсутствии связи между этими признаками. Ниже приведен пример подобного случая – нужно выяснить есть ли взаимосвязь между профессией и обращаемостью к врачу.
Таблица 38. Таблица сопряженности 3х4
профессия
всего
обращаемость к врачу
строители
шахтеры
учителя
госслужащие
до 3 в год
от 4 до 6 в год
более 6 в год
всего
Анализ таких таблиц также предпочтительно проводить с использованием компьютерных программ.