Коэффициенты связи. Диапазон их значений и интерпретация. Номинальные
Блок 2. Критерий Хи-квадрат
Формулировка и проверка статистических гипотез о взаимозависимости признаков с помощью статистики Хи-квадрат (критерий: Н0 и Н1).При вычислении Хи-квадрат проверяется гипотеза о том, что между переменными, допустим Занятость респондента и Семейное положение,связи нет (гипотеза Н0). Это означает, что процентные распределения по различным столбцам не отличаются друг от друга, а наблюдаемые отличия является чисто случайными. Статистика хи-квадрат измеряет общее различие между наблюдаемыми значениями в ячейках таблицы и теми значениями, которые были бы в этих ячейках, если бы процентные распределения в столбцах были бы одинаковыми. Большее значение статистики хи-квадрат указывает на большее различие между наблюдаемыми и ожидаемыми частотами в ячейках и в большей степени свидетельствует в пользу того, что процентные распределения по столбцам не являются равными, гипотеза о независимости переменных неверна, и, следовательно, переменные Занятость респондента и Семейное положение связаны между собой.
Полученное значение статистики хи-квадрат равняется ___. Еслиэто значение меньше, чем при заданном уровне значимости (обычно 0,05), Вы можете отвергнуть гипотезу о независимости на уровне 0,05 (это значение определяется по таблице χ2-распределения и зависит от уровня значимости и кол-ва степеней свобод). Таким образом, переменные Занятость респондента и Семейное положениесвязаны между собой (гипотеза Н1).
Формула для коэффициента Хи-квадрат.χ2-критерий с числом степеней свободы df = n – 1:
Н – наблюдаемая частота
О – ожидаемая частота
Диапазон значений. Значение Хи-квадрат может быть любым(и вроде в этом его главный недостаток). О значении хи-квадрат см.
Коэффициенты связи. Диапазон их значений и интерпретация. Номинальные.
Для номинальных данных (которые не имеют естественного порядка — например, католическое, протестантское, иудейское вероисповедание) можно выбрать одну из следующих статистик: Коэффициент сопряженности, Фи (коэффициент) и V Крамера, Лямбда, Коэффициент неопределенности.
· Коэфф. сопряженности. Мера связи, основанная на хи-квадрат. Это значение меняется между 0 и 1, причем 0 означает отсутствие связи между переменными строки и столбца, а значение, близкое к 1, — высокую степень связи между этими переменными. Максимально возможное значение зависит от числа строк и столбцов в таблице(это считается недостатком).
· Фи и параметр V Крамера. Мера связи, вычисляется делением статистики хи-квадрат на объем выборки и взятием корня квадратного из результата. V Крамера — это мера связи, основанная на статистике хи-квадрат.(по логике, раз корень из хи-квадрат, то от 0 до бесконечности)
· Лямбда. Мера связи, которая отражает относительное снижение ошибки, когда значения независимой переменной используются для предсказания значений зависимой переменной. Значение 1 означает, что независимая переменная точно предсказывает значения зависимой. Значение 0 означает, что независимая переменная абсолютно бесполезна для предсказания зависимой.
Порядковые. Для таблиц, в которых как строки, так и столбцы содержат упорядоченные значения —Гамма (нулевого порядка для двумерных таблиц и условное для таблиц размерности от 2 до 10), тау-b Кендалла и тау-cКендалла. Для предсказания категорий столбца по категориям строки — d Сомерса.
· Гамма.Мера связи между двумя порядковыми переменными, значения которой меняются между -1 и 1. Значения, близкие по абсолютной величине к 1, указывают на сильную связь переменных. Значения, близкие к 0, говорят о слабой связи или ее отсутствии. Для таблиц сопряженности двух переменных вычисляется гамма нулевого порядка. Если же таблица сопряженности включает более двух переменных, для каждой подтаблицы вычисляется условная гамма.
· d Сомерса. Мера связи между двумя порядковыми переменными, изменяется между –1 и 1. Значения, близкие по абсолютной величине к 1, указывают на сильную связь между двумя переменными, а значения, близкие к 0, — на слабую связь или ее отсутствие.
· Тау-bКендалла. Непараметрическая мера корреляции для порядковых или ранговых переменных, которая учитывает возможные совпадения значений (связи). Знак коэффициента указывает направление связи, а его модуль — силу связи, причем, чем он больше, тем связь сильнее. Значения изменяются в диапазоне между -1 и +1, однако -1 и +1 можно получить только для квадратных таблиц.
· Тау-cКендалла. Непараметрическая мера связи для порядковых переменных, игнорирующая возможные совпадения значений (связи). Знак коэффициента указывает направление связи, а его модуль — силу связи, причем, чем он больше, тем связь сильнее. Значения изменяются в диапазоне между -1 и +1, однако -1 и +1 можно получить только для квадратных таблиц.
Номин./интерв. В ситуации, когда одна из переменных категориальная , а другая — количественная, выберите статистику Эта. Значения категориальной переменной должны быть закодированы числами.
· Эта. Мера связи между переменными строки и столбца, значения которой изменяются от 0 (отсутствие связи) до 1 (сильная связь). Индикатор Эта подходит для зависимой переменной, измеренной в интервальной шкале (такой, как доход) и независимой переменной с ограниченным числом категорий (такой, как возраст). Вычисляются два значенияЭта: одно рассматривает переменную строки как интервальную переменную, а другое — переменную столбца как интервальную переменную.
Уточнение связи с помощью введения третьей переменной.Вся суть заключается в следующем (связь между третьей переменной и первой и второй осуществляется также, как между первой и второй):
Типы шкал при построении таблиц сопряженности.См. выше. + Примечание: Порядковые переменные должны иметь или числовые значения, представляющие категории (например, 1=низкий, 2=средний, 3=высокий), или текстовые значения. Однако предполагается, что алфавитный порядок строковых значений отражает истинный порядок категорий. Например, для строковой переменной со значениями низкий, средний, высокий интерпретируемый порядок категорий следующий: высокий, низкий, средний, что не соответствует правильному порядку. Вообще говоря, для представления порядковых данных более надежно использовать числовые коды.
Ожидаемые и наблюдаемые частоты, технические ограничения.Наблюдаемые частоты — частоты, полученные по выборке. Ожидаемые частоты — частоты, полученные путем вычисленияна основе теоретических представлений о предполагаемомраспределении.Необходимые условия: 1. Выборка случайна. 2. Наблюдаемая частота должна быть не меньше 5.