Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Коэффициенты связи. Диапазон их значений и интерпретация. Номинальные

Блок 2. Критерий Хи-квадрат

 

Формулировка и проверка статистических гипотез о взаимозависимости признаков с помощью статистики Хи-квадрат (критерий: Н0 и Н1).При вычислении Хи-квадрат проверяется гипотеза о том, что между переменными, допустим Занятость респондента и Семейное положение,связи нет (гипотеза Н0). Это означает, что процентные распределения по различным столбцам не отличаются друг от друга, а наблюдаемые отличия является чисто случайными. Статистика хи-квадрат измеряет общее различие между наблюдаемыми значениями в ячейках таблицы и теми значениями, которые были бы в этих ячейках, если бы процентные распределения в столбцах были бы одинаковыми. Большее значение статистики хи-квадрат указывает на большее различие между наблюдаемыми и ожидаемыми частотами в ячейках и в большей степени свидетельствует в пользу того, что процентные распределения по столбцам не являются равными, гипотеза о независимости переменных неверна, и, следовательно, переменные Занятость респондента и Семейное положение связаны между собой.

Полученное значение статистики хи-квадрат равняется ___. Еслиэто значение меньше, чем при заданном уровне значимости (обычно 0,05), Вы можете отвергнуть гипотезу о независимости на уровне 0,05 (это значение определяется по таблице χ2-распределения и зависит от уровня значимости и кол-ва степеней свобод). Таким образом, переменные Занятость респондента и Семейное положениесвязаны между собой (гипотеза Н1).

Формула для коэффициента Хи-квадрат.χ2-критерий с числом степеней свободы df = n – 1:

Н – наблюдаемая частота

О – ожидаемая частота

Диапазон значений. Значение Хи-квадрат может быть любым(и вроде в этом его главный недостаток). О значении хи-квадрат см.

Коэффициенты связи. Диапазон их значений и интерпретация. Номинальные.

Для номинальных данных (которые не имеют естественного порядка — например, католическое, протестантское, иудейское вероисповедание) можно выбрать одну из следующих статистик: Коэффициент сопряженности, Фи (коэффициент) и V Крамера, Лямбда, Коэффициент неопределенности.

· Коэфф. сопряженности. Мера связи, основанная на хи-квадрат. Это значение меняется между 0 и 1, причем 0 означает отсутствие связи между переменными строки и столбца, а значение, близкое к 1, — высокую степень связи между этими переменными. Максимально возможное значение зависит от числа строк и столбцов в таблице(это считается недостатком).

· Фи и параметр V Крамера. Мера связи, вычисляется делением статистики хи-квадрат на объем выборки и взятием корня квадратного из результата. V Крамера — это мера связи, основанная на статистике хи-квадрат.(по логике, раз корень из хи-квадрат, то от 0 до бесконечности)

· Лямбда. Мера связи, которая отражает относительное снижение ошибки, когда значения независимой переменной используются для предсказания значений зависимой переменной. Значение 1 означает, что независимая переменная точно предсказывает значения зависимой. Значение 0 означает, что независимая переменная абсолютно бесполезна для предсказания зависимой.

Порядковые. Для таблиц, в которых как строки, так и столбцы содержат упорядоченные значения —Гамма (нулевого порядка для двумерных таблиц и условное для таблиц размерности от 2 до 10), тау-b Кендалла и тау-cКендалла. Для предсказания категорий столбца по категориям строки — d Сомерса.

· Гамма.Мера связи между двумя порядковыми переменными, значения которой меняются между -1 и 1. Значения, близкие по абсолютной величине к 1, указывают на сильную связь переменных. Значения, близкие к 0, говорят о слабой связи или ее отсутствии. Для таблиц сопряженности двух переменных вычисляется гамма нулевого порядка. Если же таблица сопряженности включает более двух переменных, для каждой подтаблицы вычисляется условная гамма.

· d Сомерса. Мера связи между двумя порядковыми переменными, изменяется между –1 и 1. Значения, близкие по абсолютной величине к 1, указывают на сильную связь между двумя переменными, а значения, близкие к 0, — на слабую связь или ее отсутствие.

· Тау-bКендалла. Непараметрическая мера корреляции для порядковых или ранговых переменных, которая учитывает возможные совпадения значений (связи). Знак коэффициента указывает направление связи, а его модуль — силу связи, причем, чем он больше, тем связь сильнее. Значения изменяются в диапазоне между -1 и +1, однако -1 и +1 можно получить только для квадратных таблиц.

· Тау-cКендалла. Непараметрическая мера связи для порядковых переменных, игнорирующая возможные совпадения значений (связи). Знак коэффициента указывает направление связи, а его модуль — силу связи, причем, чем он больше, тем связь сильнее. Значения изменяются в диапазоне между -1 и +1, однако -1 и +1 можно получить только для квадратных таблиц.

Номин./интерв. В ситуации, когда одна из переменных категориальная , а другая — количественная, выберите статистику Эта. Значения категориальной переменной должны быть закодированы числами.

· Эта. Мера связи между переменными строки и столбца, значения которой изменяются от 0 (отсутствие связи) до 1 (сильная связь). Индикатор Эта подходит для зависимой переменной, измеренной в интервальной шкале (такой, как доход) и независимой переменной с ограниченным числом категорий (такой, как возраст). Вычисляются два значенияЭта: одно рассматривает переменную строки как интервальную переменную, а другое — переменную столбца как интервальную переменную.

 

Уточнение связи с помощью введения третьей переменной.Вся суть заключается в следующем (связь между третьей переменной и первой и второй осуществляется также, как между первой и второй):

Типы шкал при построении таблиц сопряженности.См. выше. + Примечание: Порядковые переменные должны иметь или числовые значения, представляющие категории (например, 1=низкий, 2=средний, 3=высокий), или текстовые значения. Однако предполагается, что алфавитный порядок строковых значений отражает истинный порядок категорий. Например, для строковой переменной со значениями низкий, средний, высокий интерпретируемый порядок категорий следующий: высокий, низкий, средний, что не соответствует правильному порядку. Вообще говоря, для представления порядковых данных более надежно использовать числовые коды.

Ожидаемые и наблюдаемые частоты, технические ограничения.Наблюдаемые частоты — частоты, полученные по выборке. Ожидаемые частоты — частоты, полученные путем вычисленияна основе теоретических представлений о предполагаемомраспределении.Необходимые условия: 1. Выборка случайна. 2. Наблюдаемая частота должна быть не меньше 5.

Пример:

Наблюдаемые частоты:

Ожидаемые (теоретические) частоты:

И т.д.

Зачем это всё нужно?

Вот зачем:

И мы получим Хи-квадрат.

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.