Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Обоснование задачи сравнения распределений признака

Распределения могут различаться по средним, дисперсиям, асим­метрии, эксцессу и по сочетаниям этих параметров. Рассмотрим несколько примеров.

На рисунке представлены два распределения признака. Распределение 1 характеризуется меньшим диапазоном вариативности и меньшей дисперсией, чем распределение 2. В распределении 1 чаще встречаются значения признака, близкие к средней, а в распределении 2 чаще встре­чаются более высокие и более низкие, чем средняя, значения признака.

 

Кривые распределения признака с меньшим диапазоном вариативности признака (1) и большим диапазоном распределения признака (2); х – значения признака; f – относительная частота их встречаемости

 

Именно такое соотношение может наблюдаться в распределении фенотипических признаков у мужчин (кривая 2) и женщин (кривая 1). Фенотипическая дисперсия мужского пола должна быть больше, чем женского. Мужчины – это авангардная часть популяции, ответственная за поиск новых форм приспособления, поэтому у них чаще встречаются редкие крайние значения различных фенотипических признаков.

В то же время женская часть популяции ответственна за сохранение уже накопленных изменений, поэтому у них чаще встречаются средние значения фенотипических признаков.

Анализ реально получаемых в исследованиях распределений может позволить нам подтвердить или опровергнуть данные теоретические предположения.

На рисунке представлены два распределения, различающиеся по знаку асимметрии: распределение 1 характеризуется положительной асимметрией (левосторонней), а распределение 2 – отрицательной (правосторонней).

Данные кривые могут отражать распределение времени решения простой задачи (кривая 1) и трудной задачи (кривая 2). Простую задачу большинство испытуемых решают быстро, поэтому большая часть значений группируется слева. В то же время сама простота задачи может привести к тому, что некоторые испытуемые будут думать над нею очень, очень долго, дольше даже, чем над сложной.

 

Кривые распределений признака с положительной (левосторонней) асимметрией (1) и отрицательной (правосторонней) асимметрией (2), х – значения признака; f – относительная частота их встречаемости

 

Трудную задачу большинство испытуемых решают в тенденции дольше, чем простую, но в то же время почти всегда находятся люди, которые решают ее мгновенно.

Если мы докажем, что распределения статистически достоверно различаются, это может стать основой для построения классификаций задач и типологий испытуемых.

Часто бывает полезно также сопоставить полученное эмпирическое распределение с теоретическим распределением. Например, для того, чтобы доказать, что оно подчиняется или, наоборот, не подчиняется нормальному закону распределения. В практических целях эмпирические распределения должны проверяться на «нормальность» в тех случаях, когда мы намерены использовать параметрические методы и критерии.

Традиционные для отечественной математической статистики критерии определения расхождения или согласия распределении – это метод К. Пирсона и критерий λ Колмогорова-Смирнова. Они незаменимы в следующих двух случаях:

1) в задачах, требующих доказательства неслучайности предпочтений в выборе из нескольких альтернатив;

2) в задачах, требующих обнаружения точки максимального расхождения между двумя распределениями, которая затем используется для перегруппировки данных с целью применения критерия φ* (углового преобразования Фишера).

 

– критерий Пирсона

Назначение критерия

Критерий применяется в двух случаях:

1) для сопоставления эмпирического распределения признака с теоре­тическим – равномерным, нормальным или каким-то иным,

2) для сопоставления двух, трех или более эмпирических распределений одного и того же признака*

Описание критерия

Критерий отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.

Преимущество метода состоит в том, что он позволяет сопоставлять распределения признаков, представленных в любой шкале, начиная от шкалы наименований. В самом простом случае альтернативного распределения «да – нет», «допустил брак – не допустил брака», «решил задачу – не решил задачу» и т. п. мы уже можем применить критерий .

Гипотезы

Возможны несколько вариантов гипотез, в зависимости от задач, которые мы перед собой ставим.

Первый вариант:

Н0: Полученное эмпирическое распределение признака не отличается от теоретического (например, равномерного) распределения.

H1: Полученное эмпирическое распределение признака отличается от теоретического распределения.

Второй вариант:

Н0: Эмпирическое распределение 1 не отличается от эмпирического распределения 2.

H1: Эмпирическое распределение 1 отличается от эмпирического рас­пределения 2.

Третий вариант:

Н0: Эмпирические распределения 1, 2, 3, ... не различаются между собой.

H1: Эмпирические распределения 1, 2, 3, ... различаются между собой.

Критерий позволяет проверить все три варианта гипотез.

 

Ограничения критерия

  1. Объем выборки должен быть достаточно большим . При критерий дает весьма приближенные значения. Точность критерия повышается при больших п.
  2. Теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: . Это означает, что если число разрядов задано заранее и не может быть изменено, то мы не можем применять метод , не накопив определенного минимального числа наблюдений. (Если, например, мы хотим проверить наши предположения о том, что частота обращений в телефонную службу Доверия неравномерно распределяются по 7 дням недели, то нам потребуется обращений. Таким образом, если количество разрядов (k) задано зара­нее, как в данном случае, минимальное число наблюдений (nmin) оп­ределяется по формуле: ).
  3. Выбранные разряды должны «вычерпывать» все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопостав­ляемых распределениях.
  4. Необходимо вносить «поправку на непрерывность» при сопоставле­ии распределений признаков, которые принимают всего 2 значения. При внесении поправки значение уменьшается.
  5. Разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может быть отнесено ни к какому другому разряду. Сумма наблюдений по разрядам всегда должна быть равна общему количеству наблюдений.

Алгоритм расчета критерия

1 Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты (первый столбец).

2 Рядом с каждой эмпирической частотой записать теоретическую частоту (второй столбец).

3 Подсчитать разности между эмпирической и теоретической частотой по каждому разряду (строке) и записать их в третий столбец.

4 Определить число степеней свободы по формуле: , где k – количество разрядов признака. Если , внести поправку на «непрерывность».

5 Возвести в квадрат полученные разности и занести их в четвертый столбец.

6 Разделить полученные квадраты разностей на теоретическую часто­ту и записать результаты в пятый столбец.

7 Просуммировать значения пятого столбца. Полученную сумму обо­значить как .

8 Определить по таблице приложения критические значения для данного числа степеней свободы .

Если меньше критического значения, расхождения между распределениями статистически недостоверны.

Если равно критическому значению или превышает его, рас­хождения между распределениями статистически достоверны.

Шутливый пример

В гениальной комедии Н. В. Гоголя "Женитьба" у купеческой дочери Агафьи Тихоновны было пятеро женихов. Одного она сразу исключила из рассмотрения, потому что он был купеческого звания, как и она сама. А из остальных она не знала, кого выбрать. Она положила бумажки с четырьмя именами в ридикюль, пошарила рукою в ридикюле и вынула вместо одного – всех!

Ей хотелось, чтобы жених совмещал в себе достоинства всех четверых, и, вынимая все бумажки вместо одной, она бессознательно совершала процедуру выведения средней величины. Но вывести среднюю величину из четверых людей невозможно, и Агафья Тихоновна в смя­ении. Она влюблена, но не знает, в кого.

С помощью критерия можно было бы попробовать установить, в кого больше влюблена Агафья Тихоновна. Но для этого нам не нужно измерять губы Никанора Ивановича или нос Ивана Кузьмича, или объем талии дородного экзекутора Ивана Павловича; не нужно нам и пускаться на какие-нибудь опасные эксперименты, чтобы определить, насколько далеко простирается развязность Балтазара Балтазарыча. Мы эти их достоинства принимаем как данность потому лишь, что они нравятся Агафье Тихоновне. Мы принимаем их за разряды одного и того же признака, например, направ­ленности взгляда Агафьи Тихоновны: сколько раз она взглянула на губы Никанора Ивановича? На нос Ивана Кузьмича? Благосклонно взирала на дородного Ивана Павловича или развязного Балтазара Балтазаровича? Внимательная сваха или тетушка вполне могла бы этот признак наблюдать. Допустим, за полчаса смотрин ею зафиксированы следующие наблюдения.

Агафья Тихоновна:

сидела с опущенными глазами благосклонно смотрела на Никанора Ивановича благосклонно смотрела на Ивана Кузьмича благосклонно смотрела на Ивана Павловича благосклонно смотрела на Балтазара Балтазарыча 25 минут 14 раз; 5 раз; 8 раз; 5 раз.

Представим это в виде таблицы.

 

Распределение взгляда Агафьи Тихоновны между 4 женихами

Женихи Никанор Иванович Иван Кузьмич Иван Павлович Балтазар Балтаэарыч Всего взглядов
Количество взглядов

 

Теперь нам нужно сопоставить полученные эмпирические частоты с теоретическими. Если Агафья Тихоновна никому не отдает предпочтения, то данное распределение показателя направленности ее взгляда не будет отличаться от равномерного распределения: она на всех смотрит примерно с одинаковой частотой. Но если достоинства одного из женихов чаще притягивают ее взор, то это может быть основанием для матримониального решения.

Гипотезы

Н0: Распределение взглядов Агафьи Тихоновны между женихами не отличается от равномерного распределения.

H1: Распределение взглядов Агафьи Тихоновны между женихами отли­чается от равномерного распределения.

Теперь нам нужно определить теоретическую частоту взгляда при равномерном распределении. Если бы все взгляды невесты распределялись равномерно между 4-мя женихами, то, по-видимому, каждый из них получил бы по ¼ всех взглядов.

Переведем эти рассуждения на более формализованный язык. Теоретическая частота при сопоставлении эмпирического распределения с равномерным определяется по формуле:

где п – количество наблюдении;

k – количество разрядов признака.

В нашем случае признак – взгляд невесты, направленный на кого-либо из женихов; количество разрядов признака равно 4 (направления взгляда по количеству женихов); количество наблюдений – 32.

Итак, в нашем случае:

Теперь мы будем сравнивать с этой теоретической частотой все эмпирические частоты.

На рисунке сопоставления эмпирических частот с теоретической представлены графически.

Сопоставление эмпирических частот взгляда Агафьи Тихоновны на каждого из женихов (столбики гистограммы) с теоретической частотой (горизонтальная планка); темной штриховкой отмечены области расхождений между эмпирическими н теоретическими частотами

 

Похоже, что области расхождений достаточно значительны, и Никанор Иванович явно опережает других женихов. Иван Павлович еще может на что-то надеяться, но для Ивана Кузьмича и Балтазара Балтазарыча отставка, по-видимому, неизбежна.

Однако для того, чтобы доказать неравномерность полученного эмпирического распределения, нам необходимо произвести точные расчеты. В методе они производятся с точностью до сотых, а иногда и до тысячных долей единицы.

 

Расчет критерия при сопоставлении эмпирического распределения взгляда Агафьи Тихоновна между женихами с равномерным распределением

 

Разряды – женихи
Никанор Иванович 4,500
Иван Кузьмич -3 1,125
Иван Павлович 0,000
Балтазар Балтазарыч -3 1,125
Суммы   6,750

 

Необходимо также всякий раз убеждаться в том, что сумма разностей между эмпирическими и теоретической частотами (сумма по третьему столбцу) равна 0. Если это равенство не соблюдается, это означает, что в подсчете частот или разностей допущена ошибка. Необходимо найти и устранить ее прежде, чем переходить к дальнейшим расчетам.

Алгоритм вычислений, таким образом, выражается формулой:

где fiэ – эмпирическая частота по i-тому разряду признака;

fт – теоретическая частота;

i – порядковый номер разряда;

k – количество разрядов признака.

В данном случае:

Для того, чтобы установить критические значения , нам нужно определить число степеней свободы по формуле , где k – количество разрядов.

В нашем случае .

По таблице приложения определяем:

Построим «ось значимости». Чем больше отклонения эмпирических частот от теоретической, тем больше будет величина . Поэтому зона значимости располагается справа, а зона незначимости – слева.

К сожалению, на основании этих данных тетушка не сможет дать Агафье Тихоновне обоснованного ответа:

Ответ: Но принимается. Распределение взгляда Агафьи Тихоновны между женихами не отличается от равномерного распределения.

 

Но, допустим, тетушка на этом не успокоилась. Она стала внимательно следить за тем, сколько раз племянница упомянет в разговоре каждого из женихов. Допустим, ею получено следующее распределение упоминаний Агафьей Тихоновной женихов и их достоинств:

Никанор Иванович Иван Кузьмич Иван Павлович Балтазар Балтазарыч 15 раз; 6 раз; 9 раз; 6 раз.

Тетушка уже видит, что похоже, Никанор Иванович пользуется большей благосклонностью Агафьи Тихоновны, чем все остальные женихи. У нее есть два пути, чтобы это доказать статистически:

1) Суммировать все проявления благосклонности со стороны невесты: взгляды + упоминания в разговоре, – и сопоставить полученное рас­пределение с равномерным. Поскольку количество наблюдений возросло, есть шанс, что различия окажутся достоверными.

2) Сопоставить два эмпирических распределения – взгляда и упоминаний в разговоре, – с тем, чтобы показать, что они совпадают между собой, то есть и во взглядах, и в словах Агафья Тихоновна придерживается одинаковой системы предпочтений.

Проанализируем оба варианта сопоставлений. В первом случае мы будем решать уже известную нам задачу сопоставления эмпирического распределения с теоретическим. Во втором случае мы будем сопоставлять два эмпирических распределения.

Первый вариант развития шутливого примера: увеличение количества наблюдений

Вначале создадим таблицу эмпирических частот, в которой будут суммированы все замеченные проявления благосклонности невесты.

Распределение проявлений благосклонности невесты между женихами

Женихи Никанор Иванович Иван Кузьмич Иван Павлович Балтазар Балтазарыч Всего
Количество проявлений

Теперь сформулируем гипотезы.

Н0: Распределение проявлений благосклонности невесты (взгляды и упоминания в разговоре) не отличается от равномерного распределения.

Н1: Распределение проявлений благосклонности невесты отличается от равномерного распределения.

Все расчеты произведем в таблице по алгоритму.

Расчет критерия при сопоставлении проявлений благосклонности Агафьи Тихоновны с равномерным распределением

Разряды – женихи
Никанор Иванович 8,471
Иван Кузьмич -6 2,118
Иван Павлович 0,000
Балтазар Балтазарыч -6 2,118
Суммы   12,707

Ответ: Н0 отклоняется, Н1 принимается. Распределение проявлений благосклонности невесты между женихами отличается от равномерного распределения.

На этом примере мы убедились, что увеличение числа наблюдений повышает достоверность результата, если, конечно, в новых наблюдениях воспроизводится прежняя тенденция различий.

Второй вариант развития шутливого примера: сопоставление двух эмпирических распределений

Теперь мы должны ответить на вопрос, одинаковая ли система предпочтений проявляется во взгляде Агафьи Тихоновны и ее словах?

Сформулируем гипотезы.

Н0: Распределения невербально и вербально выражаемых предпочтений не различаются между собой.

Н1: Распределения невербально и вербально выражаемых предпочтений различаются между собой.

Для подсчета теоретических частот нам теперь придется составить специальную таблицу. Ячейки в двух столбцах слева обозначим буквами. Для каждой из них теперь будет подсчитана особая, только к данной ячейке относящаяся, теоретическая частота. Это обусловлено тем, что количества взглядов и словесных отзывов невесты о женихах неравны; взглядов 32, а словесных отзывов – 36. Мы должны всякий раз учитывать эту пропорцию.

 

Эмпирические и теоретические частоты взглядов и упоминаний о женихах

Разряды – женихи Эмпирические частоты Суммы Теоретические частоты
Взгляды Упоминания Взгляды Упоминания
Никанор Иванович 14 А 15 Б 13,659 15,341
Иван Кузьмич 5 В 6 Г 5,181 5,819
Иван Павлович 8 Д 9 Е 8,007 8,993
Балтазар Балтазарыч 5 Ж 6 З 5,181 5,819
Суммы

 

Рассчитаем эту пропорцию. Всего проявлений благосклонности отмечено 68, из них 32 – взгляды и 36 – словесные высказывания. Доля взглядов составит 32/68=0,471; доля упоминаний – 36/68=0,529.

Итак, во всех строках взгляды должны были бы составлять 0,471 всех проявлений по данной строке, а упоминания в разговоре – 0,529 всех проявлений. Теперь, зная суммы проявлений по каждой строке, мы можем рассчитать теоретические частоты для каждой ячейки таблицы:

, и так далее.

Ясно, что сумма теоретических частот по строкам будет равняться сумме всех проявлений по данной строке. Например,

и так далее.

При такого рода подсчетах лучше всякий раз себя проверить.

Теперь мы можем вывести общую формулу подсчета для сопоставления двух или более эмпирических распределений:

Соответствующей строкой и столбцом будут та строка и тот столбец, на пересечении которых находится данная ячейка таблицы.

Расчет критерия при сопоставлении проявлений распределений невербальных и вербальных признаков благосклонности невесты.

Ячейки таблицы частот
А 13,659 0,341 0,116 0,009
Б 15,341 -0,341 0,116 0,008
В 5,181 -0,181 0,033 0,006
Г 5,819 0,181 0,033 0,006
Д 8,007 -0,007 0,000 0,000
Е 8,993 0,007 0,000 0,000
Ж 5,181 -0,181 0,033 0,006
З 5,819 0,181 0,033 0,006
Суммы   0,041

Число степеней свободы при сопоставлении двух эмпирических распределений определяется по формуле:

где k – количество разрядов признака (строк в таблице эмпири­ческих частот);

с – количество сравниваемых распределений (столбцов в таб­лице эмпирических частот).

В данном случае таблицей эмпирических частот является левая, эмпирическая часть таблицы, а не на ее развертка.

Количество разрядов – это количество женихов, поэтому .

Количество сопоставляемых распределений .

Итак, для данного случая, .

Определяем по таблице приложения критические значения для :

Ответ: Н0 принимается. Распределения невербально и вербально выражаемых невестой предпочтений не различаются между собой.

Итак, Агафья Тихоновна весьма последовательна в проявлении своих предпочтений, хотя, по-видимому, сама этого пока не замечает.


Приложение

Критические значения критерия для уровней статистической значимости и при разном числе степеней свободы

Различия между двумя распределениями можно считать достоверными, если достигает или превышает , и тем более достоверными, если достигает или превышает

 

p   p   p
ν 0,05 0,01   ν 0,05 0,01   ν 0,05 0,01
3,841 6,635   49,802 57,342   89,391 99,227
5,991 9,210   50,998 58,619   90,631 100,425
7,815 11,345   52,192 59,892   91,670 101,621
9,488 13,277   53,384 61,162   92,808 102,816
11,070 15,086   54,572 62,428   93,945 104,010
12,592 16,812   55,758 63,691   95,081 105,202
14,067 18,475   56,942 64,950   96,217 106,393
15,507 20,090   58,124 66,206   97,351 107,582
16,919 21,666   59,304 67,459   98,484 108,771
18,307 23,209   60,481 68,709   99,617 109,958
19,675 24,725   61,656 69,957   100,749 111,144
21,026 26,217   62,830 71,201   101,879 112,329
22,362 27,688   64,001 72,443   103,010 113,512
23,685 29,141   65,171 73,683   104,139 114,695
24,996 30,578   66,339 74,919   105,267 115,876
26,296 32,000   67,505 76,154   106,395 117,057
27,587 33,409   68,669 77,386   107,522 118,236
28,869 34,805   69,832 78,616   108,648 119,414
30,144 36,191   70,993 79,843   109,773 120,591
31,410 37,566   72,153 81,069   110,898 121,767
32,671 38,932   73,311 82,292   112,022 122,942
33,924 40,289   74,468 83,513   113,145 124,116
35,172 41,638   75,624 84,733   114,268 125,289
36,415 42,980   76,778 85,950   115,390 126,462
37,652 44,314   77,931 87,166   116,511 127,633
38,885 45,642   79,082 88,379   117,632 128,803
40,113 46,963   80,232 89,591   118,752 129,973
41,337 48,278   81,381 90,802   119,871 131,141
42,557 49,588   82,529 92,010   120,990 132,309
43,773 50,892   83,675 93,217   122,108 133,476
44,985 52,191   84,821 94,422   123,225 134,642
46,194 53,486   85,965 95,626   124,342 135,807
47,400 54,776   87,108 96,828        
48,602 56,061   88,250 98,028        

 

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.