Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Определение достоверности отличия набора частот от набора вероятностей

⇐ ПредыдущаяСтр 5 из 6Следующая ⇒

Пусть наблюдается случайная величина x, которая может иметь возможные значения x₁,…,x_n, и из N наблюдений эти значения встретились соответственно N₁,…,N_k раз, так что N₁+…+N_k =N, и i-ое значение встречалось с частотой p_i=N_i/N.

Требуется определить достоверность отличия полученного набора частот от ожидаемого набора вероятностей P₁,…,P_k.

Для этого рассчитываем ожидаемое количество наблюдений M_i=N´p_i, то есть, каким было бы число наблюдений каждого значения, если бы частота полностью совпадала с ожидаемой вероятностью. Следует заметить, что ожидаемое число необязательно является целым.

Потом рассчитываем существенность отличия фактического количества наблюдений от ожидаемого по формуле . После этого суммируем . В том случае, если частоты равны вероятностям, то при числе наблюдений N®¥ распределение величины стремится к распределению . Практически пользоваться этим критерием можно, то есть распределение достаточно близко к -распределению, если общее число наблюдений не менее 50, а каждое из ожидаемых количеств M₁,…, M_k не менее 5-7.

Пример. Пусть по имеющимся данным средняя величина серопозитивных [1]к вирусу гепатита А среди детей 12 лет составляет 40%. В результате выборочного исследования было получено, что в районе Г. их 150 обследованных 12-летних школьников 37 оказалось серопозитивным. Выясним, имеются ли достоверные различия.

Внесем исходные данные в таблицу Excel:

Группа	количество	ожидаемая вероятность
серопозитивные		0,4
серонегативные		0,6
всего

Рассчитаем ожидаемое количество, умножив ожидаемую вероятность на общее число наблюдений (Mi=N*Pi). Для этого можно в ячейку D2 ввести формулу =С2*$B$4, после чего размножить ее вниз.

Группа	количество	ожидаемая вероятность	ожидаемое количество
серопозитивные		0,4
серонегативные		0,6
всего

Потом вычисляем различие между фактическим и ожидаемым количеством (D_i=(N_i-M_i)*(N_i-M_i)|/M_i). Для этого в ячейку E2 вводим формулу =(B2-D2)*(B2-D2)/D2 размножаем ее вниз на одну строку:

Группа	количество	ожидаемая вероятность	ожидаемое количество	различие
серопозитивные		0,4		8,816667
серонегативные		0,6		5,877778
всего

Суммируем общее различие – в ячейку Е4 вводим формулу =Е2+Е3 или суммируем столбец при помощи мастера суммирования:

Группа	количество	ожидаемая вероятность	ожидаемое количество	различие
серопозитивные		0,4		8,816667
серонегативные		0,6		5,877778
всего				14,69444

Теперь вычисляем достоверность различий. Так как число наблюдений у нас достаточно большое, воспользуемся критерием c². Для этого в ячейке А6 вызываем мастера функций и в группе «Статистические» выбираем функцию ХИ2РАСП. В первой строке аргументов, незатейливо обозначенной как Х, даем ссылку на ячейку Е4 с общей суммой, во второй строке, с числом степеней свободы, вводим 1. В результате получаем:

Группа	количество	ожидаемая вероятность	ожидаемое количество	различие
серопозитивные		0,4		8,816667
серонегативные		0,6		5,877778
всего				14,69444
р=
0,000126418

То есть мы можем утверждать, что доля серопозитивных детей меньше среднего, и различие статистически достоверно с вероятностью р»0,0001.

Если различие оказалось статистически недостоверным, то дальнейший анализ проводить не надо.

Так как различия достоверны, то выясним, насколько доля серопозитивных детей меньше ожидаемой.

Для этого рассчитаем фактическую частоту серопозитивных, деля количество на общее количество:

Группа	количество	ожидаемая вероятность	ожидаемое количество	различие	частота
серопозитивные		0,4		8,816667	0,246667
серонегативные		0,6		5,877778	0,753333
всего				14,69444
р=
0,000126418

Построим график с ожидаемой вероятностью и частотой:

Теперь для фактической частоты надо построить доверительные границы, чтобы указать, в каких пределах возможны ее колебания (точнее – в каких пределах могла быть вероятность. Возьмем стандартные 95% в качестве доверительной вероятности, или р=0,05.

Доверительные границы для частоты события рассчитываются на основании биномиального распределения. Для этого можно воспользоваться программой, выложенной на ресурс 1mgmu.com.

Полученные величины вводим в ячейки таблицы. Заметим, что использованные формулировки «погрешность –» и «погрешность +» в данном случае не совсем точны, но соответствуют обозначениям при построении диаграмм в Excel.

Группа	количество	ожидаемая вероятность	ожидаемое количество	различие	частота	Погр. -	Погр. +
серопозитивные		0,4		8,816667	0,246667	0,0607	0,0698
серонегативные		0,6		5,877778	0,753333
всего				14,69444
р=
0,000126418

Обратите внимание, что погрешности «плюс» и «минус» имеют разные значения, так как биномиальное распределение – несимметричное.

Построим диаграмму с доверительными границами.

Так как при ожидаемой вероятности в 0,4 доля серопозитивных детей была 24,67%, то она составляла примерно 0,617. Взяв доверительные границы для частоты (прибавляя и отнимая погрешности «плюс» и «минус» и разделив на ожидаемую вероятность, получим, что с р=0,05 относительный риск находится в пределах от 0,465 до 0,711.

Пример. Пусть среди имеющихся больных с циррозом печени инфекционной этиологии 28 больных – с ВГА[2], 59 – с ВГВ и 47 – с ВГС.

Проверим гипотезу о том, что все три варианта равновероятны.

Построим таблицу с исходными данными и рассчитаем частоты:

	кол-во	ожидаемая вероятность	частота
ВГА		0,333333333	0,208955
ВГВ		0,333333333	0,440299
ВГС		0,333333333	0,350746
Всего

Аналогично предыдущему примеру рассчитаем ожидаемые количества и различие:

	кол-во	ожидаемая вероятность	частота	ожидаемое количество:	различие
ВГА		0,333333333	0,208955	44,66667	6,218905
ВГВ		0,333333333	0,440299	44,66667	4,599502
ВГС		0,333333333	0,350746	44,66667	0,121891
Всего

Суммируем различие и при помощи функции ХИ2РАСП определяем достоверность различия. При этом, так как сравнивается набор из 3 частот, то число степеней свободы берем 2:

	кол-во	ожидаемая вероятность	частота	ожидаемое количество:	различие
ВГА		0,333333333	0,208955	44,66667	6,218905
ВГВ		0,333333333	0,440299	44,66667	4,599502
ВГС		0,333333333	0,350746	44,66667	0,121891
Всего					10,9403

р=
0,004211

Таким образом, получаем, что между частотами есть достоверные различия. Строим частотную диаграмму:

Рассчитываем стат. погрешности при помощи той же программы:

	кол-во	ожидаемая вероятность	частота	ожидаемое количество:	различие	погрешность -	погрешность +
ВГА		0,333333333	0,208955	44,66667	6,218905	0,058970508	0,070498266
ВГВ		0,333333333	0,440299	44,66667	4,599502	0,078451669	0,080850644
ВГС		0,333333333	0,350746	44,66667	0,121891	0,073467104	0,079448921
Всего					10,9403

р=
0,004211

Рассчитываем стат. погрешности при помощи той же программы:

Добавляем на график «рога» статистических погрешностей:

В данном случае видно, что доли больных с ВГВ и ВГС достоверно не отличаются, тогда как для больных с ВГА достоверно ниже.

Так как критерий «хи-квадрат» - асимптотический, то надо еще проверить возможность его применения. У нас общий объем наблюдений – 134, то есть больше 50, а ожидаемое количество встречаемости каждого варианта – 44,67, то есть значительно больше 7, поэтому достоверность различий рассчитывается достаточно точно.

Однако при подобном использовании критерия для сравнения нескольких групп, больших двух, интересно не только то, что между всеми сравниваемыми группами есть различия, но и между какими конкретными группами различия есть, а между какими – нет. Кроме того, после получения достоверности различий нужно выяснить, насколько это различие существенно, то есть оценить относительные риски и их доверительные границы

⇐ Предыдущая 1 2 3 456 Следующая ⇒

Поиск по сайту: