Обоснование объема выборки. Описание участников проведенного исследования должно сопровождаться обоснованием численности выборки, которое является обязательным этапом разработки дизайна проекта. Дело в том, что недостаточный объем выборки увеличивает ошибку выборочных характеристик и может не позволить выявить эффекты там, где они действительно есть, и соответственно, привести к неправильным выводам. С другой стороны слишком большие численности участников приводят к неоправданным финансовым и другим затратам на исследование. Мы уже указывали, что объем выборки зависит от минимального «клинического» эффекта, дисперсии изучаемой величины, мощности используемого критерия и уровня значимости α. Примерная формулировка может звучать таким образом: «Потребовалось 54 пациента в каждой группе, чтобы иметь 85% шанс обнаружить разницу в средних значениях пульса в 10 уд/мин (s=18 уд/мин) при 5% уровне значимости, применяя непараметрический критерий МанаУитни».
Если анализируется несколько признаков (пульс, давление, гемоглобин…) и для каждого из них определяется свой объем выборки, то исследователь может в качестве окончательного выбрать наибольшую из всех рассчитанных численностей, или же задать объем выборки, рассчитанный для главного признака исходя из основной гипотезы.
Оценка закона распределения. Далее желательно указать закон распределения величин, поскольку от этого зависит обоснованность критериев, применяемых для проверки гипотез. Если объем выборки более 30, то можно проверить гипотезу о нормальности распределения одним из известных вам способов, причем проверку необходимо осуществить в каждой группе. Например, «нормальность распределения проверялась по критическим значениям коэффициентов ассиметрии и эксцесса, результаты, приведенные в таблице 89, позволяют принять нулевую гипотезу о нормальном распределении».
Таблица 89. Табличное представление результатов статобработки
п =50
125,04
As=0,424
Ex=0,655
α=0,05
Asкрит=0,533
Exкрит=0,848
P>0,05
Или: «Нормальность распределения проверялась по критерию хиквадрат, по результатам нулевая гипотеза о нормальности была отвергнута (p=0,03)».
Проверку на нормальность должна пройти каждая из анализируемых признаков.
Если объем выборки мал и не позволяет провести такую проверку, то нужно помнить, что в дальнейшем для сравнительного анализа можно использовать только непараметрические критерии.
Описательная статистика. Как правило, для описания количественных данных используются такие статистические характеристики как средняя, мода, медиана, дисперсия и т.д. При нормальном распределении совокупности применяются среднее значение и среднеквадратичное отклонение (стандартное отклонение) s. Стандартное отклонение дает нам представление, в каких пределах лежат данные генеральной совокупности, так 95,44% всех значений лежит в интервале . Необходимо также указать доверительный интервал для среднего по нему можно оценить, насколько точно оно определено. Для этого предварительно рассчитывается стандартная ошибка среднего m. Если доверительный интервал широкий, то средняя оценена неточно и это может быть связано с недостаточным объемом выборки, или же с большим разбросом данных (дисперсией). Полезно рассчитать коэффициент вариации при V%>33% совокупность считается неоднородной, тогда необходимо проверить, насколько репрезентативна выборка и нет ли аномальных выбросов. Результаты расчетов наглядно могут быть представлены в следующей таблице 90.
Таблица 90. Табличное представление результатов статобработки
n
(мкмоль/л)
s
(мкмоль/л)
95%ДИ
(мкмоль/л)
+95%ДИ
(мкмоль/л)
1 группа
21,3
21,0
21,6
2 группа
28,5
26,9
30,1
Если распределение случайной величины не соответствует нормальному закону, то в качестве характеристики положения используется медиана, в качестве характеристики разброса – межквартильный размах, а также указываются минимальное и максимальное значения, чтобы определить наличие выбросов. Из приведенной ниже таблицы 91 видно, что в первой группе в середине ранжированного ряда находится величина 4,0 ммоль/л, 50% данных лежит в пределе от 3,3 до 6,0 ммоль/л, максимальное значение 10,5 ммоль/л является явно аномальной. Во второй группе в целом разброс данных больше (∆Q=5,3)и величину 10,5 уже нельзя считать выбросом.
Таблица 91. Основные статистические характеристики
n
Ме
(ммоль/л)
Мin
(ммоль/л)
Max
(ммоль/л)
Q25
(ммоль/л)
Q75
(ммоль/л)
∆Q
(ммоль/л)
1 гр.
4,0
1,2
10,5
3,3
6,0
2,7
2 гр.
5,2
2,6
10,5
4,0
9,3
5,3
Описание качественных признаков. При анализе качественных номинальных признаков, как правило, подсчитывается доля (частота встречаемости) объектов с заданными свойствами. Доля представляется в виде относительных величин или процентов. Наряду с долей необходимо указывать и абсолютные значения, а для самой доли определить доверительный интервал
Таблица 92. Представление качественных признаков
всего опрошено женщин
доля курящих
95% ДИ
+95% ДИ
10% (102/1020)
8,2%
11,8%
Иногда, при малых выборках, меньше 10, получается нулевой или 100% эффекты, которые маловероятны. Например, из девяти опрошенных женщин никто не курит – доля равна нулю, ошибка доли также равна нулю. Отсюда можно сделать неправильный вывод, что все женщины некурящие. В этом случае необходимо воспользоваться поправкой на нулевой эффект.
Итоги проверки гипотез. Важное место в любом исследовании занимает процесс сравнения различных совокупностей. Если признаки имеют нормальное распределение, то такое сравнение можно осуществить на основе средних значений с использованием параметрических критериев. Наиболее известным из них является критерий Стъюдента. Нельзя забывать, что его применение требует также и равенства генеральных дисперсий, которое можно проверить по критерию Фишера. При соблюдении всех условий результаты расчетов можно представить в следующей таблице 93.
Таблица 93. Итоги проверки гипотез на основе параметрических критериев
n
s
95% ДИ
+95% ДИ
tСтъюдента
руровень
1 гр.
119,1
13,9
3,4
6,7
0,1
2,67
<0,05
2 гр.
122,5
16,3
Из таблицы видно, насколько различаются средние значения, по руровню можно оценить статистическую значимость этого различия (при использовании статистических программ лучше указывать конкретное значение достигнутого уровня значимости, например р=0,002). Доверительный интервал показывает, в каких пределах лежит истинная, генеральная разница, а верхний и нижний его пределы позволяют дать «клиническую» оценку этой разнице.
Надо отметить, что в медицинских исследованиях в силу ряда ограничений обычно доступны небольшие выборки, а среди совокупности «больных» нормальное распределение встречается редко. Поэтому приоритет необходимо отдавать непараметрической статистике. При использовании непараметрических критериев результаты описываются на основе медиан и квартилей, например таблица 94.
Таблица 94. Итоги проверки гипотез на основе непараметрических критериев
n
Ме
(мг)
∆Ме
(мг)
Q25
(мг)
Q75
(мг)
UкритерийМанаУитни
руровень
1 гр.
4,0
1,2
3,3
6,0
0,023
2 гр.
5,2
4,0
9,3
Различия между группами хорошо воспринимаются при графическом представлении данных. Различные возможные варианты показаны на рисунке 40. Не забывайте поместить на графике «легенду» (условные обозначения), так как графики могут нести различную информацию. Если на первом графике представлены средняя, стандартное отклонение, минимальное и максимальное значения, на втором – среднее и доверительный интервал, то на третьем – медиана и квартили.
Рисунок 40. Графическое представление данных
Итоговая информация по результатам сравнения долей должна содержать данные по абсолютным и относительным показателям, а также доверительный интервал для разницы долей.
Таблица 95. Сравнение долей
регион
всего больных
доля инфекц.
заболеваний
разность долей
95% ДИ
+95% ДИ
tСтъюдента
руровень
20% (104/520)
17%
22,8%
11,2%
3,25
0,012
37% (148/400)
Доли сравниваются как по критерию Стъюдента, так и по критерию хиквадрат. В случае таблицы 2×2 необходимо учитывать поправку Йетса и упомянуть об этом в тексте. Если таблица содержит ячейку с менее чем 5 случаями, используйте точный критерий Фишера. Силу связи между номинальными признаками оценивают коэффициенты Юла и фиквадрат. Результаты расчетов можно свести в следующую таблицу 96.
Таблица 96. Итоги проверки гипотез на основе таблицы сопряженности
Столбец 1
Столбец 2
Всего
Частоты, строка 1
% случаев
5,7 %
6,6 %
12,3 %
Частоты, строка 2
% случаев
15,7 %
72 %
87,76 %
Всего
% всего
21,4 %
78,6 %
Хиквадрат (f=1)
107,99
p=0,0000
Поправка Йетса
106,32
p=0,0000
Фиквадрат
,05113
Точный критерий Фишера, одностор.
Точный критерий Фишера, двустор.
Хиквадрат Макнемара
1193,42
p=0,0000
Множественные сравнения. Довольно часто возникает задача сравнения не двух групп, а нескольких – так называемая задача множественных сравнений. Например, различных возрастных, профессиональных, социальных слоев населения, или влияния различных доз препарата, методов диагностики и т.д. В этом случае рекомендуется на начальном этапе провести факторный дисперсионный анализ, который позволяет ответить на вопрос, есть ли хотя бы одно отличие между сравниваемыми группами. Нулевая гипотеза о равенстве всех средних (медиан) проверяется по параметрическому критерию Фишера или непараметрическому аналогу – критерию КрускалаУолиса.
Таблица 97. Итоги факторного дисперсионного анализа
D
f
FФишера
руровень
Межгрупповая дисперсия
4600,5
38,7
0,004
Внутригрупповая дисперсия
118,8
Пакеты прикладных программ по статанализу содержат процедуру Тьюки это процедура множественных попарных сравнений, применяемая в тех случаях, когда дисперсионный анализ указывает на статистически значимую разность между группами. Таким образом, можно выяснить конкретно какие группы отличаются друг от друга.
Как пример, результаты попарных сравнений 6 групп сведены в таблицу 98, в которой указаны средние по группам и значения руровня.
Таблица 98. Множественные попарные сравнения
группа
{1}
{2}
{3}
{4}
{5}
{6}
=93,2
=80,7
=70,4
=77,3
=80,6
=82,7
{1}
0,000
0,000
0,000
0,000
0,010
{2}
0,000
0,000
0,305
1,000
0,988
{3}
0,000
0,000
0,000
0,000
0,001
{4}
0,000
0,305
0,000
0,151
0,529
{5}
0,000
1,000
0,000
0,151
0,985
{6}
0,010
0,988
0,001
0,529
0,985
Корреляционный анализ. Подсчет коэффициента корреляции также достаточно распространенный метод анализа биомедицинских данных. При его использовании необходимо придерживаться следующих положений:
- предварительно следует построить диаграмму рассеяния, чтобы оценить характер взаимосвязи (линейный или нелинейный)
- коэффициент корреляции Пирсона показывает линейную взаимосвязь между количественными признаками, имеющими нормальное распределение
- если распределение не соответствует нормальному, или признаки ординальные, то применимы коэффициенты Спирмена и Кендалла, оценивающие линейные связи
- для таблиц сопряженности также существуют коэффициенты взаимосвязи (например, коэффициент Юла, фиквадрат)
- следует проверять статистическую значимость коэффициента корреляции и обозначать ее в тексте или таблице
- коэффициент корреляции величина формальная (математическая) и не объясняет причинноследственную связь, интерпретация его – дело специалиста в предметной области
В таблице 99 приведены попарные коэффициенты корреляции и значения руровня. Если принять уровень значимости α=0,05, то r=0,01 и 0,15 статистически незначимы.
Таблица 99. Итоги корреляционного анализа
HF%
LF%
VLF%
ULF%
HF%
0,46
p=0,000
0,65
p=0,000
0,56
p=0,000
LF%
0,46
p=0,000
0,01
p=0,909
0,26
p=0,001
VLF%
0,65
p=0,000
0,01
p=0,909
0,15
p=0,052
ULF%
0,56
p=0,000
0,26
p=0,001
0,15
p=0,052
Регрессионный анализ. Прежде чем приступать к нахождению уравнения регрессии убедитесь, что связь между величинами линейна, для этого подходящим является диаграмма рассеяния. Вычислите коэффициент корреляции, если он меньше 0,7, то нет смысла строить математическую модель, ведь даже при таком значении r она объясняет лишь 50% вариаций. Если уравнение регрессии получено, представьте его графически вместе с наблюдаемыми величинами. Обязательным является оценка статистической значимости коэффициентов уравнения и самой модели, например, таблица 100 является показательной.
Таблица 100. Итоги регрессионного анализа
r= 0,93 R2=0 ,87 F(1,8)=54,028 p=0,000
значение коэффициента
станд. ошибка коэффициента
tСтъюдента
pуровень
b0
87,5
1,31
66,8
0,000
b1
0,05
0,007
7,3
0,000
В случае незначимости коэффициента b1(что аналогично незначимости самой регрессии) полученное уравнение не может быть использовано в качестве модели взаимосвязи двух величин.
При прогнозировании по уравнению регрессии рекомендуется проводить прогноз в пределах наблюдаемых значений независимой величины. Если прогноз выходит за эти пределы, вы должны быть уверены, что основная тенденция сохранится в будущем, и при этом прогноз не должен превышать 13 временных интервала.
ЗАКЛЮЧЕНИЕ
В рамках данного пособия затронуты лишь некоторые статистические методы анализа медикобиологической информации. Однако, арсенал их намного более широк, и он не затронут нами, поскольку мы ориентировались на медицинскую аудиторию – студентов, магистрантов, докторантов, научных работников и не решились «грузить» ее сложными математическими выкладками и статистическими интерпретациями.
В последнее время появился целый ряд обзоров, посвященных применению статистики в медицинской науке. Авторы соглашаются с тем, что в абсолютном большинстве исследований используются классические ситуации, когда анализируются один или несколько отдельных признаков, вне их взаимосвязи и взаимовлияния с различной степенью интенсивности. Очень редко встречаются математические модели, описывающие сложные системы, особенно характеризующиеся качественными признаками. Вместе с тем состояние биобъекта не может быть описано с помощью одного или двух показателей изменения или нарушения в одних органах и системах приводят к изменениям и нарушениям в других, и эти взаимосвязи редко являются линейными. В связи с этим особое место в биостатистике занимают многомерные методы анализа. Среди них линейный и нелинейный многомерный регрессионный, логлинейный, дискриминантный, кластерный, факторный анализы и др. Большинство методов реализованы в пакетах статистических программ и пользователи освобождены от необходимости математических вычислений. Основное препятствие их использования – интерпретация результатов, и здесь необходима помощь специалиста, профессионально занимающегося статистикой. Поэтому качественный результат любого научного исследования – это совместный труд медика, владеющего основами биостатистики, и математика, способного понять язык клинициста.
СПИСОК ЛИТЕРАТУРЫ
1. Петри, Авива. Наглядная статистика в медицине: Оқулық/ А. Петри, К. Сэбин; Пер. с англ. М.: ГЭОТАРМЕД, 2009.144с.:ил.
2. Вуколов Э. А. Основы статистического анализа: Практикум по статистическим методам и исследованию операций с использованием пакетов Statistica и EXCEL. М.: ФОРУМ: ИНФРА М, 2004.464с.
3. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: Оқулық / Под ред. В.З. Кучеренко. 2 е изд.,стереотип. М.: ГЭОТАРМедиа, 2005.193 с.
4. Жижин К. С. Медицинская статистика: Оқулық. Ростов н/Д: Феникс, 2007.151с.
5. Гланц Стентон. Медикобиологическая статистика: ағыл. аударған. М.: Практика, 1999.459с.
6. Сергиенко В.И., Бондарева И.Б. Математическая статистика в клинических исследованиях. М.: ГЭОТАРМЕД, 2001.256 с.
7. Юнкеров В.И., Григорьев С.Г. Математикостатистическая обработка данных медицинских исследований. – СПб: ВМедА, 2002. – 266 с.
Приложение 1. Критические значения коэффициента асимметрии As
Объем выборки п
Уровень значимости α
Объем выборки п
Уровень значимости α
0,05
0,01
0,05
0,01
0,711
1,061
0,251
0,360
0,661
0,982
0,230
0,329
0,621
0,921
0,213
0,305
0,587
0,869
0,200
0,285
0,558
0,825
0,188
0,269
0,533
0,787
0,179
0,255
0,492
0,723
0,171
0,243
0,459
0,673
0,163
0,233
0,432
0,631
0,157
0,224
0,409
0,596
0,151
0,215
0,389
0,567
0,146
0,208
0,350
0,508
0,142
0,202
0,321
0,464
0,138
0,196
0,298
0,430
0,134
0,190
0,280
0,403
0,130
0,185
Критические значения коэффициента эксцесса Ех
Объем выборки п
Уровень значимости α
0,10
0,05
0,01
0,890
0,907
0,936
0,873
0,888
0,914
0,863
0,877
0,900
0,857
0,869
0,890
0,851
0,863
0,883
0,847
0,858
0,877
0,844
0,854
0,872
0,841
0,851
0,868
0,839
0,848
0,865
0,835
0,843
0,859
0,832
0,840
0,855
0,830
0,838
0,852
0,828
0,835
0,848
0,826
0,834
0,846
0,818
0,823
0,832
0,814
0,818
0,826
0,812
0,816
0,822
0,810
0,814
0,820
Приложение 2. Критические точки двустороннего tкритерия Стьюдента
Число степеней
свободы f
α
Число степеней
свободы f
α
0,05
0,01
0,005
0,05
0,01
0,005
12,71
63,66
64,60
2,10
2,88
3,92
4,30
9,92
31,60
2,09
2,86
3,88
3,18
5,84
12,92
2,09
2,85
3,85
2,78
4,60
8,61
2,08
2,83
3,82
2,57
4,03
6,87
2,07
2,82
3,79
2,45
3,71
5,96
2,07
2,81
3,77
2,37
3,50
5,41
2,06
2,80
3,75
2,31
3,36
5,04
2,06
2,79
3,73
2,26
3,25
4,78
2,06
2,78
3,71
2,23
3,17
4,59
2,05
2,77
3,69
2,20
3,11
4,44
2,05
2,76
3,67
2,18
3,05
4,32
2,05
2,76
3,66
2,16
3,01
4,22
2,04
2,75
3,65
2,14
2,98
4,14
2,02
2,70
3,55
2,13
2,95
4,07
2,00
2,66
3,46
2,12
2,92
4,02
1,98
2,62
3,37
2,11
2,90
3,97
оо
1,96
2,58
3,29
Приложение 3. Критические значения Uкритерия МаннаУитни
α = 0,01. Двусторонний критерий
n2/nl
О
Приложение 4. Критические значения парного Ткритерия Уилкоксона
Односторонний критерий
Число парных наблюдений п
Уровни значимости α
Число парных наблюдений п
Уровни значимости α
0,05
0,01
0,05
0,01
—.
Двусторонний критерий
Число парных наблюдений п
Уровни значимости α
Число парных наблюдений п
Уровни значимости α
0,05
0,01
0,05
0,01
—
Приложение 5. Критические значения χ2
Уровень значимости
f
0,50
0,25
0,10
0,05
0,025
0,01
0,005
0,001
0,455
1,323
2,706
3,841
5,024
6,635
7,879
10,828
1,386
2,773
4,605
5,991
7,378
9,210
10,597
13,816
2,366
4,108
6,251
7,815
9,348
11,345
12,838
16,266
3,357
5,385
7,779
9,488
11,143
13,277
14,860
18,467
4,351
6,626
9,236
11,070
12,833
15,086
16,750
20,515
5,348
7,841
10,645
12,592
14,449
16,812
18,548
22,458
6,346
9,037
12,017
14,067
16,013
18,475
20,278
24,322
7,344
10,219
13,362
15,507
17,535
20,090
21,955
26,124
8,343
11,389
14,684
16,919
19,023
21,666
23,589
27,877
9,342
12,549
15,987
18,307
20,483
23,209
25,188
29,588
10,341
13,701
17,275
19,675
21,920
24,725
26,757
31,264
11,340
14,845
18,549
21,026
23,337
26,217
28,300
32,909
12,340
15,984
19,812
22,362
24,736
27,688
29,819
34,528
13,339
17,117
21,064
23,685
26,119
29,141
31,319
36,123
. 15
14,339
18,245
22,307
24,996
27,488
30,578
32,801
37,697
15,338
19,369
23,542
26,296
28,845
32,000
34,267
39,252
16,338
20,489
24,769
27,587
30,191
33,409
35,718
40,790
17,338
21,605
25,989
28,869
31,526
34,805
37,156
42,312
18,338
22,718
27,204
30,144
32,852
36,191
38,582
43,820
19,337
23,828
28,412
31,410
34,170
37,566
39,997
45,315
20,337
24,935
29,615
32,671
35,479
38,932
41,401
46,797
21,337
26,039
30,813
33,924
36,781
40,289
42,796
48,268
22,337
27,141
32,007
35,172
38,076
41,638
44,181
49,728
23,337
28,241
33,196
36,415
39,364
42,980
45,559
51,179
24,337
29,339
34,382
37,652
40,646
44,314
46,928
52,620
25,336
30,435
35,563
38,885
41,923
45,642
48,290
54,052
26,336
31,528
36,741
40,113
43,195
46,963
49,645
55,476
27,336
32,020
37,916
41,337
44,461
48,278
50,993
56,892
28,336
33,711
39,087
42,557
45,722
49,588
52,336
58,301
29,336
34,800
40,256
43,773
46,979
50,892
53,672
59,703
30,336
35,887
41,422
44,985
48,232
52,191
55,003
61,098
31,336
36,973
42,585
46,194
49,480
53,486
56,328
62,487
32,336
38,058
43,745
47,400
50,725
54,776
57,648
63,870
33,336
39,141
44,903
48,602
51,966
56,061
58,964
65,247
34,336
40,223
46,059
49,802
53,203
57,342
60,275
66,619
35,336
41,304
47,212
50,998
54,437
58,619
61,581
67,985
36,336
42,383
48,363
52,192
55,668
59,893
62,883
69,346
37,335
43,462
49,513
53,384
56,896
61,162
64,181
70,703
38,335
44,539
50,660
54,572
58,120
62,428
65,476
72,055
39,335
45,616
51,805
55,758
59,342
63,691
66,766
73,402
40,335
46,692
52,949
56,942
60,561
64,950
68,053
74,745
41,335
47,766
54,090
58,124
61,777
66,206
69,336
76,084
42,335
48,840
55,230
59,304
62,990
67,459
70,616
77,419
43,335
49,913
56,369
60,481
64,201
68,710
71,893
78,750
44,335
50,985
57,505
61,656
65,410
69,957
73,166
80,077
45,335
52,056
58,641
62,830
66,617
71,201
74,437
81,400
46,335
53,127
59,774
64,001
67,821
72,443
75,704
82,720
47,335
54,196
60,907
65,171
69,023
73,683
76,969
84,037
48,335
55,265
62,038
66,339
70,222
74,919
78,231
85,351
49,335
56,334
63,167
67,505
71,420
76,154
79,490
86,661
Приложение 6. Критические значения коэффициента корреляции рангов Спирмена
Число пар
Уровень значим.
Число пар
Уровень значим.
0,05
0,01
0,05
0,01
0,425
0,601
0,9
0,399
0,564
0,829
0,943
0,377
0,534
0,714
0,893
0,359
0,508
0,643
0,833
0,343
0,485
0,6
0,783
0,329
0,465
0,564
0,746
0,317
0,448
0,506
0,712
0,306
0,432
Приложение 7. Критические значения Fкритерия Фишера
для α = 0,05 (обычный шрифт) и α = 0,01 (жирный шрифт)