Вернемся к примеру с анализом роста в группе людей. Если группа достаточно большая, то мы получим очень большой ряд данных: 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169……… и затруднимся дать обобщающую характеристику этой совокупности. Для более наглядного представления данных обычно используются графики, рисунки, диаграммы, таблицы. Воспользуемся подобным методом и мы – разобьем весь диапазон роста от минимума до максимума на равные интервалы по 10 см и посчитаем сколько объектов попадет в каждый из этих интервалов (частоту встречаемости), а затем построим график, как показано на рисунке 6А – по оси абсцисс отложим интервалы, а по оси ординат – частоту встречаемости (абсолютную или относительную в %).
Полученный график называется гистограммой распределения, он показывает, насколько часто встречаются те или иные значения изучаемой случайной величины (его вероятность), в данном случае роста, или другими словами как рост распределен по различным диапазонам. Теперь по этому графику попытаемся дать обобщенную характеристику изучаемой группе.
А
Б
Рисунок 6. Виды распределения (А-нормальное, Б-не соответствует нормальному)
Минимальный рост лежит в пределах от 140 до 150 см, самые высокие имеют рост 190-200 см. Наиболее часто встречается средний рост (170-180 см) в 25% всех случаев. По мере удаления от среднего роста в меньшую и большую сторону частота встречаемости снижается. Низкорослые и высокие встречаются реже, чем лица среднего роста. Самые маленькие (140-150 см) составляют 10% совокупности, самые высокие (190-200 см) - 12%.
Представим, что количество обследованных бесконечно увеличивается, а длина интервалов бесконечно уменьшается, тогда мы получим график, который изображен на рисунке 6 в виде огибающей гистограммы. Это кривая дает нам представление о законе распределения случайной величины (иногда говорят просто распределение). Она может иметь различную форму. Распределение многих случайных величин имеет симметричный колоколообразный вид, и такое распределение называется нормальным (еще его называют Гауссовским распределением). Нормальное распределение имеет важное значение в статистике, поскольку обладает рядом замечательных свойств, о которых мы поговорим позже. Кроме нормального существуют и другие виды распределения. Так, форма гистограммы, представленной на рисунке 6Б, явно не соответствует колоколообразному виду. В статистике широко используются биноминальное, логарифмическое, хи-квадрат распределения, распределения Стъюдента, Фишера и др.
Надо отметить, что оценка закона распределения по кривой огибающей гистограммы является не совсем корректной, качественной, учитывая также и то, что гистограмма строится по ограниченным выборочным данным. Существуют специальные статистические процедуры и критерии, которые позволяют строго количественно оценить закон распределения. Им будет посвящена специальная глава.
В медицинских исследованиях при построении гистограмм длительность интервалов может быть не одинаковой, а их границы заранее оговорены. Например, в возрастной физиологии приняты следующие возрастные периоды, приведенные в таблице 1.
Таблица 1. Возрастные периоды
возраст мужчин, лет
возраст женщин, лет
период второго детства
8-13
8-12
подростковый период
14-17
13-16
юношеский период
18-21
17-20
взрослый период
22-35
21-35
зрелый период
36-55
36-60
пожилой период
56-63
61-67
При анализе частоты пульса возможны такие интервалы: меньше 60 уд/мин, 60-80 уд/мин, больше 80 уд/мин.
В других случаях мы можем воспользоваться правилом построения гистограмм.
Пусть дана случайная величина Х (х1, х2, ..., хn) – значения артериального давления у 25 испытуемых
108, 115, 133, 102, 110, 118, 118, 120, 120, 127, 127, 127, 110, 100, 105, 120, 120, 130, 135, 140, 135, 146, 145, 160, 155
Необходимо выполнить следующие шаги:
1. Элементы выборки объемом n=25 расположить в ранжированный ряд (по возрастанию или убыванию)
100; 102; 105; 108; 110; 110; 115; 118; 118; 120; 120; 120; 120; 127; 127; 127; 130; 133; 135; 135; 140; 145;146; 155; 160
2. Вычислить размах R (разность между минимальным и максимальным значением случайной величины):
R=xmax-xmin=160-100=60 мм.рт.ст.
3. Разбить вариационный ряд на k непересекающихся интервалов. k вычисляют по формуле Стерднесса, предусматривающей выделение оптимального числа интервалов:
k=1+3,322lg(n) (округлить до целого)
Можно воспользоваться следующими рекомендациями
Таблица 2. Выбор количества интервалов
Объем выборки
Число интервалов
25-40
5-6
41-60
6-8
61-100
7-10
101-200
8-12
Более 200
10-15
Т.к. в нашем случае объем выборки равен 25, то выберем k=6.
4. Определить длину одного интервала
b=R/k=60/6=10 мм.рт.ст.
5. Определить границы каждого интервала
6. Определить частоты - количество ni элементов выборки, попавших в i-й интервал (элемент, совпадающий с правой границей интервала, относится к последующему интервалу)
Наряду с частотами одновременно подсчитываются также относительные частоты и процент случаев .
Полученные результаты сводятся в таблицу 3, называемую таблицей частот группированной выборки .
Таблица 3. Таблица частот
Номер интервала, i
Границы интервала
Частота, ni
Относит. частота
Процент случаев
100-110
0,16
110-120
0,20
120-130
0,28
130-140
0,16
140-150
0,12
150-160
0,08
ИТОГО
Σ=25
Σ=1
Σ=100%
7. Далее строится гистограмма (рисунок 7).
Рисунок 7 - Гистограмма распределения
Контрольное задание 2:
Опишите гистограмму с указанием:
· общего количества обследованных.
· минимального и максимального значения анализируемой величины, (с указанием % случаев)
· наиболее часто и редко встречающегося значения анализируемой величины (с указанием % случаев)