Пусть nх — число наблюдений, при которых значение признака Х меньше х. При объеме выборки, равном п, относительная частота события Х < х равна nx/n.
Определение 8. Функция
определяющая для каждого значения х относительную частоту события Х < х, называется эмпирической функцией распределения, или функцией распределения выборки.
В отличие от эмпирической функции распределения F*(x) выборки функция распределения F(x) генеральной совокупности называется теоретической функцией распределения. Различие между ними состоит в том, что функция F(x) определяет вероятность события Х < х, a F*(x) — относительную частоту этого события. Из теоретических результатов общей теории вероятностей (закон больших чисел) следует, что при больших п вероятность отличия этих функций друг от друга близка к единице:
Нетрудно видеть, что F*(x) обладает всеми свойствами F(x), что вытекает из ее определения (18.49):
1) значения F*(x) принадлежат отрезку [0, 1];
2) F*(x) является неубывающей функцией;
3) если х1 — наименьшая варианта, то F*(x) = 0 при х ≤ х1; если xk — максимальная варианта, то F*(x) = 1 приx > xk.
Сама же функция F*(x) служит для оценки теоретической функции распределения F(x) генеральной совокупности.
Пример 3. Построить эмпирическую функцию по заданному распределению выборки:
Решение. Находим объем выборки: п = 10 + 15 + 25 = 50. Наименьшая варианта равна 2, поэтому F*(x) = 0 при х ≤ 2. Значение Х < 4 (или x1 = 2) наблюдалось 10 раз, значит, F*(x) = 10/50 = 0,2 при 2 < х < 4. Значения X < 6 (а именно x1 = 2 и x2 = 4) наблюдались 10 + 15 = 25 раз, значит, при 4 < х < 6 функция F*(x) = 25/50 = 0,5. Поскольку x = 6 — максимальная варианта, то F*(x) = 1 при х > 6. Напишем формулу искомой эмпирической функции:
График этой функции показан на рис. 18.8.
Полигон и гистограмма
Каждую пару значений (xi, ni) из распределения выборки можно трактовать как точку на координатной плоскости. Точно так же можно рассматривать и пары значений (хi, Wi) относительного распределения выборки. Ломаная, отрезки которой соединяют точки (xi, ni), называется полигоном частот. Ломаная, соединяющая на координатной плоскости точки (xi, Wi), называется полигоном относительных частот. На рис. 18.9 показан полигон относительных частот для распределения, приведенного в примере 2.
Для случая непрерывного признака Х удобно разбить интервал (xmin, xmax) его наблюдаемых значений на несколько частичных интервалов длиной h каждый и найти для каждого из этих интервалов сумму частот nj, попавших в него. Ступенчатая фигура, состоящая из прямоугольников с основаниями длиной h и высотами nj/h (плотность частоты), называется гистограммой частот. Геометрический смысл гистограммы: нетрудно видеть, что площадь ее равна сумме всех частот или объему выборки. На рис. 18.10 изображена гистограмма объема n = 100.
Аналогичным образом определяется и гистограмма относительных частот: в этом случае высоты прямоугольников, составляющих ступенчатую фигуру, определяются отношениями сумм относительных частот, попадающих в интервал (xmin + (j — 1)h, xmin + jh), к длине интервала h, т.е. величинами Wj/h. Нетрудно видеть, что площадь гистограммы относительных частот равна единице (сумме относительных частот выборки).