Распределение Пуассона– описывает события, при которых с возрастанием
значения случайной величины, вероятность появления ее в совокупности резко
уменьшается. Распределение Пуассона характернно для редких событий и может
рассматриваться также как крайний вариант биномиального. Характеризует
распределение дикретных случайных величин.
х - значения случайной величины;
р - вероятность появления данного значе-
ния в совокупности.
Вариационный ряд (frequency table)- ранжированный ряд распределения
по величине какого-либо признака. Этот признак носит название
варьирующего, а его отдельные числовые значения называются вариантамии
обозначаются через "х". Число, показывающее, сколько раз данная варианта
встречается в вариационном ряду, называется частотой и обозначается через
"р"
Мода (Мо) (mode)-наиболее часто встречающаяся в вариационном
ряду варианта.
Мода используется:
- при малом числе наблюдений, когда велико влияние состава совокупности
на среднюю ;
- для характеристики центральной тенденции при ассиметричных распределениях,
когда велико влияние на среднюю
крайних вариант;
-
Медиана (Me)(median)- варианта, которая делит вариационный ряд на две равные
части.
Медиана используется:
- при необходимости знать, какая часть вариант лежит выше и ниже средин
ного значения ;
- для характеристики центральной тенденции при ассиметричных распределениях .
Иногда в небольших совокупностях встречаются варианты резко отличающиеся по своему
значению от других, так называемая «выскакивающая» варианта (outlying case).
В зависимости от способа отбора единиц наблюдения (от способа организации
совокупности):
- случайная: отбор единиц наблюдения производится непосредственно из генеральной
совокупности. Случайность отбора достигается путем применения жеребьевки
или использования таблицы случайных чисел. Различают бесповторную выборку и
повторную (после регистрации единицы вновь возвращаются в генеральную
совокупность)
- механическая: генеральная совокупность разбивается на равные части, из которых
затем в заранее обусловленном порядке отбирают единицы наблюдения под
определенным номером (например, каждую пятую), так, чтобы обеспечить
необходимое число наблюдений.
- типологическая (типическая):генеральная совокупность разбивается на
качественно однородные по изучаемому признаку группы, а затем из этих групп
производят случайный отбор необходимого числа единиц наблюдения; объем выборки
в каждой типической группе устанавливается пропорционально ее удельному весу в
генеральной совокупности (пропорциональный отбор), а иногда и с учетом вариации
в ней изучаемого признака (оптимальный отбор)
- серийная (гнездовая):отбору подлежат не отдельные единицы наблюдения, а целые
их группы (серии или гнезда), в составе которых единицы наблюдения связаны
определенным образом: территориально (районы, селения и др.) или организационно
(студенческие группы, больницы, предприятия и др.) и которые отбираются из
генеральной совокупности по принципу случайного или механического отбора. Внутри
серии производится сплошной отбор единиц наблюдения.
2. Корреляционная взаимосвязь характеризуется изменением одного признака
(результативного) в ответ на изменение другого признака (факторного) в определенных
пределах.
Корреля́ция(от лат. correlatio), (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин.
Корреляционный анализ устанавливает:
- наличие связи;
- силу связи: слабая (коэффициент корреляции до 0.29), средняя (0.3 - 0.69), сильная (0.7 и
выше);
- направление связи: прямая (изменения признаков происходят в одном направлении) и
обратная (изменения признаков происходят в разных направлениях);
- характер связи: парциальная (частная) (взаимосвязь между парой признаков) и
множественная (взаимосвязь группы признаков).
Виды представления корреляционной связи:
- корреляционное поле (точечная диаграмма);
- корреляционная решетка (матрица);
- коэффициент корреляция.
Матеметической мерой корреляции двух с.в. служит коэффициент корреляции R.
Регрессионный анализ- метод статистической обработки данных, позволяющий
по средней величине одного признака определить среднюю величину другого признака,
корреляционно связанного с первым.
Виды регрессии
- простая(результативный признак рассматривается как функция от одного аргумента,
т.е. одного факторного признака): у = f (x)
- множественная(результативный признак рассматривается как функция от нескольких
аргументов, т.е. факторных признаков): ( ... ) 1 2 3 n у = f x x x x
Уравнение регрессии- математическое уравнение, описывающее зависимость между
признаками, корреляционно связанными между собой
а) линейная зависимость:
б) экспоненциальная зависимость:
в) показательная зависимость:
г) параболическая зависимость:
и др.
где a0, a1, а2 - параметры уравнения;
у - результативный признак;
х - факторный признак.
Исключить влияние третьей переменной позволяет частный коэффициент корреляции. Частным коэффициентом корреляции между случайными величинами и при исключении влияния случайной величины называется
где — коэффициент корреляции Пирсона между случайными величинами и .
Ранговый коэффициент корреляции Кенделла (в отличие от коэффициента Спирмена ) переносится на случай частной корреляции с помощью аналогичной формулы:
де — коэффициент корреляции Кенделла между случайными величинами и .
Заданы две выборки .
Вычисление корреляции Кенделла:
Коэффициент корреляции Кенделла вычисляется по формуле:
, где — количество инверсий, образованных величинами , расположенными в порядке возрастания соответствующих .
Коэффициент принимает значения из отрезка . Равенство указывает на строгую прямую линейную зависимость, на обратную.
Обоснование критерия Кенделла:
Будем говорить, что пары и согласованы, если и или и , то есть . Пусть - число согласованных пар, - число несогласованных пар. Тогда, в предположении, что среди и среди нет совпадений, превышение согласованности над несогласованностью есть:
.
Для измерения степени согласия Кенделл предложил следующий коэффициент:
.
Таким образом, коэффициент (линейно связанный с ) можно считать мерой неупорядоченности второй последовательности относительно первой.
Заданы две выборки .
Вычисление корреляции Спирмена:
Коэффициент корреляции Спирмена вычисляется по формуле:
,[1] где - ранг наблюдения в ряду , - ранг наблюдения в ряду .
Коэффициент принимает значения из отрезка . Равенство указывает на строгую прямую линейную зависимость, на обратную.
Случай совпадающих наблюдений:
При наличии связок коэффициент корреляции Спирмена следует вычислять следующим образом:
[1]
где .
Здесь и — количество связок в выборках и , , — их размеры. Для элементов связок вычисляется средний ранг.
Обоснование критерия Спирмена:
Статистикой критерия Спирмена служит коэффициент корреляции Пирсона ранговых наборов и . Он определяется следующей формулой:
В этой формуле .
Воспользовавшись тем, что , получим:
.
Переставив пары в порядке возрастания первой компоненты, получим набор . Тогда перепишем коэффициент корреляции Спирмена в виде:
.
Таким образом, - линейная функция от рангов . Правую часть равенства можно представить в следующем виде:[1]
который наиболее удобен для вычислений.
Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.
Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определении на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.
Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем чем ближе коэффициент корреляции к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь положительная, а если меньше нуля — отрицательная.
Множественный коэффициент корреляции характеризует тесноту, линейной связи между одной переменной (результативной) и остальными, входящими в модель; он изменяется в пределах от 0 до 1.
Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.