Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Понятие статистических взаимосвязей



При изучении юридически значимых явлений постоянно сталкиваемся с причинно-следственными связями, когда некоторые явления, именуемые причинами, порождают другое явление, именуемое следствием (результатом).

Например, обратимся к состоянию опьянения, которое во всех странах считается криминогенным фактором. В России в 1996 г. в состоянии опьянения было совершено 39 % всех учтенных преступлений, в том числе 73,5 % умышленных убийств, 77,6% изнасилований, 59,7 % разбоев, 57 % грабежей, 69,8 % хулиганских действий, 0 % взяточничества. Приведенные данные свидетельствуют о прямой связи преступлений с пьянством. Так как эти цифры практически повторяются из года в год, они говорят не только о наличии данной связи, но в определенной мере и о степени влияния пьянства на различные виды деяний.

Изучение и измерение связей между причинами и следствием проводятся с помощью статистических методов. Причины будем называть факторными признаками или просто факторами, а результат – результативным признаком.

Пусть требуется изучить влияние на юридический показатель Y (результативный признак) факторов Х1, Х2, …, Хп. Рассматривая зависимость между результативным показателем и факторами, можно выявить две категории связей: функциональную и корреляционную.

Функциональные связи характеризуются полным соответствием между изменением факторных признаков и изменением результативной величины, то есть каждому конкретному набору значений факторов соответствует определенное значение результативного признака.

Юридические науки имеют дело, как правило, с явлениями и процессами, где нет таких жестких связей. Причинная обусловленность преступлений связана с огромной совокупностью взаимозависимых обстоятельств. Число обстоятельств (факторов), которые влияют на совершение преступлений, достигает несколько сотен. Связь между причинами и следствием многозначна и носит вероятностный характер. В данном случае имеет корреляционную зависимость.

В корреляционных связях между изменением факторов-признаков и результативного признака нет полного соответствия. Воздействие отдельных признаков проявляется лишь в среднем при массовом наблюдении фактических данных. Дело в том, что изменение выделенных факторов не есть единственная причина изменения результативного признака. Наряду с ними на величину Y влияет множество других причин. Поэтому для одного и того же набора значений факторов значение результативной величины может оказаться различным. Таким образом, одновременное воздействие на изучаемый показатель Y большого количества самых разнообразных факторов приводит к тому, что одному набору значений факторов соответствует целое распределение значений результативного признака.

При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости можно, зная значения факторов, точно определить величину Y. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения Y при изменении факторов.

 

Регрессионный анализ

Пусть исследуется некоторый юридический показатель Y. Установлено, что на него воздействуют факторы Х1, Х2, …, Хп. Полагаем, что каждому набору значений факторов соответствует определенное значение Y (если одному и тому же набору значений факторов Х1, Х2, …, Хп соответствуют несколько разных значений Y, то данному набору факторов поставим в соответствие среднее арифметическое наблюдаемых значений результативного признака). Пусть i-му набору значений факторов х1i, х2i, …, хпi соответствует значение результативного признака, равное уi. При этом i = 1, 2, …, k.

Целью регрессионного анализа является установление функциональной зависимости Y от Х1, Х2, …, Хп, выраженной в виде уравнения регрессии

Y = f(Х1, Х2, …, Хп).

Одной из проблем построения уравнения регрессии является ее размерность, то есть определение числа факторов, включаемых в регрессионную модель. Сокращение числа факторов, включаемых в уравнение регрессии, позволяет получить более простую и легко реализуемую модель. В то же время модель малой размерности может привести к тому, что она будет недостаточно точно описывать исследуемое явление или процесс.

Практика выработала критерий, позволяющий установить оптимальное соотношение между числом факторов и объемом исследуемой совокупности: число факторов должно быть в 5-6 раз меньше объема изучаемой совокупности.

Регрессионный анализ включает следующие этапы:

1) определение вида функции, описывающей функциональную связь между результативным признаком и факторными признаками;

2) определение коэффициентов регрессии, то есть числовых параметров, входящих в уравнение регрессии;

3) расчет теоретических значений результативного признака для отдельных наборов значений факторов;

4) исследование отклонений расчетных значений от эмпирических (наблюдаемых, статистических) данных.

Отметим, что выбор вида функции для регрессионной модели может производиться на основе анализа эмпирических данных или путем рассмотрения нескольких функций с последующим выбором наилучшей по некоторому критерию. Определение коэффициентов (параметров) регрессии, как правило, проводится по методу наименьших квадратов.

Рассмотрим вначале связь между одной причиной Х и следствием Y, то есть парную регрессию (однофакторную регрессионную модель). В этом случае исходными данными являются k значений хi (i = 1, 2, …, k) фактора Х и соответствующие значения уi (i = 1, 2, …, k) результативной величины Y. Теоретические значения результативного признака, то есть вычисленные по уравнению регрессии, обозначим через .

Для описания связи между Х и Y используют следующие виды функций:

1) линейная ;

2) параболическая ;

3) кубическая парабола ;

4) гиперболическая ;

5) логарифмическая ;

6) степенная ;

7) показательная ;

8) экспоненциальная ;

9) логистическая

и некоторые другие. Здесь а0, а1, … – неизвестные параметры (коэффициенты регрессии), подлежащие определению.

Необходимо подобрать значения параметров а0, а1, …, обеспечивающие в некотором смысле оптимальную аппроксимацию (приближение) теоретической функцией эмпирических данных уi (i = 1, 2, …, k). В качестве критерия оптимальности берут ту или иную меру отклонений эмпирических значений уi от соответствующих теоретических (расчетных) значений , вычисленных в точках хi по уравнению регрессии.

Наиболее широко используется метод наименьших квадратов. Согласно методу коэффициенты регрессии определяются по критерию: сумма квадратов отклонений имеющихся данных от выбранной кривой регрессии минимальна:

,

где уi – эмпирические данные; - величины, вычисленные по уравнению регрессии при х = хi.

Использование квадратов отклонений эмпирических данных от расчетных позволяет не допустить компенсацию ошибок с разными знаками в разных точках хi.

Если в уравнение регрессии (в функцию ) входят параметры а0, а1, …, аm, то сумму S можно рассматривать как функцию многих переменных а0, а1, …, аm. Тогда реализация записанного выше критерия сводится к решению системы уравнений

.

Заметим, что равенство нулю частных производных есть необходимое условие существования экстремума функции многих переменных, но не достаточное. Однако в нашем случае функция S(а0, а1, …, аm) имеет такой вид, что из условия находим такие значения для а0, а1, …, аm, при которых S будет иметь наименьшее значение.

Итак, для нахождения а0, а1, …, аm необходимо решить систему m+1 уравнений. Если функция линейна относительно своих параметров (функции 1-5), то система уравнений будет также линейной. Эта система линейных алгебраических уравнений решается каким-либо методом, например, методом Гаусса. Если имеет место нелинейное вхождение искомых параметров в функцию (функции 6-9), то приходим к нелинейной системе уравнений, которую решить бывает очень трудно. Поэтому часто функцию , нелинейную относительно своих параметров, преобразуют в линейную.

После нахождения параметров а0, а1, …, аm последние подставляются в уравнение регрессии . Теперь, задавая какие-либо значения х, может вычислить соответствующее значение .

Построим системы уравнений для некоторых видов функций .

Для линейной функции критерий метода наименьших квадратов запишется в виде:

.

Приходим к системе

В развернутом виде получаем следующую систему линейных алгебраических уравнений:

откуда легко найти ао и а1.

Для параболической функции будем иметь

.

Получаем систему линейных уравнений

или

Решая систему, находим а0, а1, а2.

Для гиперболической функции получаем

.

Построим систему уравнений

,

которая имеет вид:

Решая систему, находим коэффициенты регрессии ао и а1.

Аналогичным образом можем построить системы уравнений и для других видов функций .

После определения коэффициентов регрессии, чтобы оценить, насколько вычисленные по уравнению регрессии теоретические значения отличаются от эмпирических данных, вычисляют среднее квадратическое отклонение

и по его величине судят о правильности выбранной функциональной связи между Y и Х.

Заметим, что вместо вычисления σ можно вычислить величину

,

которая будет столь же информативна, как и σ, для оценки правильности построенной регрессионной модели.

Для одних и тех же эмпирических данных можно выбрать для построения регрессионной модели различные виды теоретических функций , определить для каждой функции наилучшие значения параметров и вычислить δ. Функция, для которой δ имеет наименьшее значение, будет наиболее пригодна для описания исследуемого юридического показателя Y.

Регрессионный анализ применяется и при исследовании динамических рядов. В этом случае в качестве факторного признака Х берется время, то есть значения хi есть ti.

Для получения более точного прогноза необходимо опираться на достаточно большое число статистических данных, проводить их предварительную обработку. Кроме того, можно попытаться подобрать другую функцию с тем, чтобы уравнение регрессии лучше описывало имеющиеся статистические данные. В данном примере проводили экстраполяцию на основе простой зависимости (параболической), но существует много других более сложных методов прогнозирования, позволяющих достаточно эффективно осуществлять краткосрочное и среднесрочное прогнозирование.

Теперь рассмотрим случай, когда имеем несколько факторных признаков. Построение функциональной связи между результирующим показателем и двумя и более факторами носит название множественной (многофакторной, многомерной) регрессии. При этом уравнение регрессии имеет вид

.

В множественной регрессии выбор формы связи является значительно более сложным по сравнению с парной регрессией.

Практика построения многофакторных моделей показывает, что реально существующие зависимости можно описать, используя следующие типы моделей:

1) линейная ;

2) степенная ;

3) экспоненциальная ;

4) параболическая ;

5) гиперболическая .

Основное значение имеют линейные модели (относительно параметров регрессии) в силу своей простоты. Нелинейные формы зависимости часто преобразуются к линейным путем линеаризации.

Наиболее приемлемым способом определения вида уравнения регрессии является метод перебора различных уравнений регрессии.

Наилучшие значения параметров регрессии а0, а1, …, аm определяются методом наименьших квадратов. Например, для линейной многофакторной модели коэффициенты регрессии находятся по критерию:

.

Реализация этого критерия приводит к системе линейных алгебраических уравнений

,

из которой определяются а0, а1, …, ат.

 

Литература

1. Правовая статистика / Под ред. Казанцева С.Я., Лебедева С.Я. – М.: ЮНИТИ. 2008.

Лунев В.В. Юридическая статистика. – М: Юрист, 1999.

Савюк Л.К. Правовая статистика. – М: Юрист, 2003.

 

 


 

Лекция 9

 

Корреляционный анализ

План лекции

1. Исследование корреляционных зависимостей.

2. Выявление корреляционной связи между двумя признаками.

3. Прямые и обратные корреляционные связи. Линейные и нелинейные корреляционные связи.

4. Корреляционная таблица.

5. Определение числа групп и величины интервала.

6. Поле корреляции.

7. Эмпирическая линия связи.

8. Количественная оценка тесноты связи между факторами.

9. Коэффициент корреляции и его свойства.

10. Корреляционное отношение и его свойства. Теоретическое корреляционное отношение.

11. Коэффициент детерминации. Коэффициент ассоциации.

12. Множественная корреляция.

 

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.