Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Методика корреляционно-регрессионного анализа (КРА)

⇐ ПредыдущаяСтр 6 из 6

Исследование связи между признаками требует прежде всего проведения теоретического анализа существа изучаемого явления, включая формулировку задачи исследования, отбор факторных признаков Х, влияющих на результативный признак Y, выдвижение гипотезы о наличии корреляционной связи между результативным и факторными признаками.

По завершении теоретического анализа проводится анализ свойств совокупности единиц наблюдения (x_i, y_i). Необходимость такого анализа обусловлена тем, что для практического применения методов КРА должны выполняться определенные требования в отношении отбора единиц наблюдения:

1. однородность изучаемой статистической совокупности (например, для совокупности предприятий это однородность выпускаемой продукции, одинаковый характер технологического процесса, одинаковый тип используемого оборудования);

2. репрезентативность выборки единиц наблюдаемой совокупности, т.к. при малой выборке может быть "затушевано" действие случайных факторов, взаимопогашение которых происходит при расчете условных средних ;

3. достаточность объема эмпирических данных для выявления закономерности связи (число факторных признаковдолжно быть в 5-6 раз меньше объема изучаемой совокупности);

4. независимость включаемых в регрессионную модель фактор-признаков X₁, X_2,…, X_m,т. к. наличие связи между ними свидетельствует о том, что они характеризуют одни и те же стороны изучаемого явления и в значительной мере дублируют друг друга;

5. нормальный характер распределения изучаемого признака Y при фиксированных значениях признаков X₁, X_2,…, X_m.

В статистических исследованиях часто приходится сталкиваться с теми или иными отклонениями от указанных требований, однако практика показывает, что незначительные отклонения не являются препятствием к применению методов КРА.

Корреляционно-регрессионный анализ взаимосвязей признаков (показателей) включает следующие этапы:

1. установление факта наличия корреляционной связи изучаемых признаков, определение направления связи и эмпирическая оценка ее тесноты;

2. проверка статистической значимости (неслучайности) выявленной корреляционной связи;

3. выбор аналитической формы связи и построение математической модели связи в виде уравнения регрессии;

4. оценка статистической значимости коэффициентов построенного уравнения регрессии и определение их доверительных интервалов;

5. анализ адекватности построенной регрессионной модели связи;

6. экономическая интерпретация регрессионной модели связи.

На каждом из этапов КРА применяются соответствующие статистические методы и числовые характеристики.

Содержание этапов КРА рассматривается ниже на примере парной корреляции признаков Х и Y.

1. Проверка статистической значимости корреляционной связи признаков позволяет количественно оценить, насколько выявленная связь между факторным и результативным признаками носит неслучайный характер, т. е. насколько она является типичной, существенной для изучаемого явления (для генеральной совокупности).

Необходимость в такой оценке обусловлена тем, что корреляционному анализу обычно подвергается сравнительно небольшие (по составу единиц) совокупности и возникает вопрос, насколько оценки тесноты связи, сделанные по ограниченным выборочным данным, правомерны для всей генеральной совокупности. Если связь признается существенной, она моделируется и исследуется на последующих этапах методами КРА. Если же связь оценена как несущественная, это означает, что выбор факторного признака произведен недостаточно корректно и следует попытаться отыскать иную зависимость признаков.

Для оценки существенности связи используются критерии, известные из математической статистики (F-критерий Фишера, t-критерий Стьюдента, критерий « -квадрат» и др.).

В случае малых выборок (n 30) проверка существенности связи проводится путем сравнения расчетного значения с его критическим значением (k₁, k₂), заданным в таблице распределения Стьюдента для уровня значимости (обычно =0,05 или =0,01*) и числа степеней свободы k₁=m-1, k₂=n-m, где m - число групп в аналитической таблице, n - объем наблюдаемой совокупности. Если > , то связь признается неслучайной (типичной для изучаемого явления).

2. Построение математической модели корреляционной зависимости признаков осуществляется в два шага.

Первый шаг заключается в том, чтобы по виду корреляционного поля или эмпирической линии регрессии (построенным по фактически наблюдаемым данным (x_i, y_i)) установить основную тенденцию взаимосвязи признаков и выразить ее в форме соответствующей математической функции связи вида (8). При этом для выбора типа функции связи важен лишь общий вид функции f(х), без конкретизации значений входящих в нее параметров связи a_k (k = 0, 1, 2, …). Выбор того или иного типа функции связи означает лишь выдвижение и принятие некоторой (теоретически обоснованной или практически приемлемой) гипотезы о механизме взаимодействия изучаемых признаков.

На втором шаге определяются численные значения параметров связи a_k выбранной типовой функции f(х). Для этой цели применяется метод наименьших квадратов (МНК), основанный на использование критерия минимизации остатков (11). Применение МНК приводит к системе нормальных уравнений с неизвестными параметрами a_k, причем система содержит столько уравнений, сколько параметров связи имеется в типовой функции f(х). В результате решения системы нормальных уравнений параметры a_k типовой функции связи f(x) получают конкретные числовые значения и модель приобретает вид уравнения регрессии , в котором значения а_k (k = 0, 1, 2, …) являются числовыми коэффициентами при k-ой степени фактора X^К. Это уравнение и является искомой математической моделью изучаемой корреляционной связи. На ее основе в дальнейшем рассчитываются теоретические значения результативного признака.

Часто для выражения формы связи подходит одновременно несколько типовых функций f(x), поэтому окончательный выбор вида функции связи должен быть обоснован путем рассмотрения и оценки альтернативных вариантов регрессионных моделей.

3. Оценка статистической значимости коэффициентов уравнения регрессии и определение их доверительных интервалов. При построении уравнения регрессии параметра a_k рассчитываются по ограниченному числу эмпирических данных (x_i, y_i) и, следовательно, являются лишь приближенными оценками фактических параметров связи. Поэтому необходимо вычислить средние ошибки найденных параметров a_k и с заданной доверительной вероятностью P определить пределы, в которых могут находиться фактические значенияa_k. Кроме того, найденные параметры a_k необходимо проверить на статистическую значимость (неслучайность).

Расчет ошибок параметров a_k основан на использовании остаточной дисперсии (обозначаемой также ), которая характеризует колеблемость эмпирических значений y_i около их выровненных значений (т.е. около теоретической линии регрессии). Иными словами, остаточная дисперсия оценивает вариацию остатков , определяемых соотношением (16). Расчет остаточной дисперсии производится по формуле:

(20)

В случае линейной корреляционной связи средние ошибки параметров a₀и a₁ вычисляются по формулам:

где - дисперсия факторного признака X.

Доверительный интервал для каждого параметра a_k рассчитывается как величина

(21)

где t – коэффициент доверия, соответствующий заданному уровню надежности P.

Статистическая значимость параметраa_k (т.е. неслучайность найденного значения a_k, его типичность для всей генеральной совокупности) проверяется путем сопоставления величины a_k со средней ошибкой , исходя из t-критерии Стьюдента

При большом числе наблюдений (n>30) параметр a_k считается значимым, если >3.

Если выборка мала (n 30), рассчитанная величина сопоставляется с табличным (критическим) значением t-критерия Стьюдента для числа степеней свободы n-2 и уровня значимости ( =0,05 или =0,01 в зависимости от заданного уровня надежности P). Если ( , n-2), то параметр a_k считается значимым.

Проверка значимости производится для каждого параметра связи a_k построенного уравнения регрессии. Если параметр a_k является значимым, то практически невероятно, что его значение обусловлено только стечением случайных обстоятельств.

4. Анализ адекватности регрессионной модели преследует цель оценить, насколько построенная теоретическая модель взаимосвязи признаков отражает фактическую зависимость между этими признаками, и тем самым оценить практическую пригодность синтезированной модели связи. Такая оценка необходима, в частности, для сравнительного анализа качества альтернативных вариантов моделей с целью выбора наилучшей из них.

Проверка адекватности регрессионной модели фактическим данным наблюдения (x_i, y_i) осуществляется путем оценки тесноты связи между факторными значениями x_i и выровненными (теоретическими) результативными значениями , рассчитанными по уравнению регрессии. При этом используются следующие показатели вариации признака Y:

· общая дисперсия , вычисляемая по формуле (12) и оценивающая вариацию эмпирических значений y_i под влиянием всех действующих на признак Yфакторов;

· факторная дисперсия , оценивающая вариацию расчетных (теоретических) значений Y под воздействием фактора X:

, (22)

где отклонения ( ) характеризуют колеблемость выровненных значений от их средней величины *;0

· остаточная дисперсия , вычисляемая по формуле (20) и характеризующая вариацию расчетных значений Y под воздействием всех иных, кроме X, факторов.

Анализ адекватности модели выполняется в 3 этапа:

· измерение тесноты связи признаков в уравнении регрессии;

· определение по величине показателей тесноты связи практической пригодности построенной модели связи;

· проверка статистической значимости показателей тесноты связи.

1. Для построенной регрессионной модели измерение тесноты связи признаков X и Y осуществляется на основе следующих показателей:

R²- индекс детерминации (называемый также теоретическим коэффициентом детерминации и обозначаемый ), показывающий, какая часть общей вариации расчетных (теоретических) значений признака Y объясняется вариацией фактора X;

R – индекс корреляции (называемый также теоретическим корреляционным отношением и обозначаемый ), оценивающий степень тесноты связи между факторными значениями x_i и расчетными результативными значениями ;

r – линейный коэффициент корреляции, используемый для измерения тесноты связи признаков в регрессионной модели в случае линейной функции связи f(x).

Расчет этих показателей определяется следующими формулами:

, , , (21)

где a₁– коэффициент регрессии в регрессионной модели связи.

Используя соотношения ( 20) и (22) для вычисления соответствующих дисперсий, а также известное из математической статистики правило сложения дисперсий

,

для расчета показателей R² и R применяют формулы:

, (22)

. (23) (23)

2. Практическая пригодность синтезированной регрессионной модели связи оценивается по величине показателей r (в случае линейности модели), R или R².

Из формул (21) – (23) следует, что значения всех трех показателей R², R и r зависят от того, какая типовая форма (8) уравнения регрессии была выбрана, поэтому эти показатели можно рассматривать как измерители степени близостивыбранной теоретической линии регрессии к фактическим данным. Качественный характер такой близости может оцениваться в соответствии со шкалой Чэддока.

Индекс корреляции R принимает значения в пределах . При этом:

· близость R к единице означает, что связь между признаками достаточно хорошо описывается избранным уравнением корреляционной зависимости (8);

· если R равен или близок к нулю, это означает, что между фактором X и теоретическими значениями признака Y либо нет связи, либо если она и существует, то не может быть охарактеризована выбранным для моделирования типовым аналитическим выражением связи (8).

Аналогичные утверждения имеют место и для линейного коэффициента корреляции r, принимающего значения в пределах -1 r 1:

· близость к единице свидетельствует о хорошей аппроксимации фактических данных полученной линейной функцией связи = a₀ + a₁x;

· близость к нулю, означает, что уравнение регрессии не может быть линейным.

Пригодность построенной регрессионной модели для практического использования можно оценить и по величине индекса детерминации R²:

· неравенству R²> 0,5 отвечают значенияR>0,7 (или >0,7), что означает высокую степень тесноты связи признаков в уравнении регрессии. При этом более 50% вариации расчетных значений признака Y объясняется влиянием фактора Х, что позволяет считать применение синтезированного уравнения регрессии правомерным;

· при R 0,7 (или 0,7) величина R² всегда будет меньше 50%. Это означает, что на долю вариации фактора Х приходится меньшая часть по сравнению с прочими признаками, влияющими на вариацию расчетных значений Y. При таких условиях построенная математическая модель связи практического значения не имеет.

В тех случаях, когда рассматриваются альтернативные регрессионные модели, индекс детерминации R² используется в качестве критерия предпочтительности того или иного уравнения регрессии: наилучшей считается модель с наибольшим значением R².

3. Так как показатели тесноты связи R или rрассчитываются на основе ограниченной совокупности наблюдаемых эмпирических данных (x_i, y_i), значения которых могли быть искажены влиянием случайных факторов, то найденные по уравнению регрессии показатели тесноты связи r, R проверяются на их неслучайность (значимость).

Для оценки значимости линейного коэффициента корреляции r применяется t-критерий Стьюдента, фактическое значение которого рассчитывается по формуле:

. (24)

Расчетное значение критерия t_r сравнивается с критическим t_табл, определяемым по таблице значений t-критерия Стьюдента с учетом заданного уровня значимости и числа степеней свободы k=n-2. Если t_расч>t_табл,то величина коэффициента корреляции признается значимой.

Для оценки значимости индекса корреляции R применяется F-критерий ФишераF_R, фактическое значение которого определяется по формуле

, (25)

где m – число параметров уравнения регрессии.

Расчетная величина F_R сравнивается с критическим табличным значением F_табл( ), которое определяется по таблице F- критерия с учетом принятого уровня значимости и числа степеней свободы k₁=m-1 и k₂=n-m. Если F_расч>F_табл, то величина найденного индекса корреляции R признается значимой.

Значимость показателя тесноты связи R или r означает, что зависимость между признаками Х и Y регрессионной модели является статистически существенной, т.е. построенная регрессионная модель в целом адекватна исследуемому процессу. Следовательно, выводы, сделанные на основе регрессионной модели, построенной по данным ограниченной выборки, можно с достаточной вероятностью распространить на всю генеральную совокупность.

В качестве критерия адекватности регрессионной модели в практике экономико-статистического анализа, помимо показателя тесноты связи r, R и R² используются также следующие показатели:

· средняя квадратическая ошибка уравнения регрессии , представляющая собой среднее квадратическое отклонение эмпирических значений признака Y от теоретических:

· средняя ошибка аппроксимации , выраженное в процентах:

В адекватных моделях ошибки и не должны превышать 12%-15%.

Показатели и могут использоваться при подборе наилучшей модели функции связи: более адекватной считается та модель, в которой меньше величина (или ).

5. Экономическая интерпретация построенной регрессионной модели взаимосвязи признаков – это, по существу, перевод модели с языка статистики и математики на язык экономики.

Интерпретация уравнения регрессии используется для целей анализа и прогноза взаимосвязей признаков.

1. В процессе анализа прежде всего выясняются, как факторный признак влияет на величину результативного признака. Чем больше величина коэффициентов регрессии a_k при k-ой степени фактор Х, тем значительнее влияние данного признака на результативный.

В случае линейного уравнения регрессии = a₀ + a₁x величина коэффициента регрессии a₁ показывает, на сколько в среднем (в абсолютном выражении) изменяется значения результативного признака Y при изменении фактора Х на единицу его измерения. Знак при a₁ показывает направление этого изменения.

Если в соответствии с экономической теорией факторный признак должен иметь положительное значение, а коэффициент a_kимеет знак «-» то необходимо проверить расчеты параметров связи, а также возможность ошибок при сборе и обработке информации.

2. С целью расширения возможностей экономического анализа используется коэффициент эластичности , который показывает, на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.

3. Анализируя остатки , характеризующие отклонения i-ых наблюдений от значений , которые следует ожидать в среднем, можно сделать ряд практических выводов об эффективности экономической деятельности рассматриваемых хозяйствующих субъектов и выявить скрытые резервы их развития и повышения деловой активности. При этом наиболее значительный экономический интерес представляют наибольшие и наименьшие положительные и отрицательные отклонения .

4. Уравнение регрессии может использоваться для краткосрочного прогнозирования ожидаемых значений результативного признака Y в зависимости от тех или иных значений фактора Х.

Прогнозные значения результативного признака Y получают путем подстановки в уравнение регрессии ожидаемых значений признака Х. Уравнение позволяет определять в рассматриваемом временном периоде возможные значения признака Y при значениях Х из интервала [x_min- x_max].

При прогнозировании значений Y за рассмотренными пределами изменения фактора X необходимо соблюдать следующее ограничение: нельзя подставлять в уравнение регрессии факторные значения x_i, существенно отличающиеся от тех, на основе которых это уравнение было получено.

Для выполнения этого требования при выборе факторных производных значений х рекомендуется не выходить за пределы 1/3 размаха вариации фактора x (x_max-x_min) как сверх минимального (x_min), так и сверх максимального (x_max)значений, которые имеются в исходных эмпирических данных.

* Уровень значимости связан с доверительной вероятностью P соотношением =1-P. Поскольку в экономических исследованиях обычно используются уровни надежности P=0,954 или P=0,997, то наиболее часто применяются уровни значимости =0,05 или =0,01.

* Средняя величина расчетных значений совпадает с общей средней эмпирических значений y_i, поскольку при применении метод наименьших квадратов суммы теоретических и эмпирических значений признака Y совпадают.

⇐ Предыдущая 1 2 3 4 56

Поиск по сайту: