В регрессионном анализе изучается односторонняя зависимость переменной от одной или нескольких переменных . Переменную называют функцией отклика или объясняемой переменной, а - объясняющими переменными. Основная задача регрессионного анализа - установление формы зависимости между объясняемой и объясняющими переменными и анализ достоверности модельных параметров этой зависимости.
Пусть требуется найти аналитический вид (формулу вычисления) некоторого экономического показателя .
На первом шаге регрессионного анализа идентифицируют переменные , от которых зависит , т.е. определяют те существенные факторы, которые воздействуют на этот показатель (см. Пример 8.1 ). Символически этот факт записывается так:
На втором шаге регрессионного анализа требуется спецификация формы связи между и , т.е. определение вида функции . Ориентиром для определения вида зависимости являются содержание решаемой задачи, результаты наблюдений за поведением показателя относительно изменения факторов на основе статистических данных. Например, выборочные наблюдения пар наблюдаемых значений приведенные на Рис. 8.1a), говорят о линейном характере зависимости вида а на Рис 8.1b) - о полиномиальной зависимости вида
Рис. 8.1. Примеры эмпирических зависимостей
Предположим, что в результате спецификации определена линейная зависимость между показателем и факторами :
(8.2.1)
Задача третьего шага регрессионного анализа заключается в определении конкретных числовых значений параметров на основе статистических данных о наблюдениях значений .
Естественно, линейные зависимости вида (8.2.1) наиболее просты для эконометрических исследований. Оказывается, что в ряде случаев к виду (8.2.1) можно привести и нелинейные зависимости с помощью логарифмирования, введения обратных величин и других приемов. Преобразование нелинейных функций в линейные называется линеаризацией. Покажем, в связи с этим, некоторые приемы линеаризации в случае двух переменных.
Пусть нелинейное соотношение имеет гиперболический вид
Введем переменную . Тогда это соотношение становится линейным относительно и :
Рассмотрим нелинейные зависимости степенного и показательного видов:
Прологарифмируем обе части каждого соотношения:
Обозначив получаем линейные соотношения
(относительно ),
(относительно ).
Таким образом, линеаризация расширяет область линейных моделей и повышает популярность линейных эконометрических методов. Однако опыт работы с экономическими данными показывает, что их отдельные значения не укладываются точно на прямую или на другую гладкую линию. Поэтому формализация вида (8.2.1) оказывается неадекватной целям, связанным с измерениями в экономике. Эта проблема преодолевается введением в соотношение (8.2.1) стохастического члена :
. (8.2.2)
Уравнение (8.2.2) называется линейной эконометрической моделью (или линейным уравнением регрессии на ). Если мы имеем выборку , из наблюдений над переменными , то модель (8.2.2) можно переписать в виде:
где неизвестными являются параметры и возмущения .
Задача оценки неизвестных параметров уравнения (8.2.2) с помощью наблюдаемых значений переменных называется линейным регрессионным анализом.
Пример 8.2. Исследуется соотношение между потребительскими расходами и доходами с использованием данных о семейных бюджетах семей за некоторый фиксированный период времени.
Совокупность статистических данных сгруппируем по численности и составу семей и рассмотрим связь между и в каждой конкретной группе. Внутри группы выберем семьи, имеющие один и тот же доход . Очевидно, расходы этих семей будут разными. Однако можно указать такой уровень расходов , вокруг которого будут сгруппированы расходы всех семей этой подгруппы. Предположим, что для и справедливо соотношение где . Обозначим через величину отклонения расходов -й семьи от «центрального» значения . Тогда реальные объемы потребления для семей данной подгруппы будут представлены в виде Причем для одних семей будут иметь положительный знак, а для других - отрицательный.
Эти рассуждения приводят к следующей гипотезе для нахождения искомого соотношения между потребительскими расходами и доходами: Слагаемое называется стохастическим возмущением или ошибкой. Для окончательного решения нашей задачи остается на основе выборочных значений оценить параметры и ошибку .
Замену функциональной зависимости (8.2.1) (т.е. математической модели показателя Y) статистической зависимостью (8.2.2) (т.е. эконометрической моделью показателя Y) можно обосновать следующими объективными причинами:
нехватка или отсутствие информации обо всех факторах, влияющих на величину ;
априорное исключение второстепенных факторов, имеющих слабое влияние на показатель , но неадекватно усложняющих исследование;
возможные неточности при моделировании (при идентификации важнейших факторов, вида зависимости и т.д.), оказывающие влияние на суммарный эффект на модельное значение ;
ошибки наблюдения или измерения наблюдаемых значений факторов и показателя .
Дополнительное слагаемое в (8.2.2) призвано компенсировать отклонения, вызванные этими причинами. Поскольку стохастическое возмущение является случайной величиной, то можно говорить о свойствах ее распределения, среднем значении, дисперсии и т.д.
Теоретической основой регрессионного анализа линейных эконометрических моделей типа (8.2.2) чаще других служит метод наименьших квадратов. Применение этого метода рассмотрим на примере парной регрессионной модели, т.е. линейной модели, состоящей из единственного уравнения, содержащего только две переменные:
(8.2.3)
Предположим, что проведено выборочных наблюдений, в результате чего получены значения:
...
...
(Так как рассматривается зависимость только от одной переменной, в этой таблице и далее нижние индексы при показывают, в отличие от формулы (8.2.2) , номера наблюдаемых значений этой единственной переменной ; аналогично , показывают наблюдаемые значения ). Введем в рассмотрение средние арифметические
Получим помощью наблюдаемых данных уравнение линии
, (8.2.4)
которая будет наилучшей оценкой истинной линии Согласно методу наименьших квадратов эти параметры и являются решением оптимизационной задачи
Необходимые условия оптимальности пары имеют вид (см. (2.3.3)):
(8.2.5)
Подставляя в эту систему значений выборочных наблюдений , получим линейную систему из двух уравнений с двумя неизвестными и . Решив ее, найдем искомые параметры.
Систему (8.2.5) можно решить другим способом. Для этого проведем следующие преобразования. Разделив первое уравнение (8.2.5) на число , получим
(8.2.6)
т.е. при найденных и оценочная линия (8.2.4) проходит через точку средних значений (Рис. 8.2 ).
Рис. 8.2. Оценочная линия
Вычитая (8.2.6) из (8.2.4) получим: Отклонения наблюдаемых значений , от их средних обозначим малыми буквами:
В этих обозначениях оценочное уравнение (8.2.4) запишется в виде:
, (8.2.7)
а отклонение точки от этой линии в виде
Задача минимизации суммы квадратов отклонения:
относительно дает
. (8.2.8)
Применяя достаточный признак оптимальности (см. (2.3.5)):
,
убеждаемся, что действительно является точкой минимума функции . Параметр найдем из (8.2.6):
(8.2.9)
Пример 8.3. Требуется выявить зависимость аварий на дорогах от количества автотранспорта для некоторого региона на основе результатов ежегодных наблюдений, заданных в следующей таблице:
Номер года
(1)
Год
(2)
Количество аварий на дорогах
(3)
Количество зарегистри-
рованных транспорт-
ных средств
(4)
Введем обозначения: - номер года ; - аварии на дорогах; - количество аварий в год ; - транспортные средства; - количество транспорта в год . Количество наблюдений С помощью данных столбиков (3) и (4) вычислим коэффициенты для системы (8.2.5):
Система (8.2.5) принимает вид:
Решением ее будут параметры Следовательно, оценочное уравнение запишется в виде
i
-51,8
-64,8
-40,8
-16,8
-1,8
-9,8
9,2
20,2
50,2
50,2
56,2
-167,2
-146,2
-108,2
-78,2
-57,2
-29,2
9,8
57,8
121,8
172,8
223,8
Если же применять формулы (8.2.8) и (8.2.9), то необходимо предварительно вычислить и (см. таблицу). Далее, подставляя эти значения в упомянутые формулы, находим