Установим некоторые свойства параметров (8.2.8) и (8.2.9), полученных методом наименьших квадратов:
A) линейная зависимость и от наблюдаемых значений показателя ;
B) и являются несмещенными оценками истинных параметров и (в соотношении );
C) и являются наилучшими линейными несмещенными оценками и .
Эти свойства показывают состоятельность найденных оценок и не требуют дополнительных комментариев. Заметим только, что параметры и можно рассматривать как случайные величины, считая наблюдаемые значения , , фиксированными, т.е. одинаковыми во всех выборках. В этом случае величина будет меняться от выборки к выборке в силу различий в значениях переменной (см. (8.2.3) ), которые подчиняются вероятностному распределению. Применяя формулы (8.2.8) и (8.2.9) для и к каждому множеству выборочных наблюдений , образуем последовательность оценок . Используя распределения величин и , можно вычислить средние значения , и дисперсии, где и являются несмещенными оценками параметров и , если , .
Относительно случайной величины в (8.2.3) будем предполагать, что
a) среднее значение случайной величины равно нулю;
b) дисперсия случайной величины постоянна и не зависит от ;
c) ковариация различных значений равна нулю.
Условие 1) говорит о том, что для фиксированного значения X возможные значения группируются вокруг центрального значения , каким является ее среднее значение (см. Пример 8.2); условие 2) говорит об одинаковых распределениях вероятностей величины для разных значений , например, дисперсия не возрастает с ростом значений ; условие 3) означает, что любое значение , положительное или отрицательное, никаким образом не влияет на значения и в этом случае точки выборки более или менее тесно группируются вокруг прямой линии
Проверим выполнение свойства A). Перепишем соотношение (8.2.8) в виде:
.
Покажем, что Действительно,
Поэтому
Обозначим
Тогда можно написать линейную зависимость от :
. (8.3.1)
Непосредственно убеждаемся, что
Используя (8.3.1) , из (8.2.9) получаем:
т.е. действительно является линейной функцией от .
Проверим выполнение свойства B). Из (8.2.3) находим
Используя формулу (8.3.1) и свойства , получим
Вычислим среднее значение :
Согласно условию a) Поэтому т.е. есть несмещенная оценка параметра . Параметр можно представить следующим образом:
Применяя операцию получения математического ожидания и пользуясь условием a), находим: т.е. также является несмещенной оценкой параметра .
Докажем свойство С. Составим оптимизационную задачу для получения наилучших линейных несмещенных оценок и покажем, что оценки наименьших квадратов совпадают с решением этой задачи. Покажем это для параметра , (для аналогично).
Из всех несмещенных оценок вида
параметра наилучшей будет та, у которой дисперсия минимальна. Пользуясь выборочными данными, запишем:
Вычислим математическое ожидание:
(здесь использовано условие a)). Следовательно, будет несмещенной оценкой тогда и только тогда, когда
. (8.3.2)
При выполнении этих условий вычислим дисперсию :
(здесь имеется в виду независимость случайных величин по свойству c)). Используя свойство b), имеем
,
где - среднеквадратическое отклонение случайных величин , одинаковое для всех . Составим оптимизационную задачу:
Так как множество несмещенных оценок сопряжено с множеством весов , удовлетворяющих условиям (8.3.2) , и с учетом того, что
задача эквивалентным образом запишется в виде
при ограничениях
Для решения этой задачи введем множители и и составим функцию Лагранжа
Необходимые условия оптимальности (см. (2.3.9)), состоящие из условий стационарности и допустимости, после некоторых преобразований имеют вид:
Просуммировав первое уравнение по , получим равенство которое подставим в первое уравнение:
Умножив это уравнение на , просуммировав по и воспользовавшись третьим уравнением, получим
Таким образом,
и, следовательно,
Тем самым показано, что веса равны весам в оценке , полученной методом наименьших квадратов (см. (8.3.1)), и поэтому будет наилучшей линейной несмещенной оценкой параметра . Аналогично доказывается этот факт для оценки .
Таким образом, если
где ошибки удовлетворяют условиям a), b), c), а - фиксированные константы, то оценки наименьших квадратов
являются наилучшими линейными несмещенными оценками параметров и , а их дисперсии равны:
(8.3.3)
(8.3.4)
где - одинаковое для всех среднеквадратическое отклонение.
Заметим, что при более детальном анализе оценок и исследуют еще и их «максимальное правдоподобие». Однако изучение этого свойства требует введения ряда новых достаточно сложных понятий. То же самое относится и к обобщению рассмотренного регрессионного анализа в двух направлениях: во-первых, нелинейного регрессионного анализа - когда корреляционная зависимость между и нелинейна; во-вторых, многомерного регрессионного анализа - когда зависит от многих объясняющих переменных .
Корреляционный анализ
Основной задачей корреляционного анализа является выявление тесноты связи между случайными величинами путем оценки коэффициентов корреляции.
Рассмотрим простейшее из уравнений регрессии - двумерную модель (8.2.3) . Полную информацию о корреляционной зависимости между переменными и , заданными с помощью выборочных наблюдений , , в этой модели, дают средние значения и , дисперсии и (см. (2.5.9)) и коэффициент корреляции (см. (2.5.13))
где и - среднеквадратические отклонения, а - ковариация между и (см. (2.5.12)). Выборочный коэффициент корреляции в обозначениях и можно записать в виде
(8.4.1)
Рис. 8.3 Иллюстрация отклонений и
Для обоснования измерения тесноты связи между случайными величинами и при помощи формулы (8.4.1) разобьем поле рассеяния точек , на четыре части с помощью перпендикуляров к осям координат, проходящих через точку (см. Рис. 8.3). Тогда для любой точки будут определены отклонения и . При помощи этих переменных можно характеризовать полученные на Рис. 8.3 квадранты: квадранты I и III характеризуются положительным знаком произведения , а квадранты II и IV - отрицательным знаком . Переводя эти рассуждения на случайные величины и , можно сделать вывод, что
если зависимость между и положительная, то большая часть точек лежит в I и III квадрантах и сумма становится положительной;
если зависимость между и отрицательная, то большая часть точек лежит в II и IV квадрантах и сумма становится отрицательной;
если нет связи между и , то точки рассеяны по всем четырем квадрантам и сумма близка к нулю.
Сумма в качестве меры тесноты связи между и имеет недостаток: ее численное значение может быть увеличено за счет случайной, достаточно удаленной от точки или же в результате выбора единиц измерения переменных и . Эти недостатки можно исправить, если усреднить рассматриваемую сумму в виде (8.4.1), т.е. мерой оценки связи взять коэффициент корреляции , который является безразмерной величиной и при достаточно большом объеме выборки обладает следующими удобными свойствами:
для любых случайных величин и
если то корреляционная связь между и отсутствует;
если , то корреляционная связь переходит в функциональную зависимость между и .
Введём в рассмотрение величины:
и представим выражение (8.4.1) в виде
. (8.4.2)
Пусть и - параметры регрессии (8.2.4), полученные методом наименьших квадратов. Объединяя формулы (8.2.8) и (8.4.2), получим:
. (8.4.3)
Возведя в квадрат обе части уравнения отклонения точки от линии наименьших квадратов (8.2.7) и суммируя по , получим:
(8.4.4)
В силу (8.2.7) имеем:
Используя (8.2.8), запишем
Поэтому из (8.4.4) получаем
(8.4.5)
Как следует из (8.4.5), общая вариация значений случайной величины около их выборочного среднего может быть разложена на две составляющие. Первая составляющая показывает вариацию значений около их среднего , равного среднему . Действительно, так как точка лежит на линии (см. (8.2.6)), найденной методом наименьших квадратов, то
Эту составляющую общей вариации обычно связывают с линейным воздействием на изменений объясняющей переменной . Т.е. это часть суммы квадратов отклонений, которая обусловлена найденной линейной зависимостью .
Предположив общую вариацию отличной от нуля и принимая во внимание выражения (8.2.7) и (8.4.3), вычислим отношение:
(8.4.6)
Следовательно, отношение части общей вариации , обусловленной линейной зависимостью от , к общей вариации равно квадрату коэффициента корреляции. Другими словами, это есть доля дисперсии , объясняемая линейной зависимостью от . Ее называют коэффициентом детерминации. Например, означает, что линейная регрессия на объясняет 0,25% дисперсии .
Из (8.4.5) и (8.4.6) получаем еще одно представление для коэффициента детерминации:
(8.4.7)
Отсюда следует, что значение не может превзойти единицы и что его максимальное значение будет достигнуто только при
Последнее возможно, когда каждое отклонение равно нулю и поэтому все точки в точности лежат на прямой линии (функциональная зависимость
Рис. 8.4 Поле рассеяния и линия регрессии
между и ). Минимальное значение , равное нулю, достигается при Это имеет место, когда первая составляющая в (8.4.5) равна нулю.
Выражение (8.4.7) подтверждает ранее приведенные свойства коэффициента корреляции. Действительно, в силу (8.4.7) коэффициент может изменяться в пределах от -1 до 1, а его знак определяется знаком суммы (Рис. 8.3 ).
Вторая составляющая в (8.4.5) является той частью общей вариации значений переменной , которая не имеет отношения к линейной зависимости между и , найденной методом наименьших квадратов. Она измеряет ту часть колебания , которая возникает из-за влияния на неучтенных факторов, не связанных с .
Пример 8.4. Требуется оценить зависимость времени перевозок товара от расстояния между пунктом хранения и различными пунктами доставки внутри города. Данные наблюдения приведены в таблице:
Расстояние (в км)
3,5
2,4
4,9
4,2
3,0
1,3
1,0
3,0
1,5
4,1
Время
(в мин)
Обозначим: - время, - расстояние и нарисуем поле рассеяния (Рис. 8.4). Расположение точек говорит о возможной линейной связи и . Поэтому, используя формулы (8.2.8) и (8.2.9), находим:
Тогда линейная модель имеет вид:
(8.4.8)
Коэффициент корреляции, рассчитанный по формуле (8.4.1), имеет вид
Так как это значение очень близко к единице, то линейная связь между расстоянием и временем доставки очень тесна. Этот вывод подтверждается характером разброса точек на Рис. 8.4. Здесь коэффициент детерминации (8.4.7) показывает долю общей вариации времени перевозок, которая зависит от расстояния:
Таким образом, выборочная модель (8.4.8) объясняет 91,8% вариации времени доставки. Не объясняется 8,2% вариации времени доставки. Эта часть вариации обусловлена не учтенными в модели, но влияющими на время поездки факторами (пробки на дорогах, время суток, погода, вид транспорта и пр.).