Начнем с простого случая: один фактор, линейная модель. Интересующая нас функция отклика (которую мы будем также называть уравнением регрессии) имеет вид
Это хорошо известное уравнение прямой линии. Наша цель – вычисление неизвестных коэффициентов b0и b1. Мы провели эксперимент, чтобы использовать при вычислениях его результаты. Как это сделать наилучшим образом?
Если бы все экспериментальные точки лежали строго на прямой линии, то для каждой из них было бы справедливо равенство
,
где i = 1, 2, ..., N – номер опыта. Тогда не было бы никакой проблемы. На практике это равенство нарушается и вместо него приходится писать
,
где – разность между экспериментальными и вычисленными по уравнению регрессии значениями y в i-й экспериментальной точке. Эту величину иногда невязкой.
Мы хотим найти такие коэффициенты регрессии, при которых невязки будут минимальны. Это требование можно записать по-разному. В зависимости от этого мы будем получать разные оценки коэффициентов. Вот одна из возможных записей
,
которая приводит к методу наименьших квадратов.
Когда мы ставим эксперимент, то обычно стремимся провести больше (во всяком случае, не меньше) опытов, чем число неизвестных коэффициентов. Поэтому система линейных уравнений
оказывается переопределенной и часто противоречивой (т. е. она может иметь бесконечно много решений или может не иметь решений). Переопределенность возникает, когда число уравнений больше числа неизвестных; противоречивость – когда некоторые из уравнений несовместимы друг с другом.
Только если все экспериментальные точки лежат па прямой, то система становится определенной и имеет единственное решение.
МНК обладает тем замечательным свойством, что он делает определенной любую, произвольную систему уравнений. Он делает число уравнений равным числу неизвестных коэффициентов.
Для определения двух неизвестных коэффициентов требуется два уравнения. Давайте попробуем их получить.
Минимум некоторой функции, если он существует, достигается при одновременном равенстве нулю частных производных по всей неизвестным, т. е.
.
В явном виде это запишется как
,
.
Окончательные формулы для вычисления коэффициентов регрессии, которые удобно находить с помощью определителей, имеют вид
,
.
Величина называется остаточной суммой квадратов ( – значение параметра оптимизации, вычисленное из уравнения регрессии). МНК гарантирует, что эта величина минимально возможная.
Обобщение на многофакторный случай не связано с какими-либо принципиальными трудностями.
Воспользуемся тем, что матрицы планирования ортогональны и нормированы, т.е.
и
Для любого числа факторов коэффициенты будут вычисляться по формуле
В этой формуле j = 0, 1, 2 ..., k – номер фактора. Ноль записан для вычисления b0.
Так как каждый фактор (кроме x0)варьируется на двух уровнях +1 и –1, то вычисления сводятся к приписыванию столбцу y знаков соответствующего фактору столбца и алгебраическому сложению полученных значений. Деление результата на число опытов в матрице планирования дает искомый коэффициент
Регрессионный анализ.
После нахождения коэффициентов модели возникает задача установить пригодность модели и значимость коэффициентов. С этого момента метод наименьших квадратов превращается в регрессионный анализ. А регрессионный анализ как всякий статистический метод, применим при определенных предположениях, постулатах.
Первый постулат. Параметр оптимизации y есть случайная величина с нормальным законом распределения. Дисперсия воспроизводимости – одна из характеристик этого закона распределения.
В данном случае, как и по отношению к любым другим постулатам, нас интересуют два вопроса: как проверить его выполнимость и к чему приводят его нарушения?
При наличии большого экспериментального материала (десятки параллельных опытов) гипотезу о нормальном распределении можно проверить стандартными статистическими тестами (например, – критерием). К сожалению, экспериментатор редко располагает такими данными, поэтому приходится принимать этот постулат на веру.
При нарушении нормальности мы лишаемся возможности установления вероятностей, с которыми справедливы те или иные высказывания. В этом таится большая опасность. Мы рискуем загипнотизировать себя численными оценками и вероятностями, за которыми ничего не стоит. Вот почему надо очень внимательно относиться к возможным нарушениям предпосылок.
Второй постулат. Дисперсия y не зависит от абсолютной величины y. Выполнимость этого постулата проверяется с помощью критериев однородности дисперсий в разных точках факторного пространства. Нарушение этого постулата недопустимо.
Всегда существует такое преобразование y,которое делает дисперсии однородными. Увы, его не всегда легко найти. Довольно часто помогает логарифмическое преобразование, с которого обычно начинают поиски.
Третий постулат. Значения факторов суть неслучайные величины. Это несколько неожиданное утверждение практически означает, что установление каждого фактора на заданный уровень и его поддержание существенно точнее, чем ошибка воспроизводимости.
Нарушение этого постулата приводит к трудностям при реализации матрицы планирования. Поэтому оно обычно легко обнаруживается экспериментатором.
Проверка адекватности модели. Проверка на пригодность полученной модели (проверка адекватности) начинают с вычисления остаточной дисперсии, то есть дисперсии адекватности .
где - число опытов (МПЭ),
- число коэффициентов модели.
- разность между реальным значением и предсказанным по модели.
Числом степеней свободы в статистике называется разность между числом опытов и числом коэффициентов (констант), которые уже вычислены по результатам этих опытов независимо друг от друга.
Например, проведен полный фактический эксперимент и нашли линейное уравнение регрессии, .
Примечание: Параллельные опыты нельзя считать самостоятельными, так как они дублируют друг друга. В связи с этим, они все дают одну степень свободы.
Необходимо запомнить правило:
В планировании эксперимента число степеней свободы для равно числу различных опытов, результаты которых используются при подсчете коэффициентов регрессии, минус число определяемых коэффициентов.
В статистике разработан критерий, который очень удобен для проверки гипотезы об адекватности модели. Он называется F критерием Фишера и определяется:
,
где - дисперсия адекватности;
- дисперсия воспроизводимости.
Удобство использования -критерия состоит в том, что проверку гипотезы можно свести к сравнению с табличным значением. Таблица построена следующим образом. Столбцы связаны с определенным числом степеней свободы для числителя строки для знаменателя . На пересечении соответствующих строки и столбца стоят критические значения - критерия. Как правило, в технических задачах используется уровень значимости 0,05.
Если рассчитанное значение -критерия не превышает табличного, то с соответствующей доверительной вероятностью модель можно считать адекватной. При превышении табличного значения гипотеза отвергается. Для запишем общую формулу:
,
где - число опытов;
- число параллельных опытов в -ой строке матрицы;
- среднее арифметическое из , параллельных опытов;
- предсказанное по уравнению регрессии значение в этом опыте.
Существует еще четвертый постулат, налагающий ограничения на взаимосвязь между значениями факторов. У Нас он выполняется автоматически в силу ортогональности матрицы планирования.
При выполнении этих четырех условий метод наименьших квадратов дает несмещенные оценки b0 и b1 параметров b0 и b1 .
В случае нахождения доверительной области для коэффициентов b0 и b1 должно выполняться еще одно предположение:
- условие распределения при заданном значении нормально относительно математического ожидания .