Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Анализ пропущенных значений. Методы заполнения пропусков

Стр 1 из 8Следующая ⇒

При проведении статистического анализа на практике ограничиваются анализом не всей генеральной совокупности в целом, а лишь некоторого выборочного числа наблюдений. Анализируемая выборка должна отвечать критериям качественности и полноты. В реальности приходится сталкиваться с ситуацией, когда некоторые из свойств одного или нескольких объектов отсутствуют – возникает ситуация данных с пропусками, что значительно осложняет математическую обработку, так как смещение основных статистических характеристик, таких как математическое ожидание или дисперсия, например, возрастает прямо пропорционально числу пропусков. К возникновению пропусков в исходных данных может привести множество причин: например, отсутствие значений вследствие каких-то мелких поломок оборудования, не связанных с экспериментальным процессом, или нежелание респондента при проведении статистического опроса отвечать на вопросы о своих доходах.

На сегодняшний день в математической статистике существует несколько путей решения проблемы неполных данных :

· исключение некомплектных объектов из исходной выборки. Данный подход к проблеме можно охарактеризовать как некорректный, так как неполные данные несут в себе новую информацию, необходимую для исследования, и поэтому их важно включать в анализ;

· применение специально разработанных математических методов анализа неполных данных, таких как метод взвешивания или метод максимального правдоподобия и ЕМ-алгоритм (при этом значительно возрастает сложность проводимого анализа);

· восстановление пропусков (наиболее распространены методы заполнения по среднему и по регрессии). В большинстве случаев именно этот подход считается наиболее эффективным и удобным решением проблемы.

Методы анализа неполных данных можно условно разбить на следующие группы:

A. Метод исключения некомплектных объектов. При отсутствии у ряда объектов значений каких-либо переменных некомплектные объекты удаляются из анализа. Подход легко реализуется и может быть удовлетворительным при малом числе пропусков. Однако иногда он приводит к серьезным смещениям и обычно не очень эффективен. Главный недостаток такого подхода обусловлен потерей информации при исключении неполных наблюдений.

B. Методы с заполнением. При данном подходе пропущенные значения исходной выборки заполняются и полученные «полные» данные обрабатываются обычными методами.

С. Методы взвешивания. Рандомизированные выводы по данным выборочных обследований с пропусками построены на весах плана, обратно пропорциональных вероятности выбора.

D. Методы, основанные на моделировании. Широкий класс методов основывается на построении модели порождения пропусков. Выводы получают с помощью функции правдоподобия, построенной при условии справедливости этой модели, с оцениванием параметров методами типа максимального правдоподобия. В методах, использующих функцию правдоподобия, реализована относительно старая идея обработки неполных данных:

· заполнение пропусков оценками пропущенных значений;

· оценивание параметров;

· повторное оценивание пропущенных значений (оценки параметров считаются точными);

· повторное оценивание параметров и так далее до сходимости процесса.

Некоторые методы более подробно.

1. Метод Барлетта. Метод, предложенный Бартлеттом для решения данной проблемы (1937), заключается в подстановке начальных значений вместо пропусков и проведении ковариационного анализа с сопутствующей переменной пропусков для каждого пропущенного значения. Метод имеет следующие преимущества.

• Он неитеративный, и, следовательно, снимает вопрос о сходимости

• Если структура пропусков обладает вырожденностью (например, в том случае, когда нельзяоценить некоторые параметры, как при отсутствии всех значений для какой-то обработки), этот метод «предупреждает» исследователя, тогда как итеративные методы приводят к ответу, возможно, недопустимому.

• Метод дает правильные оценки и остаточные суммы квадратов, а также верные стандартные ошибки, суммы квадратов и F-критерии.

2. Метод заполнения средним. В пакете Statistica для заполнения пропусков в данных предусмотрена возможность замены по среднему значению. Это можно сделать в специализированном модуле по работе с данными Data Management при помощи команды Replace Missing Data by Means – подставляются средние присутствующих значений. Поэтому метод среднего включен в исследование как метод, наиболее часто используемый в статистических пакетах.

3. RESAMPLING метод. Применяется для решения задачи заполнения пропусков в неполных данных, когда значения для заполнения пропущенных элементов выбираются случайным образом из исходного множества данных Xi . Значение для замены пропуска можно выбрать двумя способами: с возвращением и без возвращения. Будем использовать способ с возвращениями, когда раннее выбранное значение может участвовать в замене еще раз. Положительным фактором в пользу resampling-метода является повторное использование исходных данных, ведь увеличение числа подвыборок позволяет наиболее полно и информативно использовать исходную информацию. С другой стороны, число новой информации уменьшается для каждой новой подвыборки, так как увеличивается вероятность того, что данные элементы выборки были уже выбраны раньше – это основной недостаток метода.

12 3 4 5 6 7 8 Следующая ⇒

Поиск по сайту: