Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Линейные методы снижения размерности



Урок 7. Методы исследования структуры данных

Анализ многомерных данных без использования обучающей информации направлен на выяснение структуры взаимоотношений объектов и признаков ТЭД. В настоящее время накоплен обширный арсенал средств такого анализа. Наиболее полное изложение применяемых здесь подходов, сопровождающееся подробными ссылками на ключевые работы, содержится в /Айвазян С. А. и др., 1989/. Классификация известных методов анализа структуры многомерных данных приведена в табл. 7. 1.

Таблица 7. 1. Классификация методов анализа структуры данных

Методы визуализации данных Методы автоматического группирования
Линейные методы снижения размерности Нелинейные отображения Многомерное шкалирование Заполняющие пространство кривые Факторный анализ объектов и признаков Кластерный анализ объектов и признаков Иерархическое группирование Определение «точек сгущения

Разделение методов носит достаточно условный характер, так как различные методы имеют немало пересечений в отдельных приемах обработки информации. В основу приведенной классификации положен признак, отражающий степень участия экспериментатора в выделении особенностей взаимоотношений между исследуемыми объектами и признаками. Если в методах автоматического группирования это участие минимально, применение методов визуализации данных нацелено на поиск наиболее выразительных изображений совокупности исследуемых объектов для последующего максимального задействования потенциала зрительного анализатора экспериментатора. Рассмотрим указанные методы более подробно.

Методы визуализации данных

Основное назначение рассматриваемой группы методов — дать визуальное представление о структуре изучаемых данных. Визуализация данных предполагает получение тем или иным способом графического отображения совокупности объектов на числовую ось, на плоскость или в трехмерный объем, максимально отражающего особенности распределения этих объектов в многомерном пространстве.

Линейные методы снижения размерности

Линейные методы снижения размерности направлены на нахождение нового координатного пространства , в котором каждая координатная ось является линейной комбинацией исходных признаков. Популярность данного подхода объясняется тем, что линейные комбинации признаков хорошо интерпретируются — коэффициенты в уравнениях координатных осей трактуются, например, как веса или вклады признаков.

Всесторонне изученным является использование в качестве осей нового пространства первых главных компонент (ГК).

Метод главных компонент (МГК) был предложен Пирсоном в 1901 году и затем вновь открыт и детально разработан Хоттелингом /1933/. Ему посвящено большое количество исследований, и он широко представлен в литературных источниках. Обратим внимание на основные феномены МГК.

МГК осуществляет переход к новой системе координат y1,, yp в исходном пространстве признаков x1, … , xp, которая является системой ортонормированных линейных комбинаций /Айвазян С. А. и др., 1974, 1983, 1989/

где mi — математическое ожидание признака xi.

Линейные комбинации выбираются таким образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая главная компонента y1(x) обладает наибольшей дисперсией. Геометрически это выглядит как ориентация новой координатной оси y1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов исследуемой выборки в пространстве признаков x1, … , xp. Вторая главная компонента имеет наибольшую дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой главной компонентой. Она интерпретируется как направление наибольшей вытянутости эллипсоида рассеивания, перпендикулярное первой главной компоненте. Следующие главные компоненты определяются по аналогичной схеме.

Вычисление коэффициентов главных компонент wij основано на том факте, что векторы w1 = (w11, … , wp1)T, … , wp = (w1p, … , wpp)T являются собственными (характеристическими) векторами корреляционной матрицы S. В свою очередь, соответствующие собственные числа этой матрицы равны дисперсиям проекций множества объектов на оси главных компонент.

Из ряда ценных свойств главных компонент с точки зрения визуализации многомерных данных выделяют свойства наименьшего искажения структуры исходных точек (объектов) при их проецировании в пространство меньшей размерности, «натянутое» на первые главные компоненты. Этими свойствами определяется полезность МГК при изучении структуры многомерных данных. Практически ни одно современное исследование такой структуры не обходится без того, чтобы не рассмотреть проекции объектов в пространстве, натянутом на первую, первые две и, реже, первые три главные компоненты. Нередко прибегают к анализу проекций объектов в пространства, образованные комбинациями главных компонент более высокого порядка, например 3‑й и 4‑й ГК, 5‑й и 6‑й и т.п.

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.