Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Пример применения метода главных компонент

⇐ ПредыдущаяСтр 2 из 10Следующая ⇒

Ниже рассматривается пример, относящийся к сравнительному оцениванию изделий, характеризующихся одновременно несколькими параметрами. Это — автомобили. В таблице приводятся выборочные сведения о фирме-изготовителе автомобиля, названии модели, а также оценочные параметры — вес (переменная weight), число цилиндров (переменная cylinders), ускорение (переменная accel), объем двигателя (переменная displace) и мощность в лошадиных силах (переменная horspower).

Таблица 7. 2

Изготови-тель	Модель	Вес	Цил. к-во	Ускорение	Объем	Мощность
Volkswagen Ford Mazda Datsun Honda Oldsmobile Dodge Mercury Pontiac Chevrolet Ford Ford Plymouth AMC Buick Mercury Dodge AMC Chevrolet Buick Ford Dodge Chevrolet Toyota Datsun Dodge Toyota Plymouth Oldsmobile Datsun Audi Volvo Saab Peugeot Volkswagen Honda Pontiac Mercury Ford AMC Dodge Chevrolet Ford Mercury Dodge Buick Ford Chevrolet Chrysler Volkswagen Mazda Dodge AMC Mercedes Cadillac Peugeot Oldsmobile Plymouth Plymouth Datsun Fiat Buick Chevrolet Oldsmobile Pontiac Volkswagen Toyota Chevrolet Datsun Chevrolet Ford AMC Dodge Audi Toyota Mazda Datsun Toyota Mazda Dodge Datsun Volkswagen Volkswagen Audi Mercedes Honda Renault Subaru Volkswagen Datsun Mazda Triumph Ford Honda Plymouth Buick Dodge Chevrolet Plymouth Toyota Plymouth Honda Subaru Datsun Toyota Mazda Plymouth Ford Ford Volkswagen Renault Honda Toyota Datsun Mazda Peugeot Saab Volvo Toyota Datsun Buick Oldsmobile Ford Chrysler Chevrolet Chevrolet Chevrolet Pontiac Dodge Pontiac Ford AMC Volkswagen Mazda Mazda Plymouth Mercury Nissan Honda Toyota Honda Honda Datsun Buick Oldsmobile Chrysler Ford Toyota Dodge Chevrolet Ford Volkswagen Dodge Ford Chevrolet	Rabbit Dl Fiesta GLC Deluxe B210 GX Civic CVCC Cutlass Diplomat Monarch Phoenix Malibu Fairmont A Fairmont M Volare Concord Century Zephyr Aspen Concord D1 MonteCarlo RegalTurbo Futura Magnum XE Chevette Corona Omni Celica GT Sapporo Starfire 200-SX 264GL 99GLE 604SL Scirocco Accord LX Lemans V6 Zephyr 6 Fairmont 4 ConcordDL6 Aspen 6 Caprice Cl LTD Landau GrandMarqs St. Regis Estate SW Country SW Malibu SW Lebaron SW Rabbit Cus GLC Deluxe Colt Hatch Spirit DL 300D Eldorado Cutlass Horizon HorizonTC3 Strada Cus SkylarkLim Citation Omega Phoenix Rabbit CorollaTer Chevette Citation Fairmont Concord Aspen Corona LB 510 Hatch Corolla GLC Colt Rabbit Dl Dasher Dl 5000S Dl 240D Civic1500G LeCar Delx DL Rabbit 280-ZX RX-7 GS TR7 Coupe Must Cobra Accord Reliant Skylark Aries SW Citation Reliant Starlet Champ Civic1300 Tercel GLC 4 Horizon 4 Escort 4W Escort 2H Jetta 18I Prelude Corolla 200SX 505S Dl 900S Diesel Cressida 810 Maxima Century Cutlass LS Granada GL Lebaron Cavalier CavalierSW Cavalier2D 1200 Hatch Aries SE Phoenix Fairmont Concord Dl Rabbit L GLC Cust l GLC Custom Horizon Lynx l Stanza XE Accord Corolla Civic M Civic A 310 GX CenturyLmt Cutlass Dl Lebaron Granada l Celica GT Charger2.2 Camaro MustangGL Pickup Rampage Ranger S-10			21,5 14,4 19,4 18,6 16,4 15,5 13,2 12,8 19,2 18,2 15,8 15,4 17,2 17,2 15,8 16,7 18,7 15,1 13,2 13,4 11,2 13,7 16,5 14,2 14,7 14,5 14,8 16,7 17,6 14,9 15,9 13,6 15,7 15,8 14,9 16,6 15,4 18,2 17,3 18,2 16,6 15,4 13,4 13,2 15,2 14,9 14,3 15,2 14,4 20,1 17,4 24,8 22,2 13,2 14,9 19,2 14,7 11,3 12,9 13,2 14,7 18,8 15,5 16,4 16,5 18,1 20,1 18,7 15,8 15,5 17,5 15,2 17,9 14,4 19,2 21,7 23,7 19,9 21,8 13,8 17,3 15,3 11,4 12,5 15,1 14,3 15,7 16,4 14,4 12,6 12,9 16,9 16,4 16,1 17,8 19,4 17,3 14,9 16,2 20,7 14,2 15,8 14,4 16,8 14,8 18,3 20,4 15,4 19,6 12,6 13,8 15,8 17,1 16,6 19,6 18,6 16,2 16,4 20,5 15,3 18,2 17,6 14,7 17,3 14,5 14,5 16,9 15,7 16,2 16,4 14,5 14,7 13,9 17,3 15,6 24,6 11,6 18,6 19,4

Введем эти данные в электронную таблицу STATGRAPHICS (в ней присутствуют также другие дополнительные параметры). Назовем файл данных cardata. Выберем Special | Multivariate Methods | Principal Components. Появляется окно диалога для задания анализируемых переменных (Рис. 7. 1).

Рис. 7. 1. Окно задания переменных для анализа по методу главных компонент

Нажимаем OK. Получаем исходную сводку анализа МГК (Рис. 7. 2).

Из полученной сводки заключаем, что анализу подвергаются переменные weight, cylinders, accel, displace и horspower, и что число объектов составляет 151. Далее следует информация непосредственно МГК: собственные значения главных компонент, упорядоченные по величине (Eigenvalue); процент дисперсии, приходящийся на каждую выделенную главную компоненту (Percent of Variance); накопленный процент дисперсии (Cumulative Percentage).

Приведенные цифры говорят о том, что уже первые две главные компоненты описывают 93,4 % дисперсии исходных данных. Третья главная компонента добавляет еще приблизительно 4,2 % дисперсии, так что в сумме это получается 97, 6% дисперсии.

Для более детального анализа нажмем кнопку табличных опций (вторая слева в верхнем ряду) и в соответствующем окне диалога (Рис. 7. 3) установим флажок компонентных весов (Component Weights). Получим следующую таблицу (Рис. 7. 4).

Рис. 7. 2. Исходная сводка МГК

Рис. 7. 3. Окно диалога табличных опций МГК

Рис. 7. 4. Веса признаков в главных компонентах

Как следует из полученных цифр, в первой главной компоненте примерно одинаковые по величине положительные коэффициенты имеют: вес, количество цилиндров, объем двигателя и мощность в лошадиных силах. Вместе с тем, во второй главной компоненте превалирует только одна величина: ускорение. А в третьей главной компоненте наблюдается сочетание веса машины и ее мощности (с положительным знаком), которому противопоставляется количество цилиндров (с отрицательным знаком). Не углубляясь в интерпретацию полученных главных компонент, которая, конечно, может представлять интерес для специалистов, перейдем к рассмотрению диаграммы рассеивания всей совокупности автомашин в пространстве выделенных трех первых главных компонент. Для этого щелкнем левой кнопкой мыши на кнопке графических опций и инициализируем данное трехмерное отображение.

Рис. 7. 5. Графические опции метода главных компонент

Рис. 7. 6. Проекция исследуемых автомобилей в пространство первых трех ГК

На представленном рисунке хорошо видно, что вся исследуемая совокупность автомашин разделилась на три достаточно четко выраженные группы. Для большей выразительности на рисунке даны названия некоторых фирм, производящих автомобили, которые выдаются в специальных окнах STATGRAPHICS после нажатия пятой справа кнопки в верхнем ряду и маркировки интересующей точки.

Для первой наиболее многочисленной группировки характерны сравнительно небольшие: вес, количество цилиндров, мощность и объем двигателя (первая слева группа). Вместе с тем, большая доля автомашин этой группы обладают хорошим ускорением (высокие значения 2‑й ГК) и высоким соотношением веса и мощности к количеству цилиндров (3‑я ГК).

Вторая группировка не столь многочисленна, но для нее также свойственны указанные характеристики, хотя и менее ярко выраженные.

И, наконец, третья группа автомашин (сравнительно малочисленная) имеет большой вес, мощность, количество, цилиндров. В то же время, показатели ускорения и соотношение веса и мощности к количеству цилиндров здесь (если говорить в целом) гораздо меньшие.

Таким образом, произведенный анализ данных с помощью метода главных компонент позволяет получить более «объемное» видение современного автомобильного рынка, что может способствовать лучшей ориентации как потребителей этой продукции, так и производителей с позиций оценки существующих тенденций.

Факторный анализ. В отличие от метода главных компонент факторный анализ основан не на дисперсионном критерии автоинформативности системы признаков, а ориентирован на объяснение имеющихся между признаками корреляций. Основная модель факторного анализа записывается следующей системой равенств /Налимов В. В., 1971/

То есть полагается, что значения каждого признака x_i могут быть выражены взвешенной суммой латентных переменных (простых факторов) f_j, количество которых меньше числа исходных признаков, и остаточным членом e_i с дисперсией s²(e_i), действующей только на x_i, который называют специфическим фактором.

Коэффициенты l_ij называются нагрузкой i-й переменной на j-й фактор или нагрузкой j-го фактора на i-ю переменную. В самой простой модели факторного анализа считается, что факторы f_j взаимно независимы и их дисперсии равны единице, а случайные величины e_i тоже независимы друг от друга и от какого-либо фактора f_j. Максимально возможное количество факторов m при заданном числе признаков p определяется неравенством

которое должно выполняться, чтобы задача не вырождалась в тривиальную. Данное неравенство получается на основании подсчета степеней свободы, имеющихся в задаче /Лоули Д. и др., 1967/. Сумму квадратов нагрузок называют общностью соответствующего признака x_i и чем больше это значение, тем лучше описывается признак x_i выделенными факторами f_j. Общность есть часть дисперсии признака, которую объясняют факторы. В свою очередь, показывает, какая часть дисперсии исходного признака остается необъясненной при используемом наборе факторов, и данную величину называют специфичностью признака. Таким образом,

дисперсия признака = общность + специфичность

Основное выражение факторного анализа показывает, что коэффициент корреляции любых двух признаков x_i и x_j можно выразить суммой произведения нагрузок некоррелированных факторов

Задачу факторного анализа нельзя решить однозначно. Равенства в факторной модели не поддаются непосредственной проверке, так как p исходных признаков задается через (p + m) других переменных — простых и специфических факторов. Поэтому представление корреляционной матрицы факторами, как говорят ее факторизацию можно произвести бесконечно большим числом способов. Если удалось произвести факторизацию корреляционной матрицы с помощью некоторой матрицы факторных нагрузок F, то любое линейное ортогональное преобразование F (ортогональное вращение) приведен к такой же факторизации /Налимов В. В., 1971/. Поэтому нередко в одном и том же пакете программ анализа данных реализовано сразу несколько версий методов факторизации, и у исследователей возникает закономерный вопрос, какой из них лучше. Здесь сошлемся на слова одного из основоположников современного факторного анализа Г. Хартмана: «Ни в одной из работ не было показано, что какой-либо один метод приближается к ²истинным² значениям общностей лучше, чем другие методы… Выбор среди группы методов наилучшего производится в основном с точки зрения вычислительных удобств, а также склонностей и привязанностей исследователя, которому тот или иной метод казался более адекватным его представлениям об общности» /цит. по Александров В. В. и др., 1990/.

В настоящее время одними из наиболее популярных являются три метода вращения факторов: варимакс, квартимакс и эквимакс. Вращение методом варимакс ставит целью упростить столбцы факторной матрицы, сводя все значения к 1 или 0. Вращение методом квартимакс ставит целью аналогичное упрощение только по отношению к строкам факторной матрицы. И, наконец, эквимакс занимает промежуточное положение — при вращении факторов по этому методу одновременно делается попытка упростить и столбцы и строки.

Кроме перечисленных трех методов нередко осуществляют вращение факторов до тех пор, пока не получатся результаты, поддающиеся содержательной интерпретации. Можно, например, потребовать, чтобы один фактор был нагружен преимущественно признаками одного типа, а другой — признаками другого типа. Или, скажем можно потребовать, чтобы исчезли какие-то трудно интерпретируемые нагрузки с отрицательными знаками. Нередко исследователи идут дальше и рассматривают прямоугольную систему факторов как частный случай косоугольной, то есть ради содержания жертвуют условием некоррелированности факторов.

В целом по факторному анализу можно отметить следующее. С помощью такого анализа снижение размерности достигается за счет существования групп взаимосвязанных признаков, которые агрегируются в строящихся факторах. Как и при использовании метода главных компонент, полезные сведения о структуре данных можно почерпнуть на основании визуального анализа проектов объектов в одно-, двух- и трехмерные пространства, образованные комбинациями различных факторов. Также ценную информацию о структуре исследуемой выборки могут дать результаты факторного анализа, проведенного раздельно в различных подгруппах объектов.

Другие методы линейного проецирования данных, развиваются в рамках направления, получившего название разведочный анализ данных /Тьюки Дж., 1981/. Современные методы проецирования, в частности методы целенаправленного проецирования, являются естественным обобщением охарактеризованных выше классических методов анализа данных. Их систематизация и характеристики представлены в /Айвазян С. А. и др., 1989/.

⇐ Предыдущая 123 4 5 6 7 8 9 10 Следующая ⇒

Поиск по сайту: