Рассмотрим процедуру решения практической задачи методом дискриминантного анализа в системе STATISTICA. Разберем принцип проведения дискриминантного анализа (точнее, формирование обучающих выборок) на основе данных представленных в файле example.sta.
В файле содержатся данные по 20 сельскохозяйственным предприятиям, которые были выбраны и отнесены к соответствующим группам экспертным способом.
Показатели-аргументы, участвующие в классификации, следующие:
X1 – прибыль (тыс. р.);
X2 – валовая продукция на 1 работника, занятого в сельском хозяйстве (тыс. р.);
X3 – валовая продукция на 1 га сельхозугодий (тыс. р.);
X4 – производство молока на 1 га сельхозугодий (кг);
X5 – производство мяса на 1 га сельхозугодий (кг);
X6 – выручка от реализации продукции на 1 работника (тыс. р.);
X7 – выручка на 1 га сельхозугодий(тыс. р.).
X 1
X 2
X 3
X 4
X 5
X 6
X 7
CLASS1
-107.000
5868.000
531.000
450.000
63.000
22.300
1608.000
1.000
-903.000
6330.000
636.000
401.000
69.000
17.600
1768.000
1.000
-18.000
6793.000
620.000
487.000
104.000
19.400
1775.000
2.000
1.300
4731.000
447.000
405.000
64.000
10.400
979.000
2.000
403.100
2969.000
382.000
274.000
29.000
5.700
728.000
3.000
-205.000
4924.000
284.000
292.000
35.000
17.500
1010.000
3.000
-256.000
4924.000
342.000
223.000
26.000
14.100
634.000
3.000
-2142.00
4924.000
257.000
151.000
33.000
16.500
985.000
4.000
-1394.00
4924.000
218.000
241.000
47.000
8.500
592.000
4.000
-1571.00
4617.000
171.000
137.000
13.000
13.100
484.000
4.000
-728.300
4617.000
348.000
215.000
28.000
5.700
367.000
4.000
-1796.00
2902.000
161.000
182.000
22.000
11.400
631.000
4.000
-1955.20
3634.000
334.000
361.000
59.000
10.100
925.000
4.000
-1294.00
3499.000
204.000
129.000
27.000
6.800
398.000
4.000
-1500.00
6368.000
288.000
169.000
27.000
13.300
601.000
4.000
-1879.00
3058.000
169.000
86.000
23.000
5.600
307.000
5.000
-197.000
5110.000
82.000
57.000
11.000
1.100
174.000
5.000
-2310.70
4166.000
207.000
183.000
32.000
9.800
487.000
5.000
-1437.00
5168.000
151.000
96.000
8.000
10.700
359.000
5.000
-482.000
2061.000
78.000
47.000
4.000
2.900
110.300
5.000
Рис. 5.1. Файл example.sta
· Из переключателя модулей STATISTICA откройте модуль Discriminant Analysis(Дискриминантный Анализ).Высветите название и нажмите кнопку Switch to (Переключиться в).
· На экране появится стартовая панель модуля Stepwise Discriminant Function Analysis (Пошаговый анализ дискриминантных функций) (рис. 5.2), в котором кнопка Variables позволяет выбрать Grouping(Группируемую переменную)и Independent(Независимые переменные). Codes for grouping variable (Коды для групп переменной) указывают количество анализируемых групп объектов. Missing data (пропущенные переменные)позволяет выбрать построчное удаление переменных из списка, либо заменить их на средние значения. Open Data – открывает файл с данными. Можно указать условия выбора наблюдений из базы данных – кнопку Select Cases и веса переменных, выбрав их из списка – кнопку W. Выберем кнопку Open Data и загрузим в систему файл example.sta.
В левой части выбирается группирующие переменные, в правой – переменные. Имена переменных в левой и правой части не должны пересекаться. В данном примере в качестве группирующей переменной выбрана переменная CLASS1, а в качестве группирующих переменных X1–X7. Select All (Выделить все) выделяет все переменные, Spread (Подробности) – для просмотра длинного имени, Zoom (Информация о переменной) позволяет просмотреть информацию о переменной: ее имя, формат числового значения, описательные статистики: номер в группе, среднее значение, статистическое отклонение. Нажав кнопку Variables выберем в качестве группирующей (Grouping) переменную CLASS1, а в качестве независимых переменных (Independent) – X1 – X7. После соответствующего выбора и нажатия OK окно Stepwise Discriminant Function Analysis должно быть представлено так, как показано на рис. 5.4.
Рис. 5.4
После нажатия кнопки OK откроется диалоговое окно Model Difinition (Определение модели) (рис. 5.5).
Рис. 5.5
В диалоговом окне Model Definitionпредложен выбор методавыборазначимых переменных. Method может быть задан Standfrt (Стандартный), Forward stepwise (Пошаговый с включением) и Backward stepwise (Пошаговый с исключением).Кнопка Review Correlations, stats, and graphs for groups (Корреляции, статистики и графики для групп)позволяет получить описательные статистики для выбранных переменных. Диалоговое окно Descriptive Statistics (Описательные статистики)позволяет получить:
Pooled within-groups covariances & correlations(объединенные внутригрупповые ковариации и корреляции);
Total covariances & correlations(полные ковариации и корреляции),
Graph(графики корреляционных функций для всех переменных),
Means & number of cases(средние значения для каждой переменной);
Box & wh(диаграммы размаха как для всех переменных, так и для отдельно выбранных);
Standart deviations(стандартные отклонения переменных в каждой группе);
Categjrized histogram (by group)(категоризованные гистограммы по группам для каждой переменной);
Box & whisker plot (by group)(диаграммы размаха по группам –категоризованную диаграмму рассеяния (по группам));
Categorized scatterplot (by group)(для двух любых переменных);
Categorized normal probability plot (by group)(категоризованный нормальный график для любой переменной по группам).
Выберем в качестве метода (Method) – Standardи нажмем OK. В ходе вычислений системой получены результаты, которые представлены в окне Discriminant Function Analisis Results(Результаты анализа дискриминантных функций) (рис. 5.6). После выбора метода модели и задания или просмотра необходимых параметров, нажав OK в диалоговом окне Model Difinition (Определение модели)получим результаты дискриминантных функций.