Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Пример кластерного анализа

⇐ ПредыдущаяСтр 9 из 10Следующая ⇒

В качестве примера рассмотрим интересующую многих, пока в основном в западных странах, задачу о рынке ценных бумаг, в частности проблему оценки различных фондов, оперирующих этими бумагами.

Несмотря на неспокойность мирового рынка ценных бумаг, инвесторы сегодня вкладывают в него свои средства и имеют к нему повышенный интерес. Например, даже несмотря на то, что большинство фондов ценных бумаг в 1993 и 1994 годах функционировали без особого блеска, американцы в этот период вложили в них рекордное количество денег.

В рассматриваемом примере будут исследованы 16 известных инвестиционных фондов для оценки их состояния. В качестве переменных используются следующие характеристики (большинство из них описывается в условных единицах): доходность за пятилетний период — переменная Five_Yr, риск — переменная Risk, ежегодный процент дохода (performance) (для каждого года) — Perf90, Perf91, Perf92, Perf93, Perf94,расходная часть — переменная Expence и налоговые рейтинги — переменная Tax. Ниже приводится таблица с исходными данными по исследуемым фондам. В первом столбце указано наименование фонда, а в последнем — рекомендации экспертов по операциям с ценными бумагами этих фондов. Данные заимствованы из руководства по применению STATGRAPHICS Plus for Windows.

Исследование приведенных данных состоит их трех частей. На первом этапе, излагаемом в настоящем разделе, будут изучаться многомерные группировки общественных фондов, полученные методами кластерного анализа STATGRAPHICS. Второй и третий этапы представлены в разделе «Практикумы» При изложении второго этапа приводятся результаты построения линейных дискриминантных функций для разделения фондов на группы в соответствии с рекомендациями экспертов по операциям с ценными бумагами. Третья часть отведена задаче формирования базы знаний методами локальной геометрии для решения той же проблемы.

Таблица 7. 4

Fund	Five_Yr	Risk	Perf 90	Perf 91	Perf 92	Perf 93	Perf 94	Expence	Tax	Recom.
F. Chip								1.22		Buy
F. Contra			– 1					1.03		Buy
F. Destiny							– 3	0.7		Buy
Vista A			– 1				– 6	1.49		Hold
Berger 100			– 7				– 6	1.7		Hold
Gab. Assett							– 6	1.33		Buy
Neub. Focus							– 6	0.85		Buy
F. Magellan			– 2				– 5	0.96		Buy
Janus			– 1				– 1	0.91		Sell
L. Mason Value							– 17	1.82		Hold
Gabelli Growth			– 3				– 2	1.41		Buy
Franklin Growth								0.77		Sell
Janus 20			– 7					1.02		Sell
AARP Capital			– 10				– 16	0.97		Sell
Kemper Growth A			– 6		– 2			1.09		Sell
20th Cent. Growth			– 8		– 4					Buy

Введем приведенные данные в электронную таблицу STATGRAPHICS и сохраним их в файле с именем growth. Выберем Special | Multivariate Methods | Cluster Analysis. Система отобразит окно диалога для ввода данных в кластерный анализ (Рис. 7. 20).

Дважды щелкнем левой кнопкой мыши на переменных Expence, Five_Yr, Perf90, Perf91, Perf92, Perf93, Perf94, Riskи Tax для задействования их в анализе.

Введем характеристику Fund в поле Point Labels и оставим поле данных Select пустым. На Рис. 7. 20 показан пример заполнения окна диалога для ввода информации в кластерный анализ.

Рис. 7. 20. Пример заполнения окна диалога ввода данных для кластерного анализа

Нажмем OK. Система выдаст окно с первичной сводкой кластерного анализа.

Так как в нашем случае желательно, чтобы кластерный алгоритм хорошо работал с небольшим количеством наблюдений (у нас их всего 16) и был нацелен на выделение кластеров с приблизительно равным числом членов, остановим свой выбор на методе Варда (Wards method).

Щелкнем правой кнопкой мыши — на экране появляется окно диалога для выбора параметров кластерного анализа.

Установим флажок Wards, а все остальные оставим в прежнем положении (Рис. 7. 21).

Рис. 7. 21. Пример заполнения окна диалога для выбора параметров кластерного анализа

Нажмем OK; на экране отобразится сводка кластерного анализа для выбранного метода.

Нажмем кнопку для задания графических опций (третья слева в верхнем ряду окна анализа). Система предоставит специальное окно диалога.

Выберем отображение в виде дендрограммы (Dendrogram) и нажмем кнопку OK. Система добавит к табличному окну графическое окно.

Дважды щелкнем на дендрограмме для максимального раскрытия этого окна (Рис. 7. 22).

Дендрограмма отображает иерархическую структуру группирования инвестиционных фондов. На ней отчетливо видны как минимум три группировки: одна заканчивается на фонде Gabelli Growth, вторая заканчивается на фонде Legg Mason Value и третья, достаточно плотная группировка, — на фонде 20^th Century Growth. Отсюда следует, что для более подробного рассмотрения группировок следует задать их количество равным 3.

Рис. 7. 22. Дендрограмма, полученная методом Варда для одного кластера

Дважды щелкнем на рисунке для минимизации размеров окна.

Щелкнем правой кнопкой мыши на окне сводки кластерного анализа — появится окно диалога для задания параметров проводимого исследования.

Изменим количество кластеров (Number of Clusters) с 1 до 3.

Нажмем кнопку OK. В соответствии с введенными изменениями будут произведены табличные преобразования (Рис. 7. 23 и 7. 24).

В сводке кластерного анализа, прежде всего, указываются: имена переменных, участвующих в анализе, количество полных образцов (наблюдений без пропусков), использованный метод кластерного анализа и принятая метрика. Затем в сводке описываются: число кластеров, количество объектов в каждом кластере (населенность) и соответствующий процент населенности. Кроме того, в нижней части сводки приводится важная дополнительная информация.

Например, по координатам центроидов (Рис. 7. 24) можно судить о том, какие переменные играют наиболее важную роль в каждом кластере. В частности, в первом кластере видно, что расходы были разумными: несмотря на низкие доходы в 1990 году, заметно, что в других годах состояние фондов 1‑го кластера постоянно улучшалось. Также в первом кластере индицируется самый низкий рейтинг риска среди всех кластеров, а налоговые сборы были тоже достаточно невысокими.

Рис. 7. 23. Сводка кластерного анализа (верхняя часть)

Переменные, представляющие кластер 2, говорят о том, что здесь имелись наибольшие расходы, хотя за пятилетний период доходы оставались самыми высокими. Оценка риска и налоговые сборы являются максимальными среди всех кластеров.

О третьем кластере можно сказать, что он занимает второе место по расходам относительно к доходам за пятилетний период. Оценка риска была самая высокая, однако налоговые сборы существенно ниже, чем у первого кластера.

Рис. 7. 24. Сводка кластерного анализа (нижняя часть)

Нажмем кнопку табличных опций (вторая слева в верхнем ряду). Система предоставит соответствующее окно диалога.

Установим Membership Table (таблица принадлежности наблюдений), затем нажмем кнопку OK.

Дважды щелкнем левой кнопкой мыши на таблице населенности для максимального раскрытия окна.

В данной таблице описаны выбранные параметры кластерного анализа и затем дается полный список всех наблюдений, их имена и номера кластеров, в которые входят указанные наблюдения (Рис. 7. 25)

⇐ Предыдущая 1 2 3 4 5 6 7 8910 Следующая ⇒

Поиск по сайту: