Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Постановка завдання кластеризації



Теоретична частина

Перші публікації присвячені кластерному аналізу з'явилися в кінці 30-х рр. минулого століття, але активний розвиток цих методів і їх широке використання почалося в кінці 60-х—початку 70-х рр. Надалі цей напрям багатовимірного аналізу інтенсивно розвивався. З'явилися нові методи, модифікації вже відомих алгоритмів, істотно розширилася сфера застосування кластерного аналізу. Якщо спочатку методи багатовимірної класифікації використовувалися в психології, археології, біології, то зараз вони стали активно застосовуватися в соціології, економіці, статистиці, в історичних дослідженнях. Особливо розширилося їх використання у зв'язку з появою і розвитком ЕОМ і, зокрема, персональних комп’ютерів. Це пов'язано перш за все з трудомісткістю обробки великих масивів інформації (обчислення і звернення матриць великих розмірів). Велика перевага кластерного аналізу в тому, що він дозволяє розбивати об'єкти не по одному параметру, а по цілому набору ознак. Крім того, кластерний аналіз, на відміну від більшості математико-статистичних методів, не накладає жодних обмежень на вигляд об'єктів і дозволяє розглядати множину вихідних даних практично довільної природи. Це має велике значення, наприклад, для прогнозування кон'юнктури, за наявності різнорідних показників, що утрудняють вживання традиційних економетричних підходів. Кластерний аналіз дозволяє розглядати чималий об'єм інформації і стискати великі масиви інформації, робити їх компактними і наочними. Завдання кластеризації полягає в розділенні досліджуваної множини об’єктів на групи "схожих" об'єктів, так званих кластерами. Слово кластер англійського походження, переводиться як згусток, пучок, група. Схожі поняття, використовувані в літературі, — клас, таксон. Часто рішення задачі розбиття множини елементів на кластери називають кластерним аналізом. Рішенням задачі класифікації є віднесення кожного з об'єктів даних до одного (або декільком) із заздалегідь визначених класів і побудова одним з методів класифікації моделі даних, що визначає розбиття множини об'єктів даних на класи. У завданні кластеризації віднесення кожного з об'єктів даних здійснюється до одного (або декільком) із заздалегідь невизначених класів. Розбиття об'єктів даних по кластерах здійснюється при одночасному їх формуванні. Визначення кластерів і розбиття по ним об'єктів даних виражається в підсумковій моделі даних, яка є рішенням задачі кластеризації. Зважаючи на особливе положення, завдання кластеризації в списку завдань інтелектуального аналізу даних було розроблено безліч способів її рішення. Один з них — побудова набору характеристичних функцій класів, які показують, чи відноситься об'єкт даних до даного класу чи ні.

Характеристична функція класу може бути двох типів:

1. Дискретна функція, що приймає одне з двох певних значень, зміст яких у приналежності / неприналежності об'єкта даних за даного класу.

2. Функція, 0 ... 1. Чим ближче значення функції до одиниці, тим більше об'єкт даних належить заданому класу.

Загальний підхід до рішення задачі кластеризації став можливий після розвитку Л. Заде теорії нечіткої множини. В рамках даного підходу вдається формалізувати якісні поняття, невизначеність, властиву реальним даним і процесам. Успіх цього підходу пояснюється ще й тим, що в процесі аналізу даних бере участь людина, оцінки і судження якої розпливчасті і суб'єктивні. Доречно навести висловлювання JI. Заде, основоположника теорії нечітких множин: "... потрібна нова точка зору, новий комплекс понять і методів,

Застосовуючи теорію нечіткої множини для вирішення завдання кластеризації, можливі різні варіанти введення нечіткості в методи, що вирішують дане завдання. Нечіткість може враховуватися як в представленні даних, так і при описі їх взаємозв'язку. Крім того, дані можуть як володіти, так і не володіти кількісною природою. Проте, в багатьох практичних завданнях дані, які необхідно досліджувати, є результатом накопиченого досвіду в тій або іншій сфері людської діяльності і часто мають кількісне представлення. Облік нечіткості самих досліджуваних даних, в загальному випадку, — серйозна проблема. Тому в існуючих алгоритмах, не робиться жодних допущень про нечіткість самих вихідних даних. Вважається, що дані є чіткими і виражені кількісно.

Описувати нечіткі взаємозв'язки даних можна різними способами. Одним з таких способів, що знайшли широке поширення у використовуваних в даний час алгоритмах нечіткої кластеризації даних, є опис взаємозв'язку даних через їх відношення до деяких еталонних зразків — центрів кластерів. У даних алгоритмах нечіткість виявляється в описі кластерів як нечіткої множини, що має ядро в центрі кластера. З іншого боку, взаємозв'язок даних в умовах невизначеності можна враховувати за допомогою апарату нечітких стосунків між відмінними зразками даних, не удаючись при цьому до поняття центру кластера. Такий підхід не знайшов ще широкого поширення на практиці, хоча, очевидно, є більш універсальним. Отже, перейдемо до постановки завдання кластеризації.

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.