Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Экстрация (извлечение)

Корреляция

Корреляция – количественная мера связи. Вычисляется с помощью коэфф-в корреляции.

· Ковариация зависит от шкал х и у.

· Корреляция – не зависит от Vвыборки, выражена в стандартных отклонениях.

Параметрический критерий Коэффициент Пирсона

обе шкалы количественные

Коэффициент ранговой корреляции Спирмана

порядковая и количественная шкала

Непараметрический критерий для порядковых Тау Кэндела

занижает силу связи

Регрессионный анализ

Включает в себя анализ корреляции и мн. др.

Используется для построения прогнозов.

1 предиктор на 10 кейсов

Результирующая переменная – то, что хотим предсказать.

Регрессионная прямая

Резидии – расстояния каждой точки до регрессионной прямой.

Резидуальная дисперсия – сумма квадратов расстояний до регресс-й прямой.

R²=

R² – процент объяснённой дисперсии

Общее регрессионное уравнение

У= β₀+β₁*Х₁+β₂*Х₂, где

β – нестандартный коэффициент

β₀- интерсепт

β_i - угол

Всё это имеет смысл, когда переменные количественные!

Линейный регрессионный анализ

Результирующая количественная

Если качественный предиктор, то создаём Dummy переменные; если дихотомия, то кодируем значения как 0 и 1.Число Dummy N-1 значений.

Спец. случаи

Мультиколлинеарность – уменьшает R²

Гетероскедастичность – искажает уровень значимости.

Интеракция – повышает R²

∞

Логистический регрессионный анализ

Результирующая качественная

Логит – натуральный логарифм (-∞;∞+).

Шанс – отношение вероятностей, регрессионный коэфф-т для лог. регрессии (0;+∞).

-Зачем вообще логит, почему не можем обойтись одним шансом?

-диапазон логита, в отличие от диапозона значений шанса симметричен, что сопоставимо с нормальным распределением.

Предикторы:

Факторы – качественные предикторы

Ковариаты –количественные предикторы.

Псевдо R² – оценивают % того, что объясняет модель, это точность предсказания. Вычисляется иначе, чем R²/

Мультиноминальная логистическая регрессия

Если больше двух значений в результирующей

Биноминальная логистическая регрессия

Если два значения у результирующей.

Факторный анализ

Индекс – теор. сконстр-я абстракция, кот. является обобщением конкретных вещей, каждая из этих вещей влияет на модель, первичнее не индекс, а сами эти вещи (индикаторы). Исп-ся в соц. науках

· способности к чему-либо,

· символическая насыщенность текста,

· проявление страха,

· индекс соц. неравенства,

· индекс человеческого развития.

Латентная переменная –переменная, которой нет в базе данных, это то, что нельзя напрямую замерить, скрытый абстрактный феномен, который влияет на частные проявления. Вначале данные, а потом замеряем лат. пер-ю. Индикаторы латентной переменной должны быть измеримы. Используется в психологии личности (в опросниках).

· понимание текста

Виды факторного анализа:

- Эксплораторный

открытый

не очень надёжный

факторы могут коррелировать др с др.

одна пер-я может принадлежать нескольким факторам

- Конфирматорный

закрытый

сами предполагаем какие факторы, спрашиваем программу: хороша ли модель?

факторы не коррелируют между собой

1 пер-я относится к 1 фактору

показывает вклад кадой переменной в фактор

факторы потом можно использовать как предикторы/результирующие

на входе любые шкалы – на выходе количественные

Экстрация (извлечение)

Извлечение «похожего на другие переменные» из переменной для фактора.

Лучше брать не меньше 0,4

Idem value –то, сколько переменных объединяет фактор (должна быть больше 1).

Кластерный анализ

Используется для группировки кейсов, создания типологий, классификаций.

Делают обычно на нескольких шкалах, на 2 сложно.

Есть несколько вариантов, которые лучше всего видны на графике рассеяния:

1) Нет кластеров и нет корреляции

2) Есть кластеры и корреляция

3)Нет корреляции, есть кластеры

4) Есть корреляция, нет кластеров

Максимальное число адекватных типологий 7±2

Лучше вариант без корреляции, если хотим охватить как можно больше. Как раз поэтому удобно использовать факторы – они слабо коррелируют между собой.

Виды кластерного анализа:

- Кей-кластерный

Указываем количество кластеров

техническое: min сумма расстояний до т. – центра кластера

- Иерархический

не требует, чтобы сразу указывали количество кластеров.

вначале объединяет самые близкие и так, пока не получатся большие кластеры

дендрограмма

Поиск по сайту: