Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Блок 1 Описательная статистика

Мода. Чаще всего встречающееся значение. Если таких значений несколько, каждое из них является модой. Процедура Частоты выдает только наименьшее из этих значений. Только для номинальных шкал.

Медиана. Значение, выше и ниже которого попадает по половине наблюдений, иначе 50-й процентиль. Если число наблюдений четно, медиана есть арифметическое среднее двух находящихся в середине значений, если выборку упорядочить по убыванию или по возрастанию. Медиана представляет собой меру центральной тенденции, которая нечувствительна к выбросам, в отличие от среднего значения, которое могут исказить несколько экстремально больших или малых значений (т.е. берём медиану вместо среднего, если распределение ненормальное). Для номинальных и порядковых шкал.

Среднее. Мера центральной тенденции. Арифметическое среднее; сумма, деленная на число наблюдений. Для все видов шкал (номинальные, порядковые, интервальные).

Размах. Разность между наибольшим и наименьшим значениями числовой переменной; максимум минус минимум.

Квартильный размах. Квартильный размах переменных равен разности значений 75-й процентили и 25-й процентили. Таким образом, это тот диапазон вокруг медианы, который содержит 50% наблюдений.

Квартили. 25%-е, 50%-е и 75%-е процентили, которые разделяют наблюдения на четыре группы одинакового объема (по 25%).

Процентили. Значение процентиля — это значение количественной переменной, которое разделяет упорядоченные данные на группы таким образом, что определенный процент наблюдений имеет значения этой количественной переменной меньше значения процентиля, а другой процент наблюдений имеет значения этой количественной переменной больше значения процентиля.

Дисперсия. Мера разброса относительно среднего значения. Равна сумме квадратов отклонений от среднего, деленной на число, на единицу меньшее числа наблюдений. Дисперсия измеряется в единицах, которые равны квадратам единиц измерения самой переменной.

Стандартное отклонение. Мера разброса вокруг среднего. При нормальном распределении 68% наблюдений укладываются в одно стандартное отклонение от среднего, и 95% — в два стандартных отклонения. Если, например, средний возраст равен 45 годам со стандартным отклонением 10, то 95% наблюдений должны оказаться между 25 и 65 годами при нормальном распределении. Равна корню из дисперсии.

Коэффициенты корреляции. Корреляции измеряют связь между переменными или рангами. Коэффициент корреляции может принимать значения между -1 и +1, причём если значение находится ближе к ±1 (прямой (+) или обратной (-)), то это означает наличие сильной связи, а если ближе к 0, то слабой. Перед вычислением коэффициента корреляции проверьте данные на наличие выбросов (которые могут привести к вводящим в заблуждение результатам) и признаков наличия линейной связи.

Для словесного описания величины коэффициента корреляции используются следующие градации:

Значение	Интерпретация
до 0,2	Очень слабая корреляция
до 0,5	Слабая корреляция
до 0,7	Средняя корреляция
до 0,9	Высокая корреляция
свыше 0,9	Очень высокая корреляция

Коэффициент корреляции Пирсона — для интервальной и номинальной шкал, при нормальном распределении. Ранговая корреляция по Спирмену или коэффициент Кендала — если хотя бы одна шкала порядковая или если распределение ненормальное.

Коэффициент корреляции Пирсона является мерой линейной связи. Две переменные могут быть на 100% связаны, однако если эта связь нелинейная, коэффициент корреляции Пирсона не является подходящей статистикой для её измерения.

Проверка нормальности распределения (skewness и kurtosis, гистограмма с нормальной кривой). Эксцесс (kurtosis). Мера сгруппированности наблюдений вокруг центральной точки. Для нормального распределения значение эксцесса равно 0. Положительный или отрицательный эксцесс указывает, что по отношению к нормальному распределению, наблюдения сгруппированы более плотно около центра распределения. Асимметрия (skewness). Нормальное распределение симметрично, и для него асимметрия равна 0. Распределение со значимой положительной асимметрией имеет длинный хвост справа.

В качестве грубого правила можно сказать, что если значение асимметрии по модулю меньше чем её удвоенная стандартная ошибка, то отклонение от симметричного случая считается приемлемым. То же самое с эксцессом. Если и значение асимметрии, и значение эксцесса меньше чем их удвоенные стандартные ошибки, то распределение нормальное.

Гистограммы состоят из столбиков; но каждый из них соответствует одинаковому интервалу значений исследуемой переменной. Высота каждого столбика отражает количество значений числовой переменной, попавших внутрь интервала, соответствующего этому столбику. На гистограмму можно наложить кривую нормального распределения, которая поможет оценить, насколько распределение данных близко к нормальному.

Вариационный ряд. Данные > Сортировать переменные Если члены выборки расположены в порядке возрастания, то выборка называется вариационным рядом, а его элементы — порядковыми статистиками.

Частотная таблица. (Frequencies) См. Выше (мода, медиана среднее, валидный процент и т.д.). Процедура Частоты дает возможность вычислять статистики и строить диаграммы, полезные для описания многих типов переменных.

Двухмерная частотная таблица (таблица сопряженности). Анализ > Описательные статистики > Таблицы сопряженности... Процедура Таблицы сопряженности формирует двумерные и многомерные таблицы, а также вычисляет целый ряд критериев и мер силы связи для двумерных таблиц.

Статистики таблиц сопряженности и меры силы связи вычисляются только для двумерных таблиц. Если Вы задали строку, столбец и фактор слоя (управляющую переменную), то процедура Таблицы сопряженности формирует панель соответствующих статистик и мер для каждого значения фактора слоя (или комбинации значений, если факторов два или более). Например, если пол - это фактор слоя для таблицы переменных состоит в браке (да, нет) и жизнь (как воспринимается жизнь - волнующая, обычная или скучная), то результаты двумерной таблицы будут вычисляться отдельно для женщин и отдельно для мужчин, и выводиться в виде двух панелей, расположенных одна за другой.

Пример (уровень образования – фактор слоя):

Накопленные частоты. Накопленные частоты показывают, какое количество единиц совокупности имеет значение признака не большее, чем данное значение. (Число значений, которые попали в этот интервал и все предшествующие)

Кумулята (график накопленных частот).График распределения накопленных частот для порядковых и количественных переменных. Имеет вид возрастающей ломаной линии. Для дискретной переменной линия кумуляты соединяет точки, абсциссами которых являются значения переменной, ординатами - значения соответствующих им накопленных частот. Для количественной переменной частот в качестве абсцисс используются верхние точные границы интервалов

Валидные проценты. Валидный процент - доля численного значения признака от общей численности совокупности. Используется для всех видов шкал. (Процент без учёта пропусков)

Пропущенные значения. Пропущенные значения — наблюдения, в которых данная переменная не имеет значений или имеет значения, помеченные пользователем как пропущенные (такие как код 99 иногда).

Коробковая диаграмма. Графика > Конструктор диаграмм > Ящики Диаграмма, основанная на пяти важных числах (минимальное значение, первый квартиль, среднее значение, третий квартиль и максимальное значение). Показывает минимальное и максимальное значение, медиану и квартильный размах. Рисунок:

Отбор значений в SPSS. Данные > Отобрать наблюдения... Отбор данных (значений) — это выбор подмножества наблюдений по определенным критериям; так, например, при опросе избирателей можно отобрать только мужчин, голосующих за ЛДПР, а при опросе студентов — только студенток, изучающих психологию и медицину. После этого все вычисления будут проводиться только с этими отобранными наблюдениям.

Перевзвешивание. Данные > Взвесить наблюдения... Процедура Взвесить наблюдения присваивает наблюдениям различные веса (путем имитации повторных наблюдений) для статистического анализа. Значения взвешивающей переменной показывают количество наблюдений, представленных каждым из наблюдений в файле данных. Наблюдения с нулевыми, отрицательными или пропущенными значениями взвешивающей переменной исключаются из анализа. Допускаются нецелые значения.

М-оценки. Анализ > Описательные статистики > Разведочный анализ Статистика… Альтернатива выборочным среднему и медиане для оценивания положения. Выводятся следующие оценки: М-оценка Хубера, волновая оценка Эндрюса, нисходящая М-оценка Хампеля, бивес-оценка Тьюки. Нужны в случае если у на ненормальное распределение (.

Поиск по сайту: