Помощничек
Главная | Обратная связь


Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Надежность и валидность



 

Прежде чем психодиагностические методики могут быть использо­ваны для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффек­тивность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием. В резуль­тате появилась возможность оградить психологию от всевозможных безграмотных подделок, претендующих на то, чтобы называться диаг­ностическими методиками.

К числу основных критериев оценки психодиагностических мето­дик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статисти-ческий аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным кри­териям.

В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рас­смотрения надежности методик.

Надежность

В традиционной тестологии термин «надежность» означает относительное посто­янство, устойчивость, согласованность ре­зультатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази [ 10, т. 1 ], вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале неде­ли ребенок имел показатель, равный 110, а к концу — 80. Повторное применение надежных методик дает сходные оценки. При этом в оп­ределенной мере могут совпадать как сами результаты, так и порядко­вое место (ранг), занимаемое испытуемым в группе. И в том, и в дру­гом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной груп­пы. Таким образом, можно сказать, что надежность методики — это такой критерий, который говорит о точности психологических изме­рений, т. е. позволяет судить о том, насколько внушают доверие полу­ченные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка со­ставить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составле­на инструкция, задания по своему характеру разнородны, нечет­ко сформулированы указания, как методику предъявлять испы­туемым, и т. д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, на­личие или отсутствие посторонних шумов и т. д.);

4) различия в манере поведения экспериментатора (от опыта к опы­ту по-разному предъявляет инструкции, по-разному стимулиру­ет выполнение заданий и т. д.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утом­ление и т. д.);

6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испы­туемых, оцениваются ответы по степени полноты, оригинально­сти и т. п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно до­биться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики яв­ляется единообразие процедуры обследования, его строгая регламен­тация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с ис­пытуемыми, порядок предъявления заданий и т. д. При такой стандар­тизации процедуры исследования можно существенно уменьшить вли­яние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.

На характеристику надежности методик большое влияние оказыва­ет исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повтор­ном обследовании новые результаты также расположатся тесной груп­пой. Возможные изменения ранговых мест испытуемых будут незна­чительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента слу­чайные факторы. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каж­дой такой выборки приводятся свои коэффициенты надежности. При­водимый показатель надежности применим только к группам, подоб­ным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.

Так как надежность отражает степень согласованности двух неза­висимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность мето­дики — это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.

В данной книге при описании видов надежности основной упор де­лается на работы К. М. Гуревича [30-33], который, проведя тщатель­ный анализ зарубежной литературы по этой проблеме, предложил тол­ковать надежность как комплексную характеристику, включающую:

♦ надежность самого измерительного инструмента;

♦ стабильность изучаемого признака;

♦ константность, т. е. относительную независимость результатов от личности экспериментатора.

Основные показатели он предложил обозначить следующим образом:

♦ показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности;

♦ показатель, характеризующий стабильность измеряемого свой­ства — коэффициентом стабильности;

♦ показатель оценки влияния личности экспериментатора — коэф­фициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку ме­тодики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием констант­ности.

Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.

Определение надежности измерительного инструмента.Оттого, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания акту­ализируют одно и то же свойство, признак.

Для проверки надежности измерительного инструмента, говоря­щего о его однородности (или гомогенности), используется так назы­ваемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух получен­ных рядов коррелируются между собой. Для применения этого спосо­ба нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким по­ловинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.

Можно делить задания и другим путем. Например, можно сопоста­вить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечет­ные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Определение стабильности изучаемого признака.Определить на­дежность самой методики — это не значит решить все вопросы, связан­ные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабиль­ность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные вы­воды об уровне представленности измеряемого признака у такого ис­пытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть исполь­зован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он зак­лючается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреля­ции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуе­мым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тес­тирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.

При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих рав­ных условиях) больше шансов, что диагностируемый признак сохра­нит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрас­тает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тести­рование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.

Трудно четко ответить на вопрос, какой срок можно считать опти­мальным для повторного эксперимента. Только исследователь, исхо­дя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные ин­тервалы в несколько месяцев (но не более полугода). При обследова­нии детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка несколь­ких недель [10, т. 1].

Коэффициент стабильности методики должен быть достаточно вы­соким (не ниже 0,80).

Определение константности (относительной независимости резуль­татов от личности экспериментатора). Поскольку методика, разрабо­танная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в ка­кой мере ее результаты поддаются влиянию личности эксперимента­тора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указыва­ющими, как проводить эксперимент, однако регламентировать мане­ру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опы­ту всегда отразит то, как сам экспериментатор к этому опыту относит­ся (допускает небрежность или действует точно в соответствии с тре­бованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности поль­зуются нечасто, однако это не может служить основанием для его не­дооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагно­стической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность мето­дики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспе­риментаторе изменили свои порядковые места в выборке.

Коэффициент константности определяется путем корреляции ре­зультатов двух опытов, проведенных в относительно одинаковых усло­виях на одной и той же выборке испытуемых, но разными экспери­ментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Итак, были рассмотрены три показателя надежности психодиагно­стических методик. Может возникнуть вопрос, нужно ли при созда­нии методик осуществлять проверку каждого из них? На этот вопрос следует дать утвердительный ответ.

Так, авторы «Стандартных требований к педагогическим и психо­логическим тестам» в главе «Надежность» отмечают, что коэффици­ент надежности — это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич [32]. По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность из­меряемого свойства? Чего стоит диагностическая методика, если не­известно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заме­нит других способов проверки и, следовательно, не может рассматри­ваться в качестве необходимой и достаточной характеристики надеж­ности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического при­менения.

Валидность

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методи­ки решается лишь после того, как установлена достаточная ее надеж­ность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практи­чески бесполезной.

Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» [10, т. 1 с. 126].

Валидность по своей сути — это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сто­рону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидно­сти включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой мето­дике, т. е. это валидность измерительного инструмента. Такая провер­ка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

Обобщая, можно сказать следующее:

♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

♦ при прагматической валидизации суть предмета измерения (пси­хологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое мето­дикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию, в отличие от прагматиче­ской, порой оказывается значительно труднее. Не вдаваясь пока в кон­кретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравнива­ются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической зна­чимости, эффективности, действенности диагностической методики.

Для определения теоретической валидности найти какой-либо не­зависимый критерий, лежащий вне методики, гораздо труднее. Поэто­му на ранних стадиях развития тестологии, когда концепция валидно­сти только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, про­сто очевидно;

2) доказательство валидности основывалось на уверенности иссле­дователя в том, что его метод позволяет понять испытуемого;

3) методика рассматривалась как валидная (т. е. принималось ут­верждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.

Принятие на веру голословных утверждений о валидности методи­ки не могло продолжаться длительное время. Первые проявления дей­ствительно научной критики развенчали такой подход: начались по­иски научно обоснованных доказательств.

Таким образом, провести теоретическую валидизацию методики — это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то дру­гие особенности (например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики со­впадают.

Не столь сложно провести теоретическую валидизацию новой ме­тодики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и ана­логичной уже проверенной методикой указывает на то, что разра­ботанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более ком­пактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инстру­мент вместо старого.

Но теоретическая валидность доказывается не только путем сопо­ставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, устано­вить степень связи с родственной методикой (конвергентная валид­ность) и отсутствие этой связи с методиками, имеющими другое тео­ретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изуча­емом свойстве, анализ теоретических предпосылок и эксперименталь­ных данных, значительный опыт работы с методикой позволяет рас­крыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельно­сти. Но здесь особенно важно, чтобы методика была тщательно прора­ботана в теоретическом плане, т. е. чтобы имелась прочная, обосно­ванная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Важно помнить, что если доказана теоретическая валидность, то ин­терпретация полученных показателей становится более ясной и од­нозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации,то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой име­ет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в опре­деленных видах деятельности. Ей придают большое значение особен­но там, где встает вопрос отбора.

Если опять обратиться к истории развития тестологии [1; 10; 31; 62; 88 и др.], то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.

Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомен­дациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Те­оретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наибо­лее продуктивная.

Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий — показатель проявления изучаемого свойства в повседневной жизни. Таким кри­терием может быть и успеваемость (для тестов способностей к обу­чению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эф­фективность реальной деятельности — рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Д. Тиффин и Е. Мак-Кормик, прове­дя анализ используемых для доказательства валидности внешних кри­териев, выделяют четыре их типа [по 31):

1) критерии исполнения (в их число могут входить такие, как коли­чество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении вли­яния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давле­ние крови, электросопротивление кожи, симптомы утомления И т. д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, ко­торые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям:

♦ он должен быть релевантным;

♦ свободным от помех;

♦ надежным.

Под релевантностью имеется в виду смысловое соответствие диаг­ностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в крите­рии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний крите­рий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородны­ми по психологической сущности. Если, например, тест измеряет ин­дивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъяв­ляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагно­стическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняе­мых операций соотносим с методикой.

Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполез­ным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.

Требования свободы от помех вызываются тем, что, например, учеб­ная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут при­внести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие груп­пы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический ха­рактер. Так, например, производительность следует брать не по абсо­лютным значениям, а в отношении к средней производительности ра­бочих, работающих в аналогичных условиях.

Когда говорят, что критерий должен иметь статистически достовер­ную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии мно­го методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.

Оценка валидности методик может носить количественный и каче­ственный характер.

Для вычисления количественного показателя — коэффициента ва­лидности — сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреля­ции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности?

Практика показала, что их не должно быть меньше 50, однако луч­ше всего более 200. Часто возникает вопрос, какой должна быть вели­чина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валид­ности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним — 0,30-0,50 и высоким — свы­ше 0,60.

Но, как подчеркивают А. Анастази [10, т. 1], К. М. Гуревич [31] и др., не всегда для вычисления коэффициента валидности правомерно ис­пользовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорцио­нален успеху в выполнении диагностической пробы. Позиция зару­бежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Нагляд­ный пример из монографии К. М. Гуревича [31]: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень боль­шой скоростью — это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наи­более адекватным способом установления валидности может быть кри­терий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы диспер­сионный анализ или вычисление корреляционных отношений.

Как показал опыт работы зарубежных тестологов, ни одна стати­стическая процедура не в состоянии полностью отразить многообра­зие индивидуальных оценок. Поэтому часто для доказательства валид­ности методик используют другую модель — клинические оценки. Это не что иное, как качественное описание сущности изучаемого свой­ства. В этом случае речь идет об использовании приемов, не опира­ющихся на статистическую обработку.

Вопросы и задания

1. Дайте определение понятию «стандартизация методик».

2. Что такое репрезентативная выборка? Как она строится?

3. Назовите приведенные в главе критерии оценки результатов ди­агностических испытаний.

4. Что такое надежность методики? Назовите виды надежности.

5. Что такое валидность методики? Назовите ее основные виды.

Рекомендуемая литература

1. Анастази А. Психологическое тестирование: В 2 кн. / Под ред. К. М. Гуревича, В. И. Лубовского. Кн. 1. - М., 1982.

2. Бурлачук Л. Ф. Психодиагностика. — СПб., 2003.

3. Бурлачук Л. Ф., Морозов С. М. Словарь-справочник по психоло­гической диагностике. — Киев, 1989.

4. Гайда В. К., Захаров В. П. Психологическое тестирование. — Л., 1982.

5. Гуревич К. М. О надежности психофизиологических показате­лей // Проблемы дифференциальной психофизиологии. Т. 6. — М., 1969.

6. Гуревич К. М. Надежность психологических тестов // Психоло­гическая диагностика. Ее проблемы и методы. — М., 1975.

7. Гуревич К. М. Статистика — аппарат доказательства психологи­ческой диагностики // Проблемы психологической диагности­ки. — Таллин, 1977.

8. Гуревич К. М. Что такое психологическая диагностика. — М., 1985.

9. Гуревич К. М. Проблемы дифференциальной психологии. — М.; Воронеж, 1998.

10. Носс И. Н. Введение в технологию психодиагностики. — М., 2003.

11. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина. - М., 1987.

12. Основы психодиагностики / Под ред. А. Г. Шмелева. — Ростов н/Д, 1996.

 


Часть II

ДИАГНОСТИКА

КОГНИТИВНОЙ

СФЕРЫ

Глава 1

 




Поиск по сайту:

©2015-2020 studopedya.ru Все права принадлежат авторам размещенных материалов.