Валидность по характеру получения психодиагностической информации
непосредственная (первичная)
производная (вторичная)
сугубо эмпирическая
теоретико-эмпирическая
Содержательно-познавательная
1. Внешняя (очевидная)
1. Прогностическая
1. Оценочная
Практическая
2. Внутренняя (имманентная)
2. Совпадающая
2. Конструктная 3. По объему
разных точек зрения: по назначению(что конкретный тип валидности представляет собой) и по характеру получения(каким способом, на основе какой процедуры устанавливается наличие валидности).
Типы валидности, которые Ю. 3. Гильбух относил по назначению к содержательно-познавательным, ныне обозначаются термином "содержательная валидность".Здесь уместно привести выражение Ли Кронбаха: "Чем полнее и увереннее мы можем интерпретировать данный тест, тем выше его валидность" [74, с. 1551]. Это, в сущности, познавательная емкость теста, его диагностическое содержание, диагностическая ценность, точность и широта психодиагностической проекции. Разумеется, достичь 100%-й содержательной валидности теста можно лишь тогда, когда все аспекты исследуемой области поведения по существу учитываются и раскрываются тестом до прозрачности. Если в тесте математических знаний требуется определить степень умения учеников перемножать выражения в скобках, то задания с формулами типа (2х + 4)(3 - х) будут исключительным тестом с высокой степенью содержательной валидности. Очевидно, содержательная валидность полезна только для тех тестов, как в данном случае, смысл измеряемого параметра которых полностью ясен [31, с. 29]. Это отнюдь не означает, что во всех иных тестах содержательная валидность не учитывается. Она реально может быть более или менее высокой, а обеспечиваться иными типами валидности, которые рассмотрим далее. Таким образом, содержательную валидность можно рассматривать в виде некоего интегрального качества, оценивающего эффективность теста в процедурах психодиагностики.
По характеру полученияпсиходиагностической информации различают два типа валидности: непосредственную(первичную) и производную(вторичную). Непосредственная валидность устанавливается посредством определения внутренней значимости (internal validation) теста, т. е. без использования внешних критериев, экспериментальных проверок и математико-статистических процедур. Производная валидность характеризуется прежде всего сопоставлением тестовых оценок с каким-либо внешним критерием (например, успешность в деятельности или в освоении профессии, академическая успеваемость и т. п.).
Непосредственная,или первичная, валидностьустанавливается, как уже отмечалось, без опосредования каким-либо дополнительным инструментарием и включает в себя два подтипа валидности: внешнюю,или очевидную (face validity), и внутреннюю,или имманентную (intrinsic validity).
Внешняя(очевидная) валидностьозначает, что впечатление, которое создается у неспециалистов при ознакомлении со стимульным материалом и сугубо внешней стороной тестирования, соответствует обозначенному содержанию теста. Если о тесте складывается мнение, что он измеряет именно то, что подразумевается, особенно с точки зрения испытуемых, то этот тест является очевидно валидным. Фактически в этом случае речь идет не о валидности как таковой, а лишь о впечатлении о ее наличии. Хотя внешняя валидность никакого отношения не имеет к истинной валидности, она важна постольку, поскольку взрослые испытуемые обычно не включаются в работу с тестами, если им недостает внешней валидности, а порой считают такие тесты глупыми и даже оскорбительными. От внешней валидности, т. е. очевидности теста, во многом зависит доверие к нему как пользователя, так и испытуемого. Имея это в виду, внешнюю валидность иногда называют "доверительной"(faith validity), поскольку она помогает установить контакт, доверие и сотрудничество с испытуемыми. Дети, привыкшие к школьным контрольным проверкам, не столь восприимчивы к очевидным признакам теста, хотя и в этом случае внешняя валидность теста, т. е. ее "лицевая" сторона, имеет важное значение. Таким образом, наличие внешней доверительной валидности является необходимым условием валидности подлинной, научной — тест должен не только быть валидным, но и казаться таковым.
Работая с тестами в психологическом диагностировании, следует учитывать, что внешняя валидность по-разному соотносится с подлинным психологическим содержанием теста, т. е. с изучаемыми свойствами или состояниями психики. В одних случаях (например, при тестировании умственных способностей) внешняя валидность соответствует этому содержанию, в других (в частности, в некоторых личностных тестах) помогает маскировать истинную цель тестирования — испытуемый должен поверить в другое, мнимое содержание теста, указанное в инструкции. Для этого стимульному материалу и процедуре тестирования придается соответствующая форма. Тем самым предупреждается возникновение установки на дачу фальсифицированных, в том числе социально нормативных, ответов. Совершенно очевидно, что эффективность такой маскировки должна проверяться специально.
Внутренняя(имманентная) валидностьтеста определяется на основе применения "внутренних" (internal) критериев — признаков, указанных в определении психического свойства, лежащего в основе валидизируемого теста.
В психодиагностике под валидизацией понимают процесс проверки и обоснования тестового метода не только на валидность, но и на достоверность, надежность. Наличие таких признаков в тесте специалисты (и только они) устанавливают с помощью анализа основных компонентов методики: стимульного материала, инструкции, процедуры тестирования, системы выставленных "сырых" оценок, интерпретации. При внешней валидизации не используют сложных экспериментальных или математических процедур. Ограничиваются сравнительно простыми исследовательскими приемами: наблюдением за поведением испытуемых, их интервьюированием, экспертными оценками и пр. Здесь важнее другое.
При внутренней валидизации решающую роль играют теоретический анализ, базирующийся на глубоком знании соответствующего психического явления, которое тестируется и изучается, а также осведомленность о релевантных психометрических методиках и приемах их диагностики. Если тест, в частности, предназначен для измерения объема непосредственной кратковременной памяти, предусматривает предъявление дискретных объектов (например, метод Джекобса с числовыми рядами) и использует короткие временные диспозиции (2-3 с), то это делает теоретически маловероятным установление испытуемым каких-либо смысловых связей. Тем самым
доказывается внутренняя валидность теста как инструмента для измерения именно механической (непосредственной) кратковременной памяти.
Однако намного сложнее определить внутреннюю валидность тестов с применением сложных методик при изучении психических состояний или свойств личности. Для этого необходимо предварительно выполнить серьезную аналитическую работу и как можно полнее описать переменную, для измерения которой предназначен проверяемый тест. Это достигается формулированием гипотез о результатах теста в свете того, что известно об измеряемой переменной. При формулировании гипотез для определения внутренней валидности теста предусматриваются варианты того, что тест не измеряет, наряду с тем, что он измеряет. Экспериментальная проверка апробированными и известными методами способна продемонстрировать внутреннюю валидность проверяемого теста. Таким образом, внутренняя (имманентная) валидность теста не является продуктом каких-то произвольных, субъективных выводов. Она полностью детерминируется объективными свойствами изучаемого явления, стимульного материала и ситуации тестирования.
Наряду с понятием внутренней (имманентной) валидности тестов используется термин "конструктная валидность".Основу конст-руктной валидности тестов составляет понятие о научном (в данном случае психологическом) конструкте. Конструкты— это объекты современных научных теорий, которые создаются в рамках определенной концептуальной системы, более или менее развитого теоретического знания. В последнее время в качестве психологических конструктов для разработки тестовой психодиагностики, как и для ее валидизации, используют концептуальные представления о субъективных значениях и личностных смыслах, экстра-, интроверсии, установке, локусе субъективного контроля, мотивации и др.
Конструктная валидность— это степень обоснованности утверждения о том, что определенный тест измеряет психическое свойство или состояние в определенном теоретическом ракурсе. Конструктная валидность считается установленной, если экспериментально доказано, что признанный в науке концептуальный конструкт теоретически объясняет те индивидуальные различия, которые обнаруживает тест.
Конструктная валидизация предполагает четыре основных этапа работы с тестом: 1) изобретениеили использование известного в пси-
хологической науке теоретического конструкта(концепции, теории); 2) создание теста,предназначенного для измерения какого-либо психического явления с опорой на принятый конструкт; 3) определение условий, при которых конструктная валидность теста будет обеспечиваться соответствующими процедурами диагностики;4) экспериментальная проверкаразработанной гипотезы и тестовой версииизмерения.
Таким образом, если при других процедурах валидизации в качестве объекта анализа берется готовый, подчас давно существующий тест, то для конструктной валидизации характерно его теоретическое обоснование и органичное включение этих операций в процесс конструирования тестового метода. Следует, однако, отметить, что хотя идея конструктной валидности известна и принимается в психодиагностике давно, ее реализация в практической психологии находится в зачаточной стадии: практические психологи редко задумываются над тем, что большинство популярных тестов (в том числе таких авторитетных авторов, как Айзенк, Кеттел, Векслер) по диагностике умственных способностей используют лишь один прием — вычисление коэффициентов корреляции между тестовыми показателями и оценками академической успеваемости. И за этими тестами, как правило, нет фундаментальных теорий. Между тем и разработчики, и пользователи таких тестов должны помнить, что учебная успеваемость зависит не только от интеллектуальных способностей учащегося, но и от его отношений с учителями, обстановки в семье, мотивации его, уровня притязаний и многого другого.
Производная,или вторичная, валидностьтестов характеризуется прежде всего сопоставлением тестовых оценок с каким-либо внешним критерием. Различают два подтипапроизводной валидности: сугубо эмпирическуюи теоретико-эмпирическую.Если сугубо эмпирическая валидизация обеспечивается посредством сопоставления проб и ошибок, то теоретико-эмпирическая использует опыт и практику для теоретических умопостроений. Теоретико-эмпирическая валидность проявляется в трех формах: оценочной, конструктной и по объему.
Оценочная валидностьоснована на определении корреляционной связи между показателями валидизируемого теста и оценочными суждениями (рейтингом) экспертов. Этот прием традиционно используют для проверки гипотез в процедурах имманентной валидизации. В психодиагностической литературе рейтингу уделяется большое
внимание. В последнее время метод независимой экспертизы становится и методом диагностики, и средством валидизации, и предметом исследований. В этом случае источниками информации о содержании валидизируемого теста служат впечатление, мнение, оценка психических свойств оцениваемых лиц людьми, которые тесно взаимодействовали с оцениваемыми. Если оценочную валидизацию осуществляют с привлечением лиц, не компетентных в психологии, то им предварительно разъясняют сущность психического свойства, измерение которого предусматривается в оценках используемого теста. В итоге тождественность валидизируемого теста, с одной стороны, и результатов экспертизы — с другой, создает логическую основу для оценочной валидности проверяемого метода психодиагностики.
Основную сущность конструктной валидностимы объяснили по ее родству с внутренней (имманентной) валидностью в опосредовании теоретическим конструктом. Однако заметим еще, что с понятием конструктной валидности органически связана идея конвергентнойи дискриминантной валидноститестов, которую выдвинули Д. Кэм-пбел и Д. Фиске [71]. Они исходят из принципа, согласно которому большинство психических свойств или черт имеют некоторую обобщенность. Это означает, что каждое из них имеет не одно, а несколько внешних поведенческих проявлений, которые, естественно, должны тесно взаимокоррелировать. Исходя из этого в тестовой диагностике адекватный конструкт может предсказывать, какие именно внешние проявления психических свойств (измеряемых соответствующими тестами) обнаружат высокую взаимосвязь, будут "конвергировать" друг с другом. Получение такой корреляционной связи рассматривается как эмпирическое подтверждение валидностиразработанного конструкта, конвергентной валидноститеста.
От критерия конвергентной валидности неотделима проверка теста по признаку дискриминантной валидности.Обе рассматриваемые валидности взаимно дополняют друг друга. Если созданный психологический конструкт правильно отражает психическую реальность, то связь между конвергентными тестами должна быть сильнее, чем корреляции. Это и есть то качество разработанного теста, которое получило название "дискриминантная валидность". При отсутствии дискриминантной валидности конструкт, положенный в основу конвергентных тестов, следует рассматривать как недостаточно совершенный.
Конвергентнаяи дискриминантная валидностиявляются не только частными проявлениями конструктной валидности, но и приемами определения валидноститеста пообъему {content validity). Этот тип валидности определяет возможности теста в разной степени по объему, выборочно репрезентовать тот класс явлений, относительно которого должны быть сделаны выводы. Если валидность ставит вопрос о том, действительно ли та или иная методика измеряет то качество, которое ей предписывается, то закономерно будет поставить также вопрос: если измеряет, то в каком объеме, в какой мере общности это качество представлено в этой методике?
Ответ на последний вопрос дают понятия инкрементной {incremental) и дифференциальной {differential) валидности, которые являются составными валидности по объему. Инкрементная валидностьотносится к случаям, когда один субтест из тестовой батареи может иметь корреляционную связь с изучаемым свойством, но не перекрываться другими субтестами из этой батареи. Тогда этот тест имеет инкре-ментную валидность для отбора в соответствии с изучаемым критерием. Это может быть полезным в психодиагностической практике при профотборе.
Дифференциальная валидностьпроявляется в тестах, которые избирательно информируют исследователя-психолога о выраженности генерализованных качеств без учета их составляющих или, наоборот, частных свойств без указания их места и роли в проявлениях более общего порядка. Например, когда тест умеренно или высоко коррелирует с общей школьной или университетской успеваемостью, но не отражает частных способностей в отдельных дисциплинах.
Кратко рассмотренные типы валидности характеризуют тесты не только как функцию психологического гнозиса (диагнозиса), но и представляют их возможности в достижении определенных практических целей (прогнозирования, классификации, коррекции и т. п.).
Остановимся на понятиях "прогностическая валидность"и "совпадающая (практическая) валидность".Сразу отметим, что по характеру получения они относятся к подтипу сугубо эмпирической валидностии характеризуют тест не столько с точки зрения его познавательной ценности, сколько с точки зрения достижения цели диагностики, т. е. решения практической задачи — прогнозирования, классифицирования или диагностического установления факта. Количественно эти виды валидности определяются коэффициентами корреляции между тестовыми данными представительной (большой по объему) выборки
испытуемых по валидизируемому качеству и показателям учебной, профессиональной, или какой-либо иной деятельности, т. е. по внешнему признаку.
Формально отличие меяеду валидностью прогностическойи совпадающей(практической) обусловлено количеством времени, прошедшего с момента выполнения валидизируемого теста некоторой группой испытуемых до момента фиксации их поведения, принятого в качестве внешнего критерия. Если при прогностической валидности этот интервал велик (может исчисляться месяцами и даже годами), то при совпадающей валидности перерыв повторного наблюдения в процессе валидизации не превышает нескольких дней. Хотя, по существу, отличие заключается конечно же не во времени, а в целях, которые преследует тест. Фактор времени определяет степень устойчивости поставленного диагноза, его истинность и прогностическую ценность.
Прогностическая валидность— это степень соответствия теста задаче прогнозирования успешности, с которой испытуемый будет впоследствии осуществлять определенную деятельность. Поскольку такое прогнозирование осуществляется с учетом уровня корреляции между валидизируемым тестом и заданной деятельностью (взятой в строго очерченных границах), то и рассматриваемый вид прогностической валидности будет носить релятивный, частный характер. В сущности, каждый профессиональный тест имеет не одну прогностическую ценность, а ровно столько, сколько объективных критериев деятельностной ориентации в нем исходно заложено разработчиком.
Существенным недостатком, таящим в себе потенциал погрешности при определении прогностической валидности теста, является использование в качестве меры прогноза учебной успеваемости, т. е. оценок, которые выставляют учителя и преподаватели. Очевидная субъективность, ненадежность таких оценок обусловлены многими факторами: отсутствием унифицированных критериев, различным отношением оцениваемого к оценивающему, наконец, влиянием усредненного показателя успеваемости. В результате даже в параллельных классах один и тот же тест может получить разную степень прогностичности по успеваемости. Для защиты от подобных погрешностей психодиагностическая практика наработала множество специфических приемов, но главное — ориентироваться не на учебную успеваемость, а на учебную или профессиональную успешность, если
речь идет об учебно-диагностических тестах, тестах способностей, одаренности и т. п.
Совпадающую валидностьприменяют при классификации испытуемых, диагностике имеющихся у них определенных качеств или недостатков. Поскольку при наличии такой валидности тестовые инварианты, т. е. объективные корреляты изучаемого поведения, уже известны, то выявить их у конкретного индивида легче посредством тестирования, чем длительного внешнего наблюдения. Так, при наличии теста на выявление нейротизма (совпадающая валидность) проводить длительное клиническое наблюдение с целью проверки предположения о наличии у пациента невротического состояния нецелесообразно, поскольку можно предложить тест, выполнение которого устойчиво коррелирует с таким состоянием. Но следует знать и учитывать эту валидность. Иными словами, если тест, обладающий прогностической валидностью, позволяет ответить на вопрос: "Какова вероятность того, что индивид X со временем приобретет свойство F?", то тест, обладающий совпадающей валидностью, позволяет ответить на вопрос: "Какова вероятность того, что индивид X обладает свойством F?"
Таким образом, различные типы валидности являются не альтернативными, а взаимодополняющими. Следовательно, каждая профессиональная тестовая методика создается системой валидизацион-ных процедур, и любая переделка теста, его модификация и адаптация к новым условиям или к новым задачам с неизбежностью требует выполнения полной программы валидизации. В противном случае тест потеряет определенность, а значит, и диагностическую ценность.
Как отмечалось, общим термином "валидизация тестов"в психодиагностике обозначают еще и проблему их проверки по критериям надежности и достоверности.
2.3.2. Надежность тестов
Одним из важных критериев диагностической ценности теста является его надежность. Специфический смысл этого критериясостоит в степени устойчивости получаемых результатов и оценок при повторных измерениях свойств или качеств одних и тех же лиц с помощью этого теста. Следовательно, надежность теста— это не что иное, как точность осуществляемых с его помощью измерений, которая ха-
рактеризуется диапазоном рассеивания оценок, полученных при повторных тестированиях. Если при повторных обследованиях тест дает большие несовпадения оценок, то в этом случае нельзя быть уверенным, что он вообще измеряет определенное психическое качество, — такой тест ненадежен.
В наиболее широком смысле надежность теста— это характеристика того, в какой степени тестовые результаты отражают действительные различия измеряемых свойств психики и в какой степени они зависят от влияния случайных ошибок. При рассмотрении вопроса о надежности психологических измерений исследователя интересует оценка стабильности именно теста, а не измеряемого свойства. Известно, что на результат диагностики обычно влияет большое количество неучитываемых факторов: эмоциональные состояния и утомление испытуемых, уровень их мотивированности на обследование, освещенность, температура, шум и другие особенности помещения, где проводятся обследования. Любое изменение ситуации обследования усиливает влияние на результаты тестирования одних факторов и ослабляет воздействие других. Таким образом, общий разброс (дисперсию) результатов тестового обследования можно представить как результат влияния двух групп причин: изменчивости, присущей измеряемому свойству, и факторов нестабильности измерительной процедуры. Стабильность измерительной процедуры обеспечивает надежность теста.
Статистическое распределение значений группы испытуемых, протестированных по одному качеству, в идеале совпадает с нормальным распределением, и дисперсия при этом будет "истинной", т. е. отражающей вариативность только измеряемого признака. Каждый испытуемый занимает определенное место по оценкам теста, а теоретически это место для каждого члена выборки постоянно. В рассматриваемом случае повторное выполнение теста теми же лицами должно давать распределение мест на шкале оценок, идентичное первому. Тогда методика как измерительный инструмент точна и максимально надежна. В действительности же оценки и ранговые места испытуемых при повторном обследовании изменяются, и их распределение в той или иной степени отличается от исходного. При этом дисперсия нового распределения выше исходного на величину дисперсии ошибки измерения. Это положение выражается формулой, описывающей надежность теста как отношение "истинной" и реальной (эмпирической) дисперсии. Математический расчет коэффи-
циента надежности учитывает ошибку измерения, которая указывает на вероятные пределы колебаний измеряемой величины под воздействием случайных посторонних факторов. Величина ошибки измерения обратно пропорциональна показателям точности измерения — чем уже доверительный интервал, внутри которого возможно появление истинного результата у испытуемого, тем выше точность измерения.
На практике в большинстве применяемых методик редко удается получить значения коэффициента надежности, превышающие 0,7...0,8. При коэффициенте надежности порядка 0,8 относительная
стандартная ошибка составляет дД-0,8 = 0,45 (= 0,5), а эмпирическое
значение отклонения тестового балла от среднего оказывается завышенным. Для получения "истинного" значения, т. е. коррекции эмпирического показателя в практических исследованиях, последнее значение пересчитывают по специальным формулам с учетом ошибки измерения.
Если исходить из широкого понимания надежности как отражения удельного веса измеряемого параметра и совокупности посторонних факторов, то можно обнаружить некоторую связь надежности с валидностью, хотя это принципиально разные понятия. Надежность — это устойчивость процедуры относительно объектов исследования, а валидность — однозначность, устойчивость относительно измеряемых свойств объекта, т. е. предмета измерения. Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием валидности. Валидность теста не может качественно и количественно превышать надежность. Однако такое соотношение нельзя отождествлять с прямой связью характеристик валидности и надежности. Повышение надежности отнюдь не сопровождается повышением валидности [14].
В понятии "надежность психологического теста" принято выделять три главных аспекта соответственно трем различным процедурам вычисления коэффициента надежности:
1) надежность, определяемую путем повторного примененияод ной и той же (или идентичной) формы теста по однородной выборке;
2) надежность, определяемую путем применения двух эквивалент ных формтеста. Эквивалентными формами теста принято на зывать два теста с тождественным психологическим содержа-
нием, стимульные части которых несколько различаются по внешнему оформлению (различные формулировки, порядок предъявления, формы при сохранении содержания); 3) надежность, определяемую путем "расщепления"теста на две части и вычисления коэффициента корреляции между оценками, выставленными по каждой из этих частей. Прежде чем перейти к рассмотрению выделенных форм надежности, отметим (даже если и повторимся) то общее, что присуще названным аспектам надежности тестов. Все они так или иначе связаны с понятием временной стабильности теста.Важно еще раз подчеркнуть, что это понятие нельзя смешивать с применением тестов для изучения временной изменчивости различных психических функций, обусловленной такими явлениями и процессами, как физиологическое или функциональное состояние организма, созревание, развитие, научение и т. д. Когда, например, изучают устойчивость интеллектуальных способностей во временной перспективе, то тест является не объектом, а средством исследования. В данном же случае нас интересует оценка стабильности именно теста, а не измеряемого свойства.
Надежность, определяемая путем повторного применения теста к одним и тем же лицам, называется еще ретестовой надежностью. Ретестовая надежность— это характеристика надежности психодиагностической методики, полученная путем повторного обследования испытуемых с помощью одного и того же теста. Надежность в этом случае определяется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Коэффициент надежности здесь соответствует коэффициенту корреляции между результатами таких обследований. При измерении интервальных шкал применяют коэффициент корреляции произведения моментов Пирсона. При использовании в качестве показателей теста шкал порядка мерой устойчивости (надежности) методики может служить расчет коэффициентов ранговой корреляции Спирмена или Кэндалла.
При характеристике ретестовой надежности особое значение имеет интервал времени, который выдерживается между первым и повторным обследованиями. С его увеличением показатели корреляции имеют тенденцию к снижению. Это происходит потому, что существенно повышается вероятность воздействия посторонних факторов, которых в предыдущем обследовании не было, — могут наступать закономерные возрастные изменения, происходить различные
события, потрясения, влияющие на состояние испытуемых, или их качества по-другому перераспределяются в иной структуре ведущей деятельности и пр. Поэтому при определении ретестовой надежности стараются выбирать непродолжительные временные интервалы (до нескольких месяцев), а при обследовании детей такие интервалы должны быть еще короче, поскольку возрастные изменения и развитие в детском возрасте происходят быстро.
Несмотря на указанную тенденцию при проверке характеристик теста повторные обследования проводят и с длительным временным интервалом. Иногда их осуществляют в целях оценки прогностической валидности, элементов конструктной валидности, связанных с возрастной дифференциацией. Определение же ретестовой надежности ограничивается главным образом анализом краткосрочных случайных измерений, характеризующих тест как измерительную процедуру, а не его отношение к исследуемой области психики. Наряду с очевидной простотой определения ретестовой надежности такой способ имеет существенные недостатки. Так, при повторном применении одних и тех же заданий в условиях коротких промежутков времени между ними у испытуемых может сформироваться навык работы с определенной психодиагностической методикой, что способствует улучшению результатов. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых и, соответственно, к ухудшению показателей надежности. Еще существеннее на результаты анализа надежности могут влиять запоминание испытуемыми отдельных решений и ответов, воспроизведение в повторном обследовании предыдущей картины правильных и неправильных ответов. Это делается за счет перенесения предыдущего опыта при повторной работе с методикой. Результаты таких двух предъявлений теста не будут независимыми и корреляция между ними будет завышенной.
Одним из путей устранения влияния тренировки на результаты оценки тестовой надежности может стать увеличение количества повторных обследований. Такой прием используют при апробации тестов скорости, подвижности, динамичности, где содержится большое количество элементов тестового материала.
Для других методик, очевидно, единственным приемлемым способом снижения влияния тренировки и научения остается увеличение интервала тестретеста — через некоторый промежуток времени случайные колебания результатов обследования будут менее выра-
жены. Для усиления этой тенденции требуются отдельные измерения ретестовой надежности в разных возрастных контингентах, а также в группах лиц, отличающихся по образованию, полу, роду занятий и др.
Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным для ограниченного круга психодиагностических тестов, допускающих повторные, многократные обследования одного и того же контингента лиц. К ним относятся сенсомоторные пробы, методики по исследованию свойств нервной системы, психодинамики индивидуально-типологических проявлений, методы дифференциальной психологии, отличающиеся большим количеством предъявляемых стимульных элементов.
Существует мнение [31], что наименьшим удовлетворительным значением для ретестовой надежности является коэффициент на уровне 0,7, хотя и этот предельный показатель в известной мере условный. Для проективных и некоторых других личностных методик показатель ретестовой надежности может быть ниже, при этом диагностическая ценность теста не снижается. Здесь важно учитывать назначение теста, его содержательную валидность и конкретные особенности конструкции.
Надежность параллельных форм теста— это характеристика надежности психодиагностической методики с помощью взаимодополняемых и взаимозаменяемых форм теста. Используют две эквивалентные формы теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем с применением аналогичных дополнительных. В этой связи заслуживает внимания замечание К. М. Гу-ревича [26] относительно трактовки значения, которое имеет применение эквивалентных форм. По мнению К. М. Гуревича, такой способ обеспечивает получение особой информации, опираясь на которую исследователь может считать, что если эти две формы дали при испытаниях одинаковые или близкие результаты в избранной выборке испытуемых, то из этого следует, что при разработке теста найден достаточно отчетливый диагностический признак. Получение высокого коэффициента корреляции между этими формами является доказательством не только эквивалентности психологического содержания теста, но одновременно и его высокой надежности. Надежность с неизбежностью следует из внутренней логической однородности
стимульного материала — при психологической эквивалентности, а значит, идентичности и взаимозаменяемости двух тестов. Их применение к определенной выборке испытуемых по существу представляет собой два последовательных испытания посредством одного и того же теста. Одного — по содержанию, но двух разных — по форме. Важно подчеркнуть, что целью в этом случае является получение информации именно о степени надежности теста, а установление факта эквивалентности психологического содержания двух его форм — необходимая предпосылка достижения указанной цели. Для обеспечения эквивалентности разных форм одного и того же теста недостаточно введения различий в формулировках стимульного материала. В этом случае существуют свои правила:
1) количество заданий должно быть одинаковым;
2) типы заданий в обеих формах должны быть унифицированы относительно психологического содержания, уровня и преде лов трудности, а также степени охвата тех или иных операций;
3) задания должны быть распределены по степени сложности оди наковым образом;
4) оба теста должны иметь примерно равные средние и стандарт ные отклонения;
5) процедура применения обоих тестов, а также техника оцени вания результатов должны быть унифицированы.
В определении надежности теста с использованием параллельных,или эквивалентных, формприемлемы две техники. Одна из них состоит в том, что одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем с применением аналогичной дополнительной, т. е. эквивалентной, формы. Если коэффициент корреляции между показателями обоих тестирований окажется высоким, следует признать, что сконструированы два надежных психодиагностических теста. Приведенное с очевидностью доказывает, что хотя применение эквивалентных тестовых форм и связано с оценкой их эквивалентности, однако главной целью в этом случае является оценка их надежности.
Коэффициент надежности по типу надежности параллельных форм можно определить также другим способом, а именно: испытуемых делят на примерно равные группы, затем одной из них предлагают форму А теста, а другой — форму Б. Через определенное время (обыч-
но не более недели) проводят повторное тестирование, но уже в обратном порядке.
Процедура определения тестовой надежности метода психодиагностики с применением приема параллельных форм лишена многих недостатков, присущих способу проверки по типу ретестовой надежности. Поскольку в параллельных формах используют различный по содержанию материал, возможность тренировки и запоминания отдельных решений уменьшается. Важнейшим преимуществом такого метода является сокращение временного интервала перед повторным обследованием.
Трудности рассматриваемого способа проверки тестовой надежности состоят в том, что его можно применять лишь в том случае, если предварительно ставилась задача сконструировать две эквивалентные формы теста. Или же вторую (эквивалентную) форму разрабатывают специально. При этом дополнительно следует учитывать, что оба набора заданий должны не только отвечать одним и тем же требованиям (что изложено ранее), но и быть относительно взаимно-независимыми. На практике эта задача осуществима далеко не для всех тестовых заданий (особенно для личностных методик в виде опросников), что существенно ограничивает сферу применения способа определения надежности параллельных форм. Другим недостатком характеристики надежности параллельных, или эквивалентных, форм является возможность усвоения испытуемыми принципа решения, как и стиля ответов, общего для основной и параллельной форм. Таким образом, при оценке надежности параллельных форм влияние тренировки и навыка, усваиваемого в повторном обследовании, хотя и снижается по сравнению с характеристикой ретестовой надежности, однако не устраняется полностью. Тем не менее на практике такой метод определения тестовой надежности применяется широко.
Определение надежности теста путем "расщепления",т. е. разделения его на две части, характеризует надежность психодиагностической методики через анализ устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов (заданий) теста. Суть метода "расщепления" заключается в выполнении испытуемым заданий двух равноценных частей теста.
Обычно тест разделяют на части так: объединяют в одной половине теста все четные, в другой — все нечетные задания. Это обеспечивает относительную однородность и сложность, равную трудность каж-
дой части. Стимульный материал делят на составные с учетом его характера и, как правило, так:
1) разделяют задания на четные и нечетные в том случае, если задания в тесте строго ранжированы по степени субъективной трудности;
2) разделяют пункты по принципу близости или равенства зна чений индексов трудности и дискриминантности, когда тест предполагает обязательность ответов испытуемых на все пун кты (например, для тестов достижений);
3) разделяют задачи по времени решения каждой из частей (для тестов скорости реакций).
Могут быть приняты и другие основания для разделения теста. Смысл же заключается в том, чтобы процедурно получить информативный материал для определения коэффициента корреляции между суммарными оценками испытуемых по выделенным частям теста. Какова же информативность этого коэффициента? Ответ сводится к тому, что эта процедура выражает:
• последовательность теста внутри самого себя (Р. Кеттел [72]);
• меру эквивалентности, или адекватности, подбора вопросов (А. Анастази [5]);
• информацию о внутренней однородности теста, его гомоген ности (К. М. Гуревич [26]).
Разделение заданий теста на равноценные половины является лишь частным случаем характеристики надежности частей теста, ведь в выборке надежность определяется отдельно для каждой из частей теста: вычисляют оценки успешности решений, среднеквадра-тическое отклонение первого и второго ряда оценок и коэффициенты корреляции сравниваемых рядов. Естественно, эти коэффициенты будут характеризовать надежность обеих половин теста.
Итак, разделение заданий теста на равноценные половины является лишь одним из вариантов определения надежности путем "расщепления". Вполне допускается разделение на три, четыре и более частей. В предельном случае количество частей равно количеству пунктов. При этом для определения надежности применяют анализ внутренней согласованности.
При разделении заданий теста на любое количество групп для правильного определения надежности частей теста должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласован-
ности отобранные задания теста должны быть в высокой степени однородны (гомогенны) по содержанию и сложности. В гетерогенных задачах значения тестовой корреляции ниже истинных. В практике психологической диагностики считается, что тест надежен, если V, > 0,6.
Характеристика надежности теста путем разделения его на части имеет существенные преимущества по сравнению с определением ре-тестовой надежности и надежности параллельных форм главным образом из-за отсутствия необходимости в повторном исследовании. Таким образом, устраняется влияние многих посторонних факторов, в частности тренировки, запоминания решений или ответов, создания дополнительных вариантов теста и др. Это обусловливает широкое применение метода характеристики надежности частей теста по сравнению с другими типами надежности. К недостаткам метода относятся невозможность установить устойчивость результатов теста в прогностическом плане. Определение надежности теста путем "расщепления" его на части применяется в психодиагностике наряду с другими.
2.3.3. Достоверность тестов
и допустимая ошибка измерения
В психометрии при разработке тестов и пользовании ими важно ориентироваться на погрешность измерений или допустимые интервалы точности диагностического инструментария. Достоверность тестав психодиагностике определяется критерием ошибки измерения. Ошибка измерения— статистический показатель, характеризующий степень точности отдельных измерений.
В теории психометрических процедур предполагается, что для любой черты (свойства или качества) каждый индивидуум имеет истинный показатель. Любой показатель, полученный в тесте для некоторого индивидуума, в каждом отдельном случае отличается от его истинного значения на случайную погрешность. Если протестировать человека несколько раз, то получится много несовпадающих значений, которые составят некоторое распределение показателей вокруг истинного показателя. Практика показывает, что при проведении эмпирических психологических исследований в различных сериях эксперимента редко наблюдается полное соответствие значений измеряемых параметров даже в выборке, состоящей из одних и тех же
испытуемых. Обычно значения переменной в идентичных измерениях флуктуируют (колеблются) в определенных пределах. Аналогично при повторных обследованиях одной или нескольких выборок определяемые средние значения также распределятся в каком-то интервале значений на оси X.
Колебания результатов измерений в определенном диапазоне значений могут быть связаны с систематическимии случайными ошибками.Причинами систематических ошибок могут быть отклонения от стандарта проведения теста, неточность в процедуре обработки (например, технические ошибки в ключе) или низкая валидность теста по изучаемому свойству. В этом случае результаты измерений отличаются от истинных на ту или иную постоянную величину. При этом ошибка неизбежна, хотя может быть как несущественной, так и значительной. К тому же вероятны случайные ошибки, возникающие по различным объективным и субъективным причинам. Если в методе измерения не учтены подобные сбои и артефакты, его нельзя считать точным, а иногда его признают непригодным. Другими словами, значение ошибок, учитываемых измерительным средством, характеризует точность, или достоверность, теста.
При большом количестве наблюдений индивидуальные оценки или средние величины образуют определенный тип распределения, статистические показатели которого будут обнаруживать ошибки измерения, полученные с помощью этого метода. Таким образом, ошибка измерения, если она не превышает определенных пределов, будет указывать на доверие к измерениям, или, другими словами, на достоверность теста.
Ошибка измеренияопределяется математическими средствами статистического анализа — величиной квадратического отклонения, связанного с дисперсией распределения отдельных измерений. Известно, что из-за случайных ошибок, зависящих от различных факторов, распределение эмпирических оценок и средних значений при повторных наблюдениях подчиняется нормальному закону. Исходя из основных свойств нормального распределения принято считать, что 68 % измерений попадут в интервал ±1а, около 95 % — в интервал ±2а и 99 % — в интервал ±2,58а распределения оценок повторяющихся наблюдений. Значит, для того чтобы определить, в каких пределах с заданной вероятностью будет находиться "истинная" оценка, необходимо ориентироваться на стандартное отклонение такого распределения. Если через индивидуальный разброс отдельных
показателей можно определить сигмальное отклонение, то и по сред-неквадратическому отклонению можно охарактеризовать среднее, или истинное, значение изучаемого свойства. Поэтому исходно можно ориентироваться на заданный диапазон допустимой вероятности ожидаемых значений, которые должен "срезать" метод своими измерениями. Если погрешность метода превышает 5 %, то он не пригоден для использования, но если интервал измеряемого рассеивания повторных инвариант не превышает двухсигмального разброса (95 % достоверности или вероятности), то такой метод приемлем для психологической практики. Это означает, что правильность суждений об измеряемом свойстве в данном случае не превышаетошибку в 5 %. Иными словами, тест позволяет судить об истинности измеряемого свойства с точностью 95 %.
Показатель достоверности имеет большое значение для оценки надежности теста. Надежность тестовой методики можно выразить в виде стандартной ошибки измерения, называемой еще стандартной ошибкой пользователя.При интерпретации индивидуальных значений мера стандартной ошибки более информативна, чем коэффициент надежности, — это взаимосвязанные способы выражения надежности психометрического метода.
Важный аспект применения критерия достоверности в психодиагностике состоит в анализе и интерпретации различий между результатами теста. Представление результатов в виде интервальных вероятностных значений предотвращает их ошибочное толкование и снимает сомнения относительно необоснованности констатации различий между средними показателями в сопоставляемых выборках.
Очевидно, что подлинно психологический профессиональный тест — не забава в руках любителя. Тест как инструмент исследования психологических явлений должен обладать как минимум содержательной и прогностической валидностью, измерительной устойчивостью (надежностью) и доверительной точностью (достоверностью). Каждая из названных характеристик психодиагностического теста представляет собой сложные системные выкладки эмпирически сложившихся требований как внутри собственных критериев, так и в соотношениях друг с другом.
Таким образом, каждая из представленных в тесте характеристик (валидность, надежность и достоверность) направлена на обеспечение ортодоксальности (правильности) и точности измерений психи-
ки. Все они выведены из широкой феноменологии практической психодиагностики и обеспечиваются расчетными средствами математической статистики, которая входит в научный предмет "Методы статистического анализа в психологии". Практическому психологу, как и психологу-исследователю, важно в совершенстве овладеть общей теорией, навыками распознавания исследовательского инструментария, математическими методами вероятностной статистики, обеспечивающей доказательную основу тестовой психодиагностики.
2.4. АДАПТАУИЯ ИНОСТРАННЫХ, ИНОЯЗЫЧНЫХ ТЕСТОВ
Психологическая практика испытывает потребность в научно обоснованных и одновременно экономичных, стандартизованных психодиагностических тестах. В этой связи всегда была и остается актуальной проблема не только разработки отечественных, но и адаптации иностранных апробированных и валидизированных методов диагностики. Адаптация теста— это комплекс мероприятий, обеспечивающих адекватность методики в новых условиях ее применения. Основные этапы адаптации теста:
1) анализисходных теоретических положенийавтора теста, пред полагающий выявление точек соприкосновения с теорией и ме тодологией отечественной психологии;
2) лингвистический перевод тестаи его инструкций на язык пользо вателя. Завершается этот этап экспертной оценкой соответствия текстов переведенного варианта текстам оригинала;
3) экспериментальная проверкапереведенного теста по критери ям валидности, надежности и достоверности в соответствии с психометрическими требованиями;
4) эмпирическая стандартизациятеста на соответствующих вы борках.
Из приведенных этапов видно, что использование иноязычных тестов — это не просто перевод на другой язык. В этом случае основные трудности связаны не только с языковыми, но и с социокультурными различиями среды, в которой тест создавался и в которой будет применяться. Лингвистический аспект адаптации означает приспособление лексики и грамматики переведенного теста к возрастной и образовательной специфике контингентов лиц, планируемых для об-
следования, а также учет коннотативного значения языковых единиц. Следует иметь в виду, что языковым особенностям культуры того общества, в котором создавался тест, трудно, а порой просто невозможно найти равноценный эквивалент в иной культуре. Поэтому профессиональный перевод психологических тестов всегда сопровождается еще и лингвистической коррекцией, а языковые конструкции подвергаются психологической верификации. Следовательно, полная эмпирическая адаптация теста после его перевода обязательна, и часто она так же сложна, как разработка оригинальной методики. Вероятно, то же относится и к переводам тестов с русского языка на украинский и наоборот.
На заре тестологии в отечественной психодиагностической практике вопросы адаптации тестов понимались упрощенно и нередко сводились к копированию той или иной зарубежной методики, а в лучшем случае ограничивались валидизациеи с построением кривой нормального распределения. Теоретические концепции авторов тестов не анализировались, а исходные данные о надежности и достоверности тестов принимались как истинные. В результате допускались грубейшие ошибки и искажения. Было время, когда тестология наносила прямой ущерб практике (увлечение так называемым коэффициентом интеллектуального развития IQ в начале 30-х годов). В последнее время адаптация зарубежных тестов становится не только объектом обсуждения специалистов, но и направлением специальных исследований, предметом соответствующей методической и рекомендательной, инструктивной литературы.
Известно, сколь сложные стадии адаптации проходили многие методики, например Миннесотский многофакторный личностный тест (MMPI) [10; 55] или 16-факторный личностный тест Р. Кетте-ла (16-PF) [37]. Адаптация этих методик выражалась в проверке соответствия американских и славянских тестовых норм с помощью статистических расчетов средних арифметических и стандартных отклонений по основным диагностическим шкалам на новых выборках испытуемых [14]. Исследовались также корреляции между шкалами этих методик [69]. Однако самый главный этап проверки корректности адаптированных вариантов этих опросников — анализ воспроизводимости диагностических шкал, т. е. анализ корреляций между отдельными пунктами, — был проведен значительно позднее [30]. Такое углубленное эмпирическое исследование статистических связей между ответами испытуемых на отдельные пункты опросника позволило выяснить, во-первых, насколько правомерным было за-
имствование системы дифференцированных понятий (личностных черт) по отношению к тем, которые были предложены разработчиками в иных социокультурных условиях, а во-вторых, какие собственно диагностические понятия реально "работают" в наших условиях. В результате серии исследований выяснилось, что зарубежные многофакторные тест-опросники по отношению к русскоязычным выборкам обнаруживают как устойчивые диагностические свойства, так и специфические особенности.
Аналогичный опыт имеется и относительно так называемых интеллектуальных тестов, которые адаптировались с зарубежных оригиналов. Например, И. С. Аверина, Е. И. Щенбланова и К. Е. Перист [2] адаптировали Мюнхенский тест познавательных способностей для одаренных школьников. Как выяснилось, тест пригоден для детей школьного возраста, опережающих сверстников в развитии, при изучении отдельных интеллектуальных способностей и общего интеллекта. Выводы получены на основании лонгитюдных исследований.
Таким образом, для практической психодиагностики адаптация иностранных тестов означаетне только семантическую интерпретацию в новом языковом варианте, но и тщательную экспериментальнуюи нормативнуюих апробациюв иных социокультурных условиях с применением современных методов математического анализа.
2.5. НОРМЫ И ТРЕБОВАНИЯ К ОПУБЛИКОВАНИЯМ ПСИХОДИАГНОСТИЧЕСКОГО ИНСТРУМЕНТАРИЯ
До недавнего времени практическое использование и исследовательское применение психодиагностических методик разграничивались нечетко. Это замедлило выработку свода нормативных предписаний к практическому использованию тестов и нестандартизован-ных процедур. Однако сама жизнь выдвинула требование изменить положение дел: нормативное регулирование и культура обращения в психологической практике должны быть обязательными для всех пользователей и разработчиков методов психодиагностики. Еще раз отметим, что психологическая практика до настоящего времени не
защищена законодательными актами (в отличие от практики в медицине) и ею порой занимаются некомпетентные люди, поэтому психология вынуждена защищаться от неспециалистов корректностью обращения с применяемым инструментарием, своеобразно "закрывая" его от дилетантов. Поэтому в профессиональной этике у психологов сложились вполне определенные нормативы и правила взаимоотношений с обществом. Одним из них является негласное положение о психодиагностической литературе и методической продукции, а также нормы обращения с этими материалами. Разработчик и пользователь методик взаимодействуют прежде всего посредством специальной литературы и каждый должен соблюдать меру условленного, требования, принятые обществами психологов различных стран. Существуют профессиональные ограничения наразличную психологическую документацию,особенно ту, которая публикуется в открытой печати:
• научное сообщение методического характера должно освещать обоснование методики, способ разработки,эмпирическое дока зательство, валидностьпоказателей;
• справочно-методическое издание должно содержать инстру ментальные материалы, тест-стимульные задания, ключи, нор мы,но при условии, что издание имеет статус профессиональ ной ориентации — для специалистов;
• инструктивные документы обычно содержат описания мето дик,обеспечивающих адекватное их использование в полном соответствии с назначением — предметдиагностики, сфера применения, контингентиспытуемых, процедура обследования. Приведенные в этих документах тестовые нормы должны со провождаться описанием выборки стандартизации и характе ра диагностической ситуации обследования;
• справочные издания и инструктивные материалы должны пе риодически пересматриваться,поскольку со временем изменя ются знания о предмете диагностики, а также условия их ис пользования и требования к ним. Инструктивные материалы должны пройти так же объективные испытанияна однознач ность указанных в них предписаний;
• популярные издания охотно публикуют психологические мате риалы, в том числе и методического характера, однако при этом авторы должны заботиться о неразглашениипрофессиональных тонкостей, описывающих смысл диагностических приемов,зна-
ние которых может существенно навредить испытуемым. В популярных изданиях не раскрывается валидизация тестов. Профессиональные издания более полно представляют диагностический инструментарий, но для каждого типа методик существуют определенные особенности.
Измерительные методики(тесты) в описаниях, как правило, предполагают, что в них:
• имеется однозначная формулировка цели, предмета и области применения;
• процедура проведения приводится в виде четко очерченного алгоритма или предоставления компьютерной версии вплоть до передачи лаборанту;
• процедура обработки включает статистически обоснованные методы расчета и стандартизации тестовых показателей (оце нок, баллов, очков и т. п.);
• тестовые шкалы проверены на репрезентативность, надеж ность, валидность, достоверность в заданной области приме нения;
• процедуры, основанные на самоотчетах, снабжены средства ми для проверки на достоверность и обеспечена валидность из мерений;
• головная (ведомственная, областная, государственная) органи зация ведет банк данных, собранных по тесту, и периодически корректирует стандарты методики.
Экспертные методикиорганизуются и представляются так, чтобы в них:
• формулировки назначения, цели, предмета и области приме нения были конкретизированы;
• инструкция к проведению выдержала испытание на однознач ность ее использования;
• процедура проведения и обработки документально фиксиро вала промежуточные результаты, с помощью которых возмож на верификация с участием других экспертов;
• как разработчик, так и пользователь имели возможность вос произвести нормативное исследование по измерению эксперт ной согласованности на эталонном наборе данных.
Публикация методик психодиагностики на уровне обозначенных требований предполагает их соответствие компетентности и требо-
ваниям, которые предъявляются к пользователям — профессионалам и непрофессионалам.
Если пользователемявляется профессионал,то он обязан:
• прежде чем приступать к использованию методики, изучить ее, понять логику и освоить технику выполнения;
• применять на практике общие теоретико-методологические принципы психодиагностики, владеть основами общей и диф ференциальной психометрии;
• обеспечивать необходимый уровень надежности диагноза, применять параллельные стандартизации методик и эксперт ные оценки, особенно на стадии подбора методического сред ства;
• организовывать процедуру обследования по принципу макси мальной эффективности при минимальных затратах усилий и времени;
• соблюдать требования проведения стандартизованных мето дик (обследование, подсчет баллов, интерпретация, прогноз осуществляются в строгом соответствии с методическими ука заниями);
• параллельно с обследованием вести учет данных, проверять ва- лидность и надежность используемых методик;
• отвечать за решения, принимаемые на основе тестирования.
Если пользователь не является профессионалом,к нему предъявляются такие же требования, дополненные и уточненные следующими положениями:
• пользователь, получивший доступ к "П-методикам", автома тически берет на себя обязательство соблюдать требования профессиональной этики психолога и нести ответственность за результаты тестирования;
• если методика рассчитана только на профессионалов, но не обходима пользователю-непрофессионалу, последнему следу ет либо обратиться за консультациями к специалисту, либо от казаться от нее, заменив иными средствами получения необхо димой информации;
• любой пользователь методик способствует повышению авто ритета психологической науки и ее значимости в обществен ном сознании.