[84]
    Компьютерное тестирование.Это относительно молодое направление психодиагностики, связанное с использованием средств электронно-вычислительной техники. Появление компьютерной психодиагностики обусловлено развитием информационных технологий. Попытки автоматизировать предъявление испытуемому стимульного материала и последующую обработку результатов предпринимались начиная с 1930-х гг., но лишь с 1970-х гг. началось подлинное развитие компьютерной психодиагностики, обусловленное появлением персональных компьютеров. С 1980-х гг. компьютерные тесты стали разрабатываться в массовых масштабах: сначала – как компьютерные версии известных бланковых методик, а в 1990-е гг. – как специальные методики, учитывающие возможности современной техники и не употребимые в бланковом виде, поскольку рассчитаны на сложный, изменяющийся в пространстве и времени стимульный материал, специфическое звуковое сопровождение и т. п. Начало XXI в. отмечено тем, что управление тестированием все чаще передается компьютеру. Если в прошлые годы автоматизировались отдельные стадии исследования, например предъявление материала, обработка данных, интерпретация результатов, то на современном этапе все чаще можно встретить программы, которые берут на себя все обследование целиком вплоть до постановки диагноза, что сводит необходимость присутствия психолога к минимуму.
   Безусловными достоинствами компьютерных тестов являются: быстрое проведение; высокая скорость и безошибочность обработки; возможность безотлагательного получения результатов; обеспечение стандартных условий тестирования для всех испытуемых; четкий контроль процедуры тестирования (невозможен пропуск вопросов, при необходимости может фиксироваться время каждого ответа, что особенно важно для тестов на интеллект); возможность исключения психолога как дополнительной переменной (что имеет особое значение при проведении экспертизы); наглядность и занимательность процесса (поддержка внимания с помощью цвета, звука, игровых элементов, что наиболее важно для обучающих программ); легкая архивация результатов; возможность объединения тестов в батареи (пакеты программ) с единой итоговой интерпретацией; мобильность экспериментатора (весь инструментарий на одной дискете); возможность проведения массовых исследований (например, через Интернет).
   Недостатки компьютерных тестов: сложность, трудоемкость и дороговизна разработки программ; необходимость дорогостоящей компьютерной техники; сложность использования ЭВМ в полевых условиях; необходимость специального обучения испытуемого работе с компьютерными тестами; трудности работы с невербальным материалом, особая сложность перевода в компьютерную форму проективных тестов; отсутствие индивидуального подхода к тестируемому (потеря части психодиагностической информации, получаемой в беседе и наблюдении); латентность этапов обработки и интерпретации данных (качество этих процедур полностью зависит от разработчиков программ). У некоторых испытуемых при взаимодействии с компьютером могут возникать эффекты «психологического барьера» или «сверхдоверия». Поэтому данные о валидности, надежности и репрезентативности бланковых тестов не могут быть автоматически перенесены на их компьютерные аналоги, что ведет к необходимости новой стандартизации тестов.
   Недостатки компьютерных тестов вызывают настороженное отношение к ним психологов. Мало используются такие тесты в клинической психологии, где цена ошибки слишком высока. Отечественный психолог Л.С. Выготский выделял три уровня психодиагностики: 1) симптоматический (выявление симптомов); 2) этиологический (выявление причин); 3) типологический (целостная, динамическая картина личности, на основе чего строится прогноз). Компьютерная психодиагностика на сегодняшний день находится на низшем уровне – уровне симптоматического диагноза, практически не давая материала для выявления причин и вынесения прогноза.
   Тем не менее, по-видимому, компьютерные тесты имеют большое будущее. Многие из перечисленных недостатков компьютерной психодиагностики наверняка будут устранены благодаря дальнейшему развитию электронной техники и совершенствованию психодиагностических технологий. Залогом такого оптимизма является нарастающий интерес науки и практики к компьютерной диагностике, в арсенале которой уже сейчас имеется свыше 1000 компьютерных тестов.
   Среди существующих компьютерных тестов можно выделить следующие их виды: [85]
   1) по структуре – аналоги бланковых тестов и собственно компьютерные тесты;
   2) по количеству тестируемых – тесты индивидуального и группового тестирования;
   3) по степени автоматизации тестирования – автоматизирующие один или несколько этапов обследования и автоматизирующие все обследование;
   4) по задаче – диагностические и обучающие;
   5) по адресату – профессиональные психологические, полупрофессиональные и непрофессиональные (развлекательные).
   Пользователем профессиональныхкомпьютерных тестов является психолог, поэтому они разрабатываются специализированными лабораториями или центрами компьютерной психодиагностики. Эти тесты имеют ряд специфических особенностей: а) наличие архива (базы данных); б) наличие пароля на вход в тест или базу данных для обеспечения конфиденциальности результатов; в) развернутая интерпретация результатов с использованием профессиональных терминов, коэффициентов, с построением графиков (профилей); г) наличие информации о разработчиках методики, сведений о валидности и надежности, справочных материалов о лежащих в основе методики теоретических положениях.
    Полупрофессиональныекомпьютерные тесты ориентированы на специалистов смежных профессий, например на педагогов, менеджеров по персоналу. Такие тесты зачастую снабжены редуцированной интерпретацией без использования специальной лексики, просты в освоении и работе. Тесты подобного уровня могут быть предназначены и для неспециалиста, рядового пользователя персонального компьютера, интересующегося психологией. Наконец, существует также большое число непрофессиональных компьютерных тестов, направленных на популяризацию психологических идей или преследующих развлекательные цели.
   Пользуясь профессиональными или полупрофессиональными компьютерными тестами, необходимо соблюдать те же этические принципы, что и при бланковом тестировании. Важно не распространять результаты тестирования и защищать свои файлы паролем, особенно если у компьютера несколько пользователей. И главное – «не сотворить себе кумира», т. е. помнить, что компьютерный тест является только средством, помощником и имеет свои границы применения.

6.4. Стандартизация, надежность и валидность теста

   Рассмотрим понятия стандартизации, надежности и валидности теста с позиций классической эмпирико-статистической теории. В соответствии с этой теорией конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.
   В основе психологического тестирования лежит классическая теория погрешности измерений. Считается, что тест – такой же измерительный прибор, как любой физический прибор, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения. Любое свойство психики имеет «истинный» показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вычитанию) константы к «истинной» величине параметра, что для интервальной шкалы значения не имеет.
    Надежность теста.Если тест проводить много раз, то среднее значение будет характеристикой «истинной» величины параметра. Под надежностьютеста принято понимать устойчивость результатов к воздействию случайных факторов, внешних и внутренних. Наиболее часто проводится оценка ретестовойнадежности. Чем теснее коррелируют результаты начального и повторного (обычно отсроченного на несколько месяцев) проведения теста, тем он надежнее.
   Предполагается, что существует неограниченное количество заданий, которые могут «работать» на измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста, поэтому определение надежности теста можно провести путем корреляции параллельных форм или эквивалентных равных частей, полученных путем расщепления тестового задания на две части. Поскольку в реальном тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна. Тест считается надежным, если коэффициент корреляции результатов составляет не менее 0,75.
    Валидность теста.Проблеме валидности в классической теории теста уделяется много внимания, однако теоретически она никак не решается. Валидностьозначает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше другие переменные (в том числе внешние), тем тест валиднее.
   Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство. Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных.
   Существуют следующие виды валидности теста.
    Очевидная валидность.Тест считается валидным, если у испытуемого складывается впечатление, что он измеряет то, что должен измерять.
    Конкретная валидность(конвергентная – дивергентная валидность). Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства.
    Прогностическая валидность.Тест должен коррелировать с отдаленными по времени внешними критериями.
    Содержательная валидность.Тест должен охватывать всю область изучаемого поведения.
    Конструктная валидность.Предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, эмпирическое подтверждение (неопровержение) этих гипотез.
   С теоретической точки зрения единственным способом установления «внутренней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), который позволяет: а) выявлять латентные (скрытые) свойства и вычислять значение «факторных нагрузок» – коэффициенты детерминации свойств тех или иных поведенческих признаков; б) определять меру влияния каждого латентного свойства на результаты тестирования.
    Стандартизация тестазаключается в приведении процедуры оценок к общепринятым нормативам. Стандартизация предполагает преобразование нормальной или искусственно нормализованной шкалы первичных оценок в шкальные оценки (подробнее об этом см. 5.2). Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренними» свойствами теста, а лишь облегчают его практическое применение.

6.5. Требования к разработке, проверке и адаптации тестовых методик

   Известны два пути создания психодиагностических методик: адаптация известных методик (зарубежных, устаревших, с иными целями) и разработка новых, оригинальных методик.
    Адаптациятеста – это комплекс мероприятий, обеспечивающих адекватность теста в новых условиях применения. Выделяют следующие этапы адаптации тестов:
   1) анализ исходных теоретических положений автора теста;
   2) для иностранных методик – перевод теста и инструкций к нему на язык пользователя (с обязательной экспертной оценкой соответствия оригиналу);
   3) проверка надежности и валидности в соответствии с психометрическими требованиями;
   4) стандартизация на соответствующих выборках.
   Наиболее серьезные проблемы возникают при адаптации вербальных тестов (опросников, вербальных субтестов в составе тестов интеллекта). Эти проблемы связаны с языковыми и социокультурными различиями народов разных стран. Многовариантность перевода какого-либо термина, невозможность точной передачи идиоматических оборотов – обычное явление при переводах с языка на язык. Иногда бывает настолько сложно подобрать языковые и смысловые аналоги заданий теста, что полная его адаптация становится сопоставимой с разработкой оригинальной методики.
   Понятие адаптации приложимо не только к зарубежным методикам, которые предполагается использовать в условиях нашей страны, но и к устаревшим отечественным методикам. Устаревают они достаточно быстро: в связи с развитием языка и изменчивостью социокультурных стереотипов методики должны корректироваться каждые 5–7 лет, что подразумевает уточнение формулировок вопросов, коррекцию нормативов, обновление стимульного материала, пересмотр интерпретационных критериев.
    Самостоятельная разработкатестовой методики обычно состоит из следующих этапов.
   1. Выбор предмета (явления) и объекта исследования (контингента).
   2. Выбор вида теста (объективный, субъективный, проективный), типа заданий (с предписанными ответами, со свободными ответами) и шкал (числовые, вербальные, графические).
   3. Подбор первичного банка заданий. Он может осуществляться двумя путями: вопросы формулируются исходя из теоретических представлений об измеряемом явлении (факторно-аналитический принцип) или же подбираются в соответствии с их дискриминативностью, т. е. способностью отделять испытуемых по наличию требуемого признака (критериально-ключевой принцип). Второй принцип эффективен при разработке тестов отбора (например, профессионального или клинического).
   4. Оценка заданий первичного банка (содержательной валидности теста, т. е. соответствия каждого из заданий измеряемому явлению, и полноты охвата изучаемого явления тестом в целом). Проводится с помощью метода экспертной оценки.
   5. Предварительное тестирование, формирование банка эмпирических данных.
   6. Эмпирическая валидизация теста. Проводится с помощью корреляционного анализа оценок теста и показателей по внешнему параметру изучаемого свойства (например, школьной успеваемости при валидизации теста интеллекта, врачебного диагноза при валидизации клинических тестов, данных других тестов, валидность которых известна, и др.).
   7. Оценка надежности теста (устойчивости результатов к действию случайных факторов, внешних и внутренних). Наиболее часто оцениваются ретестовая надежность (соответствие результатам повторного тестирования, обычно через несколько месяцев), надежность частей теста (устойчивость результатов отдельных задач или групп задач, например по методу «четное – нечетное») и надежность параллельных форм, если таковые существуют. Методика признается надежной, если коэффициент корреляции результатов (первичного и повторного тестирования, одной и другой частей теста, одной и другой параллельных форм) составляет не менее 0,75. При более низком показателе надежности производятся корректировка заданий теста, переформулирование вопросов, снижающих надежность.
   8. Стандартизация теста, т. е. приведение процедуры и оценок к общепринятым нормативам. Стандартизация оценок подразумевает преобразование нормальной или искусственно нормализованной шкалы первичных оценок (эмпирических значений изучаемого показателя) в оценки шкальные (отражающие место в распределении результатов выборки испытуемых). Виды шкальных оценок: стены (1—10), станайны (1–9), 7-оценки (10—100) и др.
   9. Определение прогностической валидности, т. е. информация о том, с какой степенью точности методика позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. Прогностическая валидность также определяется по внешнему критерию, но данные по нему собираются спустя некоторое время после тестирования.
   Таким образом, надежность и валидность – это собирательные понятия, включающие в себя несколько видов показателей, отражающих направленность методики на предмет исследования (валидность) и объект исследования (надежность). Степень надежности и валидности отражают соответствующие коэффициенты, указываемые в сертификате методики.
   Создание методики – трудоемкая работа, требующая развитой системы заказа на методики с соответствующей оплатой труда разработчиков и гонорарами за использование авторских методик.

Тема 7. Обработка данных психологических исследований

7.1. Общее представление об обработке данных

   Обработка данных психологических исследований – отдельный раздел экспериментальной психологии, тесно связанный с математической статистикой и логикой. Обработка данных направлена на решение следующих задач:
   • упорядочивание полученного материала;
   • обнаружение и ликвидация ошибок, недочетов, пробелов в сведениях;
   • выявление скрытых от непосредственного восприятия тенденций, закономерностей и связей;
   • обнаружение новых фактов, которые не ожидались и не были замечены в ходе эмпирического процесса;
   • выяснение уровня достоверности, надежности и точности собранных данных и получение на их базе научно обоснованных результатов.
   Различают количественную и качественную обработку данных. Количественнаяобработка – это работа с измеренными характеристиками изучаемого объекта, его «объективированными» свойствами. Качественнаяобработка представляет собой способ проникновения в сущность объекта путем выявления его неизмеряемых свойств.
   Количественная обработка направлена в основном на формальное, внешнее изучение объекта, качественная – преимущественно на содержательное, внутреннее его изучение. В количественном исследовании доминирует аналитическая составляющая познания, что отражено и в названиях количественных методов обработки эмпирического материала: корреляционный анализ, факторный анализ и т. д. Реализуется количественная обработка с помощью математико-статистических методов.
   В качественной обработке преобладают синтетические способы познания. Обобщение проводится на следующем этапе исследовательского процесса – интерпретационном. При качественной обработке данных главное заключается в соответствующем представлении сведений об изучаемом явлении, обеспечивающем дальнейшее его теоретическое изучение. Обычно результатом качественной обработки является интегрированное представление о множестве свойств объекта или множестве объектов в форме классификаций и типологий. Качественная обработка в значительной мере апеллирует к методам логики.
   Противопоставление друг другу качественной и количественной обработки довольно условно. Количественный анализ без последующей качественной обработки бессмыслен, так как сам по себе не приводит к приращению знаний, а качественное изучение объекта без базовых количественных данных в научном познании невозможно. Без количественных данных научное познание – чисто умозрительная процедура.
   Единство количественной и качественной обработки наглядно представлено во многих методах обработки данных: факторном и таксономическом анализе, шкалировании, классификации и др. Наиболее распространены такие приемы количественной обработки, как классификация, типологизация, систематизация, периодизация, казуистика.
   Качественная обработка естественным образом выливается в описание и объяснение изучаемых явлений, что составляет уже следующий уровень их изучения, осуществляемый на стадии интерпретации результатов. Количественная же обработка полностью относится к этапу обработки данных.

7.2. Первичная статистическая обработка данных

   Все методы количественной обработки принято подразделять на первичные и вторичные.
   Первичная статистическая обработка нацелена на упорядочивание информации об объекте и предмете изучения. На этой стадии «сырые» сведения группируются по тем или иным критериям, заносятся в сводные таблицы. Первично обработанные данные, представленные в удобной форме, дают исследователю в первом приближении понятие о характере всей совокупности данных в целом: об их однородности – неоднородности, компактности – разбросанности, четкости – размытости и т. д. Эта информация хорошо считывается с наглядных форм представления данных и дает сведения об их распределении.
   В ходе применения первичных методов статистической обработки получаются показатели, непосредственно связанные с производимыми в исследовании измерениями.
   К основным методам первичной статистической обработки относятся: вычисление мер центральной тенденции и мер разброса (изменчивости) данных.
   Первичный статистический анализ всей совокупности полученных в исследовании данных дает возможность охарактеризовать ее в предельно сжатом виде и ответить на два главных вопроса: 1) какое значение наиболее характерно для выборки; 2) велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных. Для решения первого вопроса вычисляются меры центральной тенденции, для решения второго – меры изменчивости (или разброса). Эти статистические показатели используются в отношении количественных данных, представленных в порядковой, интервальной или пропорциональной шкале.
    Меры центральной тенденции– это величины, вокруг которых группируются остальные данные. Данные величины являются как бы обобщающими всю выборку показателями, что, во-первых, позволяет судить по ним обо всей выборке, а во-вторых, дает возможность сравнивать разные выборки, разные серии между собой. К мерам центральной тенденции в обработке результатов психологических исследований относятся: выборочное среднее, медиана, мода.
    Выборочное среднее (М) – это результат деления суммы всех значений (X)на их количество (N).
    Медиана (Me) – это значение, выше и ниже которого количество отличающихся значений одинаково, т. е. это центральное значение в последовательном ряду данных. Медиана не обязательно должна совпадать с конкретным значением. Совпадение происходит в случае нечетного числа значений (ответов), несовпадение – при четном их числе. В последнем случае медиана вычисляется как среднее арифметическое двух центральных значений в упорядоченном ряду.
    Мода (Мо) – это значение, наиболее часто встречающееся в выборке, т. е. значение с наибольшей частотой. Если все значения в группе встречаются одинаково часто, то считается, что моды нет. Если два соседних значения имеют одинаковую частоту и больше частоты любого другого значения, мода есть среднее этих двух значений. Если то же самое относится к двум несмежным значениям, то существует две моды, а группа оценок является бимодальной.
   Обычно выборочное среднее применяется при стремлении к наибольшей точности в определении центральной тенденции. Медиана вычисляется в том случае, когда в серии есть «нетипичные» данные, резко влияющие на среднее. Мода используется в ситуациях, когда не нужна высокая точность, но важна быстрота определения меры центральной тенденции.
   Вычисление всех трех показателей производится также для оценки распределения данных. При нормальном распределении значения выборочного среднего, медианы и моды одинаковы или очень близки.
    Меры разброса (изменчивости) – это статистические показатели, характеризующие различия между отдельными значениями выборки. Они позволяют судить о степени однородности полученного множества, его компактности, а косвенно и о надежности полученных данных и вытекающих из них результатов. Наиболее используемые в психологических исследованиях показатели: среднее отклонение, дисперсия, стандартное отклонение.
    Размах(Р) – это интервал между максимальным и минимальным значениями признака. Определяется легко и быстро, но чувствителен к случайностям, особенно при малом числе данных.
    Среднее отклонение(МД) – это среднеарифметическое разницы (по абсолютной величине) между каждым значением в выборке и ее средним.
   где d= |Х – М|, М– среднее выборки, X– конкретное значение, N– число значений.
   Множество всех конкретных отклонений от среднего характеризует изменчивость данных, но если не взять их по абсолютной величине, то их сумма будет равна нулю и мы не получим информации об их изменчивости. Среднее отклонение показывает степень скученности данных вокруг выборочного среднего. Кстати, иногда при определении этой характеристики выборки вместо среднего