Психометрика

psyxhometrica         Предисловие к русскому изданию
«Если что-то существует, оно обязательно существует в каком-то количестве – и следовательно может быть измерено» — это наблюдение Терстоуна (Thurstone, 1938) десятилетиями вдохновляло развитие теории измерений и одного из наименее очевидных ее подразделов – теории психологических измерений. Психометрика – дисциплина, обобщающаяся практику психологических измерений, за годы выросла из занятия в основном академического в развитую индустрию, с обилием прикладных задач, измерительного инструментария (тестов) и хорошо обоснованными «правилами игры».
Главное предназначение психологических тестов – помогать в принятии решений. От диагностики эмоциональных нарушений у детей до оценки интеллекта и социальных навыков при приеме на работу. Тесты в руках квалифицированного профессионала дают возможность оценить способности и черты личности с уверенностью, недоступной невооруженному наблюдателю.
С другой стороны, исследование человеческих способностей и черт личности, факторов, их определяющих, а также параметров деятельности, зависящих от них, невозможно без создания валидных и надежных методов измерения и диагностики психологических конструктов.
В перечисленных вопросах пересекаются и оказываются неразрывно связанными, с одной стороны, чисто исследовательские интересы, а с другой – сугубо практические, прикладные задачи. Будущее профессионального психологического инструментария – в конструктивном сочетании обоих подходов, когда психодиагностический тест – это не только средство «тиражировать» готовое знание о человеке, но и новый источник такого знания.
Психометрика — это наука, лежащая в основе создания психодиагностических измерительных инструментов , а также в основе анализа качества и оптимизации существующих психологических тестов.
На протяжении многих лет на столе у отечественных разработчиков и пользователей психодиагносического инструментария не было специализированной книги по психометрике[1]. Этот пробел частично восполнялся материалами из разделов по психометрике в отечественных учебниках по психодиагностике и в зарубежных по тестированию. К сожалению, российские специалисты так и не отважились написать полноценную книгу по психометрике. Именно поэтому и возникла необходимость в переводе зарубежной книги.
Выбрать самую подходящую из множества зарубежных монографий и учебников по психометрике нам помог американский коллега Том Окланд (Tom Oaklan). Он попал не в бровь, а в глаз, прислав нам для ознакомления книгу Фера и Бакарака (Furr & Bacharach, 2008) — предугадав таким образом, что нам нужна книга, написанная простым языком о сложных вещах.
В Предисловии к оригиналу авторы так и пишут: «…психометрику не обязательно преподавать сложно. Мы писали эту книгу для того, чтобы представить основы психометрики тем, кто должен понимать суть измерений, используемые в психологии и других науках о поведении. Наша книга предназначена студентам старших курсов, аспирантам и профессионалам из различных областей науки о поведении. Она будет полезна тем, кто хорошо разбирается в основных понятиях и логике психометрики. Она была написана для опытных психометристов и тех, кто только собирается ими стать».
Знакомство с книгой Фера и Бакарака и сравнение ее с тем материалом по психометрике, который обычно фигурирует в отечественных книгах, выявляет существенную разницу как в объеме, так и в разнообразии и тонкости психометрической информации. Многие проблемы с легкостью изложенные в книге, в отечественной психометрике просто никогда не обсуждаются, особенно разработчиками тестов. До сих пор создание тестов в России не стало объектом сколько-нибудь широкого обсуждения психологов. Обучение разработке тестов, а вместе с тем углубленное изучение психометрики не проводится ни на каком уровне обучения отечественных психологов. До сих пор разработка тестов – это либо вид полупрофессионального любительства, либо вынужденное занятие, поскольку исследователь (чаще всего диссертант) не нашел для изучаемой им проблемы профессионально разработанного теста.
Даже прочитав книгу, от начала до конца остается непонятным, в каком жанре она написана: это учебник для начинающих, пособие для «продвинутых» или руководство для опытных психометристов? Авторы правы, она подойдет всем, поскольку начинается с самых простых, базовых понятий измерения (часть I), затем переходит к классическим темам — надежность, валидность и достоверность (части II, III, IV), наполняя их множеством неклассических подходов и примеров, а заканчивается книга главами для опытных специалистов, в которых рассматриваются принципиально новые (особенно для отечественных психодиагностов) темы по «теории генерализуемости» и известной, но кажущейся недоступной в своей сложности Теории ответов на пункты (Item Response Thoery — IRТ).
Читая книгу, ее научные редакторы, авторы этих строк, много лет занимающиеся психодиагностикой и тестированием, не уставали удивляться неожиданным поворотам авторов в разработке давно знакомых тем, неожиданным решениям для задач, остававшихся долгое время без ответа.
Чтобы обратить на такие темы особое внимание отечественных специалистов, в это Предисловие включены краткие резюме по соответствующим главам книги. Эти резюме рассчитаны на то чтобы вызвать читательский интерес к главам, а не заменить их детальное прочтение. В то же время, их можно рассматривать как «взгляд с птичьего полета» на содержание соответствующих глав, который может помочь читателю сформировать индивидуальную последовательность их чтения.
Одним из важнейших достоинств этой книги является простота изложения. Авторы не скрывают своей озабоченности тем, что начинающие психологи плохо знают математику и многие из них боятся всего, что связано с расчётами. Считая себя заядлыми гуманитариями, такие психологи нередко блокируют в себе попытки преодолеть этот страх. Поэтому авторы очень спокойно и терпеливо, подробно разбирая множество различных примеров, разъясняют, что такое «свойство порядка», «свойство количества», «число нуль» в психологии, в чём специфика математических операций при измерении в психологическом мире. Думаем, что такая неторопливость и подробность изложения материала более чем оправдана. Более того, наверно так и надо знакомить с азами измерений в психологии, поскольку они во многом отличаются от более знакомых измерений в физическом мире.
На множестве простых примеров авторы стремятся к тому, чтобы читателям стал понятен так называемый «физический смысл», а в данном случае лучше сказать «психологический смысл» измерения в очень специфической сфере – сфере «объектов», подавляющее большинство из которых относятся к категории ненаблюдаемых психологических характеристик, являясь не очевидными, то есть не доступными обычному восприятию. Их нельзя увидеть, потрогать, а можно только понять и опосредованно измерить.
К сожалению, желание всё объяснить просто и доступно приводит к многочисленным повторам одного и того же содержания разными словами. Специалистам эти повторы могут показаться навязчивыми. Однако дидактическая их ценность для начинающих вряд ли вызовет сомнения.
В последние годы разработано несколько мощных статистических софтвенных пакетов, таких как SPSS, позволяющих проводить обработку, расчёты почти всех мыслимых и не мыслимых статистических показателей. Появились даже книги для «чайников» по статистике, которые позволяют пользоваться этими стат.пакетами, нажимая на последовательность кнопок, изображённых на скриншотах в этих книгах. Складывается впечатление, что обработать экспериментальные данные человеку, плохо знающему статистику, не составит принципиальных проблем.
Печальным последствием этого оказывается то, что психологи перестают понимать, да и интересоваться внутренним смыслом проводимых внутри компьютера расчётов. Это приводит к тому, что ошибки, возникшие на разных этапах исследования — от проведения измерения до распечатки результатов — становятся практически недоступными для обнаружения, а отпечатанные результаты обработки данных, даже самые бессмысленные, интерпретируются психологами нередко без всяких попыток оценить их реальность. Мало кому приходит в голову, что такие оценки просто обязаны предварять содержательную интерпретацию результатов.
Всё это подтверждает необходимость, даже при наличии стат.пакетов, понимания смысла производимой обработки данных, смысла каждого статистического показателя, в том числе параметров, используемых в психометрике. Книга Фера и Бакарака является примером того, как важно учить именно осмысленной работе с данными. Авторы затрачивают много времени и сил для того, чтобы донести до психолога смысл производимых расчётов: среднего, дисперсии, стандартного отклонения, корреляции, ковариации и т.д. (главы 2, 3, 4).
Книга обладает ещё одним важным достоинством: она демонстрирует отечественным психологам возможности куда более строго подхода к планированию, проведению измерения, также интерпретации данных, чем принято у нас. Прекрасные примеры, точные и одновременно простые даже для неискушенных в психометрике, позволяют наблюдать за процессом приложения строгих психометрических подходов к вполне реальным исследованиям. Например, анализ надёжности, основанный на сравнении истинных и наблюдаемых корреляций (см.первый раздел главы 7) или демонстрация того, насколько низкая надёжность даже одного измерительного инструмента ослабляет корреляцию между переменными. Особенно показательно в этом отношении уравнение 7.4., известное как «поправка на затухание», вызванное низкой надёжностью инструментов. Использование уравнения 7.4. дает большое преимущество по сравнению с принятой у нас оценкой статистической значимости корреляции, зависящей только от величины выборки. Это также иллюстрирует более универсальное преимущество оценок величины статистического эффекта и ограниченность анализа статистической значимости любых параметров, долгое время преобладавшего в мировой психологии.
То, что в книге по психометрике три отдельных главы (5, 6 и 7) посвящены анализу надёжности теста может показаться непривычным отечественному читателям. Для многих из них надёжность, это в лучшем случае величина, которая содержится в руководстве к тесту и, если она удовлетворительна, то на нее больше не обращают внимания вообще. Высокие показатели надёжности по умолчанию позволяют исследователю быть уверенным в полученных данных.
Из содержания книги становится очевидно, что отечественные подходы к оценке надежности отличаются от описанных в книге. Во-первых, книгу отличает значительно большее внимание к научной базе анализа надежности теста. Целая глава (5-я) посвящена кропотливому разбору теоретических основ надежности с точки зрения классической теории тестов. При этом авторы показывают, что «надежность – это теоретическое свойство теста, и что она не может быть рассчитана прямо. Она выявляется из истинных баллов и ошибки измерения и может быть лишь примерно оценена на основе реальных данных».
Во-вторых, в отечественных работах по оценке надежности обычно опускают «понятие параллельных (или альтернативных) форм», которому придается ключевое значение в теоретических доказательствах оценки надежности теста.
В-третьих, все привыкли к нескольким интуитивно понятным способам эмпирической проверки надежности, не задумываясь об их теоретическом обосновании, что при сравнении с более строгими подходами даже эмпирических в своей сути методов, описанных в книге, обнаруживает пропуски в понимании природы надежности.
Так, существует убежденность, что увеличение количества пунктов (длины теста или отдельной шкалы) всегда приводит к увеличению надежности теста. Авторы убедительно показывают ограниченность такого подхода : «добавление новых пунктов – это палка о двух концах. С одной стороны, при прочих равных длинные тесты надежнее коротких. С другой стороны, иногда может быть небезопасно предполагать, что все «прочее» (в первую очередь равенство новых пунктов по согласованности с исходными – Ред.) останется постоянным. На само деле, если средняя межпунктовая корреляция более длинного теста достаточно маленькая, тогда более длинный тест будет менее надежным, чем исходный».
Авторы приводят очень полезный график (рис. 6.1.), на котором показаны связи между пунктами теста и надежностью, для теста с межпунктовой корреляцией 0,30, на котором хорошо видно, что надежность существенно возрастает до 0,72 при увеличении пунктов от 2 до 10. После этого добавление еще восми пунктов , увеличивает внутреннюю согласованность только на 0,1 и доводит ее до 0,82. «Польза от добавления новых пунктов уменьшается с количеством добавленных пунктов», делают вывод авторы. Кроме того, увеличение пунктов имеет и практические ограничения – возрастает время на проведение и усталость испытуемых. Аналогичные выводы появлялись в отечественной литературе (Эйдман, Модина, 1992), однако они остались, в целом, незамеченными.
Следующая тема, содержание которой отличается от кажущихся общепринятыми для нас тем – это валидность теста. Авторы книги указывают на то, что понятие валидности развивалось на протяжении более 60 лет, и за это время претерпело существенные изменения. Воспринимаемое как классическое определение валидности звучит так: «валидность это степень того, насколько тест измеряет именно то, для чего он предназначен». Однако Стандарты психологических тестов «The Standards for Educational and Psychological Testing» 1999 года, разработанные американской ассоциацией исследований в области образования (AERA), американской психологической ассоциацией (APA) и национальным советом по измерениям в образовании (NCME), определяют валидность как «степень эмпирической и теоретической поддержки интерпретации тестовых баллов в предполагаемых сферах использования теста». Из этого следует, что валиден тест не сам по себе, а то насколько интерпретации результатов тестирования и способы их использования способствуют применению теста в соответствующих сферах его использования.
Величина валидности теста зависит от дополнительных условий, которые определяют ограничения областей содержательной интерпретации. Например, тест Добросовестности описанный авторами в Главе 8, не претендует на обладание высокой валидностью для всех случаев жизни, всех сфер деятельности и может быть равно пригодным для диагностики на мужской и женской выборках.
Достаточно большой период времени развития психодиагностики (пока это условие было не общепринятым), исследователи, проверяя тест на «своих» выборках и в «своих» условиях могли обнаружить весьма высокие показатели валидности и тогда могли хвалить тест или низкие показатели – и указывать на то, что валидность теста явно недостаточна. Эта книга поможет разработчикам тестов у нас в стране уяснить для себя и разъяснить потребителям, что валидность теста ограничена областью содержательной интерпретации результатов теста.
Обходится молчанием в отечественной психодиагностике и такой аспект валидности как её зависимость от возможных последствий (благоприятных или неблагоприятных), вызываемых самим процессом прохождения тестирования и особенностями интерпретации полученных результатов. Разработчики тестов здесь выходят в область этических или даже политических последствий тестирования.
Еще одна проблема отечественных психологов, которые не хотят углубляться в «дебри» психометрики — это доминирование такого неизвестного в научной психометрике подхода как а «интуитивная валидность» (заметьте, не «очевидная», а именно «интуитивная»). Этот подход означает, что автор-разработчик просто уверен, «ему так кажется», что именно такой перечень пунктов хорошо выявляет исследуемое им свойство. А то, что инструмент должен измерять психологические характеристики в строгом значении этого слова – многие авторы-разработчики даже не задумываются. При этом среди методик, основанных на интуитивной валидности, известны не только простые одношкальные опросники, но и сложные семантические и проективные процедуры.
В книге Фера и Бакарака целая глава (9) посвящена оценке степени конвергентной и дискриминантной валидности теста. Авторы справедливо полагают, что это тема является краеугольным камнем проверки психометрического качества теста. В книге приводятся несколько способов такой проверки: от достаточно простых до весьма сложных. Если простые методы хотя и редко, но всё таки используются в отечественной психометрике , то сложные методы – практически никогда.
Особого внимания, на наш взгляд, заслуживает весьма тонкий анализ сложных взаимных корреляций между различными признаками и различными методами, используемыми при проверке валидности, предложенный еще Кемпбелом и Фиске (1959). В книге он переведён как «Мультипризнаковые мультиметодные матрицы» (МТМММ).
Такой тонкий анализ взаимного и конкурентного влияния множества признаков и множества методов при проверке конструктной валидности совершенно не характерен для отечественных разработчиков психодиагностических методик. Авторы книги вслед за Кемпбелом и Фриске, демонстрируют «высший пилотаж» психометрического анализа, разбирая в качестве примера гипотетический случай проверки валидности учебного опросника «социальной компетентности», который проверяется путем предсказания величины и направления корреляций с другим опросником, измеряющим признаки родственного конструкта «эмоциональной устойчивости», с другими (экспертными) методами измерения тех же самых конструктов. В табл. 9.2. собраны все возможные сочетания четырёх типов корреляции: 1) гетеропризнаковые – гетерометодные; 2) гетеропризнаковые – монометодные; 3) монопризнаковые – гетерометодные и 4) монопризнаковые –монометодные.
И хотя авторы книги сетуют, что в современной психометрике этот метод проверки конвергентной и дискриминантной валидности используется не так часто (в 2-х статьях из 13-и в журнале Psychological Assessment (APA) за 2005 год), тем не менее они делают такой вывод: «…Несмотря на не высокую частоту его применения, анализ МТМММ является важным шагом вперед в теории и методах оценки конвергентной и дискриминантной валидности тестов. Данный подход во многом сформировал само понимание конструктной валидности, и без его рассмотрения невозможно полное понимание психометрии».
В следующем параграфе рассматривается еще один «сложный» метод проверки конструктной (конвергентной и дискриминантной) валидности, который по мнению авторов является еще более точным и более объективным методом «Квантификация конструктной валидности» (QCV).
Этот относительно недавно (2003) разработанный метод безусловно достоин рекомендации для широкого использования. Основная идея метода состоит в проверке уровня соответствия двух паттернов корреляции – между эмпирически полученных корреляций показателей разрабатываемого (проверяемого) теста с совокупностью показателей других тестов (реальные корреляции) и теоретически предсказанных группой экспертов корреляций между конструктами тех же самых тестов или их отдельных показателей. Рассчитанные в итоге два показателя связи между паттернами реальных и теоретически предсказанных корреляций позволяют делать более точные и объективные выводы о конструктной валидности теста.
Новый аспект валидности, редко обсуждаемый в отечественной литературе, представляет анализ совпадения между психологическими процессами, которые респондент в действительности (при выполнении теста) задействуют в процессе выполнения теста и теми процессами, которые они должны задействовать, согласно предположениям разработчиков теста.
Авторы книги ссылаются на ряд экспериментов, в которых было показано различие между действительными (реальными) процессами и планируемыми при создании теста. Это позволяет сделать вывод о необходимости при проверке валидности теста контролировать и такой аспект как различия этих процессов.
Совершенно новой для отечественной психодиагностики является детальное обсуждение проблемы «Необъективности теста» (глава 11). В этой главе авторы продолжают анализ факторов, начатый в Главе 10, представляющих угрозу надежности и валидности в интерпретации и использовании тестовых баллов. Если в Главе 10 рассматривалась погрешность тестового балла, вызванная намеренными или неосознанными стратегиями ответов респондента (установки на ответ), то Глава 11 сфокусирована на источниках такой погрешности внутри самого теста, которые могут приводить к искаженным различиям между группами – например, к иллюзорным гендерным или возрастным различиям при реальном отсутствии таковых. Рассматриваются два важных типа необъективности теста — погрешность конструкта и предсказательная погрешность. Погрешность конструкта связана с возможным смещением в интерпретации смысла измерительного конструкта при переходе от одной группы к другой (например, между мужчинами и женщинами), что может привести к смещению зависимости между «истинным» тестовым баллом и его наблюдаемыми величинами на выборке. Погрешность тестового конструкта диагностируется методами внутреннего анализа теста – такими как оценка силы (дискриминативности) отдельных пунктов, построение полных характеристических кривых пунктов или факторный анализ. Например, если индекс «силы» отдельно взятого пункта рассчитанного на женской выборке, оказывается отличным от того же индекса в мужской выборке – другими словами, этот пункт сильнее (или слабее) дифференцирует женщин чем мужчин – то это свидетельствует о конструктной погрешности теста и, скорее всего, потребует пересмотра или полной замены такого пункта.
До подобных тонкостей в анализе погрешностей теста отечественная психодиагностика еще просто не дошла. Как не дошла и до обсуждения того, что в отличие от конструктной, предсказательная погрешность связана со смещениями во взаимосвязи тестового балла с параметрами жизнедеятельности (внешними критериями), которые этот тест пытается предсказать. Таким внешним критерием может служить успеваемость, здоровье или результаты по другому тесту. Однако в этой главе авторы ограничиваются «результатами по другому тесту» в качестве внешнего критерия. Надо отметить, что это упущение довольно типично – в силу своего удобства, поэтому «результаты по другому тесту» слишком часто предпочитаются более реальным внешним критериям, что является источником хорошо известной проблемы недостаточной «калиброванности» психологических тестов (Sechrest, McKnight & McKnihgt, 1996). Читателям стоит не забывать о важности реальных жизненных критериев не только для снижения предсказательной погрешности, но и повышения качества тестов в целом. Предсказательная погрешность диагностируется методами внешней оценки теста – такими как регрессионный анализ и структурное моделирование, с помощью которых оценивается связь между суммарным баллом или отдельными пунктами теста с внешними по отношению к этому тесту критериями.
Основной смысл выделения и разработки методов выявления необъективности теста заключается в противодействии постоянным ошибкам, которые проявляются в неправомерной разнице в набранных баллах в двух различных по какому-то признаку группах: мужчины и женщины, молодые и старики, европейцы и африканцы и т.д.
При этом очень важно подчеркнуть, что «разница» в тестовых баллах в двух группах не обязательно означает наличие систематической ошибки. Эта разница может быть проявлением реальных различий, существующих между группами.
Необходимость разработки методов такой проверки, реально обнаруживаемых при тестировании различий между группами, вызвана, на наш взгляд, социальной значимостью таких различий и особой чувствительностью развитого общества к безупречной обоснованности выводов о наличии реальных различий между социальными и национальными группами.
Наше общество ещё просто не созрело до контроля за результатами психологических исследований, в которых обнаруживаются (возможно совершенно ошибочно) гендерные различия или различия между этническими и социальными группами. Тематика этой главы является тем более важной, что при контроле за психодиагностическими методиками можно превентивно избежать ошибок тестирования в социально чувствительных зонах.
Заметим, что предсказательная погрешность не зависит от конструктной и, как следствие, требует отдельной проверки. Так, например, существует немало тестов с выраженной предсказательной погрешностью при отсутствии сколько-нибудь заметной конструктной погрешности.
К достоинствам 11 главы, кроме всего прочего, стоит также отнести компактное и очень доступное изложение основ регрессионного анализа.
Завершая обзор 11-ой главы, важно отметить, что само ее название (Test bias) нередко приводит к смешению ключевого понятия систематической ошибки (смещения оценок) с необъективностью или предвзятостью теста. Первое относится к науке о психологических измерениях, второе – к области моральных суждений. С научной точки зрения важно не то, насколько несправедливыми могут показаться различия между группами (хотя и этого игнорировать не стоит), а насколько аккуратно тестовые баллы отражают эти различия (или их отсутствие). К примеру, никому не придет в голову подозревать в предвзятости измерение роста или веса тела только потому, что гендерные различия по этим показателям хорошо известны.
Последние две главы книги выделены в отдельную связку под заголовком «Современные психометрические подходы: высшая психометрика». Это не случайно – в главах представлены современные подходы к психометрике, выходящие за привычные рамки классической теории тестов (на которой основаны все предыдущие главы).
В 12-ой главе описаны основные понятия и задачи теории генерализуемости (Generalizability Theory — GT). Основу GТ составляет понятие «совокупной популяции» всех возможных заданий теста. Как следствие, надежность интерпретируется в терминах способности обобщать результаты с небольшого набора пунктов на всю эту «совокупность». Преимущества GТ над классической теории тестов особенно заметны при сложных измерениях с несколькими источниками ошибки. К примеру, GТ позволяет разделить погрешность наблюдателя, погрешность пункта, и целый ряд других источников погрешности измерения. Долю вариативности, вызванную каждым из этих источников ошибки, можно рассчитать с помощью дисперсионного анализа. Сравнивая эту вариативность с вариативностью, вызванной реальными индивидуальными различиями, можно рассчитать коэффициент генерализуемости измерительной стратегии. Таким способом можно сравнивать генерализуемость разных измерительных стратегий – в самом простом случае это варианты шкалы с разным количеством пунктов. А такие сравнительные данные весьма полезны при дизайне окончательной версии шкалы, при этом, как правило, выбирается минимальное количество пунктов, достигающее заданного уровня генерализуемости – или же находится такое количество пунктов, после которого добавление новых уже почти не улучшает генерализуемость.
Примеры расчетов вариативности и коэффициентов генерализуемости отличает завидная доступность – даже в довольно сложном случае с применением двухфакторного дисперсионного анализа. В случае простого, однофакторного дизайна обращает на себя внимание идентичность рассчитанного коэффициента генерализуемости и классического коэффициента альфа Кронбаха – что подчеркивает преемственность и взаимопереходы между GТ и классической теорией тестов. Как в случае с теорией относительности и классической механикой, классическая теория тестов оказывается частным случаем GТ при достаточно простых источниках ошибки измерения.
В Главе 13 представлен наиболее продвинутый на сегодня подход в психометрике — Item Response Theory (IRT). Однозначного русскоязычного эквивалента самому термину IRT до сих пор не существует. Варианты перевода включают «теория тестовых заданий», «теория ответов на пункты теста», «алгоритмическая теория измерений» и целый рад других. В настоящем издании термин IRT переведен как «Теория ответов на пункты» — с тем, чтобы подчеркнуть сфокусированность этого подхода «на поведении» отдельных пунктов, а не агрегированной шкалы. В то же время, по сложившейся традиции, в книге часто используется уже привычная отечественному читателю англоязычная аббревиатура IRT. Подобное узнавание теории частично снимает проблему адекватности перевода ее названия. Уже только по аббревиатуре IRT становится понятно о чем идет речь.
В основе подхода IRT лежит довольно очевидное наблюдение, что ответ конкретного респондента на данный пункт шкалы определяется как свойствами респондента, так и свойствами пункта.
В разных вариантах IRT разработаны методы расчета вероятностных характеристик отдельных пунктов относительно реальных свойств респондента. Так, сила (или сложность) пунктов в IRT выражается в терминах выраженности измеряемого признака у респондента – точнее, она определена как степень выраженности черты или способности, дающая респонденту 50-процентный шанс справиться с заданием. Самая простая версия IRT – модель Раша – определяет ответ респондента как вероятностную функцию сложности пункта и выраженности измеряемого признака.

       Графическая форма этой функции — характеристическая кривая пункта – является полезным инструментом отбора и оптимизации пунктов.
Здесь необходимо отметить, что долгое время в отечественной психодиагностике использование IRT на практике упиралось в чем-то обоснованное предубеждение, что модель Раша пригодна только для очень ограниченного типа методик. В первую очередь для тестов достижения, в которых довольно очевидна зависимость ответа респондента на пункт (задание) как от его знаний (способностей), так и трудности пункта. Второе ограничение распространения модели Раша связано с требованием только дихотомического формата ответов (да – нет, верно – неверно и т.д.) на пункты тестов. Поэтому очень важно, что авторы, кроме модели Раша, рассматривают и более современные версии IRT, в которых указанные ограничения уже преодолены.
Следующее поколение моделей IRT учитывают другие важные параметры пунктов. Так, такой важный параметр в IRT – дискриминативность пункта – определяется тем, насколько различны ответы на этот пункт у респондентов с высокой и низкой выраженностью измеряемого признака. Добавление дискриминативности пункта как дополнительной детерминанты ответа респондента на пункт расширяет модель Раша до так называемой двух-факторной логистической модели и заметно повышает ее полезность. Дельнейшее расширение возможно как через добавление факторов (например, в трех-факторной логистической модели добавлена третья характеристика пункта – вероятность угадывания), так и через расширение формата ответов: от дихотомического до включения градаций ответа по степени согласия с пунктом (например, полностью согласен – пожалуй не согласен) или по степени корректности ответов (при оценке способностей).
Подобранная модель IRT позволяет правильно оценить информативность как теста в целом, так и отдельных его пунктов – с последующим их отбором и оптимизацией. Более того, в отличие от классического понятия надежности теста, информативность не является константой, а может меняться в зависимости от уровня выраженности измеряемого признака. Например, тест (и даже отдельный пункт) может обладать более высокой информативностью в середине диапазона выраженности измеряемой черты или способности, чем на его краях. В таком случае различимость экстремальных значений выраженности черты ухудшена по сравнению со средними ее значениями.

     Полезность такого рода данных несомненна – как для улучшения качества тестов, так и для повышения адекватности процедур тестирования в целом.
Особенно ценен вклад IRT при диагностике нетипичных или подозрительных паттернов ответов, а также в приложениях компьютеризованного адаптивного тестирования, когда каждый последующий пункт теста подбирается из банка заданий на основании мгновенного анализа всех предыдущих ответов респондента.
Подкупающая доступность изложения довольно сложного материала в Главе 13, достигнутая без излишних упрощений и потери аккуратности, подчеркивает преимущества IRT в детальной оценке и оптимизации психометрических параметров теста. Можно с уверенностью предположить, что этот материал перекочует из категории «продвинутый» в категорию «полезный каждому» значительно скорее, чем может показаться – и во многом благодаря книге, которую вы держите в руках.
Завершая анализ книги Фера и Бакарака, хочется отметить весьма качественную работу ее переводчиков – кандидатов психологических наук Анны Науменко и Алексея Попова, а также огромный труд аспиранта кафедры «Психологическая диагностика и консультирования» ЮУрГУ Татьяны Ким, благодаря которому эта книга увидела свет.
Хочется также от имени всего психодиагностического сообщества поблагодарить Ректора ЮУрГУ д.т.н., проф. А. Л. Шестакова за поддержку в реализации этого не простого проекта.

Научные редакторы перевода:
Профессор Николай Батурин (ЮУрГУ, Россия) и Профессор Евгений Эйдман (Kingston University London & University of Adelaide, Australia)