типи валидизации

Звірити результати, отримані шляхом використання показника, з результатами, отриманими шляхом використання іншого показника, визнаного як валидного вимірювання відповідного поняття; або перевірити прогностичну валідність показника, використавши його для передбачення подій, що відображають вимірюється поняття.

Внутрішня (конвергентная) валидизация: зробити висновок про валідності показника на підставі його співвідношення з іншими показниками для того ж самого поняття, що використовує множинні показники.

Зовнішня валидизация: зробити висновок про валідності показника на підставі його співвідношення з показниками для інших понять, з якими вимірюється поняття теоретично повинно бути пов'язано.

Зробити висновок про валідності показника на підставі ступеня невідповідності показників для інших понять, теоретично відмінних від вимірюваного поняття.

Визнати валідність, виходячи з безпосередньою очевидності показника. (Чи можна переконати людей, що знаходяться в курсі справи, що це валідний показник для даного поняття?)

надійність

Коли ми говоримо про валідності вимірювання, нас цікавить, наскільки точно значення, одержувані за допомогою цього виміру, відповідають дійсним значенням вимірюваної змінної. Коли ми говоримо про надійність вимірювання, нас цікавить стійкість одержуваних з його допомогою значень. Чи можемо ми, застосовуючи вимір кілька разів, отримати для будь-якого даного об'єкта одне і те ж значення або ж в результаті різних підходів одним і тим же об'єктам приписуються різні значення? Якщо при неодноразовому застосуванні деякого виміру один і той же об'єкт не отримує одного і того ж значення, це вимір не є надійним показником відповідного поняття. Щоб гарантувати надійність лінійок, їх виготовляють з нерозтяжного матеріалу. Якби лінійки виготовляли з розтяжних матеріалів, вони цілком могли б [c.110] показувати різну довжину одного і того ж об'єкта (навіть в тому випадку, якщо його довжина насправді не змінилася) просто тому, що лінійка розтягується і стискається.

Якщо вимір ненадійно, воно не може бути дійсним, оскільки принаймні деякі відмінності в оцінках, приписаних об'єктів, обумовлені помилками вимірювання, а не справжніми відмінностями між об'єктами. Згадаймо наш приклад з дослідженням вуличного освітлення. Що, якщо використовуваний нами світловий лічильник виявиться настільки чутливим, що фіксуватиме не тільки світло від вуличних ліхтарів, а й місячне світло? Тоді значення змінної якість вуличного освітлення для кожної вулиці будуть залежати як від яскравості вуличних ліхтарів, так і від випадкових факторів, таких, як фази місяця і характеру хмарності. Тією ж мірою, в якій ці випадкові чинники впливають на наші результати, вимір виявляється невалідним відображенням дійсних відмінностей в якості вуличного освітлення. В цьому випадку ненадійність обумовлює невалидность.

Таким чином, вимір може бути надійним, не будучи дійсним, але не може бути дійсним, не будучи надійним. У той час як валідність вразлива і з боку систематичної, і з боку випадкової помилки, надійність наражається на небезпеку лише з боку останньої. Це означає, що, якщо в попередніх дослідженнях вимір було переконливо валидизировать, ми можемо використовувати його, не турбуючись про його надійності: [c.111] якщо вимір валідність, воно повинно бути надійно. Однак, продемонструвавши надійність, ми не гарантуємо валідність.

Як застрахуватися від ненадійності? Як визначити, чи надійно дане вимір? Щоб запобігти загрозі ненадійності, необхідно знати про різних джерелах випадкових помилок вимірювання, описаних нами в цьому розділі, і робити все можливе для встановлення контролю над ними. Слід, зокрема, продумувати реальний процес вимірювання і проводити попереднє тестування інструментів вимірювання для виявлення раніше невідомих причин випадкових помилок.

Зазначена проблема привела до створення іншого тесту на надійність - методу альтернативної форми. Відповідно до цього методу в один і той же момент різні форми виміру застосовуються до однієї і тієї ж групи об'єктів або одне і те ж вимір застосовується до різних груп об'єктів. У цьому випадку тест-ефект неможливий, оскільки жоден об'єкт не вимірюється більш ніж один раз, а так як вимірювання не відокремлені один від одного ніякими часовими інтервалами, на результатах вимірювань не можуть позначитися реальні зміни досліджуваних змінних. Однак успіх цієї стратегії залежить від того, наскільки добре можна порівняти один з одним альтернативні форми виміру як вимірювання даного поняття, і від того, чи дійсно дві групи еквівалентні з точки зору дистрибуції вимірюваної змінної. Якщо у нас є підстави вважати, що ці умови виконуються, то, ніж ближчі оцінки за двома вимірами або за двома групами, тим більше ми можемо бути впевнені в надійності вимірювання. Однак якщо в нашому розпорядженні немає порівнянних вимірювань або груп, ми не можемо використовувати даний метод належним чином.

Нарешті, останній спосіб тестування надійності вимірювання відомий під назвою методу підвибірки. Цей метод полягає в тому, що, сформувавши вибірку з об'єктів, ми ділимо її на кілька підвибірок таким чином, щоб всі вони були схожі один на одного. Потім ми застосовуємо один і той же вимір до всіх підвибірках і використовуємо схожість або відмінність результатів для підвибірок як показник надійності вимірювання. Оскільки ми використовуємо один і той же вимір, у нас немає [c.113] необхідності піклуватися про порівнянності, як у випадку методу альтернативної форми; а так як для забезпечення еквівалентності підвибірок ми можемо спиратися на теорію вибірки, нам не доводиться турбуватися про те, що обрані для вимірювання групи виявляться недостатньо однорідними. Так як жоден об'єкт не вимірюється двічі, ми можемо не брати до уваги тест-ефект загрозливим точності нашого тесту на надійність; а оскільки [c.114] вимірювання здійснюються одночасно, реальні зміни змінної не можуть мати значення для даного методу, як це відбувається в разі методу неодноразового тестування. Однак можливість використання методу підвибірки визначається тим, чи в змозі ми отримати таку велику вибірку, що, розділивши її на частини, ми будемо мати у своєму розпорядженні підвибірки, достатніми для того, щоб ми застосовуємо статистичні тести були осмисленими. Це не завжди можливо і може послужити перешкодою для використання методу підвибірки при перевірці надійності.

Для інтерпретації результатів кожного з цих тестів на надійність є безліч статистичних процедур 8.

У описаних методів багато різновидів. Який з варіантів найбільшою мірою підійде для даного дослідницького проекту, буде залежати від того, яким часом і можливостями володіє дослідник, а також від характеру дослідження. Наприклад, якщо ми хочемо виміряти вуличного освітлення підставі оцінки освітленості різних кварталів, зробленої навченими спостерігачами, ми можемо спокійно скористатися методом неодноразового тестування, не думаючи ні про яке тест-ефекті. Вуличне освітлення не буде змінюватися просто тому, що його хтось вимірює, і тому можна дозволити різним спостерігачам незалежно один від одного оцінювати одну і ту ж вулицю в одну і ту ж ніч. Ми не зможемо в такій же мірі довіряти цим методом, якщо наше вимір якості вуличного освітлення буде грунтуватися на відповідях, даних самими жителями на питання інтерв'ю.

Незалежно від того, який тест на надійність ми вважали за краще використовувати, надійність вимірювань важливо встановити до того, як буде розпочато дослідження. Це вимагає попереднього тестування вимірювання за допомогою збору даних, призначених виключно для оцінки інструментів, які будуть використовуватися в самому дослідженні. Якщо нам не вдасться це зробити, то може виявитися, що наші виміри ключових змінних ненадійні (і тому невалидность), і з'ясуватися це може лише після того, як дослідження завершено. А це означає, що ми не зможемо довіряти [c.115] результатами дослідження і що наші зусилля були повністю або частково витрачені даремно. Попереднє тестування солідності і надійності вимірювання повинно бути складовою частиною будь-якого дослідницького проекту, якщо в ньому використовуються вимірювання, що не були де-небудь переконливо валидизировать, або якщо цей проект покладається на вимірювання, які були валидизировать тільки в умовах, дуже сильно відрізняються від тих, в яких вони будуть використовуватися. [c.116]