Item respons theorie

Op het gebied van Theorie van psychometrische tests Er zijn verschillende denominaties verschenen die momenteel de naam "Item Response Theory" dragen (F.M. Lord, 1980). Deze denominatie vertoont enkele verschillen ten opzichte van het klassieke model: 1.- de relatie tussen de verwachte waarde van het onderwerp en de eigenschapscores (kenmerk dat verantwoordelijk is voor de waarden), is het meestal niet van het type lineair. 2.- Het is bedoeld om individuele voorspellingen te doen zonder te hoeven verwijzen naar de kenmerken van de normatieve groep.

Dit vind je misschien ook leuk: Klassieke testtheorie

Inhoudsopgave

Theorie van respons op het item of latente eigenschapmodellen in testtheorie
Item respons theorie modellen (tri)
Parameterschatting:
Test constructie
Toepassingen van itemresponstheorie
Interpretatie van partituren

Theorie van respons op het item of latente eigenschapmodellen in testtheorie.

We zien dus dat deze Item Response Theorie de mogelijkheid biedt om zowel items als individuen afzonderlijk te beschrijven; Het is ook van mening dat het antwoord van de proefpersoon afhangt van het niveau van bekwaamheid dat hij in het beschouwde bereik heeft. De oorsprong van deze modellen is te danken aan Lazarsfeld, 1950, die de term "latente eigenschap" introduceerde.

Vanaf hier wordt aangenomen dat elk individu een individuele parameter heeft die verantwoordelijk is voor de kenmerken van het onderwerp, ook wel "eigenschap" genoemd. Deze eigenschap is niet direct meetbaar, daarom wordt de individuele parameter een latente variabele genoemd. Op het moment dat de tests worden toegepast, kunnen twee verschillende dingen worden verkregen, de echte score en de proeve van bekwaamheid; Dit wordt bereikt als we twee tests over dezelfde geschiktheid voor dezelfde groep doorstaan.

In de latente eigenschapstheorie of itemresponstheorie de echte score is de verwachte waarde van de waargenomen score. Volgens Lord zijn ware score en fitheid hetzelfde, maar uitgedrukt op verschillende meetschalen.

Item respons theorie modellen (tri)

Binominale foutmodellen: ze zijn geïntroduceerd door Lord (1965), die ervan uitgaat dat de waargenomen score overeenkomt met het aantal juiste antwoorden dat in de test is verkregen (waarvan Items hebben allemaal dezelfde moeilijkheidsgraad en hebben lokale onafhankelijkheid, dat wil zeggen dat de kans om één item correct te beantwoorden niet wordt beïnvloed door de antwoorden op andere items. ).

Poisson-modellen: deze modellen zijn geschikt voor die toetsen met een groot aantal items en waarbij de kans op een goed of fout antwoord klein is. Binnen deze groep hebben we weer verschillende modellen:

Rasch's Poisson-model, waarvan de hypothesen zijn: elke test heeft een groot aantal binaire items die lokaal onafhankelijk zijn. de kans op fouten in elk item is klein. de kans dat de proefpersoon een fout maakt, hangt af van twee dingen, de moeilijkheidsgraad van de test en de bekwaamheid van de proefpersoon. de optelsom van de moeilijkheden, begrepen als het resultaat van het mengen van twee gelijkwaardige tests in één enkele test waarvan de moeilijkheid de som is van de moeilijkheden van de twee initiële tests.
Poissonmodel om snelheid te evalueren: Dit model is ook voorgesteld door Rasch en kenmerkt zich door rekening te houden met de snelheid bij het uitvoeren van de test. Het model kan op twee manieren worden beschouwd: het aantal gemaakte fouten en gelezen woorden in een tijdseenheid tellen. tel het aantal gemaakte fouten en de tijd die is besteed aan het lezen van de tekst. De kans op het uitvoeren van een bepaald aantal woorden van een test (i) door een proefpersoon (j), gedurende een tijd (t)
Normale kernkopmodellen: is een model voorgesteld door Lord (1968), dat wordt gebruikt in tests met dichotome items en met een enkele variabele gemeenschappelijk. De grafiek zou als volgt zijn: De basisveronderstellingen die dit model kenmerken zijn:

de latente variantruimte is eendimensionaal (k = 1).
lokale onafhankelijkheid tussen inten.
de metriek voor de latente variabele kan zo worden gekozen dat de curve voor elk item de normale kernkop is.

Logistieke modellen; Het is een model dat erg lijkt op het vorige, maar het heeft ook meer voordelen met betrekking tot de wiskundige behandeling ervan. De logistieke functie heeft de volgende vorm: Er zijn verschillende logistieke modellen afhankelijk van het aantal parameters dat ze hebben:

Logistiek model met 2 parameters, Birnbaum 1968, onder zijn kenmerken vermelden we dat het eendimensionaal is, er is lokale onafhankelijkheid, de items zijn dichotoom, enz.
Logistiek model met 3 parametersHeer, het wordt gekenmerkt omdat de kans op slagen door te raden een factor is die de uitvoering van de test zal beïnvloeden. 4.3. Logistiek model met 4 parameters: model voorgesteld door McDonald 1967 en Barton-Lord in 1981, met als doel: leg die gevallen uit waarin proefpersonen met een hoog niveau van aanleg niet correct reageren op de item.
Rasch logistiek model: Dit model is het model dat het grootste aantal banen heeft gegenereerd, ondanks dat het een nadeel heeft, namelijk dat het moeilijker is om het aan de echte gegevens aan te passen. Maar in tegenstelling hiermee is het voordeel dat het zo veel gebruikt maakt dat het geen grote steekproefomvang vereist voor zijn aanpassing.

Schatting van parameters.

De meest gebruikte methode is de Maximum Likelihood, samen met deze methode worden numerieke benaderingsprocedures zoals Newton-Raphson en Scoring (Rao) gebruikt. De maximale waarschijnlijkheidsmethode is gebaseerd op het principe van het verkrijgen van schatters van de onbekende parameters die de kans op het verkrijgen van dergelijke steekproeven maximaliseren. Naast de Maximum Likelihood wordt ook de Bayesiaanse schatting gebruikt, gebaseerd op de stelling van Bayes, die Het bestaat uit het a priori opnemen van alle bekende informatie die relevant is voor het proces van gevolgtrekkingen. Een meer diepgaande studie van de Bayesiaanse methode voor het schatten van fitnessparameters wordt uitgevoerd door Birnbaum (1996) en Owen (1975).

INFORMATIE FUNCTIES

De beste test die kan worden geconstrueerd, is degene die de meeste informatie over de latente eigenschap geeft. De kwantificering van deze informatie gebeurt via de "informatiefuncties". De formule van de informatiefunctie, Birnbaum 1968, is de volgende: Er moet rekening mee worden gehouden dat de informatie die in een test wordt verkregen is de som van de informatie van elk item, bovendien is de bijdrage van elk item niet afhankelijk van de rest van de items die deel uitmaken van de test. In algemene termen kunnen we zeggen dat de informatie, in alle modellen:

varieert met het fitnessniveau.
hoe groter de helling van de curve, hoe meer informatie.
het hangt af van de variantie van de scores, hoe hoger het is, hoe minder informatie.

Proefbouw.

De eerste taak en een van de belangrijkste bij het construeren van een test is de keuze van items, voorafgaande overeenstemming van de theoretische veronderstellingen die de eigenschap zouden moeten definiëren die de test wil meten. Het concept "itemanalyse" verwijst naar de reeks formele procedures die worden uitgevoerd om die items te selecteren die uiteindelijk de test zullen vormen. De informatie die het meest relevant wordt geacht met betrekking tot de items is:

Moeilijkheidsgraad van het item, percentage personen dat het goed heeft.
Discriminatie, correlatie van elk item met de totale score op de test.
Afleiders of foutenanalyse, hun invloed is relevant, beïnvloedt de moeilijkheidsgraad van het item en zorgt ervoor dat de discriminatiewaarden worden onderschat.

Bij het vaststellen van indicatoren van de verschillende indices worden meestal enkele statistieken of indices gebruikt, waarvan de volgende het meest worden gebruikt:

Moeilijkheidsgraad Index van discriminatie Betrouwbaarheidsindex Geldigheidsindex Kennen van de indices waarmee rekening moet worden gehouden voor de selectie van de items die de test zullen vormen, zullen we zien welke stappen nodig zijn voor de constructie van een toets:

Specificatie van het probleem.
Maak een lijst van een groot aantal items en debug ze.
Keuze van het model.
Test de voorgeselecteerde items.
Selecteer de ideale items.
Bestudeer de kwaliteiten van de test
Stel de interpretatieregels van de behaalde eindtoets vast.

Uit de vorige punten moet worden opgemerkt dat de keuze van het model, punt 3, zal afhangen van de doelstellingen die de test nastreeft, van de kenmerken en kwaliteit van de gegevens en van de beschikbare middelen. Wanneer een model wordt gekozen, zijn de theoretische voorwaarden waaronder het kan worden toegepast al gegeven, niet ondanks zijn deugden ze moeten in elk geval en in de specifieke omstandigheden worden geanalyseerd. De eigenschappen die kunnen worden toegeschreven aan de modellen die deel uitmaken van de Item Respons Theorie (TRI), kan worden beïnvloed door:

de dimensionaliteit van de test de schaarse beschikbaarheid van de steekproef gebrek aan computerbronnen Er zijn een aantal voorkeuren om als we het ene of het andere model gebruiken, laten we ze eens bekijken: normale kernkopmodellen worden meestal niet gebruikt in toepassingen, hun waarde is theoretisch.
Rasch: geschikt voor horizontale vergelijking (vergelijkbare tests op moeilijkheidsgraden met gelijkaardige geschiktheidsverdelingen). verschillende vormen van dezelfde test hebben. * 2 en 3 parameters: dit zijn degenen die zich het beste aanpassen aan een verscheidenheid aan problemen.
foutieve reactiepatronen te detecteren. voor verticale matching van tests (vergelijkt tests met verschillende moeilijkheidsgraden en verschillende verdelingen voor geschiktheid).

1 en 2 parameters:

geschikt voor het construeren van één schaal, zodat vaardigheden op verschillende niveaus kunnen worden vergeleken.

De keuze van het model kan, naast het na te streven doel, worden beïnvloed door de omvang van de steekproef; In het geval dat de steekproef groot en representatief is, is er geen probleem, of het nu gaat om het klassieke of latente kenmerkmodel. Maar in TRI ( item respons theorie ) een kleine steekproef maakt het noodzakelijk om modellen met een klein aantal parameters te kiezen, zelfs het model met één parameter.

Toepassingen van de itemresponstheorie.

Laten we eens kijken welke de meest voorkomende toepassingen zijn: a) Egalisatie van tests, soms is dat het geval Het is noodzakelijk om de scores verkregen in verschillende tests te relateren, met twee mogelijke doeleinden:

Horizontale egalisatie: het probeert verschillende vormen van dezelfde test te verkrijgen.
Verticale egalisatie: streeft naar het bouwen van een enkele bekwaamheidsschaal met verschillende moeilijkheidsgraden. Met betrekking tot de gelijkstelling van tests introduceert Lord (1980) het concept van "equity", wat inhoudt dat voor elk onderwerp twee tests Ze kunnen onderling uitwisselbaar zijn, aangezien wordt toegepast dat de een of de ander het niveau van bekwaamheid dat was geschat voor de onderwerpen.

Onderzoek naar itembias: een item is vooringenomen wanneer het gemiddeld significant verschillende scores geeft in specifieke groepen waarvan wordt aangenomen dat ze deel uitmaken van dezelfde populatie.

Aangepaste of gemiddelde testsDoor middel van IRT kunnen geïndividualiseerde tests worden geconstrueerd waarmee de werkelijke waarde van de betreffende eigenschap nauwkeuriger kan worden afgeleid. De items worden opeenvolgend behandeld, de presentatie van het ene of het andere item hangt af van de eerder gegeven antwoorden. Er zijn verschillende soorten aangepaste testen, wij wijzen u op het volgende:

procedure in twee fasen, Lord 1971; Bertz en Weiss 1973 - 1974. Dezelfde test wordt eerst gehaald en, afhankelijk van de resultaten, wordt een tweede test afgenomen.
Procedure in verschillende fasen, het is hetzelfde als de vorige, alleen dat het proces meer fasen omvat.
Vast vertakt model, Lord 1970, 1971, 1974; Muziek 1973. Alle onderwerpen lossen hetzelfde item op, volgens het antwoord wordt een reeks items opgelost.
Variabel vertakt model is gebaseerd op de onafhankelijkheid tussen de items en op de eigenschappen van de maximum likelihood schatters.

ItembankHet hebben van een grote set items is iets dat de kwaliteit van de test zal verbeteren, maar hiervoor moeten de items eerst een foutopsporingsproces doorlopen. Om de items te classificeren, moet rekening worden gehouden met de eigenschap die de test waarvan dit item deel uitmaakt, moet meten.

Interpretatie van scores.

Weegschalen: het doel is om een continuüm te bieden om te kunnen ordenen, classificeren of weten wat de relatieve omvang van de geëvalueerde eigenschap is; Dit stelt ons in staat om verschillen en overeenkomsten bij mensen vast te stellen met betrekking tot deze eigenschap. De schalen die in de psychologie worden gebruikt zijn: nominaal, ordinaal, interval en ratio; Deze schalen zijn opgebouwd uit de resultaten van de tests, resultaten die "directe scores" worden genoemd.

Typeren: een test typeren is om de directe scores om te zetten in andere die gemakkelijk te interpreteren zijn sinds de Getypte score onthult de positie van het onderwerp ten opzichte van de groep, en stelt ons in staat om intra- en tussenpersonen. Er zijn twee vormen van typen:

Lineair, ze behouden de vorm van de verdeling en wijzigen de grootte van de correlaties niet.
Niet-lineair, ze behouden niet de verdeling of de grootte van de correlaties.

FITNESSSCHAAL In IRT is de schaal die wordt geconstrueerd de schaal die overeenkomt met de niveaus van bekwaamheid; Deze schaal wordt gekenmerkt doordat de schattingen en verwijzingen direct worden gemaakt met betrekking tot de geschiktheid en de schaal ervan. Bovendien hangt deze ingeschatte bekwaamheid alleen af van de vorm van de karakteristieke curve van de items. Van de mogelijke schalen geven we er twee aan:

Schaal, voorgesteld door Woodcock (1978) en wordt gedefinieerd door de volgende formule:
WITS-schaal, voorgesteld door Wright (1977), deze schaal is een wijziging van de vorige en wordt gegeven door de volgende relatie:

Dit artikel is louter informatief, in Psychology-Online hebben we niet de macht om een diagnose te stellen of een behandeling aan te bevelen. Wij nodigen u uit om naar een psycholoog te gaan om uw specifieke geval te behandelen.

Als u meer artikelen wilt lezen die vergelijkbaar zijn met Itemresponstheorie - Toepassingen en testen, raden we u aan om onze categorie van Experimentele psychologie.