Varesvarsteori

  • Jul 26, 2021
click fraud protection
Varesvarsteori - Anvendelser og test

Inden for området Teori om psykometriske tests Der er opstået forskellige kirkesamfund, der for tiden tager navnet "Item Response Theory" (F.M. Lord, 1980). Denne betegnelse præsenterer nogle forskelle i forhold til den klassiske model: 1. - forholdet mellem den forventede værdi af motivet og egenskabsscore (karakteristisk ansvarlig for værdierne), er det normalt ikke af typen lineær. 2.- Det sigter mod at komme med individuelle forudsigelser uden behov for at henvise til egenskaberne ved den normative gruppe.

Du vil måske også kunne lide: Klassisk testteori

Indeks

  1. Teori om reaktion på elementet eller latente trækmodeller i testteori
  2. Elementresponssteorimodeller (tri)
  3. Parameterestimering
  4. Test konstruktion
  5. Anvendelser af varesvarsteori
  6. Fortolkning af scoringer

Teori om reaktion på elementet eller latente trækmodeller i testteori.

Vi ser derfor, at denne artikelsvarsteori giver mulighed for separat at beskrive både varer og enkeltpersoner; Det mener også, at motivets svar afhænger af det evne, han har inden for det betragtede område. Oprindelsen af ​​disse modeller skyldes Lazarsfeld, 1950, der introducerede udtrykket "latent træk".

Herfra anses det for, at hver enkelt person har en individuel parameter, der er ansvarlig for emnets egenskaber, også kaldet "træk". Dette træk kan ikke direkte måles, hvorfor den enkelte parameter kaldes en latent variabel. På tidspunktet for anvendelsen af ​​prøverne kan der opnås to forskellige ting, den sande score og kapacitetsskalaen; Dette opnås, hvis vi bestiller to prøver om samme egnethed til den samme gruppe.

I The Latent Trait Theory eller Item Response Theory den sande score er den forventede værdi af den observerede score. Ifølge Lord er ægte score og egnethed det samme, men udtrykt på forskellige målestørrelser.

Elementresponssteorimodeller (tri)

Binomiale fejlmodeller: de blev introduceret af Lord (1965), der antager, at den observerede score svarer til antallet af korrekte svar opnået i testen (hvis Varer har alle de samme vanskeligheder og har lokal uafhængighed, dvs. sandsynligheden for korrekt besvarelse af en vare påvirkes ikke af svarene på andre emner. ).

Poisson modeller: disse modeller er passende til de tests, der har et stort antal varer, og hvor sandsynligheden for et korrekt eller forkert svar er lille. Inden for denne gruppe har vi til gengæld forskellige modeller:

  1. Raschs Poisson-model, hvis hypoteser er: hver test har et stort antal binære emner, der er lokalt uafhængige. sandsynligheden for fejl i hver vare er lille. sandsynligheden for, at emnet begår en fejl, afhænger af to ting, testens vanskelighed og motivets evne. vanskelighedenes additivitet, forstået som resultatet af at blande to ækvivalente tests i en enkelt test, hvis vanskelighed er summen af ​​vanskelighederne ved de to indledende tests.
  2. Poisson-model til evaluering af hastighed: Denne model blev også foreslået af Rasch og er kendetegnet ved at tage højde for hastigheden i udførelsen af ​​testen. Modellen kan overvejes på to måder: at tælle antallet af begåede fejl og ord læst i en tidsenhed. tæl antallet af begåede fejl og den tid, der er brugt på at gennemføre læsningen af ​​teksten. Sandsynligheden for at udføre et bestemt antal ord i en test (i) af et emne (j) i løbet af en tid (t)
  3. Normale sprænghovedmodeller: er en model foreslået af Lord (1968), som bruges i test med dikotome genstande og med en enkelt variabel til fælles. Dens graf ville være følgende: De grundlæggende antagelser, der kendetegner denne model, er:
  • det latente variantrum er endimensionelt (k = 1).
  • lokal uafhængighed mellem intems.
  • metricen for den latente variabel kan vælges, så kurven for hvert element er det normale sprænghoved.

Logistikmodeller; Det er en model, der meget ligner den forrige, men den har også flere fordele med hensyn til dens matematiske behandling. Logistikfunktionen har følgende form: Der er forskellige logistiske modeller afhængigt af antallet af parametre, de har:

  • 2-parameter logistisk model, Birnbaum 1968, blandt dets egenskaber nævner vi, at det er endimensionelt, der er lokal uafhængighed, varerne er todelt osv.
  • 3-parameter logistisk modelHerre, det er karakteriseret, fordi sandsynligheden for at ramme ved gætte er en faktor, der vil påvirke testens udførelse. 4.3. 4-parameter logistisk model: model foreslået af McDonald 1967 og Barton-Lord i 1981, hvis formål er forklare de tilfælde, hvor emner, der har en høj evne, ikke reagerer korrekt på vare.
  • Rasch logistisk model: Denne model er den, der har genereret det største antal job på trods af en ulempe, hvilket er, at dens tilpasning til de reelle data er vanskeligere. Men i modsætning til dette er fordelen, der gør den så udbredt, at den ikke kræver store stikprøvestørrelser for justeringen.

Parameterestimering.

Den metode, der er mest brugt, er den maksimale sandsynlighed, sammen med denne metode anvendes numeriske tilnærmelsesprocedurer såsom Newton-Raphson og Scoring (Rao). Den maksimale sandsynlighedsmetode er baseret på princippet om at få estimatorer for de ukendte parametre, der maksimerer sandsynligheden for at opnå sådanne prøver. Ud over den maksimale sandsynlighed anvendes også Bayesian Estimation baseret på Bayes sætning, som Den består i at inkorporere al den kendte information, a priori, der er relevant for processen med at udlede slutninger. En mere dybtgående undersøgelse af den bayesiske metode til estimering af fitnessparametre udføres af Birnbaum (1996) og Owen (1975).

INFORMATIONSFUNKTIONER

Den bedste test, der kan konstrueres, er den, der giver den største mængde information om det latente træk. Kvantificeringen af ​​denne information sker gennem "informationsfunktionerne". Informationsfunktionsformlen, Birnbaum 1968, er følgende: Det skal tages i betragtning, at de oplysninger, der er opnået i en test er summen af ​​informationen for hver vare, derudover afhænger hver artikels bidrag ikke af resten af ​​de varer, der udgør prøve. Generelt kan vi sige, at informationen i alle modeller:

  • varierer med fitnessniveauer.
  • jo større kurvens hældning, jo flere oplysninger.
  • det afhænger af variansen af ​​score, jo højere den er, jo mindre information.

Test konstruktion.

Den første opgave og en af ​​de vigtigste, når der konstrueres en test, er valg af emner, forudgående enighed om de teoretiske antagelser, der skal definere det træk, som testen har til hensigt at måle. Begrebet "Elementanalyse" henviser til det sæt formelle procedurer, der udføres for at vælge de emner, der endelig vil danne testen. De oplysninger, der anses for mest relevante for varerne, er:

  1. Vareproblemer, procentdel af personer, der får det rigtigt.
  2. Diskrimination, sammenhæng mellem hvert emne og den samlede score på testen.
  3. Distraktorer eller fejlanalyse, deres indflydelse er relevant, påvirker genstandens vanskelighed og får diskrimineringsværdierne til at blive undervurderet.

Ved fastlæggelse af indikatorer for de forskellige indekser bruges normalt nogle statistikker eller indekser, hvor følgende er den mest anvendte:

Vanskelighedsindeks Indeks for forskelsbehandling Pålidelighedsindeks Gyldighedsindeks At kende de indekser, der skal tages i betragtning for valg af de emner, der vil danne testen, vil vi se, hvilke trin der er nødvendige for konstruktionen af en test:

  1. Specifikation af problemet.
  2. Skriv et bredt sæt af emner, og fejlagtigt.
  3. Valg af model.
  4. Test de forvalgte emner.
  5. Vælg de ideelle emner.
  6. Undersøg testets kvaliteter
  7. Fastlæg reglerne for fortolkning af den opnåede endelige test.

Fra de foregående punkter skal det bemærkes, at valg af model, punkt 3, afhænger af målene der forfølger testen, dataens karakteristika og kvalitet og de tilgængelige ressourcer. Når en model vælges, er de teoretiske betingelser, hvorunder den kan anvendes, allerede givet, ikke på trods af dets dyder de skal analyseres i hvert enkelt tilfælde og under specifikke omstændigheder. De egenskaber, der kan tilskrives de modeller, der udgør Varesvarsteori (TRI), kan blive påvirket af:

  • testens dimensionalitet den knappe tilgængelighed af prøven manglende computerressourcer. Der er en række præferencer Når vi bruger en eller de andre modeller, lad os se dem: normale sprænghovedmodeller bruges normalt ikke i applikationer, deres værdi er teoretisk.
  • Rasch: velegnet til vandret sammenligning (sammenlignelige tests ved sværhedsgrader med lignende evnefordelinger). at have forskellige former for den samme test. * 2 og 3 parametre: det er dem, der bedst tilpasser sig en række problemer.
  • for at opdage fejlagtige responsmønstre. til lodret matching af tests (sammenligner tests med forskellige sværhedsgrader og forskellige fordelinger for egnethed).

1 og 2 parametre:

  • velegnet til at konstruere en enkelt skala, så færdigheder kan sammenlignes på forskellige niveauer.

Valget af model ud over den ende, der skal forfølges, kan påvirkes af størrelsen på prøven; I tilfælde af at prøven er stor og repræsentativ, vil der ikke være noget problem, det være sig den klassiske eller latente egenskabsmodel. Men i TRI ( teori om varesvar ) en lille prøve tvinger til at vælge modeller med et lille antal parametre, selv den uniparametriske model.

Anvendelser af varesvarsteorien.

Lad os se, hvilke der er de mest almindelige applikationer: a) Udligning af tests, nogle gange er det Det er nødvendigt at relatere scoringer opnået i forskellige tests med to mulige formål:

  • Vandret udligning: det søger at opnå forskellige former for den samme test.
  • Lodret udligning: søger at opbygge en enkelt kapacitetsskala med forskellige sværhedsgrader. Med hensyn til udjævning af prøver introducerer Lord (1980) begrebet "egenkapital", hvilket indebærer, at for hvert emne to prøver De kan udskiftes, da det anvendes, at den ene eller den anden ikke vil ændre det niveau, der er beregnet til emne.

Undersøgelse af artikelforstyrrelse, en artikel er forudindtaget, når den i gennemsnit giver signifikant forskellige score i specifikke grupper, der antages at være en del af den samme befolkning.

Tilpassede eller gennemsnitlige testsVed hjælp af IRT kan der konstrueres individualiserede tests, der gør det muligt at udlede den rigtige værdi af det pågældende træk mere præcist. Varerne administreres sekventielt, præsentationen af ​​et eller andet emne afhænger af de svar, der er givet tidligere. Der er forskellige typer tilpassede tests, vi påpeger følgende:

  • totrinsprocedure, Lord 1971; Bertz og Weiss 1973 - 1974. Den samme test bestås først, og afhængigt af resultaterne administreres en anden test.
  • Procedure i flere faser, den er den samme som den foregående, kun at processen inkluderer flere faser.
  • Fast forgrenet model, Lord 1970, 1971, 1974; Mussio 1973. Alle emner løser det samme emne, ifølge svaret løses et sæt emner.
  • Variabel forgrenet model er baseret på uafhængigheden mellem emnerne og på egenskaberne af de maksimale sandsynlighedsestimatorer.

VarebankAt have et stort sæt emner er noget, der forbedrer testens kvalitet, men for dette skal emnerne først gennemgå en fejlretningsproces. For at klassificere varerne er det nødvendigt at tage højde for, hvad er det træk, som testen, som denne vare vil være en del af, er beregnet til at måle.

Fortolkning af scoringer.

Vægte: Formålet er at tilbyde et kontinuum for at kunne ordne, klassificere eller vide, hvad den relative størrelse af det evaluerede træk er; Dette vil give os mulighed for at etablere forskelle og ligheder mellem mennesker med hensyn til dette træk. Skalaerne anvendt i psykologi er: nominel, ordinal, interval og forhold; Disse skalaer er konstrueret ud fra resultaterne af testene, resultater kaldet "direkte scores".

Skriv: at typificere en test er at omdanne de direkte scores til andre, der let kan tolkes siden Typisk score afslører motivets position i forhold til gruppen og giver os mulighed for at lave intra og mellememner. Der er to former for skrivning:

  1. Lineært bevarer de formen på fordelingen og ændrer ikke størrelsen på sammenhængene.
  2. Ikke-lineær bevarer de ikke fordelingen eller størrelsen af ​​sammenhængene.

FITNESS SCALE I IRT er skalaen, der konstrueres, den skala, der svarer til niveauerne for evner; Denne skala er karakteriseret ved, at estimaterne og referencerne foretages direkte med hensyn til evnen og dens skala. Desuden afhænger denne evne kun af formens karakteristiske kurve. Blandt de mulige skalaer angiver vi to:

  1. Skala, foreslået af Woodcock (1978) og defineres ved følgende formel:
  2. WITS-skala, foreslået af Wright (1977), denne skala er en ændring af den foregående og er givet ved følgende forhold:

Denne artikel er kun informativ, i Psychology-Online har vi ikke beføjelse til at stille en diagnose eller anbefale en behandling. Vi inviterer dig til at gå til en psykolog for at behandle din særlige sag.

Hvis du vil læse flere artikler, der ligner Varesvarsteori - Anvendelser og test, anbefaler vi, at du indtaster vores kategori af Eksperimentel psykologi.

instagram viewer