Varesvarsteori

  • Jul 26, 2021
click fraud protection
Varesvarsteori - Applikasjoner og test

Innenfor feltet Teori om psykometriske tester Ulike kirkesamfunn har dukket opp som for tiden tar navnet "Item Response Theory" (F.M. Lord, 1980). Denne betegnelsen presenterer noen forskjeller med hensyn til den klassiske modellen: 1. - forholdet mellom forventet verdi av motivet og karakterpoeng (karakteristisk ansvarlig for verdiene), er det vanligvis ikke av typen lineær. 2.- Det tar sikte på å lage individuelle spådommer uten behov for å referere til egenskapene til den normative gruppen.

Du vil kanskje også like: Klassisk testteori

Indeks

  1. Teori om respons på elementet eller latente trekkmodeller i testteori
  2. Elementresponssteorimodeller (tri)
  3. Parameterestimering
  4. Test konstruksjon
  5. Anvendelser av varesvarsteori
  6. Tolkning av poeng

Teori om respons på elementet eller latente trekkmodeller i testteori.

Vi ser altså at denne varesvarsteorien gir muligheten til å beskrive både artikler og enkeltpersoner hver for seg. Den anser også at responsen som gis avhengig av, avhenger av nivået på evner han har i det vurderte området. Opprinnelsen til disse modellene skyldes Lazarsfeld, 1950, som introduserte begrepet "latent trait".

Herfra regnes det som at hver enkelt har en individuell parameter som er ansvarlig for egenskapene til subjektet, også kalt "trekk". Denne egenskapen er ikke direkte målbar, derfor kalles den enkelte parameteren en latent variabel. På tidspunktet for påføring av testene kan to forskjellige ting oppnås, den sanne poengsummen og dyktighetsskalaen; Dette oppnås hvis vi bestiller to tester om samme egnethet til samme gruppe.

I Latent Trait Theory eller Item Response Theory den sanne poengsummen er den forventede verdien av den observerte poengsummen. I følge Lord er ekte poengsum og kondisjon det samme, men uttrykt i forskjellige målestørrelser.

Elementresponssteorimodeller (tri)

Binomiale feilmodeller: de ble introdusert av Lord (1965), som antar at den observerte poengsummen tilsvarer antall riktige svar oppnådd i testen (hvis Varer har alle de samme vanskelighetene og har lokal uavhengighet, det vil si at sannsynligheten for å svare riktig på ett element ikke påvirkes av svarene gitt til andre varer. ).

Poisson-modeller: disse modellene passer for de testene som har et stort antall artikler og hvor sannsynligheten for et riktig eller feil svar er liten. Innen denne gruppen har vi igjen forskjellige modeller:

  1. Raschs Poisson-modell, hvis hypoteser er: hver test har et stort antall binære gjenstander som er lokalt uavhengige. sannsynligheten for feil i hvert element er liten. sannsynligheten for at motivet gjør en feil avhenger av to ting, testets vanskeligheter og motivets evne. additiviteten til vanskelighetene, forstått som resultatet av å blande to ekvivalente tester i en enkelt test, hvis vanskelighetsgrad er summen av vanskeligheter med de to innledende testene.
  2. Poisson-modell for å evaluere hastighet: Denne modellen ble også foreslått av Rasch og er preget av å ta hensyn til hastigheten i gjennomføringen av testen. Modellen kan vurderes på to måter: å telle antall feil og ord som er lest i en tidsenhet. tell antall feil som er gjort og tiden brukt på å fullføre lesingen av teksten. Sannsynligheten for å utføre et visst antall ord i en test (i) av et emne (j) i løpet av en tid (t)
  3. Normale stridshode-modeller: er en modell foreslått av Lord (1968), som brukes i tester med dikotome gjenstander og med en enkelt variabel til felles. Grafen vil være følgende: De grunnleggende forutsetningene som kjennetegner denne modellen er:
  • det latente variantrommet er endimensjonalt (k = 1).
  • lokal uavhengighet mellom intems.
  • beregningen for den latente variabelen kan velges slik at kurven for hvert element er det normale stridshodet.

Logistikkmodeller; Det er en modell som er veldig lik den forrige, men den har også flere fordeler med hensyn til den matematiske behandlingen. Logistikkfunksjonen har følgende form: Det er forskjellige logistikkmodeller avhengig av antall parametere de har:

  • 2-parameter logistisk modell, Birnbaum 1968, blant dens egenskaper nevner vi at den er endimensjonal, det er lokal uavhengighet, gjenstandene er dikotome osv.
  • 3-parameter logistisk modellHerre, det karakteriseres fordi sannsynligheten for å treffe ved å gjette er en faktor som vil påvirke utførelsen av testen. 4.3. 4-parameter logistisk modell: modell foreslått av McDonald 1967 og Barton-Lord i 1981, hvis formål er forklare de tilfellene der fag med høy kompetanse ikke svarer riktig på punkt.
  • Rasch logistisk modell: Denne modellen er den som har generert flest jobber til tross for at den har en ulempe, som er at tilpasningen til de reelle dataene er vanskeligere. Men i motsetning til dette, er fordelen som gjør den så mye brukt at den ikke krever store utvalgstørrelser for justeringen.

Parameterestimering.

Metoden som har blitt brukt mest er Maksimal sannsynlighet, sammen med denne metoden brukes numeriske tilnærmingsprosedyrer som Newton-Raphson og Scoring (Rao). Metoden for maksimal sannsynlighet er basert på prinsippet om å skaffe estimatorer for ukjente parametere som maksimerer sannsynligheten for å få slike prøver. I tillegg til maksimal sannsynlighet, brukes også Bayesian Estimation, basert på Bayes-setningen, som Den består av å innlemme all kjent informasjon, a priori, som er relevant for prosessen med å gjøre slutninger. En mer grundig studie av Bayesian-metoden for estimering av kondisjonsparametere er utført av Birnbaum (1996) og Owen (1975).

INFORMASJONSFUNKSJONER

Den beste testen som kan konstrueres er den som gir størst mengde informasjon om det latente trekket. Kvantifiseringen av denne informasjonen gjøres gjennom "informasjonsfunksjonene". Informasjonsfunksjonsformelen, Birnbaum 1968, er følgende: Det må tas i betraktning at informasjonen innhentet i en test er summen av informasjonen til hvert element, i tillegg avhenger ikke bidraget til hvert element av resten av elementene som utgjør test. Generelt sett kan vi si at informasjonen, i alle modeller:

  • varierer med treningsnivå.
  • jo større kurvens helling, jo mer informasjon.
  • det avhenger av variansen til poengene, jo høyere det er, desto mindre informasjon.

Test konstruksjon.

Den første oppgaven og en av de viktigste når du konstruerer en test er valg av elementer, forutgående enighet om de teoretiske forutsetningene som skal definere egenskapen som testen har til hensikt å måle. Konseptet "Elementanalyse" refererer til settet med formelle prosedyrer som utføres for å velge de elementene som til slutt vil danne testen. Informasjonen som anses som mest relevant angående varene er:

  1. Vanskeligheter, prosentandel av individer som får det riktig.
  2. Diskriminering, korrelasjon av hvert element med den totale poengsummen på testen.
  3. Distraktorer eller feilanalyse, deres innflytelse er relevant, påvirker varens vanskeligheter og fører til at diskrimineringsverdiene blir undervurdert.

Ved etablering av indikatorer for de forskjellige indeksene brukes vanligvis noen statistikker eller indekser, hvorav følgende er mest brukt:

Vanskelighetsindeks Indeks for diskriminering Pålitelighetsindeks Gyldighetsindeks Å vite indeksene som skal tas i betraktning for utvalg av elementene som skal danne testen, skal vi se hvilke trinn som er nødvendige for konstruksjonen av en prøve:

  1. Spesifikasjon av problemet.
  2. Liste et bredt sett med elementer og feilsøk dem.
  3. Valg av modell.
  4. Test de forhåndsvalgte elementene.
  5. Velg de ideelle elementene.
  6. Studer testens kvaliteter
  7. Fastsett regler for tolkning av den endelige oppnådde testen.

Fra de foregående punktene skal det bemerkes at valg av modell, punkt 3, vil avhenge av målene som forfølger testen, egenskapene og kvaliteten på dataene og de ressursene som er tilgjengelige. Når en modell er valgt, er de teoretiske forholdene der den kan brukes, allerede gitt, ikke til tross for dets dyder de må analyseres i hvert tilfelle og under spesifikke omstendigheter. Egenskapene som kan tilskrives de modellene som utgjør Varesvarsteori (TRI), kan påvirkes av:

  • testens dimensjonalitet den knappe tilgjengeligheten av prøven mangel på dataressurser Det er en rekke preferanser for La oss se dem når du bruker en eller de andre modellene: Vanlige stridshodemodeller brukes vanligvis ikke i applikasjoner, deres verdi er teoretisk.
  • Rasch: egnet for horisontal sammenligning (sammenlignbare tester på vanskelighetsnivå med lignende evnefordelinger). å ha forskjellige former for den samme testen. * 2 og 3 parametere: de er de som best kan tilpasse seg en rekke problemer.
  • for å oppdage feil svarmønster. for vertikal matching av tester (sammenligner tester med forskjellige vanskelighetsgrader og forskjellige fordelinger for evner).

1 og 2 parametere:

  • egnet for å konstruere en enkelt skala slik at ferdigheter kan sammenlignes på forskjellige nivåer.

Valget av modell, i tillegg til den enden som skal forfølges, kan påvirkes av størrelsen på prøven; I tilfelle prøven er stor og representativ, vil det ikke være noe problem, det være seg den klassiske eller latente egenskapsmodellen. Men i TRI ( varesvarsteori ) en liten prøve gjør det nødvendig å velge modeller med et lite antall parametere, til og med enparametermodellen.

Anvendelser av varesvarsteorien.

La oss se hvilke som er de vanligste applikasjonene: a) Utjevning av tester, noen ganger er det Det er nødvendig å relatere score oppnådd i forskjellige tester, med to mulige formål:

  • Horisontal utjevning: den søker å oppnå forskjellige former for den samme testen.
  • Vertikal utjevning: søker å bygge en enkelt egnethetsskala med forskjellige vanskelighetsgrader. Når det gjelder utjevning av tester, introduserer Lord (1980) konseptet "egenkapital", som innebærer at for hvert emne to tester De kan være utskiftbare siden det brukes at den ene eller den andre ikke vil endre nivået på evnen som ble estimert for Emne.

Studie av elementskjevhet, et element er partisk når det i gjennomsnitt gir betydelig forskjellige poeng i spesifikke grupper som antas å være en del av samme populasjon.

Tilpassede eller gjennomsnittlige testerVed hjelp av IRT kan det konstrueres individualiserte tester som gjør det mulig å utlede den faktiske verdien av det aktuelle trekket mer presist. Elementene administreres sekvensielt, presentasjonen av en eller annen vare vil avhenge av svarene som er gitt tidligere. Det er forskjellige typer tilpassede tester, vi peker på følgende:

  • totrinns prosedyre, Lord 1971; Bertz og Weiss 1973 - 1974. Den samme testen bestås først, og avhengig av resultatene blir en annen test administrert.
  • Prosedyre i flere trinn, den er den samme som den forrige, bare at prosessen inkluderer flere trinn.
  • Fast forgrenet modell, Lord 1970, 1971, 1974; Mussio 1973. Alle fagene løser den samme varen, ifølge svaret løses et sett med elementer.
  • Variabel forgrenet modell er basert på uavhengigheten mellom elementene og på egenskapene til maksimal sannsynlighetsestimatorer.

VarebankÅ ha et stort sett med ting er noe som vil forbedre kvaliteten på testen, men for dette må elementene først gå gjennom en feilsøkingsprosess. For å klassifisere varene, er det nødvendig å ta i betraktning hva som er egenskapen som testen som denne gjenstanden vil være en del av er ment å måle.

Tolkning av poeng.

Vekter: Hensikten er å tilby et kontinuum for å kunne bestille, klassifisere eller vite hva den relative størrelsen på det evaluerte trekket er; Dette vil tillate oss å etablere forskjeller og likheter i mennesker angående denne egenskapen. Vektene som brukes i psykologi er: nominell, ordinær, intervall og forhold; Disse skalaene er konstruert fra resultatene av testene, resultater kalt "direkte score".

Skriv: å typisere en test er å forvandle direkte score til andre som lett kan tolkes siden Typisk poengsum vil avsløre motivets posisjon i forhold til gruppen, og vil tillate oss å gjøre intra og mellomfag. Det er to typer skriving:

  1. Lineær, de bevarer formen på fordelingen og endrer ikke størrelsen på sammenhengen.
  2. Ikke-lineær, de bevarer ikke fordelingen eller størrelsen på sammenhengen.

FITNESS SCALE I IRT er skalaen som er konstruert skalaen som tilsvarer nivåene på egnethet; Denne skalaen er preget av at estimatene og referansene er gjort direkte med tanke på egnethet og dens skala. Videre avhenger denne evnen bare av formen på den karakteristiske kurven til varene. Blant de mulige skalaene indikerer vi to:

  1. Skala, foreslått av Woodcock (1978) og er definert av følgende formel:
  2. WITS-skala, foreslått av Wright (1977), denne skalaen er en modifikasjon av den forrige og er gitt av følgende forhold:

Denne artikkelen er bare informativ, i Psychology-Online har vi ikke makten til å stille en diagnose eller anbefale en behandling. Vi inviterer deg til å gå til en psykolog for å behandle din spesielle sak.

Hvis du vil lese flere artikler som ligner på Varesvarsteori - Applikasjoner og test, anbefaler vi at du skriver inn vår kategori av Eksperimentell psykologi.

instagram viewer