項目反応理論

  • Jul 26, 2021
click fraud protection
項目反応理論-アプリケーションとテスト

の分野内 心理測定テストの理論 現在、「項目反応理論」(F.M. Lord、1980)という名前のさまざまな宗派が登場しています。 この宗派は、古典的なモデルに関していくつかの違いを示します:1.-期待値間の関係 主題と特性スコア(値に責任がある特性)の、それは通常です 線形。 2.-規範的なグループの特性を参照する必要なしに、個々の予測を行うことを意図しています。

あなたも好きかも: 古典的なテスト理論

インデックス

  1. テスト理論における項目または潜在特性モデルへの応答の理論
  2. 項目反応理論モデル(tri)
  3. パラメータ推定
  4. テスト建設
  5. 項目反応理論の応用
  6. スコアの解釈

テスト理論における項目または潜在特性モデルへの応答の理論。

したがって、この項目反応理論は、項目と個人の両方を別々に説明する可能性を提供することがわかります。 それはまた、被験者によって与えられる反応は、考慮された範囲内で彼が持っている能力のレベルに依存すると考えています。 これらのモデルの起源は、「潜在特性」という用語を導入した1950年のラザースフェルドによるものです。

ここから、各個人は、「特性」とも呼ばれる、対象の特性に関与する個別のパラメータを持っていると見なされます。 この特性は直接測定できないため、個々のパラメーターは潜在変数と呼ばれます。 テストを適用するとき、2つの異なるものを取得できます。真のスコアと適性スケールです。 これは、同じグループに対して同じ適性について2つのテストに合格した場合に達成されます。

潜在特性理論または項目反応理論において 真のスコアは、観測されたスコアの期待値です。 主によれば、真のスコアとフィットネスは同じものですが、異なる尺度で表現されます。

項目反応理論モデル(tri)

二項誤差モデル:Lord(1965)によって導入されました。これは、観測されたスコアがテストで得られた正解の数に対応することを前提としています( すべてのアイテムは同じ難易度を持ち、ローカルに独立しています。つまり、あるアイテムに正しく答える確率は、他のアイテムに与えられた答えの影響を受けません。 ).

ポアソンモデル:これらのモデルは、項目数が多く、正解または不正解の確率が低いテストに適しています。 このグループ内には、さまざまなモデルがあります。

  1. ラッシュのポアソンモデル、その仮説は次のとおりです。各テストには、ローカルで独立した多数のバイナリ項目があります。 各項目のエラーの可能性は小さいです。 被験者が誤りを犯す確率は、テストの難易度と被験者の能力の2つに依存します。 難易度の加法性。2つの同等のテストを1つのテストに混合した結果として理解されます。この難易度は、2つの初期テストの難易度の合計です。
  2. 速度を評価するためのポアソンモデル: このモデルもRaschによって提案され、テストの実行速度を考慮に入れることを特徴としています。 このモデルは、2つの方法で考えることができます。1つは、間違いの数を数えること、もう1つは、単位時間に読み取られた単語を数えることです。 間違いの数とテキストの読みを完了するのに費やした時間を数えます。 時間(t)の間に被験者(j)によってテスト(i)の特定の数の単語を実行する確率
  3. 通常の弾頭モデル:は、Lord(1968)によって提案されたモデルであり、二分項目と共通の単一変数を使用したテストで使用されます。 そのグラフは次のようになります。このモデルを特徴付ける基本的な仮定は次のとおりです。
  • 潜在的なバリアント空間は1次元です(k = 1)。
  • インテム間のローカル独立。
  • 潜在変数のメトリックは、各アイテムの曲線が通常の弾頭になるように選択できます。

ロジスティクスモデル; これは前のモデルと非常によく似たモデルですが、数学的処理に関しても多くの利点があります。 ロジスティック関数は次の形式を取ります。パラメーターの数に応じて、さまざまなロジスティックモデルがあります。

  • 2パラメーターロジスティックモデル、Birnbaum 1968、その特徴の中で、それは一次元であり、局所的な独立性があり、アイテムは二分されているなどと述べています。
  • 3パラメーターロジスティックモデル主よ、推測によるヒットの確率がテストのパフォーマンスに影響を与える要因であるため、それは特徴づけられます。 4.3。 4パラメータロジスティックモデル:マクドナルド1967とバートンロードによって1981年に提案されたモデル。その目的は 適性の高い被験者が正しく反応しない場合を説明する 項目。
  • Raschロジスティックモデル: このモデルは、実際のデータへの調整がより難しいという欠点があるにもかかわらず、最も多くのジョブを生成したモデルです。 しかし、これとは対照的に、これを非常に広く使用する利点は、調整に大きなサンプルサイズを必要としないことです。

パラメータ推定。

最も使用されている方法は最尤法であり、この方法とともに、ニュートンラプソン法やスコアリング(Rao)などの数値近似手順が使用されます。 最尤法は、そのようなサンプルを取得する確率を最大化する未知のパラメーターの推定量を取得するという原則に基づいています。 最尤法に加えて、ベイズの定理に基づいたベイズ推定も使用されます。 これは、推論を行うプロセスに関連するすべての既知の情報を事前に組み込むことで構成されます。 フィットネスパラメータを推定するためのベイズ法のより詳細な研究は、Birnbaum(1996)とOwen(1975)によって実行されています。

情報機能

構築できる最良のテストは、潜在的な特性に関する最大量の情報を提供するテストです。 この情報の定量化は、「情報機能」を通じて行われます。 情報関数の式、Birnbaum 1968は、次のとおりです。テストで得られた情報を考慮に入れる必要があります。 は各アイテムの情報の合計です。さらに、各アイテムの貢献度は、を構成する残りのアイテムに依存しません。 テスト。 一般的に言えば、すべてのモデルの情報は次のように言えます。

  • フィットネスレベルによって異なります。
  • 曲線の傾きが大きいほど、より多くの情報が得られます。
  • スコアの分散に依存しますが、スコアが高いほど、情報は少なくなります。

建設をテストします。

最初のタスク また、テストを構築する際に最も重要なことの1つは、テストが測定しようとしている特性を定義する理論的な仮定の前に、項目を選択することです。 「アイテム分析」という概念は、最終的にテストを形成するアイテムを選択するために実行される一連の正式な手順を指します。 アイテムに関して最も関連性があると考えられる情報は次のとおりです。

  1. アイテムの難易度、それを正しく理解している個人の割合。
  2. 識別、各項目とテストの合計スコアとの相関。
  3. 気晴らしやエラー分析、それらの影響は関連性があり、アイテムの難易度に影響を与え、識別値を過小評価する原因になります。

さまざまなインデックスの指標を確立する場合、通常、いくつかの統計またはインデックスが使用されます。最もよく使用されるのは次のとおりです。

難易度インデックスのインデックス 差別 信頼性指標妥当性指標考慮しなければならない指標を知る テストを形成する項目の選択、私たちはの構築に必要な手順を確認します テスト:

  1. 問題の仕様。
  2. アイテムの大規模なセットをリストし、それらをデバッグします。
  3. モデルの選択。
  4. 事前に選択したアイテムをテストします。
  5. 理想的なアイテムを選択してください。
  6. テストの質を研究する
  7. 得られた最終テストの解釈の基準を確立します。

前のポイントから、モデルの選択、ポイント3は目的に依存することに注意する必要があります これは、データの特性と品質、および利用可能なリソースのテストを追求します。 モデルが選択されると、それを適用できる理論的条件はすでに与えられていますが、 その美徳にもかかわらず それらはそれぞれの場合と特定の状況で分析されなければなりません。 を構成するこれらのモデルに起因するプロパティ 項目反応理論(TRI)、影響を受ける可能性があります:

  • テストの次元性サンプルの可用性が不足しているコンピューターリソースが不足している一連の設定があります いずれかのモデルを使用する場合は、それらを見てみましょう。通常の弾頭モデルは通常、アプリケーションでは使用されません。その値は次のとおりです。 理論的。
  • Rasch:水平比較に適しています(同様の適性分布を持つ難易度での比較可能なテスト)。 同じテストの異なる形式を持つこと。 * 2および3パラメーター:これらは、さまざまな問題に最適に適応するパラメーターです。
  • 誤った応答パターンを検出します。 テストの垂直マッチング用(難易度が異なり、適性の分布が異なるテストを比較します)。

1および2パラメーター:

  • スキルをさまざまなレベルで比較できるように、単一のスケールを構築するのに適しています。

モデルの選択は、追求する目的に加えて、サンプルのサイズによって影響を受ける可能性があります。 サンプルが大きくて代表的なものである場合、それが古典的または潜在的特性モデルであるかどうかにかかわらず、問題はありません。 しかし、TRIでは( 項目反応理論 )サンプルが少ないと、ユニパラメトリックモデルであっても、パラメーターの数が少ないモデルを選択する必要があります。

項目反応理論の応用。

最も一般的なアプリケーションを見てみましょう:a)テストマッチング、時にはそれは 異なるテストで得られたスコアを2つの可能なものと関連付ける必要があります 目的:

  • 水平均等化:同じテストのさまざまな形式を取得しようとします。
  • 垂直均等化:難易度の異なる単一の適性尺度を構築しようとしています。 テストの均等化に関して、Lord(1980)は「公平性」の概念を導入しています。これは、各被験者に対して2つのテストを意味します。 どちらかが推定された適性のレベルを変更しないことが適用されるので、それらは交換可能である可能性があります。 件名。

アイテムバイアスの研究。アイテムは、平均して、同じ母集団の一部であると想定される特定のグループで大幅に異なるスコアを与える場合にバイアスされます。

適応テストまたは平均テストIRTを使用すると、問題の特性の真の値をより正確に推測できるようにする個別のテストを構築できます。 アイテムは順番に管理され、1つのアイテムまたは別のアイテムの表示は前に与えられた回答に依存します。 適応テストにはさまざまな種類があり、次の点を指摘します。

  • 二段階の手順、主1971; Bertz and Weiss 1973-1974。同じテストが最初に合格し、結果に応じて、2番目のテストが実施されます。
  • いくつかの段階の手順。前の手順と同じですが、プロセスにさらに多くの段階が含まれる点が異なります。
  • 固定分岐モデル、Lord 1970、1971、1974; ムシオ1973。 すべての科目が同じ項目を解きます。答えによれば、一連の項目が解かれます。
  • 可変分岐モデルは、アイテム間の独立性と最尤推定量のプロパティに基づいています。

アイテムバンクアイテムのセットが大きいと、テストの品質が向上しますが、このためには、アイテムは最初にデバッグプロセスを実行する必要があります。 アイテムを分類するために、このアイテムが含まれるテストが測定することを意図している特性が何であるかを考慮する必要があります。

スコアの解釈。

はかり:その目的は、評価された特性の相対的な大きさを順序付け、分類、または知ることができる連続体を提供することです。 これにより、この特性に関する人々の相違点と類似点を確立することができます。 心理学で使用されるスケールは次のとおりです。名義、順序、間隔、比率。 これらのスケールは、「直接スコア」と呼ばれるテストの結果から作成されます。

類型化:テストを代表することは、直接スコアを他のスコアに変換することです。 代表的なスコアは、グループに対する被験者の位置を明らかにし、私たちがイントラとを作ることを可能にします 被験者間。 入力には2つの形式があります。

  1. 線形であり、分布の形状を保持し、相関のサイズを変更しません。
  2. 非線形であり、相関の分布やサイズを保持しません。

フィットネススケールIRTでは、構築されるスケールは適性のレベルに対応するスケールです。 この尺度は、適性とその尺度に関して直接推定と参照が行われるという特徴があります。 さらに、推定されるこの適性は、アイテムの特性曲線の形状にのみ依存します。 可能なスケールの中で、2つを示します。

  1. スケール、Woodcock(1978)によって提案され、次の式で定義されます。
  2. Wright(1977)によって提案されたWITSスケール。このスケールは前のスケールを修正したものであり、次の関係によって与えられます。

この記事は単に有益なものであり、心理学-オンラインでは、診断を下したり、治療を推奨したりする力はありません。 私たちはあなたの特定のケースを治療するために心理学者に行くことを勧めます。

に似た記事をもっと読みたい場合 項目反応理論-アプリケーションとテスト、次のカテゴリに入力することをお勧めします 実験心理学.

instagram viewer