ทฤษฎีการตอบสนองรายการ

  • Jul 26, 2021
click fraud protection
ทฤษฎีการตอบสนองรายการ - การใช้งานและการทดสอบ

ภายในสาขา ทฤษฎีการทดสอบไซโครเมทริก นิกายต่างๆ ปรากฏว่าในปัจจุบันใช้ชื่อ "ทฤษฎีการตอบสนองรายการ" (F.M. Lord, 1980) นิกายนี้แสดงความแตกต่างบางประการเกี่ยวกับแบบจำลองคลาสสิก: 1.- ความสัมพันธ์ระหว่างค่าที่คาดหวัง ของคะแนนวิชาและคุณสมบัติ (ลักษณะรับผิดชอบต่อค่า) มักจะไม่ใช่ประเภท เชิงเส้น 2.- ตั้งใจที่จะทำการทำนายรายบุคคลโดยไม่จำเป็นต้องอ้างถึงลักษณะของกลุ่มบรรทัดฐาน

คุณอาจชอบ: ทฤษฎีการทดสอบคลาสสิก

ดัชนี

  1. ทฤษฎีการตอบสนองต่อรายการหรือแบบจำลองลักษณะแฝงในทฤษฎีการทดสอบ
  2. แบบจำลองทฤษฎีการตอบสนองรายการ (ไตร)
  3. การประมาณค่าพารามิเตอร์
  4. ทดสอบการก่อสร้าง
  5. การประยุกต์ใช้ทฤษฎีการตอบสนองรายการ
  6. การตีความคะแนน

ทฤษฎีการตอบสนองต่อรายการหรือแบบจำลองลักษณะแฝงในทฤษฎีการทดสอบ

ดังนั้น เราจึงเห็นว่าทฤษฎีการตอบสนองรายการนี้ให้ความเป็นไปได้ในการอธิบายทั้งรายการและรายบุคคลแยกกัน นอกจากนี้ยังพิจารณาด้วยว่าการตอบสนองที่ได้รับจากผู้ทดสอบนั้นขึ้นอยู่กับระดับความสามารถที่เขามีอยู่ในช่วงที่พิจารณา ต้นกำเนิดของโมเดลเหล่านี้เกิดจาก Lazarsfeld, 1950 ผู้ซึ่งนำเสนอคำว่า "latent trait"

จากที่นี่ถือว่าแต่ละคนมีพารามิเตอร์เฉพาะตัวซึ่งรับผิดชอบลักษณะของตัวแบบ เรียกอีกอย่างว่า "ลักษณะ" ลักษณะนี้ไม่สามารถวัดได้โดยตรง ดังนั้นพารามิเตอร์แต่ละตัวจึงเรียกว่าตัวแปรแฝง ในขณะที่ใช้การทดสอบ สามารถรับได้สองสิ่งที่แตกต่างกัน ได้แก่ คะแนนจริงและระดับความถนัด สิ่งนี้สำเร็จได้หากเราผ่านการทดสอบสองครั้งเกี่ยวกับความถนัดเดียวกันในกลุ่มเดียวกัน

ในทฤษฎีลักษณะแฝงหรือทฤษฎีการตอบสนองรายการ คะแนนที่แท้จริงคือค่าที่คาดหวังของคะแนนที่สังเกตได้ ตามคำบอกเล่าของลอร์ด คะแนนที่แท้จริงและความฟิตเป็นสิ่งเดียวกัน แต่แสดงในระดับการวัดที่ต่างกัน

แบบจำลองทฤษฎีการตอบสนองรายการ (ไตร)

แบบจำลองข้อผิดพลาดทวินาม: พวกเขาได้รับการแนะนำโดยลอร์ด (1965) ซึ่งถือว่าคะแนนที่สังเกตได้นั้นสอดคล้องกับจำนวนคำตอบที่ถูกต้องที่ได้รับในการทดสอบ (ซึ่ง ทุกข้อมีความยากเท่ากันและมีความเป็นอิสระของท้องถิ่น กล่าวคือ ความน่าจะเป็นที่จะตอบข้อใดข้อหนึ่งอย่างถูกต้องจะไม่ได้รับผลกระทบจากคำตอบที่มอบให้กับข้ออื่น ).

โมเดลปัวซอง: โมเดลเหล่านี้เหมาะสำหรับการทดสอบที่มีรายการจำนวนมากและมีความเป็นไปได้ที่จะตอบถูกหรือผิดมีน้อย ภายในกลุ่มนี้ ในทางกลับกัน เรามีโมเดลที่แตกต่างกัน:

  1. โมเดลปัวซองของ Raschซึ่งมีสมมติฐานคือ การทดสอบแต่ละรายการมีรายการไบนารีจำนวนมากที่ไม่ขึ้นกับภายในเครื่อง ความน่าจะเป็นของข้อผิดพลาดในแต่ละรายการมีน้อย ความน่าจะเป็นที่ตัวแบบทำผิดพลาดขึ้นอยู่กับสองสิ่ง ความยากของการทดสอบและความสามารถของตัวแบบ การเพิ่มเติมของความยาก ซึ่งเข้าใจว่าเป็นผลมาจากการผสมการทดสอบที่เทียบเท่ากันสองการทดสอบในการทดสอบเดียว ความยากคือผลรวมของความยากของการทดสอบเริ่มต้นทั้งสองแบบ
  2. โมเดลปัวซองเพื่อประเมินความเร็ว: โมเดลนี้เสนอโดย Rasch และมีลักษณะเฉพาะโดยคำนึงถึงความเร็วในการดำเนินการทดสอบ แบบจำลองนี้สามารถพิจารณาได้สองวิธี: การนับจำนวนข้อผิดพลาดที่ทำและคำที่อ่านในหน่วยเวลา นับจำนวนข้อผิดพลาดที่เกิดขึ้นและเวลาที่ใช้ในการอ่านข้อความให้เสร็จ ความน่าจะเป็นของการทดสอบคำจำนวนหนึ่ง (i) โดยหัวเรื่อง (j) ในช่วงเวลา (t)
  3. โมเดลหัวรบปกติ: เป็นแบบจำลองที่เสนอโดย Lord (1968) ซึ่งใช้ในการทดสอบกับรายการแบบสองขั้วและมีตัวแปรเดียวที่เหมือนกัน กราฟจะเป็นดังนี้: สมมติฐานพื้นฐานที่กำหนดลักษณะของแบบจำลองนี้คือ:
  • พื้นที่ตัวแปรแฝงเป็นหนึ่งมิติ (k = 1)
  • ความเป็นอิสระในท้องถิ่นระหว่าง intem
  • คุณสามารถเลือกเมตริกสำหรับตัวแปรแฝง เพื่อให้เส้นโค้งสำหรับแต่ละรายการเป็นหัวรบปกติ

โมเดลโลจิสติกส์; มันเป็นแบบจำลองที่คล้ายกับรุ่นก่อนมาก แต่ก็มีข้อดีมากกว่าในแง่ของการรักษาทางคณิตศาสตร์ ฟังก์ชันลอจิสติกส์มีรูปแบบดังต่อไปนี้: มีโมเดลลอจิสติกส์ที่แตกต่างกันตามจำนวนพารามิเตอร์ที่มี:

  • โมเดลโลจิสติกแบบ 2 พารามิเตอร์, Birnbaum 1968 ท่ามกลางลักษณะเฉพาะที่เรากล่าวถึงว่าเป็นมิติเดียว มีความเป็นอิสระในท้องถิ่น สิ่งของต่างๆ เป็นแบบสองขั้ว ฯลฯ.
  • โมเดลลอจิสติกส์ 3 พารามิเตอร์พระเจ้า มีลักษณะเฉพาะเพราะความน่าจะเป็นที่จะตีด้วยการเดาเป็นปัจจัยที่จะส่งผลต่อประสิทธิภาพของการทดสอบ 4.3. โมเดลลอจิสติกส์ 4 พารามิเตอร์: แบบจำลองที่เสนอโดย McDonald 1967 และ Barton-Lord ในปี 1981 โดยมีวัตถุประสงค์คือ อธิบายกรณีที่วิชาที่มีความถนัดสูงไม่ตอบสนองต่อ .อย่างถูกต้อง สิ่งของ.
  • โมเดลโลจิสติก Rasch: โมเดลนี้เป็นโมเดลที่สร้างจำนวนงานได้มากที่สุด แม้ว่าจะมีข้อเสียคือ การปรับข้อมูลจริงทำได้ยากกว่า แต่ในทางตรงกันข้าม ข้อดีที่ทำให้มีการใช้กันอย่างแพร่หลายคือไม่ต้องใช้ตัวอย่างขนาดใหญ่ในการปรับ

การประมาณค่าพารามิเตอร์

วิธีที่ใช้มากที่สุดคือความเป็นไปได้สูงสุด ร่วมกับวิธีนี้จะใช้วิธีการประมาณตัวเลข เช่น Newton-Raphson และ Scoring (Rao) วิธีความเป็นไปได้สูงสุดขึ้นอยู่กับหลักการของการได้รับตัวประมาณของพารามิเตอร์ที่ไม่รู้จักซึ่งเพิ่มความเป็นไปได้สูงสุดในการได้ตัวอย่างดังกล่าว นอกจากค่าความน่าจะเป็นสูงสุดแล้ว ยังใช้การประมาณแบบเบย์ด้วย โดยอิงตามทฤษฎีบทเบย์ ซึ่ง ประกอบด้วยการรวมข้อมูลที่รู้จักทั้งหมด ลำดับความสำคัญ ที่เกี่ยวข้องกับกระบวนการอนุมาน Birnbaum (1996) และ Owen (1975) ได้ทำการศึกษาเชิงลึกเกี่ยวกับวิธี Bayesian ในการประมาณค่าพารามิเตอร์ฟิตเนส

ฟังก์ชั่นข้อมูล

การทดสอบที่ดีที่สุดที่สามารถสร้างได้คือการทดสอบที่ให้ข้อมูลจำนวนมากที่สุดเกี่ยวกับลักษณะที่แฝงอยู่ การหาปริมาณของข้อมูลนี้กระทำผ่าน "ฟังก์ชันข้อมูล" สูตรฟังก์ชันข้อมูล Birnbaum 1968 มีดังต่อไปนี้ ต้องคำนึงว่าข้อมูลที่ได้รับจากการทดสอบ คือ ผลรวมของข้อมูลแต่ละรายการ นอกจากนี้ การมีส่วนร่วมของแต่ละรายการไม่ได้ขึ้นอยู่กับรายการที่เหลือที่ประกอบเป็น ทดสอบ. โดยทั่วไปเราสามารถพูดได้ว่าข้อมูลในทุกรุ่น:

  • แตกต่างกันไปตามระดับความฟิต
  • ยิ่งความชันของเส้นโค้งมากเท่าไรก็ยิ่งมีข้อมูลมากขึ้นเท่านั้น
  • ขึ้นอยู่กับความแปรปรวนของคะแนน ยิ่งสูง ข้อมูลยิ่งน้อย

ทดสอบการก่อสร้าง

ภารกิจแรก และสิ่งสำคัญที่สุดอย่างหนึ่งในการสร้างการทดสอบคือการเลือกรายการ ข้อตกลงก่อนหน้าของสมมติฐานทางทฤษฎีที่ควรกำหนดลักษณะที่การทดสอบตั้งใจที่จะวัด แนวคิด "การวิเคราะห์รายการ" หมายถึงชุดของขั้นตอนที่เป็นทางการซึ่งดำเนินการเพื่อเลือกรายการเหล่านั้นซึ่งจะสร้างการทดสอบในที่สุด ข้อมูลที่ถือว่ามีความเกี่ยวข้องมากที่สุดเกี่ยวกับรายการคือ:

  1. ความยากของรายการ เปอร์เซ็นต์ของผู้ทำถูก
  2. การเลือกปฏิบัติ ความสัมพันธ์ของแต่ละรายการกับคะแนนรวมในการทดสอบ
  3. สิ่งรบกวนหรือการวิเคราะห์ข้อผิดพลาดอิทธิพลของพวกเขามีความเกี่ยวข้องส่งผลต่อความยากของรายการและทำให้ค่าการเลือกปฏิบัติถูกประเมินต่ำไป

เมื่อสร้างตัวบ่งชี้ของดัชนีต่าง ๆ มักจะใช้สถิติหรือดัชนีบางตัว ต่อไปนี้ถูกใช้มากที่สุด:

ดัชนีความยากของ การเลือกปฏิบัติ ดัชนีความน่าเชื่อถือ ดัชนีความถูกต้อง รู้จักดัชนีที่ต้องนำมาพิจารณาสำหรับ การคัดเลือกสิ่งของที่จะเข้าทำแบบทดสอบ เราจะดูขั้นตอนที่จำเป็นสำหรับการก่อสร้าง การทดสอบ:

  1. สเปคของปัญหา
  2. ระบุรายการชุดกว้างๆ และแก้ไขข้อบกพร่อง
  3. ทางเลือกของรุ่น
  4. ทดสอบรายการที่เลือกไว้ล่วงหน้า
  5. เลือกรายการในอุดมคติ
  6. ศึกษาคุณสมบัติของการทดสอบ
  7. กำหนดกฎการตีความการทดสอบขั้นสุดท้ายที่ได้รับ

จากข้อที่แล้วควรสังเกตว่าการเลือกรุ่น ข้อ 3 จะขึ้นอยู่กับวัตถุประสงค์ ที่ดำเนินการทดสอบ คุณลักษณะและคุณภาพของข้อมูล และทรัพยากรที่มีอยู่ เมื่อเลือกแบบจำลองแล้ว เงื่อนไขทางทฤษฎีที่สามารถนำมาใช้ได้นั้นถูกกำหนดไว้แล้ว ไม่ใช่ ทั้งๆ ที่สรรพคุณของมัน จะต้องวิเคราะห์ในแต่ละกรณีและสถานการณ์เฉพาะ คุณสมบัติที่เป็นของรุ่นเหล่านั้นที่ประกอบขึ้นเป็น ทฤษฎีการตอบสนองรายการ (TRI)อาจได้รับผลกระทบจาก:

  • มิติของการทดสอบ ความพร้อมใช้งานที่หายากของตัวอย่างที่ขาดทรัพยากรคอมพิวเตอร์ มีชุดของการตั้งค่าเพื่อ เมื่อใช้รุ่นใดรุ่นหนึ่งเรามาดูกัน: โมเดลหัวรบปกติมักไม่ได้ใช้ในการใช้งานค่า ทางทฤษฎี
  • Rasch: เหมาะสำหรับการเปรียบเทียบในแนวนอน (การทดสอบเปรียบเทียบในระดับความยากพร้อมการกระจายความถนัดที่คล้ายคลึงกัน) ให้มีรูปแบบที่แตกต่างกันของการทดสอบเดียวกัน * 2 และ 3 พารามิเตอร์: เป็นพารามิเตอร์ที่ปรับให้เข้ากับปัญหาที่หลากหลายได้ดีที่สุด
  • เพื่อตรวจจับรูปแบบการตอบสนองที่ผิดพลาด สำหรับการจับคู่แบบทดสอบในแนวตั้ง (เปรียบเทียบการทดสอบที่มีระดับความยากต่างกันและการแจกแจงความถนัดที่แตกต่างกัน)

1 และ 2 พารามิเตอร์:

  • เหมาะสำหรับสร้างมาตราส่วนเดียวเพื่อให้สามารถเปรียบเทียบทักษะในระดับต่างๆ

ทางเลือกของแบบจำลอง นอกเหนือจากจุดสิ้นสุดที่ต้องการติดตาม อาจได้รับผลกระทบจากขนาดของกลุ่มตัวอย่าง ในกรณีที่กลุ่มตัวอย่างมีขนาดใหญ่และเป็นตัวแทน จะไม่มีปัญหา ไม่ว่าจะเป็นแบบจำลองลักษณะคลาสสิกหรือลักษณะแฝง แต่ในตรี ( ทฤษฎีการตอบสนองรายการ ) ตัวอย่างขนาดเล็กบังคับให้เลือกแบบจำลองที่มีพารามิเตอร์จำนวนน้อย แม้แต่แบบจำลองที่มีพารามิเตอร์เดียว

การประยุกต์ใช้ทฤษฎีการตอบสนองรายการ

เรามาดูกันว่าแอปพลิเคชั่นใดที่พบบ่อยที่สุด: ก) การทดสอบที่เท่าเทียมกันบางครั้งก็เป็น มีความจำเป็นต้องเชื่อมโยงคะแนนที่ได้จากการทดสอบที่แตกต่างกัน โดยมีความเป็นไปได้สองข้อ วัตถุประสงค์:

  • การปรับแนวนอน: มันพยายามที่จะได้รับรูปแบบที่แตกต่างกันของการทดสอบเดียวกัน
  • การปรับสมดุลในแนวตั้ง: มันพยายามที่จะสร้างระดับความถนัดเดียวที่มีระดับความยากต่างกัน เกี่ยวกับการทดสอบความเท่าเทียมกัน Lord (1980) ได้แนะนำแนวคิดของ "ความเท่าเทียม" ซึ่งหมายความว่าสำหรับแต่ละวิชาจะมีการทดสอบสองครั้ง สามารถใช้แทนกันได้ เนื่องจากมีการใช้อย่างใดอย่างหนึ่งจะไม่เปลี่ยนระดับความถนัดที่ประเมินไว้สำหรับ เรื่อง.

การศึกษาความเอนเอียงของรายการ รายการมีความเอนเอียงโดยเฉลี่ยเมื่อให้คะแนนที่แตกต่างกันอย่างมีนัยสำคัญในกลุ่มเฉพาะที่ถือว่าเป็นส่วนหนึ่งของประชากรกลุ่มเดียวกัน

แบบทดสอบดัดแปลงหรือแบบทดสอบทั่วไปด้วยวิธีการของ IRT การทดสอบแบบรายบุคคลสามารถสร้างขึ้นได้เพื่อให้ค่าที่แท้จริงของคุณลักษณะที่เป็นปัญหาสามารถอนุมานได้อย่างแม่นยำมากขึ้น รายการจะได้รับการจัดการตามลำดับการนำเสนอของรายการใดรายการหนึ่งจะขึ้นอยู่กับคำตอบที่ให้ไว้ก่อนหน้านี้ มีการทดสอบดัดแปลงหลายประเภท เราชี้ให้เห็นสิ่งต่อไปนี้:

  • ขั้นตอนสองขั้นตอน ลอร์ด 1971; Bertz และ Weiss 1973 - 1974 การทดสอบเดียวกันจะผ่านก่อนและจะมีการทดสอบครั้งที่สองขึ้นอยู่กับผลลัพธ์
  • ขั้นตอนในหลายขั้นตอนจะเหมือนกับขั้นตอนก่อนหน้าเท่านั้นที่กระบวนการประกอบด้วยขั้นตอนเพิ่มเติม
  • รูปแบบกิ่งก้านคงที่ Lord 1970, 1971, 1974; มุสซิโอ 1973. วิชาทั้งหมดแก้รายการเดียวกันตามคำตอบชุดของรายการได้รับการแก้ไข
  • โมเดลแบบแยกสาขาของตัวแปรขึ้นอยู่กับความเป็นอิสระระหว่างไอเท็มและคุณสมบัติของตัวประมาณความน่าจะเป็นสูงสุด

รายการธนาคารการมีชุดไอเท็มจำนวนมากเป็นสิ่งที่จะช่วยปรับปรุงคุณภาพของการทดสอบ แต่สำหรับสิ่งนี้ รายการต้องผ่านกระบวนการดีบักก่อน ในการจำแนกประเภทรายการ จำเป็นต้องพิจารณาว่าลักษณะใดที่การทดสอบนี้เป็นส่วนหนึ่งของวัตถุประสงค์ในการวัด

การตีความคะแนน

ตาชั่ง: จุดประสงค์คือเพื่อให้เกิดความต่อเนื่องในการสั่ง จำแนก หรือรู้ว่าคุณลักษณะที่ประเมินนั้นมีขนาดสัมพัทธ์ขนาดไหน สิ่งนี้จะช่วยให้เราสามารถสร้างความแตกต่างและความคล้ายคลึงกันในผู้คนเกี่ยวกับลักษณะนี้ มาตราส่วนที่ใช้ในจิตวิทยา ได้แก่ เล็กน้อย ลำดับ ช่วงเวลาและอัตราส่วน เครื่องชั่งเหล่านี้สร้างขึ้นจากผลการทดสอบ ผลลัพธ์ที่เรียกว่า "คะแนนโดยตรง"

พิมพ์: การพิมพ์แบบทดสอบคือการแปลงคะแนนโดยตรงเป็นคะแนนอื่นที่ตีความได้ง่ายตั้งแต่ คะแนนที่พิมพ์ออกมาจะเปิดเผยตำแหน่งของวิชาที่เกี่ยวกับกลุ่มและจะช่วยให้เราสามารถทำภายในและ วิชาระหว่างกัน การพิมพ์มีสองรูปแบบ:

  1. เชิงเส้น พวกมันรักษารูปร่างของการกระจายและไม่แก้ไขขนาดของสหสัมพันธ์
  2. ไม่เชิงเส้นไม่รักษาการกระจายหรือขนาดของความสัมพันธ์

FITNESS SCALE ใน IRT มาตราส่วนที่สร้างขึ้นคือมาตราส่วนที่สอดคล้องกับระดับความถนัด มาตราส่วนนี้มีลักษณะเฉพาะในการประมาณการและการอ้างอิงโดยตรงเกี่ยวกับความถนัดและขนาดของมัน นอกจากนี้ ความถนัดที่ประมาณการนี้ขึ้นอยู่กับรูปร่างของเส้นโค้งลักษณะเฉพาะของรายการเท่านั้น ในบรรดามาตราส่วนที่เป็นไปได้ เราระบุสอง:

  1. มาตราส่วน เสนอโดย Woodcock (1978) และกำหนดโดยสูตรต่อไปนี้:
  2. มาตราส่วน WITS เสนอโดย Wright (1977) มาตราส่วนนี้เป็นการดัดแปลงจากมาตราส่วนก่อนหน้าและกำหนดโดยความสัมพันธ์ต่อไปนี้:

บทความนี้เป็นเพียงข้อมูลเท่านั้น ในจิตวิทยา-ออนไลน์ เราไม่มีอำนาจในการวินิจฉัยหรือแนะนำการรักษา เราขอเชิญคุณไปหานักจิตวิทยาเพื่อบำบัดรักษากรณีของคุณโดยเฉพาะ

หากคุณต้องการอ่านบทความเพิ่มเติมที่คล้ายกับ ทฤษฎีการตอบสนองรายการ - การใช้งานและการทดสอบเราขอแนะนำให้คุณป้อนหมวดหมู่ของเรา จิตวิทยาเชิงทดลอง.

instagram viewer