Meranie Teória Rozhodovania

Link: http://echo.edres.org:8080/mdt/

Lawrence M. Rudner, Nezávislý Konzultant

Vyvinutý Wald (1947), po prvýkrát uplatní na meranie v Cronbach a Gleser (1957), a teraz široko používané v strojárstve, poľnohospodárstve, a výpočtovej techniky, teória rozhodovania poskytuje jednoduchý model pre analýzu kategorické údajov. To je najvhodnejšie na meranie, keď je cieľom klasifikovať examinees do jednej z dvoch kategórií, napr. pass/fail alebo master/non-master.

Z pilotného testovania, jeden odhady

  1. podiel magisterského a non majstrov v populácii, a
  2. podmienené pravdepodobnosti z examinees v každej majstrovstvá štátu reagovať správne na každú položku.

Po skúške sa podáva, ten compute (na základe examinee to odpovedí a pilot údajov):

  1. pravdepodobnosť examinee odpoveď vzor pre pánov a pre non-majstri
  2. pravdepodobnosť, že examinee je majster a pravdepodobnosť, že examinee je non-master.

Tento návod obsahuje prehľad meranie teória rozhodovania. Kľúčové pojmy sú uvedené a znázornené pomocou binárnych klasifikácia (pass/fail) test a vzorky tri-položka testu. Interaktívny výukový program umožňuje meniť výsledky pilotného, examinee odpoveď typu a štruktúry nákladov. Rôzne pravidlá pre klasifikáciu je examinee sú potom prezentované spolu s základné výpočty. Rýchly odkaz na interaktívny nástroj je v hornej časti tejto stránky. Excel nástroj umožňuje líšiť pravdepodobnosti, položka reakcií a štruktúry nákladov s cieľom pomôcť vám lepšie porozumieť model.

Potrebovať

Klasické meranie teórie a item response theory sa týka predovšetkým s rank objednávanie examinees cez schopnosť kontinuum. Tieto modely sú dotknuté, napríklad pri rozlišovaní examinees na 90th a 92nd percentilov. Ale jedno je často zaujímajú o klasifikáciu examinees do jednej z obmedzený počet diskrétnych kategórií, ako napríklad pass/fail alebo zdatný/základné/pod-basic. Je to jednoduchšie a výsledok jednoduchší model merania by mali stačiť. Meranie Teória Rozhodovania je jeden taký jednoduchší nástroj.

Meranie teória rozhodovania sa vyžaduje, len jeden kľúčový predpoklad – že položky sú nezávislé. Teda, testované domény nemusí byť unidimensional, examinee schopnosť nemusí byť normálne rozdelené, a nie je potrebné sa zaoberať fit údajov na teoretický model, ako v item response theory (IRT) alebo vo väčšine latentné triedy modelov. Model je atraktívny ako smerovanie mechanizmus pre inteligentné doučovanie systémov, na konci jednotky vyšetrenia, pre adaptívne testovanie, a ako prostriedok na rýchle získanie klasifikácia podiely na ďalšie vyšetrenia. Veľmi málo pilotného testu examinees sú potrebné a veľmi málo položky, klasifikácia presnosť vyššia item response theory. Vzhľadom na tieto atraktívne funkcie, nie je prekvapujúce, že model nie je vzbudila širšiu pozornosť v rámci merania spoločenstva.

Izolované prvky teória rozhodovania sa objavovali sporadicky pri meraní literatúry. Kľúčové články v majstrovstvo testovanie literatúry 1970 činná teória rozhodovania (Hambleton a Novick, 1973; Huynh, 1976; van der Linden a Mellenbergh, 1977) a mali by sa malo preskúmať vo svetle dnešných meranie problémy. Lewis a Sheehan (1990) a iné použité teória rozhodovania na adaptively vyberte položky. Kingsbury a Weiss (1983), Reckase (1983), a Sprej a Reckase (1996) sa používa teória rozhodovania určiť, kedy prestať testovanie. Väčšina z výskumu do dnešného dňa sa uplatňuje teória rozhodovania na testlets alebo testu batérie alebo ako doplnok k item response theory a špecifické latentné triedy modelov. Pozoruhodné články Macready a Dayton (1992), Vos (1997), a Welch a Frick (1993) ilustráciu menej rozšírená položka-úroveň uplatňovania teória rozhodovania hodnotených v tejto tutoriál.

Teórie

Prehľad a notácie

cieľom je vytvoriť čo najlepšie odhadnúť, ako na majstrovstvá štátu (klasifikácia) jednotlivca examinee na základe examinee položky odpovede, a priori položka informácie, a a priori obyvateľstva klasifikácia proporcie. To znamená, že model má štyri komponenty: 1) možné majstrovstvo štáty o examinee, 2) kalibrovaný položky, 3) individuálnu odpoveď vzor, a 4) rozhodnutia, ktoré môžu byť tvorený o examinee.

Nie sú K možný majstrovstvo štátov, ktoré sa na hodnoty mk. V prípade pass/fail testovanie, existujú dva možné stavy a K=2. Jeden zvyčajne vie, a priori, približné rozmery pre obyvateľov všetkých examinees v každej majstrovstvá štátu.

druhá zložka je sada položiek, pre ktoré pravdepodobnosť každého možného pozorovanie, zvyčajne dobre alebo zle, dal každému majstrovstvá štátu je tiež známe, a priori,

reakcií na množinu N položky tvoria tretiu zložku. Každá položka je považovaný za diskrétna náhodná premenná stochastically vzťahujúce sa na majstrovstvá štátov a realizuje pozorované hodnoty zN. Každý examinee má odpoveď vektor, z, ktorý je zložený z1, z2, … zN. Len dichotomously skóroval položky sú považované v tomto článku.

posledného komponentu je rozhodnutie priestor. Jeden môže vytvoriť ľubovoľný počet D rozhodnutia na základe údajov. Zvyčajne sa chce niekto hádať, majstrovstvá štátu a bude tam byť D=K rozhodnutiam. S adaptívne alebo postupného testovania, rozhodnutie bude pokračovať v testovaní budú pridané, a tak tam bude D=K+1 rozhodnutia. Každé rozhodnutie bude označený dk.

Testovanie začína podiel examinees v populácii, ktoré sú v každom z K kategórií a podiel examinees s každej kategórii, ktoré správne reagovať. Obyvateľstvo pomere, môže sa určuje rôznymi spôsobmi, vrátane z predchádzajúceho testovania, transformácie existujúcich skóre, existujúcich klasifikácií, a úsudok. Pri absencii informácií rovnaké priors dá predpokladať. Proporcie, že správne reagovať môžu byť odvodené z malého pilotný test zahŕňajúci examinees, ktoré už boli klasifikované alebo transformácie existujúcich údajov. Akonáhle sú tieto sady priors sú k dispozícii, položky, ktoré sú spravované, odpovedí (z1, z2, … zN) pozorovali, a potom klasifikácia rozhodnutia, dk, sa uskutoční na základe odpovedí na tieto položky.

Proporcie z pilotného testu sú považované za pravdepodobnosti a tento zápis sa používa:

  • Priors
  • p(mk) – pravdepodobnosť, že náhodne vybraný examinee so zvládnutie štátu, mk
  • p(zn|mk) – pravdepodobnosť reakcie zn vzhľadom k-ty majstrovstvá štátu,
  • Pripomienky
  • z – individuálne odpoveď vektor z1, z2, …, z,N, kde zi 0 (0,1)

odhad examinee je majstrovstvo štátu je tvorený pomocou priors a pozorovania. Podľa Bayes Vety,

 

(1)

zadným pravdepodobnosť P(mk|z), že examinee je majstrovstva štátu, mk vzhľadom na jeho odpoveď vektora je rovná súčinu a normalizovať konštanta (c), pravdepodobnosť odpoveď vektor daný mk a pred klasifikáciou pravdepodobnosti. Pre každý examinee, existuje K pravdepodobnosti, jeden pre každý majstrovstvá štátu. Na normalizačného neustále v (1),

 

zaručuje, že súčet zadným pravdepodobnosti rovná 1.0.

za Predpokladu, že miestne nezávislosť,

 

(2)

, Ktorý je pravdepodobnosť odpovede vektora je rovná súčinu podmienené pravdepodobnosti položky odpovede. V tomto tutoriále, každá odpoveď je buď priamo (1) alebo nesprávny (0) a P(z1=0|mk) = 1 – P(z1=1|mk).

Tri kľúčové pojmy z rozhodnutia teórie sú uvedené ďalej:

  1. rozhodnutie pravidlá – alternatívne postupy na klasifikáciu examinees na základe ich vzorce správania,
  2. postupného testovania – alternatívne postupy pre adaptively výber položiek na základe jednotlivcov odpoveď vzor, a
  3. sekvenčný rozhodnutia – alternatívne postupy na zistenie, či chcete pokračovať v testovaní.

model je znázornené tu s skúšku z dvoch možných majstrovstvo štáty m1 a m2 a dvoch možných rozhodnutí d1 d2, ktoré sú správne rozhodnutia pre m1 a m2, resp. Príklady použitia tri položku test s položku štatistiky uvedené v Tabuľke 1. Ďalej, tiež na základe pilotného testu údajov, pred klasifikácie pravdepodobnosti je P(m1)=0.2 P(m2)=1-P(m1) = 0.8.V príklade, examinee odpoveď vektor je [1,1,0].

 

Tabuľka 1: Podmienené pravdepodobnosti na správnu odpoveď, P(zi=1|mk)
Položka 1 Položka 2 Položka 3
Majstrov (m1) .6 .8 .6
Non-masters (m2) .3 .6 .5

Rozhodnutie pravidlá

úlohou je, aby sa čo najlepšie odhadnúť, ako na examinee klasifikáciu (master, non-master) na základe údajov v Tabuľke 1 a examinee odpoveď vektor. Z (2), pravdepodobností vector z= [1,1,0], ak examinee je majster je .6*.8*.4 = .19, a .09 ak je non-master. To je, P (vz|m1)=.19 a P (vz|m2)=.09. Normovaná, P (vz|m1)=.68 a P (vz|m2)=.32.

dostatočný štatistika pre rozhodovanie je likelihood ratio

 

čo pre príkladom je L(z)= .09/.19 = .47. To je dostatočný štatistika, pretože všetky rozhodnutia pravidlá si môžete pozrieť, ako test porovnanie L(z) proti kritérium hodnotu 8.

 

(3)

hodnota 8 odráža vybrané prístupy a úsudkov o relatívnu dôležitosť rôznych typov klasifikácie chyba.

Maximálna-pravdepodobnosť rozhodnutie kritérium

To je najjednoduchšie rozhodnutie prístup a je založený výlučne na podmienené pravdepodobnosti odpovede vektory dal každému z majstrovstiev štátov, t. j. P (vz|m1) a P (vz|m2). Koncept je vybrať majstrovstvá štátu, ktorý je s najväčšou pravdepodobnosťou príčinou odpoveď vektor a môže byť uvedený ako :

Daný súbor položka reakcie z, aby rozhodnutie dk ak to je najviac pravdepodobné, že mk generované z.

Na základe tohto kritéria, jeden by sa klasifikovať examinee ako master – s najväčšou pravdepodobnosťou klasifikácia keďže P (vz|m1)=.68 > P (vz|m2)=.32.

Toto kritérium nezohľadňuje pred informácií o pomeroch, majstrov a non-majstri v populácii. Equivalently, predpokladá sa, že počet obyvateľov priors sú rovnaké. S príkladom, niekoľko examinees sú majstri, P(mk)=.20. Vzhľadom na to, že podmienené pravdepodobnosti odpovede vektory sú dosť blízko, toto pravidlo klasifikácie nesmú viesť v dobré rozhodnutie.

Minimálna pravdepodobnosť chyby rozhodnutie kritérium

V binárnych rozhodnutie prípade, dva typy chýb je možné – rozhodnúť d1 ak m2, je pravda, alebo sa rozhodne d2 ak m1 je pravda. Ak si človek myslí o m1 ako nulová hypotéza, potom v oblasti štatistickej teórie pravdepodobnosti, rozhodovanie, osoba, ktorá je majster, d1, keď skutočnosti, že osoba, ktorá je non-master m2, je známe úroveň významnosti, ” a P(d2|m2) je silu testu, $. Pri oboch typoch chýb sú rovnako nákladné, môže byť želajúc si, aby maximalizovali presnosť alebo minimalizovať celkovú pravdepodobnosť chyby, Pe. Toto kritérium môže byť uvedený ako:

Daný súbor položka reakcie z, vyberte rozhodnutie regióny, na ktoré sa minimalizovať celkovú pravdepodobnosť chýb.

Toto kritérium je niekedy odvolával sa na ako ideálne pozorovateľ kritérium. V binárnom prípade, Pe = P(d2|m1) + P(d1|m2) a likelihood ratio test v (3) je zamestnaná s

S príkladom, 8=.25 a rozhodnutie je d2 – non-master.

Maximálne a posteriori (MAPA) rozhodnutie kritérium

Maximálna pravdepodobnosť rozhodnutie kritérium využili len pravdepodobností odpoveď vektor. Minimálna pravdepodobnosť chyby kritérium tiež využili pred klasifikácie pravdepodobnosti P(m1) a P(m2). MAPA je iný prístup, ktorý sa používa k dispozícii informácie:

 

Daný súbor položka reakcie z, rozhodnúť dk ak mk je najviac pravdepodobné, že majstrovstvá štátu.

Inými slovami,

Keďže z rovnice (2), P(mk|z)=c P (vz|mk) P(mk), MAPA je ekvivalentné minimálna pravdepodobnosť chyby rozhodnutie kritérium.

Bayes Riziko Kritérium

Významnou výhodou rozhodnutia teória rámec je, že jeden môže začleniť rozhodnutie náklady do analýzy. Podľa tohto kritéria sú náklady, ktoré sú priradené jednotlivým správne a nesprávne rozhodnutie a potom minimalizovať celkové priemerné náklady. Napríklad, nepravdivé negatíva môžu byť dvakrát tak zlé, ako falošne pozitívne. Ak cij je cena rozhodovaní di ak mj je to pravda, potom očakávané alebo priemerná cena B je

B=c11 P(d1|m1) + c21 P(d2|m1)) P(m1) + c12 P(d1|m2) + c22 P(d2|m2)) P(m2)

a kritérium môže byť uvedený ako

Daný súbor položka reakcie z a náklady spojené s každým rozhodnutím, vyberte dk minimalizovať celkové očakávané náklady.

Pre dve majstrovstvá štátov, celkové očakávané náklady môžu byť minimalizované použitím likelihood ratio test v (2) s

(4)

 

To je tiež nazývané minimálna strata kritérium a optimálne rozhodnutia kritérium. Ak náklady c11=c22=0 a c12=c21=1, potom B je totožný s Pe a tento prístup je zhodný minimálna pravdepodobnosť chyba a MAPA. c11=c22=0 a c21=2, c12=1, a vzorové údaje, 8=.50 a rozhodnutie je d2 – non-master.

Adaptívne testovanie

Skôr, než aby sa klasifikácia rozhodnutie pre jednotlivca po podávaní pevným počtom položiek, ktoré je možné postupne vyberte položky maximalizovať informácie, aktualizovať odhaduje majstrovstvá štátu klasifikácia pravdepodobnosti a potom zhodnotiť, či je k dispozícii dostatok informácií na ukončenie testovania. In measurement toto sa často nazýva adaptívne alebo na mieru testovania. V štatistike, toto sa nazýva postupného testovania.

Na každom kroku, zadným klasifikácia pravdepodobnosti p(mk|z), sa účtujú ako aktualizovať predchádzajúce pravdepodobnosti p(mk) a používa sa na identifikáciu ďalšiu položku spravovať. Na ilustráciu rozhodnutie teória postupného testovania, opäť zvážiť situáciu, pre ktoré existujú dva možné majstrovstvo štáty m1 a m2 a používať štatistika v Tabuľke 1. Predpokladajme, že examinee odpovedali správne na prvý bod a úlohou je vybrať si z dvoch zostávajúce položky na správu ďalej.

Po reagovať správne na prvú položku, aktuálne aktualizované pravdepodobnosť, že majster je .6*.2/(.6*.2+.3*.8) = .33 a pravdepodobnosť, že non-master je .66 zo vzorca (1).

aktuálny pravdepodobnosť reagovať správne.

 (5)

 

Uplatňovania (5) aktuálna pravdepodobnosť správne reagovať na položky 2 je P(z2=1)=.8*.33+ .6*.66 = .66 a, položka 3, P(z3=1)=.53. Toto sú niektoré prístupy na identifikáciu, ktorá z týchto dvoch položiek na správu ďalej.

Minimálne očakávané náklady

Tento prístup definuje optimálnu položku spravovať vedľa ako položku s v najnižšej očakávané náklady. Rovnica (4) sa stanovuje rozhodnutie cenu ako je funkcia klasifikácia pravdepodobnosti. Ak c11=c22=0 potom

B=c21 P(d2|m1) P(m1) + c12 P(d1|m2) P(m2)(6)

 

V binárnych rozhodnutie prípade, pravdepodobnosť, čo zlé rozhodnutie je jeden mínus pravdepodobnosť urobiť správne rozhodnutie a pravdepodobnosti urobiť správne rozhodnutie je podľa definície, zadným pravdepodobnosti uvedené v (1). Tak, s c12=c21=1, aktuálny Bayes cena je B=1*(1-.33)*.33 + 1*(1-.66)*.66 = .44.

Minimálne očakávané náklady je často spojená s postupného testovania a bola aplikovaná na meranie problémy Lewis a Sheehan (1980), Macready a Dayton (1992), Vos (1997) a iných.

Nasledujúce kroky môžu byť použité na výpočet očakávaných nákladov pre jednotlivé položky.

 

      Predpokladajme na chvíľu, že examinee bude správne reagovať. Výpočet zadným pravdepodobnosti pomocou (1) a potom nákladmi pomocou (6).

Predpokladajme, že examinee bude reagovať nesprávne. Výpočet zadným pravdepodobnosti pomocou (1) a potom nákladmi pomocou (6).

  • Násobiť náklady z kroku 1 pravdepodobnosť a správnu odpoveď na položky
  • Násobiť náklady z kroku 2 pravdepodobnosť na správnu odpoveď na položky
  • Pridávanie hodnoty z krokov 3 a 4.

 

Teda, očakávané náklady sú súhrnom nákladov na každú odpoveď vážený pravdepodobnosť, že odpoveď. Ak examinee správne reaguje na položku 2, potom zadnú pravdepodobnosť, že bude majster byť (.8*.33)/(.8*.33+.6*.66)=.40 a súvisiacich nákladov bude 1*(1-.40)*.40+1*(1-.60)*.60 =.48. Ak examinee odpovede nesprávne, potom zadnú pravdepodobnosť, že bude majster byť (.2*.33)/(.2*.33+.4*.66)=.20 a súvisiacich nákladov bude 1*(1-.20)*.20+1*(1-.80)*.80 =.32. Keďže pravdepodobnosť, že správna odpoveď z (5) je .66 očakávané náklady na položky 2 je .66*.48+(1-.66)*.32 = .42.

Náklady na položku 3 je .47 ak je odpoveď správna, a .41 ak je to nesprávne. Teda, očakávané náklady na položku 3 je .53*.47+(1-.53)*.41 = .44. Keďže položka 2 má najnižšiu hodnotu očakávaných nákladov, bolo by potrebné podávať ďalej.

Informácie Získať

Celú túto esej sa zaoberá použitie pred položky a examinee distribúcie informácií v dekódovanie odpovede vektory, aby sa čo najlepšie odhadnúť, ako sa na zvládnutie štátov examinees. Bežne používané opatrenie informácií z informačnej teórie (pozri Kryt a Thomas, 1991), Shannon (1948) entropiu, je platné tu:

(5)

 

kde pk, je podiel S patriace do triedy k. Entropia je možné chápať ako opatrenie uniformness distribučnej a má maximálnu hodnotu pri pk = 1/K pre všetky k. Cieľom je mať vrchol distribúcia P(mk) a potom vyberte položku, ktorá má najväčší očakáva zníženie entropie, t. j.

H(S0) – H(S,i)(6)

 

kde H(S0) je súčasný entropia a H(Yi) je očakávaný entropia po podávaní položka I , t. j. súčet vážených podmienené entropies klasifikácie pravdepodobností, ktoré zodpovedajú za správnu a nesprávnu odpoveď

(7)

 

To môže byť vypočítaná pomocou nasledujúcich krokov:

  1. Výpočet normovaná zadným klasifikácia pravdepodobnosti, ktoré sú výsledkom správnu a nesprávnu odpoveď na položku I používanie (1).
  2. Výpočet podmienenej entropies (podmieniť správna odpoveď a podmienené nesprávne odpovede) pomocou (5).
  3. > Hmotnosť podmienené entropies ich pravdepodobnosti pomocou (7).

Tabuľka 2 znázorňuje výpočty s vzorové údaje.

Tabuľka 2: Výpočet očakávaných klasifikácia entropies pre položky 2 a 3.

Odpoveď

(zi)

Zadné klasifikácia pravdepodobnostiPodmienená entropiaP(zi)H(Si)Položka 2VpravoP(m1)=.40.97.66.89  P(m2)=.60    ZleP(m1)=.20.72.33   P(m2)=.80   Položka 3VpravoP(m1)=.38.96.53.92  P(m2)=.62    ZleP(m1)=.29.87.47   P(m2)=.71

 

 

Po podávaní prvá položka P(m1)=.33, P(m2)=.66, a H(Y)=.91. Položka 2 výsledky v najväčšom očakáva, že entropia získať a mal by byť podávané ďalej.

Variant tohto prístupu je relatívna entropia, ktoré je tiež nazývané Kullback-Leibler (1951) informácie opatrenie a informácie divergencia. Chang a Ying (1996), Eggen (1999), Lin a Spray (2000) sa priaznivo hodnotiť K-L informácie ako adaptívne stratégie testovania.

Čitateľ by si mal uvedomiť, že očakáva, že entropia po podávaní položka 3 by byť väčší ako H(S) a spôsobiť stratu údajov. To je, klasifikácia pravdepodobnosti sa očakáva, aby sa stal menej vrchol by bode 3 sa spravuje. Ako výsledok, tieto položky by nemali byť považované za kandidáta na ďalšiu položku. Človek môže chcieť zastaviť spravovanie položiek, keď nie sú žiadne položky vľavo v bazéne, že sa očakáva, že v dôsledku informácie získať.

Sekvenčný Rozhodnutia

Tento článok bol prerokovaný postupy na vykonanie klasifikačných rozhodnutí a postupov pre výber ďalšej položky, ktoré majú byť podávané postupne. Táto časť obsahuje postupy pre rozhodnutie o tom, keď má človek dostatok informácií, aby nebezpečnosti klasifikácia hádať. Jeden by mohol vykonať túto stanovenie po každej odpovedi.

Snáď najjednoduchšie pravidlo je Neyman-Pearson rozhodnutie kritériá – pokračovať v testovaní, kým pravdepodobnosť falošne negatívne, P(d2|m1), je menej ako je predvolená hodnota “. Predpokladajme, že “= .05 bol vybraný. Po prvej položky je pravdepodobnosť non-master je P(m1|z) = .66. Ak examinee je vyhlásený non-master, potom aktuálny pravdepodobnosť, že to, že je falošne negatívne je (1-.33). Pretože je to viac než “, rozhodnutie je pokračovať v testovaní.
Variant Neyman-Pearson je pevné chybovosť kritérium – vytvoriť dva prahy, “12, a pokračovať v testovaní, kým P(d2|m1) < “1 a P(d1|m2) < “2. Ďalší variant je nákladov na prahu kritériá. Podľa tohto prístupu sú náklady, ktoré sú priradené jednotlivým správne a nesprávne rozhodnutia a rozhodnutie, ak chcete urobiť ďalšiu pozorovania. Testovanie pokračuje až dovtedy, kým náklady na hraničnú hodnotu dosahuje. Variant na to, že prístup je zmena štruktúry nákladov ako počet spravovaných predmetov zvyšuje.

Wald (1947) sekvenčné pravdepodobnosť pomer test (SPRT, výrazný špurte) je jednoznačne najznámejšie sekvenčné rozhodnutie pravidlo. SPRT K viacerých kategórií možno zhrnúť ako

kde P(mj)’s sú normalizovaná zadným pravdepodobnosti,” je prijateľná miera chybovosti, a $ je požadovaný výkon. Ak podmienka nie je stretnúť sa pre všetky kategórie k, potom testovanie pokračuje. V oblasti merania, tam je veľké a pôsobivé telo literatúry na ilustráciu, že SPRT je veľmi účinný ako ukončenie pravidlo pre IRT na počítači adaptívne testy c.f. Reckase, 1983; Striekacie a Reckase, 1994, 1996; Lewis a Sheehan, 1990; Sheehan a Lewis, 1992).

Diskusii

V ich zavedenie, Cronbach a Gleser (1957) uvádza, že konečným cieľom testovania je, aby sa dostali na kvalitatívne zatriedenie rozhodnutia. Dnes rozhodnutia sú často binárne, napr. či najať niekoho, či osoba, ktorá má zvládnuť určitý súbor zručností, či na podporu jednotlivec. Multi-state podmienky sú bežné v štáte hodnotenia, napr. percento študentov, ktorí vykonávajú v základnom, zdatní, alebo pokročilej úrovni. Jednoduchý model merania uvedené v tomto článku sa vzťahuje na tieto a iné situácie, kde je záujem o kategorické informácie.

Model má veľmi jednoduchý framework – jeden začne s podmienené pravdepodobnosti z examinees v každej majstrovstvá štátu reagovať správne na každú položku. Jeden môže získať tieto pravdepodobnosti z veľmi malých pilotných vzorky. Tento výskum preukázal, že minimálne veľkosti bunky jedného examinee za položku je primeraná kalibrácia veľkosť vzorky. Na presnosť testov kalibrovaný s taká malá veľkosť vzorky sú veľmi blízko presnosť testov kalibrované so stovkami examinees na bunku.

Jednotlivca vzorce správania sa vyhodnocuje z hľadiska tieto podmienené pravdepodobnosti. Jeden počíta pravdepodobností odpoveď vektor vzhľadom na každej úrovni majstrovstiev. Pomocou Bayes’ vety, podmienené pravdepodobnosti môžu byť prevedené na a posteriori pravdepodobnosti zastupuje pravdepodobnosť, že každé majstrovstvá štátu. Alternatívne rozhodnutie pravidlá boli prezentované.

Tento článok preskúmať dva spôsoby, ako adaptively, alebo postupne, spravovať položky pomocou modelu. Tradičná teória rozhodovania postupného testovania prístup, minimálne náklady a nový prístup, získať informácie, na základe ktorého je entropia a pochádza z informačnej teórie.

Vo výskume sa ukázalo, že veľmi málo pilotného testu examinees sú potrebné na kalibráciu systému (Rudner, v tlači). Jeden alebo dva examinees každú bunku na položku výsledok v teste, ktorý je rovnako presný, ako jeden kalibrované so stovkami pilotného testu examinees na bunku. Výsledky boli konzistentné položka bazény a test dĺžky. Základné údaje z pilotného je proporcie examinees v rámci každej majstrovstvá štátu, ktorý správne reagovať. Nie je skutočne potrebné, a priori pravdepodobností náhodne zvolený examinee je v každej majstrovstvá štátu. Jednotné priors možno očakávať, že zvýšenie počtu potrebné položky a nie vážne ovplyvniť presnosť vzhľadom správne zvolené zastavenie pravidlá.

To je jasne jednoduchý ale výkonný a široko využiteľné model. výhody tohto modelu sú mnohé –model

  • výnosy presné majstrovstvá štátu klasifikácie,
  • môže obsahovať malé položky bazén,
  • je jednoduché implementovať,
  • > vyžaduje trochu pre-testovanie,
  • vzťahujú sa na kritérium, ktoré sa odkazuje testy,
  • môže byť použitý na diagnostické testovanie,
  • môžu byť prispôsobené tak, aby výnos klasifikácie na viacerých zručnosti
  • môže využívať postupného testovania a sekvenčné rozhodnutie pravidlo, a
  • by mal byť ľahko vysvetliť, non-statisticians.

To je autorom je nádej, že sa tento výskum sa zachytiť predstavivosť výskum a aplikovaný meranie spoločenstiev. Autor môže predstaviť širšie použitie modelu, ako smerovanie mechanizmus pre inteligentné doučovanie systémov. Položky by mohli byť pilotovaný s niekoľkými počet examinees na značne zlepšiť konci jednotky vyšetrenia. Certifikačné skúšky môže byť vytvorená na špecializovaných povolaní, obmedzený počet lekárov sú k dispozícii na položku kalibrácia. Krátke testy by mohla byť pripravená pre učiteľov, ktoré vám pomôžu, aby nezáväzne umiestnenie a postup rozhodnutia. Malá zbierka položiek z jedného testu, povedať štátu-NAEP, by mohli byť vložené do inej test, povedzme štátu hodnotenia, poskytnúť zmysluplné cross-regionálne informácie.

výskumné otázky sú početné. Ako je možné, že model možno predĺžiť na viac než dichotomickej položku odpoveď kategórie? Ako môže zaujatosti byť odhalené? Ako efektívne sú alternatívne adaptívne testovanie a sekvenčné rozhodnutie pravidlá? Môže modelu byť účinne predlžuje na 30 alebo viac kategórií a poskytnúť rank objednávanie examinees? Ako sa môžeme dobre využiť skutočnosť, že údaje je poradové? Ako je možné, že pojem entropia byť zamestnaný v vyšetrenie testy? Sú tam nové položky analýza postupov, ktoré môžu zlepšiť meranie rozhodnutie teória testy? Ako je možné, že model sa najlepšie uplatnili na kritérium odkazuje testy vyhodnocuje viaceré schopnosti, každý s niekoľkými počet položiek? Prečo sú minimálne náklady a informácie získať tak podobné? Ako môžu rôzne štruktúry nákladov byť efektívne zamestnaní? Ako môže položky z jedného testu sa používa v inej? Ako sa dá prirovnať takéto testy? Autor je v súčasnosti skúma uplatnenie modelu na počítači bodového hodnotenia esejí. V tomto výskume, esej funkcie z veľkých pilotných sa považujú za položky a holistický skóre ako majstrovstvá štátov.

Poznámka:

Tento návod bol vytvorený z prostriedkov Národnej Knižnice Vzdelávania, U.S. Department of Education, cena xxx a z Národného Inštitútu pre študijné výsledky, Kurikulum a Hodnotenie, U.S. Department of Education, udeliť ocenenie R305T010130. Názory a názory vyjadrené v tomto článku sú názormi autorov a nemusia nevyhnutne vyjadrovať názory financovania agentúry.

Odkazy

Allen, Nancy L. James E. Carlson, a Christine A. Zelenak (2000). NAEP 1996 Technická Správa. Washington, DC: Národné Centrum pre Vzdelávacie Štatistiky. Dostupné on-line: http://nces.ed.gov/nationsreportcard/pubs/main1996/1999452.asp
Pekár, F. (2001). Základy Item Response Theory. Druhé vydanie. College Park: MD: ERIC informačné centrum na Hodnotenie a Hodnotenie.

Birnbaum, A. (1968). Niektoré skryté vlastnosť modelov. V F. M. Pána & M. R. Novick, (Eds.), Štatistickej teórie duševného výsledky testov. Čítanie, MA: Addison-Wesley.

Chang, H., H., a Ying, Z. (1996). Globálne informácie, prístup k počítačovej adaptívne testovanie. Aplikované Psychologické Merania, 20, 213-229.

Colorado State Department of Education (2000). Colorado Student Assessment Program (CSAP), Technická Správa, Stupeň 5 Matematiky. Dostupné on-line: http://www.cde.state.co.us/cdeassess/download/pdf/as_csaptech5math99.pdf

Kryt, T. M. a J. A. Thomas, Prvkov Informačnej Teórie. New York: Wiley, 1991.

Cronbach, L. J. a Gleser, G. C. (1957). Psychologické testy a personálne rozhodnutia.. Urbana: University of Illinois Press

Eggen, T. J. H. M. (1999). Výber položky v Adaptívne Testovanie s Sekvenčné Pravdepodobnosť Pomer Test. Aplikované Psychologické Merania, 23(3), 249-61.

Ferguson, R. L. (1969). Vývoj, implementáciu a hodnotenie počítač pomáha rozvetveným test individuálne predpísaného návodu. Dizertačné. University of Pittsburgh, Pittsburgh, PA.

Hambleton, R. a Novick, M (1973). K integrácia teórie a metódy pre kritérium-odkazuje testy. Vestník Vzdelávacích Meranie, 10, 159-170.

Huyhn, H. (1976). Štatistické informácie pre zvládnutie skóre. Psychometrika., 41, 65-79.

Kingsbury, G. G., & Weiss, D. J. (1983). Porovnanie IRT-based adaptive zvládnutie testovania a postupné zvládnutie testovania. V D. J. Weiss (Ed.), Nové obzory v testovaní: Latentný rys test teória a počítačovej adaptívne testovanie (s. 257-283). New York: Academic Press.

Kullback, S. & Leibler, R. A. (1951). Na informácie a dostatok. Annals of Matematická Štatistika, 22, 79-86.

Lewis, C. a Sheehan, K. (1990). Pomocou Bayesian teória rozhodovania pri návrhu počítačových zvládnutie testu. Aplikované Psychologické Merania, 14(2), 367-86.

Lin, Chuan-Ju; Sprej, Judith (2000). Účinky Položka-Výberové Kritériá na Klasifikáciu Testovanie s Sekvenčné Pravdepodobnosť Pomer Test. ZÁKON Research Report Series.

Macready, G. a Dayton C. M. (1977). Použitie probabilitistic modely v hodnotení majstrovstiev. Vestník Vzdelávacích Štatistiky. 2(2), 99-120.

Macready, G. a Dayton C. M. (1992). Aplikácia skrytej triedy modelov v adaptívne testovanie. Psychometrika, 57(1), 71-88.

Mislevy, R. J., & Gitomer, D. H. (1996). Úloha pravdepodobnosť, založené na záver, v inteligentný doučovanie systému. User-Sprostredkované a užívateľsky Prispôsobené Interakcia 5, 253-282.

Reckase, M. D. (1983). Postup pre rozhodovanie pomocou na mieru testovania. V D. J. Weiss (Ed.), Nové obzory v testovaní: Latentný rys test teória a počítačovej adaptívne testovanie (s. 237-255). New York: Academic Press.

Shannon, C. E. (1948). Matematická teória komunikácie, Bell System Technické Vestník, 27, 379-423 a 623-656, júli a októbri. Dostupné on-line: http://cm.bell-labs.com/cm/ms/what/shannonday/paper.html

Sheehan, Kathleen a Lewis, Karol (1992). Počítačové Znalosti Testovanie s Nonequivalent Testlets. Aplikované Psychologické Merania, v16 n1 p65-76 Mar 1992

Sprej, Judith A. a Reckase, Mark D. (1996). Porovnanie SPRT a Sekvenčné Bayes Postupy na Klasifikáciu Examinees do Dvoch Kategórií Pomocou Počítačového Testu. Vestník Vzdelávacie a Behaviorálne Štatistiky, 21(4), 405-14.

Sprej, Judith A. a Reckase, Mark D. (1994). Výber Testu Položky pre Rozhodovanie s Počítačom Adaptívne Test. Papier prezentované na Výročnej Schôdzi Národnej Rady na Meraní Vzdelávania (New Orleans, LA, apríl 5-7, 1994).

van der Linden, W. J. a Mellenbergh, G. J. (1978). Koeficienty pre testy z rozhodnutia-teoretickej perspektíve. Aplikované Psychologické Merania, 2, 119-134.

van der Linden, W. J. a Vos, H. J. (1966) Vyrovnávací Prístup na Optimálny Výber s Majstrovstvo Skóre. Psychometrika, 61(1), 155-72.

Vos, Hans J. (1999). Aplikácie Bayesian Teória Rozhodovania na Postupné Zvládnutie Testovania. Vestník Vzdelávacie a Behaviorálne Štatistiky, 24(3), 271-92.

Wald, A. (1947). Sekvenčné analýzy. New York: Wiley.

Welch, R. E. & Frick, T. (1993). Počítačové adaptívne testovanie v inštruktážne nastavenia. Educational Technology Research & Rozvoj 41(3), 47-62.

Drevo, R. (1976). Adaptívne Testovanie: Bayesian Postup pre Efektívne Meranie Schopnosti. Programované Učenie a Vzdelávacie Technológie, 13, 2, 36-48.