Topp 4 egenskaper av en god test

Denne artikkelen kaster lys på de fire viktige egenskapene ved en god test. De fire karakteristikkene er: 1. Pålitelighet 2. Gyldighet 3. Objektivitet 4. Brukbarhet.

Karakteristisk # 1. Pålitelighet:

Ordboken som betyr pålitelighet er konsistens, avhengighet eller tillit. Så i måle pålitelighet er konsistensen som en test gir samme resultat til å måle hva det måler. En testscore kalles pålitelig når vi har grunn til å tro at poengsummen skal være stabil og tillitsverdig. Stabilitet og tillitsverdi er avhengig av i hvilken grad poengsummen er en indeks for tidsikkerhet "er fri for tilfeldighetsfeil. Derfor kan pålitelighet defineres som grad av konsistens mellom to målinger av det samme.

For eksempel administrerte vi en prestasjonstest på gruppe-A og fant en gjennomsnittlig score på 55. Igjen etter 3 dager administrerte vi den samme testen på gruppe-A og fant en gjennomsnittlig score på 55. Det indikerer at måleinstrumentet (prestasjonsprøve) gir et stabilt eller pålitelig resultat. På den annen side, hvis testen i andre mål gir en gjennomsnittlig score på rundt 77, så kan vi si at testresultatene ikke er konsistente.

I ordene Gronlund og Linn (1995) refererer påliteligheten til målingens konsistens, det vil si, hvor konsistente testresultater eller andre evalueringsresultater er fra en måling til andre. "

CV Good (1973) har definert pålitelighet som "verdighet med hvilken en måleenhet måler noe; i hvilken grad en test eller et annet evalueringsinstrument måler konsekvent hva det faktisk måler. "

Ifølge Ebel og Frisbie (1991) betyr begrepet pålitelighet konsistensen som et sett av testresultater måler hva de måler. "

Teoretisk sett er pålitelighet definert som forholdet mellom den sanne poengsummen og observerte scorevariant.

Ifølge Davis (1946) er graden av relative målinger av et sett av testpoeng definert som pålitelighet. "

Dermed er pålitelighet svar på følgende spørsmål:

Gronlund og Linn (1995)

Hvordan er testresultatene like om det tapte blir gitt to ganger?

Hvordan liknende er testresultatene dersom to ekvivalente former for test administreres?

I hvilken grad poengsumene til noen essay test. Forskjell når det blir scoret av forskjellige lærere?

Det er ikke alltid mulig å oppnå helt konsistente resultater. Fordi det er flere faktorer som fysisk helse, minne, gjetting, tretthet, glemme etc. som kan påvirke resultatene fra en måling til andre. Disse utenlandske variablene kan innføre noen feil i våre testresultater. Denne feilen kalles som målefeil. Så mens du bestemmer påliteligheten av en test, må vi ta hensyn til mengden feil som er tilstede i måling.

Pålitelighetens art:

1. Pålitelighet refererer til konsekvens av resultatene oppnådd med et instrument, men ikke selve instrumentet

2. Pålitelighet refererer til en bestemt tolkning av testresultater. For eksempel kan en testscore som er pålitelig over en tidsperiode ikke være pålitelig fra en test til en annen tilsvarende test. Slik at påliteligheten ikke kan behandles som generelle egenskaper.

3. Pålitelighet er et statistisk konsept for å bestemme påliteligheten vi administrerer en test til en gruppe en eller flere ganger. Da bestemmes konsistensen i form av skift i den relative posisjonen til en person i gruppen eller variasjonsvariant som forventes i en persons score. Skifting av en persons relative stilling er relatert ved hjelp av en korrelasjonskoeffisient kalt 'Pålitelighetskoeffisient' og variasjonsmengden er rapportert av 'Standardmåling av måling'. Begge disse prosessene er statistiske.

4. Pålitelighet er nødvendig, men ikke en tilstrekkelig betingelse for gyldighet. En test som ikke er pålitelig, kan ikke være gyldig. Men det er ikke at en test med høy pålitelighet vil ha høy gyldighet. Fordi en svært konsistent test kan måle noe annet enn det vi har til hensikt å måle.

Metoder for å bestemme pålitelighet:

For de fleste pedagogiske tester gir pålitelighetskoeffisienten den mest avslørende statistiske indeksen for kvalitet som er vanlig tilgjengelig. Estimater av påliteligheten av testen gir viktig informasjon for å bedømme deres tekniske kvalitet og motivere innsats for å forbedre dem. Konsistensen av en testscore uttrykkes enten i form av skift av en persons relative stilling i gruppen eller i form av variasjonsvolum i en persons score.

På grunnlag av denne estimeringen av pålitelighet faller inn i to generelle klassifiseringer:

(Jeg) Relativ Pålitelighet eller Pålitelighetskoeffisient:

I denne metoden er påliteligheten oppgitt når det gjelder korrelasjonskoeffisient kjent som pålitelighetskoeffisient. Derfor bestemmer vi forandringen av relativ stilling av en persons score ved korrelasjonskoeffisient.

(ii) Absolutt pålitelighet eller standard feilmåling:

I denne metoden er påliteligheten oppgitt i forhold til standardmålsvikt. Det indikerer mengden av variasjon av en persons score.

Metoder for å bestemme relativ pålitelighet eller pålitelighetskoeffisient:

For å bestemme pålitelighetskoeffisienten må vi oppnå to sett med målinger i samme tilstand og deretter sammenligne de to settene. Men det er bare en teoretisk tilstand, fordi det er umulig for vår side å få to målinger på nøyaktig to identiske forhold. Slik at flere metoder har blitt utviklet for å bestemme relativ pålitelighet.

De er som følger (Gronlund og Linn-1995):

(i) Samme testform kan administreres to ganger til samme gruppe individer.

(Ii) To separate, men liknende former for testen kan administreres til de samme individene.

(iii) Testelementene i en enkelt test er delt inn i to separate sett, og resultatene av to sett er korrelert.

Metodene er like ved at alle involverer å korrelere to sett med data, oppnådd enten fra samme evalueringsinstrument eller fra tilsvarende former av samme prosedyre. Denne pålitelighetskoeffisienten må tolkes med hensyn til hvilke konsistensstyper som undersøkes.

Ulike typer konsistens bestemmes av forskjellige metoder. Disse er som følger:

1. Konsistens over en tidsperiode.

2. Konsistens over ulike former for instrument.

3. Konsistens innenfor selve instrumentet

Det er fire metoder for å bestemme pålitelighetskoeffisienten, for eksempel:

(a) Test-Retest-metode.

(b) Ekvivalente former / Parallelle former metode.

(D) Rasjonal ekvivalens / Kuder-Richardson metode.

(a) Test-Retest Metode:

Dette er den enkleste metoden for å bestemme test påliteligheten. For å bestemme påliteligheten i denne metoden blir testen gitt og gjentatt på samme gruppe. Deretter oppnås korrelasjonen mellom det første settet av score og andre sett av poeng.

En høy korrelasjonskoeffisient indikerer høy stabilitet av testresultater. I Gronlunds ord rapporteres stabilitetsmål i 80- og 90-tallet for standardiserte tester i løpet av samme år. Men denne metoden lider av noen alvorlige ulemper. Først av alt, hva skal være intervallet mellom to administrasjoner.

Hvis den administreres innen kort tid, si en dag eller to, så vil eleven huske sine første svar og bruke tiden på nytt materiale. Det vil ha en tendens til å øke sin score i andre administrasjoner. Hvis intervallet er for langt, sier ett år, vil modningseffekten påvirke retest scoreene, og det vil pleie å øke retestresultatene.

I begge tilfellene vil det ha en tendens til å redusere påliteligheten. Så hva skal tidsgapet mellom to administrasjoner avhenger i stor grad av bruk og tolkning av testresultater. På grunn av vanskeligheter med å kontrollere forhold som påvirker resultatene av retest, reduseres bruken av test-retest-metoden ved estimering av pålitelighetskoeffisient.

(b) Tilsvarende formularer / parallelle former:

Pålitelighet av testresultater kan estimeres ved hjelp av tilsvarende skjemametode. Det er også ellers kjent som alternative former eller parallelle former. Når to ekvivalente former for tester kan konstrueres, kan korrelasjonen mellom de to bli tatt som tiltak for selvkorrelasjonen av testen. I denne prosessen administreres to parallelle former for tester til samme gruppe av elever i kort tidsintervall, så er resultatet av begge testene korrelert. Denne korrelasjonen gir indeksen for ekvivalens. Vanligvis i tilfelle av standardiserte psykologiske og prestasjonstester er de tilsvarende skjemaene tilgjengelige.

Begge testene som er valgt for administrasjon bør være parallelle med hensyn til innhold, vanskelighetsgrad, format og lengde. Når tidsgap mellom administrasjoner av to former for test er gitt, gir koeffisienten av testresultater et mål på pålitelighet og ekvivalens. Men den store ulempen med denne metoden er å få to parallelle former for tester. Når testene ikke er nøyaktig like i innhold, vanskeligheter, lengde og sammenligning mellom scoreene som er oppnådd fra disse testene, kan det føre til feilaktige avgjørelser.

(c) Split-Half Method:

Det er også metoder hvor påliteligheten kan bestemmes ved en enkelt administrering av en enkelt test. En slik metode er delt halv metode. I denne metoden blir en test administrert til en gruppe elever på vanlig måte. Så er testen delt inn i to ekvivalente verdier, og korrelasjon for disse halvtester er funnet.

Den vanlige prosedyren for å splitte testen er å ta alle merkelige nummererte elementer, dvs. 1, 3, 5 etc. i en halv og alle like nummererte elementer, dvs. 2, 4, 6, 8 etc. i den andre halvparten. Halvdelene korreleres ved bruk av Spearman-Brown-formelen.

For eksempel ved å korrelere begge halvdelene fant vi en koeffisient på 0, 70.

Ved å bruke formel (5.1) kan vi få pålitelighetskoeffisienten på full test som:

Pålitelighetskoeffisienten 0, 82 når koeffisienten av korrelasjon mellom halvtest er 0, 70. Det angir i hvilken grad prøven av testelementer er pålitelig utvalg av innholdet som måles-intern konsistens.

Gronlund (1995) er av den oppfatning at "splittede halvlidelser har en tendens til å være høyere enn tilsvarende formbaresikkerhet fordi delt halv-metoden er basert på administrasjon av en enkelt testform." Denne metoden over-kommer problemet med tilsvarende former for metode innført på grunn av forskjeller fra form til form, oppmerksomhet, arbeidshastighet, innsats, tretthet og testinnhold mv.

(d) Rasjonal ekvivalent / Kuder Richardson Metode:

Rasjonal ekvivalens er en annen metode for å bestemme pålitelighet ved å bruke formelen utviklet av Kuder og Richardson. I likhet med delt halv metode gir denne metoden også et mål for intern konsistens. Det krever heller ikke administrasjon av to ekvivalente testformer, og det krever heller ikke å dele testene i to like halvdeler. Pålitelighetskoeffisienten bestemmes ved å bruke Kuder-Richardson formel-20 som leser slik.

Denne metoden gir informasjon om i hvilken grad objektene i testen måler lignende egenskaper. Selv om enkelheten ved å anvende denne metoden har gjort det stort spredt, har det noen begrensninger.

1. Kuder-Richardson metode og delt halv metode er ikke egnet for fart test.

2. Både Kuder-Richardson og delt halvmetode måler ikke konsistensen av elevens respons fra dag til dag.

3. Kuder-Richardson-metoden er tungvint å beregne med mindre informasjonen allerede er tilgjengelig angående andelen passerer.

Metoder for å bestemme absolutt pålitelighet eller standard feil i måling:

Hvis vi skal administrere en prøve igjen og igjen, finner vi en viss variasjon i poengene. Fordi den oppnådde poengsummen er en indeks av eksaminandens sanne poeng pluss: feilmål. HE Garrett (1985) har definert en sann score som "et mål som ville bli oppnådd ved å anta gjennomsnittet av et uendelig stort antall målinger av et gitt individ på lignende tester under lignende forhold. En sann score kan ikke selvfølgelig bestemmes eksperimentelt. "

Hvis testresultatene inneholder en stor komponent av feil, er påliteligheten lav, og hvis den inneholder litt feil, er påliteligheten høy. Dermed er omfanget av en sann poengsum overskrides, feil i de oppnådde poengene kan angis med pålitelighetskoeffisient.

Dette forholdet mellom ekte score, oppnådd score og feilen kan uttrykkes matematisk som følger:

Vi kan finne ut standard målefeil (SE) når pålitelighetenskoeffisienten og standardavviket for fordelingen er gitt.

Formelen (Garrett-1985) for å beregne standard feilmåling er som følger:

For eksempel i en gruppe på 200 High School-studenter, er pålitelighetskoeffisienten til en prestasjonstest i matematikk 0, 70, Mean = 65 og o = 20. Lipu oppnår en poengsum på 60. Hva er SE av denne poengsummen.

Ved å sette verdien i formel (5.3):

Så den sanne poengsummen til Lipu er 60 ± 10, 95, dvs. 70, 50 til 49, 05.

Ingen oppnådd poengsum forteller oss hva den sanne poengsummen er, men kunnskapen om SE indikerer forskjellen mellom den oppnådde poengsummen og sann poengsum. Når SE er liten, indikerer det at den sanne poengsummen er nærmere den oppnådde poengsummen, og det indikerer også om forskjellen mellom score på to personer er reell forskjell eller forskjell på grunn av feilmålinger.

Faktorer som påvirker påliteligheten:

Det er en rekke faktorer som påvirker tiltakene av pålitelighet. Slik at når vi tolker og bruker poengene, må vi være forsiktige og manipulere disse faktorene gjennom testforberedelse og administrasjon.

De viktigste faktorene som påvirker testets pålitelighet, score kan kategoriseres i tre overskrifter:

1. Faktorer knyttet til test.

2. Faktorer knyttet til testee.

3. Faktorer knyttet til testprosedyren.

1. Faktorer knyttet til testen:

(a) Testets lengde:

Spearman Brown formel indikerer jo lengre testen er, desto høyere er påliteligheten. Fordi en lengre test vil gi tilstrekkelig prøve av oppførselen. En annen årsak er at gjetningsfaktoren er tilbøyelig til å bli nøytralisert i en lengre test.

For eksempel hvis vi skal gi en beregning for å måle studentens numeriske evne. De som har beregnet riktig er perfekte i numerisk evne, de som feilet, er fullstendige feil. Hvis beregningen er vanskelig, da vil de fleste studentene mislykkes. Hvis det er enkelt, vil de fleste av studentene beregne det riktig. Slik at enkeltpoengsummen aldri gir et pålitelig resultat.

(b) Testets innhold:

Ifølge Guilford-homogenitet av testinnhold øker også påliteligheten av testresultater. En test på 50 elementer på vedisk sivilisasjon vil gi mer pålitelige poeng enn en test på 50 elementer på indisk historie. Ifølge Ebel (1991) er "emne i enkelte emner, som matematikk og fremmedspråk, mer tett organisert, med større gjensidig avhengighet av fakta, prinsipper evner og prestasjoner enn i faglitteraturen eller historien." Så dette innholdet homogenitet er også en faktor som resulterer i høy pålitelighet.

(c) Kjennetegn på elementer:

Vanskelighetsnivået og klarheten i uttrykk for en testvare påvirker også påliteligheten av testresultatene. Hvis testelementene er for enkle eller vanskelige for gruppemedlemmene, vil det ha en tendens til å gi resultater med lav pålitelighet. Fordi begge testene har en begrenset spredning av score.

(d) Sporspredning:

Ifølge Gronlund og Minn (1995) er "jo større spredningen av poengene jo høyere estimatet av pålitelighet vil være." Når spredningen av score er stor, er det større sjanse for at en person blir i samme relativ stilling i en gruppe fra en test til en annen. Vi kan si at målefeil påvirker mindre til den relative posisjonen til den enkelte når spredningen av score er stor.

For eksempel i gruppe A har elevene sikret karakterer fra 30 til 80 og i gruppe B-student har sikret karakterer fra 65 til 75. Hvis vi skal administrere testene andre gang i gruppe A, kan testpoengene av individer variere med flere punkter, med svært lite forskyvning i den relative posisjonen til gruppemedlemmene. Det er fordi spredningen av score i gruppe A er stor.

På den annen side er resultatene i gruppe B mer sannsynlig å skifte posisjoner ved en annen administrasjon av testen. Ettersom spredningen av score er bare 10 poeng fra høyeste poengsum til laveste poengsum, kan endring av få poeng bringe radikale skift i relativ stilling for enkeltpersoner. Dermed er større spredning mer påliteligheten.

2. Faktorer knyttet til testen:

Variabilitet i prestasjon, testkunnskap av individene, og motivasjon av studentene påvirker også påliteligheten av testresultater.

Følgende er noen av de viktige faktorene med testen som påvirker testets pålitelighet:

(a) Heterogenitet i gruppen:

Når gruppen er en homogen gruppe er spredningen av testresultatene sannsynligvis mindre, og når gruppen testet er en heterogen gruppe, er spredningen av score sannsynligvis mer. Derfor vil pålitelighetskoeffisienten for en heterogen gruppe være mer enn homogen gruppe.

(b) Studentene testes klokt:

Erfaring med testopptak påvirker også påliteligheten av testresultatene. Øvelsen av studentene i å ta sofistikerte tester øker testets pålitelighet. Men når i en gruppe ikke alle studentene har samme testkunnskap, fører det til større målefeil.

(c) Motivasjon av studentene:

Når studentene ikke er motiverte til å ta testen, representerer de ikke sin beste prestasjon. Dette undertrykker testresultatene.

3. Faktorer knyttet til testprosedyre:

Ettersom testrelaterte faktorer og testrelaterte faktorer påvirker påliteligheten av testresultatene, så påvirker også faktorene knyttet til testprosedyr også testresultatene. Hvis testbrukerne kan kontrollere disse faktorene, kan de øke konsistensen av testresultatene.

(a) Tidsgrense for testen:

Ifølge Ebel og Frisbie (1991) "score fra en test gitt under høyhastighetsbetingelser vil normalt vise en høyere intern konsistens-pålitelighetskoeffisient enn det ville bli oppnådd for score fra samme test gitt til samme gruppe under mer generøse tidsgrenser." Således Når elevene får mer tid til å ta testen, kan de gjette mer, noe som kan øke testresultatene. Derfor ved å øke testen kan vi øke testens pålitelighet.

(b) Juksemuligheter gitt til studentene:

Fusk av studentene under testadministrasjonen fører til målefeil. Noen studenter kan gi riktig svar ved å kopiere det fra jukseark eller lytte fra andre studenter uten å vite riktig svar. Dette vil føre til en høyere poengsum for de studentene enn de faktisk fortjener. Dette vil gjøre den observerte poengsummen til cheaters høyere enn deres sanne poengsum.

Hvor høyere skal påliteligheten være?

Selvfølgelig er evalueringsenheter aldri helt pålitelige. Hvor upålitelig en test kan være og fortsatt er nyttig, avhenger hovedsakelig av finheten til diskriminering som ønskes fra testresultatene. (Rem-mers. 1967) Graden av pålitelighetskoeffisient avhenger av testens art, størrelsen og variabiliteten til gruppen, formålet som testen ble administrert og metoden som ble benyttet for estimering av pålitelighet. En test med lav pålitelighet kan ha høyere gyldighet og kan derfor brukes. Men i ordene til Remmers (1967) 'De fleste standardiserte testene som ble publisert for skolebruk, har pålitelighetskoeffisienter på minst 0, 80 i befolkningen som de er utformet for.

Når man velger en standardisert test på tolkning av resultatene, er det ikke tilstrekkelig å bare se på tallverdien av pålitelighetsestimatet, man må også ta hensyn til hvordan dette estimatet ble oppnådd. Gronlund (1976) har bemerket betydningen av metoder for estimering av pålitelighet.

Ifølge ham "gir halvdelmetoden de største numeriske verdiene til pålitelighetenskoeffisienten. Likestilt form metode og test retest tendens til å gi lavere numerisk verdi til påliteligheten koeffisienten. Vanligvis gir disse to metodene medium til stor pålitelighetskoeffisient. Ekvivalente former metode gir vanligvis minste pålitelighet koeffisient for en gitt test. "

Derfor kan det sies at læreren skal søke en standardisert test som har størst mulig pålitelighet. Men han må tolke denne pålitelighetskoeffisienten i lys av gruppene av elever som den er basert på, denne gruppens variabilitet og metoder for estimering av pålitelighet.

Karakteristisk # 2. Gyldighet:

"Ved valg eller konstruksjon av et evalueringsinstrument er det viktigste spørsmålet; I hvilken grad vil resultatene tjene de spesielle bruksområdene de er ment for? Dette er essensen av gyldighet. " -GRONLUND

Gyldighet er den viktigste egenskapen til et evalueringsprogram, for med mindre en test er gyldig, tjener det ingen nyttig funksjon. Psykologer, lærere, veiledere bruker testresultater for en rekke formål. Tydeligvis kan ingen hensikt bli oppfylt, selv delvis, hvis testene ikke har en tilstrekkelig høy grad av gyldighet. Gyldighet betyr sannhet-fylle av en test. Det betyr i hvilken grad testen måler det, hva testmakeren har til hensikt å måle.

Den inneholder to aspekter:

Hva måles og hvor konsekvent det måles. Det er ikke en testkarakteristikk, men det refererer til betydningen av testresultatene og måtene vi bruker scoreene til å ta beslutninger. Følgende definisjoner gitt av eksperter gir et klart bilde av gyldigheten.

Gronlund og Linn (1995) - "Gyldighet refererer til hensiktsmessigheten til tolkningen fra testresultater og andre evalueringsresultater med hensyn til en bestemt bruk."

Ebel og Frisbie (1991) - "Begrepet validitet, når det brukes på et sett med testresultater, refererer til konsistensen (nøyaktighet) som målene måler en bestemt kognitiv evne til å interessere."

CV Good (1973) -I ordboken for utdanning defineres gyldighet som "omfanget som en test eller et annet måleinstrument oppfyller formålet som det brukes til."

Anne Anastasi (1969) skriver "gyldigheten av en test gjelder hva testen måler og hvor godt det gjør det."

Ifølge Davis (1964) er gyldigheten i hvilken rekkefølge rangordren av antall undersøkere for hvem en test er hensiktsmessig, er den samme som rangordren til de samme eksaminandene i eiendommen eller karakteristikken som testen blir brukt til å måle . Denne egenskapen eller karakteristikken kalles kriteriet. Siden noen test kan brukes til mange forskjellige formål, følger det at det kan ha mange validiteter som svarer til hvert kriterium. "

Freeman (1962) definerer, "en gyldighetsindeks viser hvor stor en prøve måler hva den påstår å måle, sammenlignet med aksepterte kriterier."

Lindquist (1942) har sagt, "En tests gyldighet kan defineres som nøyaktigheten som den måler det som er ment å måle, eller i hvilken grad det nærmer seg ufeilbarbarhet når det gjelder å måle hva den skal måle."

Av de ovennevnte definisjonene er det klart at gyldigheten av en evalueringsanordning er i hvilken grad det måler hva den skal måle. Gyldighet er alltid opptatt av den spesifikke bruken av resultatene og lyden av vår foreslåtte tolkning.

Det er heller ikke nødvendig at en test som er pålitelig, også kan være gyldig. For eksempel anta at en klokke er satt frem ti minutter. Hvis klokken er en god tid, vil tiden det forteller oss være pålitelig. Fordi det gir et konstant resultat. Men det vil ikke være gyldig som dømt av "Standard tid". Dette indikerer "konseptet om at pålitelighet er en nødvendig, men ikke en tilstrekkelig betingelse for gyldighet."

Gyldighetens art:

1. Gyldighet refererer til hensiktsmessigheten til testresultatene, men ikke til selve instrumentet.

2. Gyldighet eksisterer ikke på en helt eller delvis basis, men det er et spørsmål om grad.

3. Testene er ikke gyldige for alle formål. Gyldighet er alltid spesifikk for bestemt tolkning. For eksempel kan resultatene av en ordforrådstest være svært gyldig for å teste vokabular, men kan ikke være så mye gyldig for å teste komposisjonens evne til studenten.

4. Gyldighet er ikke av forskjellige typer. Det er et enhetlig konsept. Den er basert på ulike typer bevis.

Faktorer som påvirker gyldigheten:

Som pålitelighet er det også flere faktorer som påvirker testresultatets gyldighet. Det er noen faktorer som vi er våken og kan unngå enkelt. Men det er noen faktorer som vi er uvitende om, og det gjør testresultatene ugyldige, for deres tiltenkte bruk.

Noen av disse faktorene er som følger:

1. Faktorer i testen:

(i) Uklare anvisninger til studentene for å svare på testen.

(ii) Vanskelighetsgrad i leseordforrådet og setningstrukturen.

(iii) For enkle eller for vanskelige testelementer.

(iv) Flertydige uttalelser i testelementene.

(v) Upassende testelementer for å måle et bestemt utfall.

(Vi) Utilstrekkelig tid for å ta testen.

(vii) Testets lengde er for kort.

(viii) Testelementer som ikke er ordnet i vanskelighetsgrad.

(ix) Identifiserbart mønster av svar.

Faktorer i testadministrasjon og scoring:

(i) Unfair hjelp til individuelle studenter, som ber om hjelp,

(ii) Fusk av elevene under testing.

(iii) Upålitelig scoring av essay type svar.

(iv) Utilstrekkelig tid til å fullføre testen.

(v) Uønsket fysisk og psykologisk tilstand ved testingen.

Faktorer relatert til Testee:

(i) Test angst hos studentene.

(ii) Fysisk og psykologisk tilstand av eleven,

(iii) Response set-en konsekvent tendens til å følge et bestemt mønster i å svare på elementene.

Karakteristisk # 3. Objektivitet:

Objektivitet er en viktig egenskap ved en god test. Det påvirker både validitet og pålitelighet av testresultater. Objektivitet av et måleinstrument gir den grad som forskjellige personer som scorer svarkvittoen kommer til på samme resultat. CV Good (1973) definerer objektivitet i testing er "i hvilken grad instrumentet er fri for personlig feil (personlig forspenning), det er subjektivitet fra scorerens side".

Gronlund og Linn (1995) sier "Objektivitet av en test refererer til i hvilken grad likeverdige poeng får de samme resultatene. Så en test anses å være objektiv når den gjør det mulig å eliminere scorerens personlige mening og skjønn. I denne sammenheng er det to aspekter av objektivitet som bør holdes i tankene mens du bygger en test. "

(i) Objektivitet i scoring.

(ii) Objektivitet i tolkning av testartikler ved testen.

(i) Scoringens objektivitet:

Objektivitet av scoring betyr samme person eller forskjellige personer som scorer testen når som helst, kommer til samme resultat uten mulig sjansefeil. En test som skal være objektiv må nødvendigvis være så formulert at det kun er riktig svar på det. Med andre ord bør den personlige vurderingen til den enkelte som scorer svarskriptet ikke være en faktor som påvirker testresultatene. Slik at resultatet av en prøve kan oppnås på en enkel og presis måte dersom scoringprosedyren er objektiv. Scoringprosedyren skal være slik at det ikke skal være tvil om en vare er riktig eller feil eller delvis rett eller delvis feil.

(ii) Testivitets objektivitet:

Ved objektobjektivitet mener vi at varen må kreve et bestemt enkelt svar. Velbygde testartikler skal føre seg til en og eneste tolkning av studenter som kjenner materialet som er involvert. Det betyr at testelementene skal være fri for tvetydighet. Et gitt testelement bør bety det samme for alle studentene som testmakeren har til hensikt å spørre. Dobbel mening setninger, elementer som har mer enn ett korrekt svar bør ikke inkluderes i testen, da det gjør testen subjektiv.

Karakteristisk # 4. Brukervennlighet:

Brukbarhet er en annen viktig egenskap ved måleinstrumenter. Fordi praktiske hensyn til evalueringsinstrumentene ikke kan overses. Testen må ha praktisk verdi fra tid, økonomi og administrasjonssynspunkt. Dette kan betegnes som brukervennlighet.

Så mens du bygger eller velger en test, må følgende praktiske aspekter tas i betraktning:

(i) Enkel administrasjon:

Det betyr at testen skal være enkel å administrere slik at de generelle klasseromslærerne kan bruke den. Derfor bør enkle og klare retninger gis. Testen bør inneholde svært få undersøkelser. Tidspunktet for testen bør ikke være for vanskelig.

(ii) Tid som kreves for administrasjon:

Passende frist for å ta testen skal gis. Hvis vi skal gi testen en god tid, skal vi gjøre testen kortere enn testens pålitelighet vil bli redusert. Gronlund og Linn (1995) er av den oppfatning at "et sted mellom 20 og 60 minutter av testetid for hver enkelt poengsum gitt av en publisert test er sannsynligvis en ganske god guide".

(iii) Enkel tolkning og anvendelse:

Et annet viktig aspekt av testresultater er tolkning av testresultater og anvendelse av testresultater. Hvis resultatene er feilfortolket, er det skadelig derimot hvis det ikke er brukt, så er det ubrukelig.

(iv) Tilgjengelighet av ekvivalente former:

Ekvivalente former tester bidrar til å verifisere de tvilsomme testresultatene. Det bidrar også til å eliminere minnesfaktoren mens du prøver elever på samme lærdomsområde. Derfor bør ekvivalente former for samme test med hensyn til innhold, vanskelighetsgrad og andre egenskaper være tilgjengelige.

(v) Kostnad ved testing:

En test bør være økonomisk fra forberedelse, administrasjon og scoring synspunkt.