Psykologiske tester i bransjer: Egenskaper, typer og normer

Bare å samle en gruppe spørsmål gir ikke en psykologisk test. En test kan best defineres som å måle en standardisert prøve av menneskelig oppførsel. Som sådan må den oppfylle visse grunnleggende krav. For det første bør prøven av atferd være både stor nok og representativ nok til den opplæringsgruppen vi måler, slik at vi kan generalisere og forutsi fra testresultatene.

For det andre, ved å kreve at testen skal standardiseres, mener vi at serien av spørsmål eller oppgaver skal administreres jevnt når hver enkelt emne blir gitt testen. Til slutt må alle psykologiske tester ha forutsetningskarakteristikkene for gyldighet, pålitelighet og normer.

Å kaste sammen en rekke spørsmål, uavhengig av om de gjelder psykologiske temaer, forhøyer dem ikke til nivået av psykologisk testing. For eksempel presenterer mange avis kolonner og populære bøker av salongspillet 88 en serie spørsmål; personen vurderer svarene og satser seg som "utmerket", "bra", "dårlig" eller "forferdelig". Dette er ikke psykologiske tester; de er bare grupper av spørsmål.

Selvfølgelig har en person ofte en overveldende nysgjerrighet for å finne ut noe i hemmelighet, og så selvtestingsplanen er veldig populær. Emnet for disse testene har vanligvis stor appell. For eksempel kan en kolonne be deg om å avgjøre om du er en fremragende mann ved å svare på noen få spørsmål. En person kan ha uutsigelig visdom, men den eneste måten han kan utvikle en test for å måle slike kvaliteter, er å ha en rekke spørsmål som har blitt besvart på en måte av vellykkede ektemenn (hvem de er) og på en vesentlig annen måte ved mislykket ektemenn.

Testnormer:

Temaet for testnormer er av stor betydning og trenger ytterligere avklaring. Normene skal utvikles som en referansekilde på alle tester som brukes i utvelgelsen. En norm er en referansestandard; det gjør det mulig å forstå meningen med en testscore. Avhengig av testen kan en råpoengsangivelse rapporteres på forskjellige måter: Total tid for å fullføre testen, antall elementer som er korrekte eller antall forsøk som er forsøkt, er noen av de røde resultatene som er oppnådd på tester.

Faktisk er den røde poengsummen i seg selv på en psykologisk test vanligvis en meningsløs figur. For eksempel kan en poengsum på 240 sekunder på en test være dårlig, mens en annen test på 75 sekunder kan være enestående ved en annen test. Problemet er ytterligere komplisert når en poengsum på 180 sekunder må sammenlignes med en score på 95 elementer riktig. Uten bruk av en norm ville slike sammenligninger være umulige; i beste fall ville de likne et forsøk på å sammenligne epler og ferskener.

De to mest brukte systemene av normer er prosentiler og standardpoeng. Begge tiltakene indirekte gir informasjon om testresultatene til individene i forhold til en kjent befolkning. De viser også den relative posisjonen til en person i gruppen til gruppen som helhet.

På en test for å måle stenografisk evne, kan en persons røde poengsum være 105 ord per minutt med en feil i transkripsjon. Med mindre vi hadde informasjon om rekkevidden av fart basert på mange mennesker, kunne vi ikke vite om denne hastigheten var god eller dårlig. Men hvis denne testen er gitt til 155 lønnsomme sysselsatte stenografer og denne personens poengsummer plassert henne i 90-tallet, ville vi kunne estimere hennes evne til å ta stenografi som "eksepsjonell" fordi hun overstiger 9 av 10 jenter i shorthand hastighet.

Hvis den samme persontyper med en hastighet på 45 ord pr. Minutt, og hvis denne poengsummen "tilsvarer 20-percentilen, kan vi konkludere med at 8 av 10 sysselsatte stenografer er hurtigere maskinister. Faktisk kan man sammenligne shorthandhastighet og skrivehastighet. På grunnlag av de tilgjengelige normene kan vi direkte sammenligne denne jentens ytelse på disse to tester, og vår konklusjon om at hun er veldig god til å ta diktat, men dårlig i å skrive er berettiget. Enten hun er ansatt, avhenger av jobbens behov; det er mest sannsynlig at hun må forbedre sin skrivehastighet før jobbplassering vil være mulig.

For noen kontorarbeid er hastighet av stor betydning, men i andre er nøyaktighet viktigere. For eksempel kan man søke snarere enn nøyaktighet for å adressere sirkulærene. På den annen side ville ekstrem nøyaktighet være nødvendig for å arkivere viktige papirer. Noen ganger er det nødvendig med separate normer for fart og nøyaktighet, samt normer basert på en kombinasjon av de to tiltakene.

Ved etablering av normer bør spesifikk informasjon ikke bare være tilgjengelig om størrelsen på gruppen målt, men også om slike fakta som aldersnivå, om gruppen er lønnsfullt ansatt, om det er en høyskolepopulasjon, og om den består av en vanlig ikke valgt stikprøve.

For eksempel kan en person som tester i 70-prosentilen av en normal befolkning på en intelligensstest anses å ha over gjennomsnittlig intelligens. Imidlertid ville hans sannsynlige suksess i en klasse en høyskole eller høyere skole være tvilsom. Med andre ord er en norm bare meningsfylt når egenskapene til befolkningen som den er basert på, er kjent.

Typer av test:

Psykologiske tester kan kategoriseres i ulike grupperinger avhengig av spesifikke formål med klassifikasjonssystemet. Før det går videre, kan det være verdifullt å vurdere noen av disse klassifikasjonssystemene.

Type oppførsel målt:

Sannsynligvis er det mest brukte klassifikasjonssystemet basert på typen oppførsel som testene tilsier å måle. Dermed finner vi tester utpekt som intelligens tester, personlighetstester, interesse tester, visjonstester, musikk tester, kunst tester, mekaniske tester, verbale tester, etc., der hver gruppe er ganske oppførsel spesifikk.

Achievement and Aptitude Tests:

Svært ofte vil forfattere skille mellom tester av ferdighet og prestasjonsprøver. Den førstnevnte er angivelig et mål for en persons potensial i et gitt område, mens sistnevnte er et mål for en persons nåværende ferdigheter eller evne i øyeblikket av testing. Siden den samme testen ofte kan betraktes som både en prestasjonstest og en egnethetstest avhengig av bruk, er dette klassifikasjonssystemet ofte en uklar.

Med mange tester kan man således:

(1) Mål mengden av nåværende ferdigheter, og

(2) Bruk nåværende poengsum for å forutsi fremtidig ytelse.

Papir-og-blyanttest og ytelsestest:

Mange tester er av papir og blyant:

Testet mottar rett og slett et testpapir eller trykt hefte som inneholder testspørsmålene, og han registrerer svarene hans på en eller annen skriftlig måte på svararket som vanligvis leveres. Mange andre tester krever imidlertid ikke en skriftlig respons, men de involverer en slags manipulasjonsaktivitet som håndtering av pinner eller blokker eller montering av mekaniske gjenstander. Disse sistnevnte tester kalles ytelsestester.

Hastighet og krafttest:

Noen tester er konstruert slik at hvert element er veldig enkelt - oppgaven er å fullføre så mange elementer som mulig på kort tid. Når testytelsen hovedsakelig er basert på den hastigheten man arbeider på, blir testen referert til som en hastighetstest. Den andre ekstremen ville være en test hvor varene var vanskelige og personen ble gitt så mye tid som nødvendig for å fullføre elementene. I slike tester er en persons poengsum utelukkende basert på hans evne til å svare på spørsmålene riktig, uansett hvor lenge (i grunn, selvfølgelig) det tar. Denne typen test kalles en makttest.

Individuelle og gruppetest:

Det finnes en rekke tester som er utformet for å bli administrert individuelt; det vil si at de ikke kan gis samtidig til to eller flere personer av en enkelt eksaminator. Et eksempel er Stanford-Binet Intelligence Scale. Svært ofte brukes individuelle tester for klinisk vurdering. Gruppetester er de som kan tas av mange mennesker samtidig. For industriell testing, er gruppetester generelt foretrukket fordi de er mer økonomiske å administrere.

Språk- og ikke-språklige tester:

Noen ganger er det viktig å skille mellom de testene som krever kunnskap om et bestemt språk (for eksempel engelsk) for å forstå enten testinstruksjonene eller testelementene selv. Alle slike tester kalles språkprøver fordi ytelsen på dem avhenger delvis av testens språklige evne, uansett hvilken type evne testen er beregnet på å måle.

I noen tilfeller er det ønskelig eller nødvendig å unngå språket for en test. For eksempel, for å teste den mekaniske evnen til personer som er analfabeter ved hjelp av en test som har implisert, ville skriftlige instruksjoner være ganske upassende. For å løse dette problemet har tester blitt konstruert i enkelte områder som er språkfrie tester. De krever ingen språkkunnskaper fra prøven. Disse kalles ikke-språklige tester.

Test versus andre utvalgsenheter:

I denne artikkelen vår oppmerksomhet er viet utelukkende til å undersøke psykologiske tester. Imidlertid er tester på ingen måte det eneste prediktive verktøyet som brukes av psykologen i en utvelgelsessituasjon. Andre standardvalg hjelpemidler er anbefalingsbrev, søknadsemner og intervjuer. Omfattende utvalgsprogrammer vil bruke disse i tillegg til tester som en del av den totale utvalgsprosessen.

En studie i kontroversi:

Kanskje ingen enkel test bedre illustrerer de kontroversielle problemene som er involvert i industriell testing enn gjør aktivitetsvektanalysen. En kort gjennomgang av kontroversen rundt denne vurderingsenheten bør tjene til å illustrere noen av disse vanskelighetene. Locke og Hulin (1962) gjorde en omfattende gjennomgang av bruken av denne testen som en industriell utvalgsenhet. De gjennomgikk totalt 18 studier, hvorav 17 var relevante for verdien av AVA i industrien. De fleste av disse studiene var imidlertid av den samtidige gyldighetstypen som AVA ble gitt til nåværende ansatte.

Locke og Hulin rapporterte at det var bevis på at det kunne skille mellom:

1. Ledere og produksjonsarbeidere

2. Ledere og en blandet arbeidstakergruppe

3. Syv forskjellige yrkesgrupper som spenner fra maskinoperatører til bedriftspresidenter

4. Gode og dårlige ansatte i flere forskjellige yrker

I alle de nåværende ansattestudiene ble imidlertid gyldigheter oppnådd ved å utvikle en nøkkel basert på prøven og deretter bruke nøkkelen tilbake til prøven som nøkkelen ble utviklet på - en prosedyre kjent som "tilbakebetaling" -validering. Sjelden var noe forsøk på å gjennomføre den nødvendige prosessen med kryssvalidering på en annen gruppe nåværende ansatte. Locke og Hulin mener at forfatterne av AVA-studiene altfor ofte overskrider aksepterte grenser for å diskutere verdien av sine funn, og forlater ofte leseren med inntrykk av at deres validitet var indikativ for testens prediktive effekt.

Bare en studie, ifølge Locke og Hulin mening, brukte en sann prediktiv validitetsprosedyre der en tidligere utviklet scoring nøkkel ble gitt før ansettelse og deretter sjekket senere for gyldighet. I dette tilfellet ble det ikke oppnådd gyldighet.

Det ser ut som at en avgjørelse om at AVA har forutsigbar verdi, må i det minste utsettes til det foreligger mer omfattende bevis. Her er det imidlertid ikke bare den faktiske verdien av testen, men også uoverensstemmelsen mellom påstandene som er gjort for dens verdi og de faktiske empiriske funnene. Locke og Hulin er ikke alene i å ta AVA til oppgave på grunnlag av feilaktig fremstilling av forskningsresultater. Dunnette og Kirchner (1962) har sterkt protestert på "farget" rapportering av AVA-data av Meranda og Clarke (1959).

Bennett, i sin gjennomgang av AVA for Euros 'The Fifth Mental Measurement Yearbook (1959), er også ganske uncomplimentary, og sier: "Mumbo-jumbo av angivelig sofistikerte statistiske prosedyrer er ingen erstatning for demonstrert gyldighet." Den interesserte leseren kan nyte Dunnette og Kirchner artikkel (1962) og tilsvarende svar av Meranda og Clarke i samme Journal of Applied Psychology issue.

Oversikt over personlighetstesting i industrien:

Ghiselli og Barthol (1953) gjennomgikk 113 studier som omhandler gyldigheten av personlighetsinventarene i ansettelsesvalg. Resultatene er oppsummert i tabell 4.3. De konkluderer med at resultatet av personlighetsinventarene under visse omstendigheter korrelerer bedre med ferdigheter i et bredere utvalg av arbeidsplasser enn det som kan forventes. Forfatterne gjenkjenner både den potensielle verdien av personlighetstesting i industrien og behovet for en stor økning og forbedring i forskning og utvikling.