Krav til industrielle forutsigere: Gyldighet og pålitelighet

De to viktigste kravene til enhver prediktor er gyldighet og pålitelighet. I industrielle omgivelser finnes ulike typer eller typer validitet, selv om den mest foretrukne er kalt prediktiv validitet. Det finnes også ulike typer pålitelighetstiltak. Bekymringen med pålitelighet og gyldighet er ikke begrenset til prediktorer, men gjelder også kriterier.

Gyldighet:

Gyldigheten av en prediktor kan generelt defineres som i hvilken grad prediktoren oppnår visse mål for brukeren ved å måle hva som skal måles. Den spesifikke typen gyldighet som er involvert, avhenger derfor av brukerens spesielle formål i enhver situasjon.

Forutsigbar gyldighet:

Brukerens mål er å benytte sitt måleinstrument til å forutsi fremtidig ytelse av ansatte på en annen variabel (kriterium). Prediktiv validitet er etablert statistisk gjennom korrelasjon og regresjon. Det viktige skillet mellom prediktiv validitet er en av en tidsdemning. Predictor score er oppnådd på enkeltpersoner på et tidspunkt (f.eks. Tid for utleie) og kriteriepoeng blir oppnådd på et senere tidspunkt (f.eks. På slutten av seks måneder).

Det resulterende forhold representerer således virkelig den "prediktive" kraften til instrumentet. Forutsigbar gyldighet er den viktigste typen validitet i valg, siden det er den eneste typen som virkelig dupliserer utvalgssituasjonen. Et annet navn som noen ganger brukes til prediktiv validitet, er oppfølgingsgyldighet.

Samtidig gyldighet:

Målet her, i det minste teorien, skal være å estimere dagens ytelse av ansatte på et kriteriemål fra score på prediktor. Samtidig validitet er også etablert ved hjelp av korrelasjons- og regresjonsteknikker, men uten tidsforsinkelse mellom oppnåelse av prediktor- og kriteriepoeng. En prøve av nåværende ansatte brukes til å fastslå forholdet mellom prediktor og kriterium, og deretter kan den resulterende regresjonen bli brukt ved å skaffe prediktor score på de resterende jobbinnehavere.

Med andre ord, vi er interessert i å forutsi nåværende status for mennesker, ikke deres status på en senere tid. Det er ekstremt viktig å påpeke at høy samtidig gyldighet ikke sikrer høy prediktiv validitet. Dessverre er samtidig gyldighet for ofte brukt i industrien som en erstatning for prediktiv validitet.

Ledelsen er noen ganger uvillig til å vente på tiden som er nødvendig av den prediktive metoden, og kan ikke innse at nåværende ansatte kan representere en i utgangspunktet forskjellig befolkning av arbeidstakere fra jobbsøkere. Arbeidstakere som for tiden er ansatt har overlevd screening i både ansettelse og kontinuitet, og de fattige arbeidstakere som ble ansatt, kan ha forlatt enten frivillig eller på forespørsel. Dette gjør det svært vanskelig å rettferdiggjøre generalisering av samtidige validiteter til en prediktiv validitetssituasjon.

Innhold Gyldighet:

Når validatoren antar at hans prediktor er representativ for en gitt klasse situasjoner, er han involvert i innholdsvaliditet. Han har et bestemt begrep om hva slags kunnskap, ferdighet, holdning eller ytelse som skal tappes av måleinstrumentet, og han anser instrumentet gyldig i den grad at innholdet er representativt for hva han ønsker å trykke på. Innholdsvaliditet er vanligvis ikke målbar i noen statistisk eller kvantitativ forstand.

Man finner størst mulig bruk av innholdsvaliditet blant brukere av prestasjonstester, for eksempel avsluttende eksamener i et høyskolekurs. En avsluttende eksamen kan bare anses å ha innholdsvaliditet dersom den er tilstrekkelig representert (samplet), når det gjelder emner, innholdet i kurset. Hvis det ikke representerte en dekning av selvfølgelig materiale, kunne det absolutt ikke anses som en egnet test for bruk til en avsluttende eksamen, dvs. det ville ikke ha innholdsvaliditet.

Konstruer Gyldighet:

Med denne typen gyldighet ønsker brukeren å avgjøre i hvilken grad de personer som vurderes har noen egenskap eller kvalitet (konstruksjon) antatt å bli reflektert i testprestasjon. Den generelle prosedyren innebærer administrering av flere testinstrumenter som logisk synes å måle samme konstruksjon, og deretter observere forholdet mellom disse tiltakene. Konstruksjonsgyldigheten har ikke vært brukt i betydelig grad av industrisykologen; det pleier å bli oftere brukt i teoretiske snarere enn pragmatiske situasjoner.

Syntetisk gyldighet:

Man kan vurdere at syntetisk gyldighet er "antatt" prediktiv validitet. Anta at vi har en test som i en rekke situasjoner har vist et høyt prediktivt forhold til ulike ytelseskriterier for industriforetak. Anta videre at et lite produksjonsanlegg ønsker å bruke en test ved valg av formen, men for få forarbeidere jobber i anlegget for å gjennomføre en samtidig gyldighetsstudie. Denne planten kan bestemme seg for å bruke testen uten noen formell statistisk vurdering på antagelsen om at det hadde blitt vist seg å være vellykket i andre større planter.

Denne prosedyren kan bare anses som gyldig hvis:

(1) Foremanens jobb i denne anlegget ligner på jobbsjefen som er involvert i den statistiske evalueringen av testen, og

(2) Formannssøkere på denne anlegget er typiske (kommer fra samme befolkning) som søkere til formannene i de større plantene. Syntetisk gyldighet bør bare erstattes av prediktiv validitet med full bevissthet om mulige begrensninger.

Ansiktsgyldighet:

En annen type gyldighet som ofte brukes til å beskrive en test, involverer graden som en bruker er interessert i å ha sin test "se rett" til testtakeren. Jobansøkere blir ofte opprørt hvis de prediksjonsinstrumenter de må ta synes å ha liten eller ingen sammenheng med jobben som de søker. For eksempel, hvis man velger personer for en maskinistposisjon og en test av aritmetisk evne blir brukt som en prediktor, bør testelementene håndtere tall som brukes på mekaniske problemer, i stedet for å bli formulert i mer generelle termer som kjøp av epler eller appelsiner.

Hvis søkeren ikke ser relevansen av prediktoren til jobben som han søker på, som ofte skjer ved personlighetstester, kan han undergå et alvorlig tap i motivasjon i testsituasjonen, bli avledet eller, på den annen side, føler seg usikker Dette skader ikke bare utvelgelsesprogrammet, men kan også skade bildene av selskapet og skade bildet av tester i enhver industriell innstilling. Forfatterne ville risikere en gjetning at noe av den dårlige publisiteten mottatt av brukere av utvalgsenheter i industrien, kan skyldes at brukeren har utsikt over behovet for at hans tester skal ha ansiktets gyldighet.

Aldersbegrensning og arbeidserfaring og deres effekt på gyldighet:

Undersøkelse av arbeidernes ytelse på en bestemt jobb viser ofte et klart forhold mellom slike variabler som alder og erfaring og kriteriet. Jo mer komplisert jobben, desto mer er denne typen relasjoner sannsynligvis å eksistere. For mange jobber er en betydelig erfaring nødvendig før de blir dyktige på sitt arbeid. Korrelasjonen mellom disse variablene og kriteriene for jobbsuccess gir et alvorlig problem i valg. Forsiktig er nødvendig, spesielt hvis man bruker den samtidige gyldighetsprosedyren som et middel til å etablere nytte av en hvilken som helst prediksjonsenhet.

Hvis det for eksempel eksisterer en høy korrelasjon mellom kriteriet og lengden på tiden på jobben, hvordan bør en høy samtidig validitetskoeffisient tolkes? Betyr dette at prediktoren virkelig reflekterer evner forskjeller blant arbeidstakere som målt av kriteriet, eller er arbeidstakers forskjeller primært på grunn av erfaring på jobben? Hvis det er sistnevnte, så er all prediktorene til å oppnå, å skille de ansatte med lang varighet fra de som har blitt ansatt nylig.

Den observerte gyldigheten er generelt en overskatt av den prediktive effektiviteten til utvelgelsesinstrumentet. Faktisk, med mindre man klart kan påvise at prediktoren ikke er korrelert med egenskaper som alder og tenure som selv kan være bestemmende for jobbprestasjon, må alle samtidige gyldigheter som er oppnådd med denne prediktoren, være svært mistenkte.

For å illustrere punktet bør du vurdere situasjonen hvor man har et kriterium, en prediktor og en kriterjonsrelatert variabel som for eksempel jobbtjeneste som i stor grad er ansvarlig for forskjellene i ferdigheter som vises på kriteriet av ansatte, som følger:

C + D = Observerte samtidig gyldighet av prediktor

D = Mengden av "tenure-fri" kriterievariasjon utgjorde av prediktor

C = Mengden av "fastsettelsesbestemt" kriterievariasjon utgjorde av prediktor

Den observerte gyldigheten er generelt, men ikke alltid en overskatt av den sanne gyldigheten, siden:

Den ekte eller objektive samtidige gyldigheten, som representerer sammenhengen mellom prediktor og kriterium som er helt fri for innflytelse av arbeidstid, er gitt av ligningen-

Korrelasjonen (r sant ) som vist i diagrammet representerer faktisk, på bildet, hva som er kjent i statistikk som en "delvis" korrelasjonskoeffisient. Det rapporterer sammenhengen mellom prediktor og kriterium etter at virkningen av arbeidstiden er fjernet fra både prediktor score og kriterieverdien av nåværende ansatte. Det er viktig at tenureffekter fjernes fra både kriterium og prediktor i den samtidige situasjonen.

Hvis disse effektene ikke er statistisk fjernet fra kriteriet, vil vi ende opp med å forutsi innflytelse av fast eiendom i stedet for jobbprestasjon, med liten eller ingen relevans for prediktiv validitet. Hvis arbeidstidsbegrensningseffekter ikke fjernes fra prediktoren, kan vi også få en validitetskoeffisient som ikke kan anses som relevant for en virkelig prediktiv validitetssituasjon.

Ganske sikkert illustrerer problemene med kriterium og prediktorskorrelerte variabler i den samtidige innstillingen noen av de alvorlige begrensningene som er involvert i denne metoden for validering. Det kan trygt anføres at det er absolutt ingen like erstatning for typen gyldighet kjent som prediktiv validitet ved konstruksjon og bruk av et valginstrument.

Pålitelighet:

Generelt gjelder validitetskonceptet med det som måles av en måleenhet. En annen og kanskje like viktig egenskap for prediktorer er behovet for å vite målets konsistens, uansett hva som måles. Angitt på en annen måte, må vi fastslå stabiliteten til enhver måleenhet; måling oppnådd av en prediktor må være konsistent. Graden til hvilken et måleinstrument er konsistent eller stabilt og vil gi de samme scoreene igjen og igjen om nødvendig, er definert som påliteligheten til testinstrumentet.

Som gyldighet måles påliteligheten vanligvis ved hjelp av korrelasjonskoeffisienten. Siden pålitelig måling innebærer stabilitet fra en situasjon til en annen, skal pålitelig instrument produsere enten de samme scoreene eller i det minste liknende rangeringer av individer i to situasjoner. Ved å beregne korrelasjonen får vi et matematisk uttrykk for omfanget av det som skjer.

Dermed er et pålitelig måleinstrument en som enkeltpersoner får samme score (eller nesten det samme) i gjentatte målinger. Når korrelasjonskoeffisienten brukes til å måle likheten av score for en gruppe mennesker på to applikasjoner av samme mål, kalles det en pålitelighetskoeffisient.

Den faktiske prosessen ved hvilken man kan vurdere påliteligheten av et mål, avhenger av en rekke faktorer. Det er tre store alternative "typer" av pålitelighet, som hver har sine egne fordeler og ulemper. De er tilstrekkelig forskjellige i deres underliggende logikk for å rettferdiggjøre å undersøke hver i detalj.

De tre teknikkene for å få instrumentets pålitelighet er:

(1) Gjentatte tiltak på samme personer med samme test eller instrument,

(2) Måling på de samme personene med to "ekvivalente" former for måleinstrumentet, og

(3) Separasjon av måleapparatet i to eller flere likeverdige deler og interkorrelere disse "del" -poengene.

Før vi vurderer hver metode, bør vi på en mer spesifikk måte undersøke visse typer pålitelighet eller stabilitet i måling som vi muligens kan tenkes å være interessert i under forskjellige omstendigheter.

La oss anta at når vi bruker et måleinstrument for å få en persons poengsum, er mottatt poeng en funksjon av flere faktorer, som følger:

X i = X true + X feil

Hvor

X i = Observerte score for person jeg på test

X true = True score for person jeg på test-dette er den faktiske mengden kvalitet målt av testen den personen jeg egentlig har.

X error = Feilsøking for person jeg på test-dette er beløpet som personen er poengsum ble påvirket av drift av ulike sjanse eller tidsfaktorer.

Hvis alle måleinstrumenter og målemetoder var "feilfrie", ville vi alltid få de sanne resultatene av mennesker, og korrelasjonen mellom to målinger på samme gruppe mennesker ville alltid være + 1, 00 eller perfekt pålitelighet (forutsatt ingen endring i de sanne resultatene kan forventes). Dessverre er en slik feilfri måling aldri helt tilgjengelig, siden en rekke ting? Bidra til ytelse til enhver tid.

Dermed kan x jeg enten være større enn eller mindre enn X sant for en bestemt måling, og korrelasjoner som beregnes mellom målinger er alltid mindre enn enhet. Når det gjelder vår piktoriske representasjon av ytelsesvariasjonen blant mennesker på en måleenhet, enten det er test eller intervju, prediktor eller kriterium, kan denne totale variansen deles inn i de to hovedkomponentene av ekte varians og feilvariasjon.

Hvor totalvariasjon = total variabilitet av observerte testresultater

True variance = variabilitet av mennesker i forhold til deres sanne mengder av karakteristikken som blir målt

Feilvariant = variabilitet av folks feilpoeng

Pålitelighet kan defineres som et forhold av ekte varians til total varians, eller

Jo større andelen ekte poengsvarians, eller omvendt, jo mindre mengden feilvariasjon som er tilstede i måleprosessen, jo større målesikkerhet. Den kritiske faktoren som skiller de tre hovedprosedyrene for å bestemme påliteligheten er i ferd med å avgjøre hva som skal vurderes feilvariasjon og hva som skal anses som ekte eller systematisk varians. Det er ingen enkelt pålitelighet for noen test. Snarere vil påliteligheten avhenge av behovene i øyeblikket.

For eksempel kan psykologen stille spørsmål om følgende typer spørsmål om måleprosessen:

1. Hvor nøyaktig kan jeg måle folk med denne testen når som helst?

2. Hvor nøyaktig vil tiltak som er tatt med denne testen i dag være representativ for de samme personene på et senere tidspunkt?

3. Hvor nøyaktig vil scoreene på denne testen utgjøre de sanne egenskapene til disse menneskene på egenskapen som prøves av prøven?

Alle tre er legitime pålitelighetsspørsmål. Hver plasserer imidlertid en noe annen vekt på ulike kilder til feilvariasjoner i testresultater.

Disse kildene til feilvariasjon er uttrykt av Thorndike og Hagen (1963) som:

1. Variasjon på grunn av testen på et bestemt tidspunkt

2. Variasjon i individet fra tidsperiode til tidsperiode

3. Variasjon på grunn av det spesielle utvalg av oppgaver valgt for å representere kvaliteten som måles

La oss nå fortsette å undersøke hver pålitelighetsmetode, med tanke på feilkildene, slik at vi kan bestemme hvordan hver metode behandler hver kilde.

Test-retest Metode:

En åpenbar metode for å vurdere stabilitet består i å måle det samme individets ytelse to ganger med det samme måleinstrumentet. Denne typen pålitelighet inkluderer variasjonskilder 1 og 2 som feil. Dermed er den resulterende påliteligheten en som måler stabiliteten til den sanne poengsummen over tid. Det er mange problemer med test-retest-metoden som er opprettet ved å ha individer målt på samme test to ganger.

For eksempel, med mindre tidsperioden er ganske lang mellom administrasjoner, vil variabelen av en minnefaktor sannsynligvis forstyrre responsene fra folk på den andre administrasjonen. En annen problemstilling er at variasjon på grunn av den spesielle prøven av oppgaver eller gjenstander som er valgt, behandles som systematisk varianse som legger til påliteligheten.

Enhver som ved en tilfeldighet skjedde å vite flere svar bare fordi noen av testelementene berørte, for eksempel på en hobby av den personen, ville også bli favorisert i den andre administrasjonen fordi de samme elementene, snarere enn en ny prøve, er brukt. Han bør derfor score høyt på begge testene på grunn av at variasjonskilde 3 blir behandlet som ekte varians.

Paralleltest Metode:

Én måte å unngå å ha feilkilde 3 som ekte varians er å bruke to helt sammenlignbare eller "ekvivalente" former for måleinstrumentet. Disse to skjemaene skal være like identiske som mulig, bortsett fra at bestemte elementer eller spørsmål på hver form ikke ville være det samme selv om de hver for seg representerer en lignende utvalg av valgte gjenstander. En form kan administreres umiddelbart etter den andre eller de kan administreres med avstandsintervaller, avhengig av om man er opptatt av å ha variasjonskilde 2 inkludert som feilvariasjon.

Denne typen pålitelighet, når avstandsforsøk er brukt, representerer den strengeste evalueringen av stabilitet som kan gjøres. Imidlertid er det ofte umulig eller i beste fall ekstremt vanskelig å konstruere alternative former for et måleinstrument.

Hvordan konstruerer man to alternative, men liknende former for måling av jobbprestasjon eller to alternative former for personlig historieform? I mange tilfeller ikke uten store vanskeligheter. Denne mangelen på en virkelig sammenlignbar måleanordning har ført til at psykologene ser etter ytterligere metoder for å vurdere påliteligheten i tillegg til test-retest og parallelle form prosedyrer.

Inndelt testmetode:

Den tredje store pålitelighetsmetoden refereres ofte til som et mål for den interne konsistensen til en måleenhet. Det gir en indikasjon på i hvilken grad folk scorer det samme, i forhold til hverandre, på ulike underavdelinger av det overordnede instrumentet. Denne metoden er trolig den mest brukte metoden for måling av pålitelighet, da det krever at bare en form skal bygges og likevel ikke kreve gjentatte administrasjoner av den formen.

Mekanikken er veldig enkel. I sin mest grunnleggende form er den interne konsistensmetoden parallellformet prosedyre der parallelle former er to halvdeler av samme test. Disse halvtestene er valgt for å være like ekvivalente som mulig, men ofte blir testen enkelt delt inn i to halvdeler ved å sette alle merkelige elementer i en halv og alle likeverdige elementer i den andre halvdelen. Dette kalles den merkelige versjonen av split-half-teknikken.

Det er viktig å huske at separasjonen av den totale testen i tilsvarende halvdeler oppstår bare når man vurderer den testen - ikke når man administrerer den. Siden de to deltestene hver er bare halvparten så lenge originalen, representerer hver en prøve av oppførsel bare halvparten så stor som den totale testen. Dermed er korrelasjonen (pålitelighet) mellom halvdeler sannsynligvis et underestimat av påliteligheten av score basert på hele testen.

For å få et estimat av hva påliteligheten til den komplette testen er, kan Spearman-Brown Prophecy-formelen bli anvendt som følger:

r tt = 2r ½½ / 1 + r ½½

hvor r tt = pålitelighet av den totale testen (estimert)

r 1/2 1/2 = observert korrelasjon mellom de to halvdelene av testen.

For eksempel, hvis den observerte korrelasjonen mellom halvdelene var 0, 40, ville Prophecy Formula estimere påliteligheten til den komplette testen som:

r tt = 2 (0, 40) / 1 + 0, 40 = 0, 80 / 1, 40 = 0, 57

Den delte halvmetoden gir således en metode for estimering av pålitelighet med en enkelt test og en enkelt administrering. Det er imidlertid visse ulemper ved bruken. Når man har en test som hovedsakelig involverer hastighetsfaktorer (som for eksempel enkelte enkle klerketester), gir den alternative halvprosessen et feilt høyt resultat.

Siden hastighetsprøver vanligvis involverer enkle gjenstander, er det bare et spørsmål om de ble svart på det som avgjør om de var korrekte eller feil. Dermed vil splittelsen av testen på en ujevn basis, for eksempel resultere i nesten identiske score for begge halvdeler, og dermed en høy positiv korrelasjon.

Kuder-Richardson Metode:

En annen versjon av split-half-metoden brukes ofte for å måle påliteligheten. I forbindelse med en statistisk teknikk kjent som variansanalyse, er den hyppigste formen kjent som Kuder-Richardson-prosedyren. Kuder-Richardson (KR) -metoden er også en intern konsistenssikkerhet som i hovedsak behandler hvert testelement som en subtest, slik at i stedet for å ha to halvdeler, finnes det n delprøver hvor n er det totale antallet elementer på måleinstrumentet. KR-teknikken er ekvivalent med å beregne alle mulige korrelasjoner mellom par av testeelementer (det vil være n [n - 1] / 2 slike par), ta gjennomsnittet av disse og justere resultatet ved å bruke Spearman-Brown profetiske formel

Hvor

r tt = estimert pålitelighet av total test

r ii = gjennomsnittlig korrelasjon mellom elementer

K = antall par elementer

I likhet med prosedyre med delt halvform, ignorerer Kuder-Richardson-prosedyren variasjonskilde 2 og er ikke egnet for hastighetsprøver.

En oppsummering sammenligning er gitt i tabell 2.4. Denne tabellen viser de ulike pålitelighetsmetodene og sammenligner dem med hensyn til hva slags variasjon de inkluderer som feilvariasjon.