Rater Egenskaper: Rater Pålitelighet og Forutsigbarhet av Ratings

Så langt har vi ignorert de faktiske raters selv og deres betydning for ytelsesvurderingsprosessen. Selv om det har blitt indikert at ratifiseringen er utsatt for mange typer "feil" ved vurdering, og at vurderingsskalaer skal utformes for å minimere disse feilene, har karakteristikkene til de enkelte raters ikke blitt undersøkt med hensyn til deres effekt på ratingprosessen.

Rater Pålitelighet og Forutsigbarhet av Ratings:

Problemet med rater egenskaper har fått stor oppmerksomhet de siste årene. Buckner (1959) har utforsket forholdet mellom hvor godt ratere er enige og hvorvidt man kan forutsi karakterer med noen annen variabel. Angitt på en annen måte spurte Buckner spørsmålet "Gjør svært pålitelige ratinger, betyr at jeg har et kriterium som blir enklere å forutsi?" Svaret viste seg å være nei. Buckner delte sine rangeringer i fire grupper, avhengig av hvor godt dommerne ble enige om å tildele sine karakterer.

Gruppe 1: Dommerne var i høy enighet om disse satsene

Gruppe 2: Dommerne var i moderat enighet om disse satsene

Gruppe 3: Dommere var i lav avtale om disse satsene

Gruppe 4: Dommere var i null avtale om disse satsene

Han fortsatte deretter med å validere to tester ved å korrelere testresultater mot vurdering - dette ble gjort for hver gruppe separat. Han fant ingen systematisk sammenheng mellom størrelsen på hans oppnådde gyldigheter som en funksjon av gruppen han jobbet med. Windle og Dingman (1960) kritiserte Buckners fortolkning og gjorde en ny studie hvor de fant resultatene gitt i tabell 7.4.

Legg merke til de relative størrelsene av validitetskoeffisientene vist i tabell 7.4. Jo mer pålitelige de vurderer, desto høyere er gyldighetene. Tilsvarende de mer pålitelige karakterene, desto høyere er gyldighetene.

Derfor kan man logisk forventer resultater mer som Windle og Dingman enn Buckner. Men man må også huske på at høy pålitelighet bare er en nødvendig betingelse for høy validitet - det er ikke en tilstrekkelig betingelse.

Wiley har i en rekke studier undersøkt konsistensen av rater-dommer over tid med hensyn til hvor godt de er enige med tidligere dommer av samme rater (Wiley 1963, Wiley og Jenkins, 1963) og hvor godt de er enige med en gruppesammensetning vurdering (Wiley og Jenkins, 1964). Generelt ble det funnet ratifikatorer å være konsekvente i sine karakterer opp til en periode på ti måneder.

I tillegg oppdaget han at de som var enig med gruppekompositten i en innledende vurderingsoppgave, også var de som var enige om at de hadde størst avtale med gruppekompositten på en annen vurderingsoppgave en måned senere. Han foreslår at denne kunnskapen kan brukes til å velge ratere som virkelig representerer den gjennomsnittlige konsensusen til en større gruppe ratere.

Dessverre er problemet med hvorvidt ratere som er enige med gruppesammensetningen, de beste raters å søke ikke selv blitt bestemt. Imidlertid er det logikk på stillingen at hvis det er mulig å få en sammensatt vurdering ved hjelp av et lite antall ratere som vil tilnærme sammensetningen oppnådd ved hjelp av et større nummer, kan man sikkert spare tid og penger.

Tallrike andre rater egenskaper har vist seg å spille en rolle i ytelsesvurderinger oppnådd ved vurdering. Christal og Madden (1960) har vist at et viktig hensyn er i hvilken grad en rytter er kjent med den okkupasjonen han er vurdering, et funn som støttes av flere studier av Madden (1960a 1961). På samme måte har Wiley, Harber og Giorgia (1959a, 1959b) vist at innflytelsen av generaliserte rater-tendenser er merkbar i deres effekt ved vurdering.

Vurdering-skalaformat og ytelsesvurdering Dommer:

Madden har rapportert en rekke studier som handler om innflytelsen av vurderingskalaen selv. I en studie (Madden, 1960b) fant han at vurderingsikkerhet og enkel vurdering ikke var påvirket av bruk eller mangel på bruk av eksempler ved definering av karakterskalaen, men at om skalaen ble definert i motsetning til ikke definert gjorde- Påvirker pålitelighet og brukervennlighet.

I en etterfølgende studie studerte Madden og Bourdon (1964) effekten av syv forskjellige ratingskalaformater på karakterene av 15 forskjellige yrker på 9 forskjellige jobbfaktorer. Resultatene, selv om det er noe komplisert i naturen, tydelig tyder på at karakteren tildelt et yrke var avhengig av både den involverte jobbfaktor og det spesielle karakterskalaformatet som ble brukt.