Tvangs-valgsystemer: Brukes til å skaffe jobbevalueringsvurderinger

En av de mest populære metodene for å få tak i prestasjonsevalueringer er gjennom teknikken kjent som "tvunget valg". Denne vurderingsmetoden, som var en utvekst av de vanlige problemene som oppsto i utviklingen av personlighetsmåleinstrumenter, ble raskt tilpasset for bruk i ytelse vurdering.

Historisk synes metoden å ha oppstått med Horst i begynnelsen av 1940-tallet, og ble også brukt av Wherry på omtrent samme tid. Metoden har blitt brukt i mange forskjellige situasjoner og for en rekke formål. I en utmerket kritikk av tvangsvalgmetoden oppsummerer Zavala (1965, s. 117) følgende:

FC-teknikken har blitt brukt til å rangere profesjonelt personell som luftvåpenoffiserer og militærfolk (Gough, 1958, Wherry, 1959), motorveier og politifolk (Peres, 1959; Stander, 1960), ingeniører (Lepkowski, 1963), lærere (Leftwich, 1962, Tolle og Murray, 1958) og leger (Newman og Howell, 1961, Newman, Howell og Harris, 1957). FC-konseptet har også blitt brukt til å utvikle tester for vurdering eller måleinteresser (Bendig, 1958, Peel, 1961), ledelse og veiledning (Izard og Rosenberg, 1958, Wollack, 1959) og ansattes holdninger (Miller og Gekoski, 1959) .

Gordon (1951), Denton (1954) og Hatch (1962) har satt FC-teknikker til bruk i personlighetsmåling og for å oppnå tiltak av empati. FC-tilnærmingen har også blitt brukt i problemer relatert til signaldetekterbarhet og auditive terskler (Lukaszewski og Elliott, 1962, Swets, 1959). Blackwell (1952) brukte FC-metoden for psykofysisk måling av sensoriske funksjoner. Webster (1959) utviklet en figurpreferanse test ved hjelp av FC-teknikken.

Konstruksjon av tvunget valg Vurdering skala:

Guilford (1954, s. 275) har skissert veldig tydelig de riktige skrittene som skal følges i utviklingen av et tvunget valginstrument - så klart at de er verdt å gjenta her.

Han foreslår følgende åtte trinn:

1. Beskrivelser er oppnådd vedrørende personer som er anerkjent som de høyeste og laveste ekstremer av ytelsen kontinuum for den aktuelle gruppen som skal vurderes.

2. Beskrivelser analyseres i enkle atferdskvaliteter, angitt i svært korte setninger eller setninger eller ved navnnavn, som kan kalles elementer som brukes til å konstruere elementer.

3. To verdier bestemmes empirisk for hvert element: en diskrimineringsverdi og en preferanseverdi. Diskrimineringsverdien er en indeks for gyldighet, og preferanseverdien er en indeks for graden som kvaliteten er verdsatt av folk som ratene som skal bruke instrumentet.

4. Når du danner et element, er elementene paret. To setninger eller betingelser med omtrent samme høye preferanseverdi er paret, hvorav en er gyldig og den andre ikke. Begge skal ha "ansiktets gyldighet" for rateren, det vil si at rater bør tro at de er begge gunstige for overlegen ytelse i gruppen vurdert. To setninger eller termer med omtrent like lav preferanse verdi er også sammenkoblet, en er gyldig og den andre ikke.

5. To par setninger, ett par med høy preferanse verdi og en med lav preferanse verdi, kombineres i en tetrad for å danne et element. Årsaken til denne typen kombinasjon er at selv om den gjennomsnittlige rater ikke vil motsette seg å plukke en av to gunstige beskrivelser for en person som han vet, knuser han noen ganger på å velge en av to ugunstige beskrivelser. Noen ganger er en femte, nøytral, beskrivelse lagt til for å danne en pentad, men dette er mindre vanlig.

Et eksempel på en tetrad følger:

Uforsiktig

Alvorlig-minded

Energisk

snobbete

Egenskapene "seriøs" og "energisk" ville ha blitt funnet å ha lik preferanseverdi fordi de ble brukt omtrent like ofte som gunstige egenskaper ved å beskrive typen personell for hvilken skalaen ble utviklet. Egenskapen "seriøs" ble imidlertid vist å være gyldig, siden den ble brukt til høykriteriumgruppen betydelig oftere enn til lavkriteriegruppen. Egenskapene "uforsiktig" og "snobbish" ble funnet like upopulære, men "uforsiktig" diskriminerer lavt fra høykriteriegruppen.

6. Veiledningen til rateren er utarbeidet. Rateren er å reagere på hver tetrad som et element, og si hvilken av de fire som passer best til rateren og hvilken av de fire som er minst passende.

7. En eksperimentell form for instrumentet blir utprøvd i en prøve som det er et ytre kriterium for, for å validere svarene når beskrivelsene spiste satt opp i denne formen. Diskriminerende svar bestemmes, og hvis ønskelig er differensjonsvekter tildelt.

8. En scoringsnøkkel er utarbeidet basert på resultatene i trinn 7. Vanligvis er en gyldig gunstig egenskap som er merket som mest beskrivende av rateren en positiv vekt, også en gyldig, ugunstig egenskap som dømmes som minst beskrivende.

begrunnelse:

Selvfølgelig, fra beskrivelsen ovenfor er logikken av navnet "tvunget" valg umiddelbart synlig, fordi rateren kontinuerlig blir tvunget til å velge blant like gunstige (eller ugunstige) alternativer. Dette forhindrer tilsynelatende at rytterne fra bevisst å sjekke bare de mest fordelaktige trekkene når de vurderer de arbeidstakere som han kanskje ønsker å vise en viss grad av favoritisme.

Hvis han velger sine svar strengt på grunnlag av hvor gunstige de ser ut til å være, så vil han i teorien ikke ha grunn til å velge et trekk over det andre i noen par siden de har blitt ligestilt på dette grunnlag. Dermed ville hans valg være tilfeldig, og ved en tilfeldighet vil han ende opp med å velge den diskriminerende egenskapen halvparten av tiden.

Siden hver tetrad har et gunstig par (med en positiv diskriminator i den) og et ugunstig par (med en negativ diskriminator i den), ville et tilfeldig utvalg i hvert par bety at rater ville ha en tendens til å velge en gunstig diskriminator på omtrent halvparten av tid og en ugunstig diskriminator omtrent halvparten av tiden.

Dermed vil en tilfeldig eller sjanse score være null (forutsatt at vi gir en +1 for hver positiv diskriminator og en -1 for hver negativ diskriminator sjekket). I den grad rateren virkelig forsøker å gi en nøyaktig vurdering av arbeideren, vil han ha en tendens til å velge egenskaper som diskriminerer i det positive paret og ikke å velge egenskaper som diskriminerer i det negative paret (forutsatt at han vurderer en god arbeidstaker) .

Hvis han vurderer en dårlig arbeidstaker, ville mønsteret hans reverseres ved at han ville ha en tendens til å velge diskriminerende egenskap oftere enn tilfeldighet blant det negative paret og velge det ikke-diskriminerende trekket oftere enn sjansen i det positive paret. Gode ​​arbeidere bør derfor ende opp med høye positive score og fattige arbeidere med høye negative poeng.

Tvangsvalgsindekser:

Nøkkelen til en vellykket tvangsvalgskala ligger i flere typer indekser som er oppnådd for hvert trekk før bygging av den endelige versjonen av karakterskalaen.

De forskjellige indeksene er som følger:

A. Diskriminerende indekser

B. Tilsvarer indekser

1. Preferanseindeks

2. Favorittindeks

3. Viktighetsindeks

4. Ønskelighetsindeks

Diskriminerende indekser:

Diskriminerende indeks er bare et mål på graden som et trekk er funnet å skille mellom gode og fattige arbeidere. Alle indeksene som normalt er ansatt i vareanalyser, er potensielt hensiktsmessige for bruk som tiltak av karakteristiske egenskaper, siden man er utelukkende opptatt av hvor gyldig hver egenskap er å forutsi hvor god en ansatt kan være. For en diskusjon av elementanalysemetoder, konsulter enhver grunnleggende tekst i psykologisk testing.

Sammenligning av indekser:

Begrunnelsen for tvangsvalgssystemet krever at trekk er parret på en slik måte at de er like "attraktive" for rytteren. Med andre ord må ett trekk ikke ha mer av noen karakteristikk som vil føre til at den blir plukket over det andre trekket av en rytter som har lyst til å forvirre hans svar. Utvalg av egenskaper i hvilket som helst par skal bare baseres på deres diskriminerende kraft i stedet for i hvilken som helst populasjonsstereotype om egenskapene selv.

Vi har umiddelbart ført til problemet med å forsøke å bestemme hvilke typer egenskapskarakteristikker som er egnet til å påvirke svaret til en rater som ønsker å forspenne svarene hans.

Fire slike egenskaper kan anses som potensielt viktige:

1. Preferanse for et trekk:

Dette kan best defineres som den generelle tendensen for ratifisere til å bruke egenskapen med alle mennesker, uansett om de er gode eller fattige arbeidere. Sisson (1948) definerte denne egenskapen som "i hvilken grad folk generelt har en tendens til å bruke den til å beskrive andre mennesker." På en måte er egenskapsegenskapen et mål på commonness av et trekk i det beskrivende vokabularet av ratifikatorer. Tilsvarende trekarakterer i forhold til deres generelle preferanse ville sikkert virke som et logisk skritt hvis man prøvde å fjerne fremmede elementskarakteristikker som sannsynligvis ville påvirke valget av en rater.

2. Favoritt av et trekk:

Egenskaper er tydelig forskjellig når det gjelder deres synlige gunstige egenskaper når de brukes som en beskrivelse av mennesker. Som det er nevnt, kombinerer tvangsvalgformatet vanligvis to gunstige trekk med to ugunstige egenskaper. Det er også viktig at de to gunstige egenskapene virker like gunstige, og de to ugunstige trekkene er like gunstige, eller rytteren kan bli fristet til å velge den mest fordelaktige i hvert par i et forsøk på å gjøre kursen så god som mulig.

Egenskapsferdighet er trolig den mest brukte indeksen for likestillingspar. Det er en indeks som er relativt lett å oppnå ved å ha en rekke dommere vurdere hvert trekk når det gjelder dets gunstighet til personen den skal brukes til å beskrive og bruke den gjennomsnittlige skalaverdien som favorittsindeksen.

3. Viktighetsindeks:

Denne indeksen er nevnt av Zavala (1965) og er et mål på «betydningen av erklæringen som kvalifikasjon for stillingen i spørsmålet» (Zavala, 1965, s. 118). Denne indeksen gjenkjenner at en person med en bias tendens er mer tilbøyelig til å bruke en bestemt situasjon som referanseramme enn en mer generell referanse. Det vil si at en rytter som ønsker å få en rate å se bra ut, kan være mer tilbøyelig til å velge det spesifikke trekket som han føler er viktigst for den aktuelle jobben enn han er å plukke det trekket som er den mest gunstige generelle deskriptoren.

Raterens valg av hvilket trekk er best å bruke er derfor sannsynlig å være jobbspesifikk. For å lykkes å måle egenskaper for deres betydning, er det nødvendig at viktighetsskalaverdier oppnås (vanligvis på samme generelle måte at man oppnår gunstige målverdier) for hver annen vurderingssituasjon - en oppgave som til tider kan være vanskelig å utrette.

4. Ønskbarhetsindeks:

Begrepet sosial ønskelighet ble diskutert som en innflytelse i å bestemme individers respons på personlighetsinventarene. Effekten av denne egenskapskarakteristikken er sannsynligvis like viktig i vurderingssituasjoner. Å skille mellom gunstighet og sosial ønskelighet er ikke alltid en enkel ting å gjøre.

Sikkert, karakteristiske egenskaper er også egnet til å bli ansett sosialt ønskelig. Sondringen kan illustreres ved å vurdere gunstigheten til en egenskap som intelligens, som kan være ganske høy, mens sosial ønskelighet kan ha en tendens til å være noe lavere på grunn av en generell kulturell reaksjon mot "eggheads" etc.

Referanserammer:

Ikke bare er det en rekke forskjellige indekser som kan brukes til å likestille trekarakterer i et tvunget valgformat, men det finnes også flere instruksjonssett eller referanserammer som kan gis til dommerne når man oppnår skalaverdier for likeverdige formål . Som et resultat er forskjellige instruksjoner som er egnede til å være ganske kritiske.

For eksempel, hvis man er interessert i å få viktige indekser, kan han gi dommerne ett av følgende sett med instruksjoner:

(I) Gir hvert trekk en poeng basert på hvor viktig du føler at egenskapen er for vellykket jobbprestasjon, eller

(2) Gi hvert trekk en poengsum basert på hvor viktig du tror at rateren til slutt bruker skalaen, vil føle egenskapen for vellykket jobbprestasjon.

I første omgang får man skalaverdier basert på dommernes egen referanseramme. I andre tilfelle blir dommerne bedt om å plassere seg i "skoene" til personen som til slutt blir bedt om å bruke ytelsesvurderingsinstrumentet og å dømme som om de var den personen. Viktighetsskalaverdiene som er oppnådd under disse to settene av forhold, kan vise seg å være ganske forskjellige.

"Ideal-Man" -strategien:

Et relatert problem til referanseproblemet er raterstrategien referert til som "ideal-man" -strategien. En veldig typisk måte å forvirre svar på på en skala med tvangsvalg, er at rytteren skal velge sin beste arbeidstaker og mentalt erstatte hans karakteristika for de som arbeider som han faktisk vurderer og hvem han ønsker å få poengsummen godt.

Hvis han ikke har noen arbeidstaker godt nok til å bli brukt som veileder i vurdering, kan rytteren tegne et mentalt bilde av en ideell arbeidstaker og bruke dette som referanseramme ved å lage sine karakterer. Denne typen bevisst forspenning er ekstremt vanskelig å håndtere, siden rateren på en måte ikke legger noen oppmerksomhet til de slags egenskapskarakteristikker som tvangsvalgskalaen har til hensikt å beskytte mot.

Det vil si at rater har en tendens til å gjøre en "ærlig" stilling med karakteren, bortsett fra "mannen" han er vurdering når han fullfører skalaen, er en ganske annen person enn den han er ment å være vurdering. Når en rytter er klok nok til å vedta denne vurderingsstrategien som en metode for å øke prestasjonspoengene til vennene sine, etc., er det lite som kan gjøres for å unngå den resulterende partiskhet, selv med tvunget valg.

Forskning på tvangsvalgmetode:

Metoden for tvunget valg har vært gjenstand for stor forskning siden innføringen i 1940-tallet. Som med mange nyere metoder har det vist seg å være noe mindre av en kur - alt enn mange hadde håpet, men det synes fortsatt å være en av de mest effektive måtene å redusere rater-bias tilgjengelig for industrisykologen. En kort oversikt over noen av funnene som omhandler ulike aspekter av tvangsvalgmetoden, gir en ide om metodenes generelle status.

Forced-Choice-elementformat:

I det som har blitt vurdert som en av de klassiske studiene på tvangsvalgmetoden, sammenlignet Highland og Berkshire (1951) seks forskjellige typer elementformater med hensyn til (1) deres merkelige tilstrekkelige pålitelighet, (2) deres følsomhet overfor bias når ratere ble instruert til å sikre høy poengsum, (3) deres gyldighet mot et kriterium som består av lærerens rangordre av studentene, og (4) deres generelle popularitet som fastslått av raterne.

De seks forskjellige typer elementformater som ble brukt var:

1. To uttalelser per element, enten gunstige eller begge ugunstige. Rater ble bedt om å velge mest beskrivende av parklæringen.

2. Tre uttalelser per element, enten alle gunstige eller alle ugunstige. Rater ble bedt om å velge den mest og minst beskrivende uttalelsen.

3. Fire uttalelser per gjenstand, alle gunstige. Rater ble bedt om å velge de to mest beskrivende uttalelsene.

4. Fire uttalelser per gjenstand, alle gunstige. Rater ble bedt om å velge den mest beskrivende og minst beskrivende.

5. Fire uttalelser per gjenstand, to gunstige og to ugunstige. Rater ble bedt om å velge både de mest og minst beskrivende uttalelsene.

6. Fem uttalelser per gjenstand, to gunstige, to ugunstige og en nøytral. Rater ble bedt om å velge både de mest og minst beskrivende uttalelsene.

Resultatene av studien førte Highland og Berkshire til følgende konklusjoner:

Pålitelighet:

Alle formater førte til høy pålitelighetskoeffisienter, selv om formater 5 og 6 kan anses som å gi den beste visningen på dette kriteriet.

Gyldighet:

Format 4 ble generelt funnet å være den mest gyldige, med format 3 som kjørte en sterk sekund. Dette indikerer at bruk av kun gunstige alternativer ser ut til å påvirke gyldigheten.

Rater preferanse:

Foretrukket av ratene for de seks formatene som (fra de fleste til minst foretrukne) 3, 1, 6, 5, 4 og 2.

Følsomhet for bias:

Skjemaene varierte betydelig med hensyn til i hvilken grad de var motstandsdyktige mot forsettlig forsøk på forspenning. Ordren av biasmotstand (fra de fleste til de minste) var 3, 2, 1, 4, 5 og 6.

Highland og Berkshire antyder at format 3 er det beste av de seks som studeres når de fire kriteriene som er nevnt ovenfor blir vurdert.

Sammenligningsgyldighet for tvunget valg:

Highland og Berkshire-studien undersøkte ulike formater av tvunget valg blant seg selv. Et like viktig spørsmål gjelder validiteten og påliteligheten til metoden i forhold til andre ytelsesvurderingsprosedyrer.

I vurderingen av studiene som har påstått å undersøke fordelen av tvunget valg med hensyn til gyldighet, gjør Zavala (1965) følgende punkter:

1. For mange studier av gyldigheten av tvunget valg har en tendens til å bruke andre former for vurdering som et kriterium. Dette er trolig mer av en pålitelighet enn et gyldighetsmål.

2. De fleste komparative studier synes å vise en liten overlegenhet for tvangsvalg over konvensjonelle klassifiseringsmetoder.

3. Jo lengre vurderingsskalaene er, desto mer apt er tvangsvalgmetoden å være overlegen.

4. Gyldigheten av en tvangsvalgskala er også egnet til å være en funksjon av typen likestillingsindeks som brukes ved konstruksjon av elementene.

Følsomhet for bias:

Selv om spørsmålet om gyldighet er sannsynligvis det viktigste som kan brukes til å evaluere tvangsvalgmetoden, er spørsmålet om graden som metoden er utsatt for forstyrrende eller bevisst forvrengning også kritisk. Faktisk var metoden spesielt utviklet for å redusere responsforstyrrelser, siden responsforstyrrelsen har en tendens til å redusere gyldigheten.

Beviset på effektiviteten av tvangsvalgsprosedyren som en forspenningsreduksjon er noe ujevn. Det ser ut til å være liten tvil om at faking fortsatt er mulig under et pressevalgsformat, som angitt av Sisson (1948), Howe (1960) og Howe og Silverstein (1960).

Det ser imidlertid ut til at det er vesentlig bevis på at graden av funksjonsevne reduseres av tvangsvalgsposter. Karr (1959), Taylor og Wherry (1951), og Izard og Rosenberg (1958) tilbyr tre eksempler på forskningsstudier som indikerer en motstand mot faking ved tvunget valg som overstiger det for andre typer skalaer.

Waters (1965) har nylig antydet at en av de store vanskelighetene med forskning på evnen til tvunget valg har vært at "settet" for å feire testen som er etablert, har vanligvis avviket fra "settet" der de likeverdige indeksene var opprinnelig oppnådd. Dermed er indeksene aldri helt egnede til selve vurderingssituasjonen. Han foreslår at det er tre forskjellige responssett under hvilke likestillingsindekser kan oppnås (uansett hvilken indeks som brukes).

1. Ærlig vurdering:

Svare på at respondenten virkelig mener at uttalelsen gjelder den personen som blir evaluert

2. Sosial akseptabilitet:

Svare slik at det virker akseptabelt for seg selv og for andre generelt

3. Suksessutseende:

Svare slik at personen ser ut til å ha de nødvendige eller ønskelige kvaliteter i forhold til en bestemt jobb eller aktivitet

Det er videre foreslått av Waters at fakthetsstudier kan klassifiseres i tre generelle klasser, avhengig av hvordan responssettet og gruppesammensetningen varieres.

For å sitere fra Waters (1965, s. 189) har vi:

1. Fagbarhetsstudier:

Setter og grupper som minst likner i situasjoner der attraktivitetsindeksene er oppnådd og skalaen administreres.

2. Generaliseringsstudier:

Enten sett eller grupper, men ikke begge, endret seg fra situasjonen der attraktivitetsindeksene er oppnådd i situasjonen der skalaen administreres.

3. Forlengelsesstudier:

Begge settene og gruppene endret seg fra situasjonen der attraktivitetsindeksene er oppnådd i situasjonen der skalaen administreres.

Faktsstudier skal ikke forveksles med sistnevnte typer studier. De er den eneste typen som direkte gir en test av hvor tilstrekkelig likestillingsindeksene er i jobben sin. De to sistnevnte evaluerer simpelthen generaliteten til indeksen i andre situasjoner. Dessverre, ifølge Waters, har de fleste faklingsstudier hittil vært enten generaliserings- eller utvidelsesstudier; Det er et sterkt behov for noen undersøkelser som direkte angriper fakabilitetsspørsmålet.

Norman Studie:

En av de mer interessante studiene om problemet med tvangsvalgsfaking og deteksjon er studien av Norman (1963). Han var opptatt av dynamikken i vare popularitet og element diskriminering indekser under normale forhold og under faking forhold. I tillegg var han interessert i å bestemme i hvilken grad faking, hvis det oppsto, kunne styres og / eller oppdages.

De viktigste funnene av forskningen i forhold til oppførselen til indeksene av popularitet og diskriminering er gitt nedenfor:

1. Diskriminasjonsindekser under normale og falske forhold var korrelert omtrent

2. Popularitetsindekser under normale og falske forhold var korrelert lavt (0, 24 og 0, 23).

3. Påliteligheten av diskrimineringsindeksene under falske forhold var null.

4. Påliteligheten til diskrimineringsindeksene under normale forhold var moderat høy.

5. Påliteligheten til populasjonsindeksene var nesten perfekt under både normale og falske forhold (0.97 og 0.98).

Den siste av disse resultatene (funnet nummer 5) innebærer at forskjellen i popularitet mellom normale og falske forhold også må være veldig pålitelig (det funnet nummer 2, som sier at det er betydelige forskjeller, kan modifiseres for å antyde at slike forskjeller er pålitelige og konsistent). Dette ble imidlertid ikke evaluert direkte i studien.

Norman foreslår derfor en prosedyre for å utvikle et tvunget valginstrument som vil ha samme betydning under falske forhold som det vil under normale forhold, ha en mindre varians under falske forhold, og ha en svært sensitiv deteksjonsskala for å identifisere fakers.

For å oppnå dette skisserer han følgende trinn:

1. Velg elementer med høy diskrimineringsindeks under normale forhold (velg mer enn det som til slutt kreves).

2. Rangordre de valgte elementene med hensyn til størrelsen på forskjellene deres i popularitet under de normale og falske forholdene (se nummer 2 i listen ovenfor).

3. Velg elementer fra begge sider av null (så mange som ønsket), og vær sikker på at den algebraiske summen av popularitetsforskjellene er lik null når du er ferdig.

Trinn 3 vil sikre (siden vi vet at popularitet forskjeller er pålitelige) at gjennomsnittlig test score av mennesker under normale forhold vil være lik den under falske forhold. Dette skjer siden gjennomsnittet av fordelingen av testresultater er lik summen av artikkelenes popularitet. Dermed er gjennomsnittlige score under normale og falske forhold likestilt. Tester konstruert med denne prosedyren vil også ha en tendens til avvik i deres testpoengsfordelinger når de tas under et sett til å falle. Dette er et resultat som har en tendens til å redusere muligheten for at folk som er tilbøyelige til å falle, vil få høyt nok score til å bli akseptert.

For å illustrere, vurder diagrammet som er vist nedenfor (figur 7.4) der vi har fordelingen av testresultater tatt under normale forhold. (7.4a), fordelingen av testresultater tatt under et sett til falsk (7.4b), og en sammensatt distribusjon bestående av fakers og non-fakers (7.4c).

Undersøkelse av figur 7.4c gir en indikasjon på den kontrollerende effekten som denne metoden utøver på forsettlige faker. I den vanlige ytelsesevalueringsinnstillingen er vi interessert i å belønne de menneskene som står høyt på tvunget valget. Siden variansen til den falske distribusjonen er redusert, kan man velge de beste scoring-personene (de til høyre for avskjæringslinjen i 7.4c) uten risiko for å få for mange fakers inkludert blant den valgte eller belønnede gruppen.

Figur 7.5 viser fem forskjellige empiriske demonstrasjoner av denne begrensningen i varians oppnådd i normanstudien.

En siste karakteristisk for den norske metoden er at det er veldig enkelt å konstruere en "deteksjon" skala for å bestemme hvem som feiler og hvem som ikke er.

En inneholder bare på skalaen en rekke elementer som oppfyller følgende krav:

1. De må ha null null validiteter for kriterievariablene.

2. De må ha vist et stort skift i popularitet fra det normale til den falske tilstanden.

3. Deres popularitet under normal tilstand må enten være veldig høy eller svært lav.

En konstruerer da en nøkkel som viser den sjeldne responsen under den normale tilstanden for hvert element (det vil si den hyppige responsen i den falske tilstanden), siden ett svar pleier å indikere faking og det andre svaret indikerer normal respons.

En annen måte å beskrive disse påvisningspostene på er at deres popularitet korrelerer med tendensen til å falle. Figur 7.6 viser fordelingen av score på detektorskalaen som er oppnådd av Norman under normale og under falske forhold. Legg merke til det store skiftet av score når folk ble bedt om å falle. Et avskjæringspunkt på ca. 20 ville ha en tendens til å identifisere de fleste fakerne uten å falske anklager mange av normalerne.