Korrelasjon: Målinger, Beregning og Metode

Etter å ha lest denne artikkelen vil du lære om: - 1. Tiltak for korrelasjon 2. Beregning av korrelasjon 3. Metoder.

Tiltak for korrelasjon:

Karl Pearson korrelasjonskoeffisient (individuelle observasjoner) :

For å beregne graden eller omfanget av korrelasjon og korrelasjonsretning er Karl Pearsons metode den mest tilfredsstillende.

Symbolisk er formuleringen som under:

hvor dx er avviket fra ulike elementer av den første variabelen fra et antatt gjennomsnitt og dy, svarer de tilsvarende avvikene fra den andre variabelen fra det antatte gjennomsnittet og N til antall par av elementer.

Anvendelsen av formelen forklares med henvisning til følgende hypotetiske data:

Beregning av koeffektiv korrelasjon i en kontinuerlig serie:

I tilfelle av en kontinuerlig serie klassifiseres dataene i en toveis-frekvens tabell. Beregning av korrelasjonskoeffisient med hensyn til gruppert data er basert på antagelsen om at hvert element som faller innenfor et gitt klasseintervall, antas å falle nøyaktig til midtverdien av denne klassen.

Som en illustrasjon skal vi beregne koeffisienten eller korrelasjonen med hensyn til følgende data:

Formelen for beregning av korrelasjonsfaktor i dette tilfellet vil ta følgende form:

Den eneste endringen i formelen ovenfor i forhold til den tidligere er innføringen av f som står for frekvens.

Ved å bruke formelen til tabell 18.50 får vi:

Rang forskjell Metode for korrelasjon:

Hvor direkte måling av fenomenet som ikke er studert, ikke er mulig, for eksempel av egenskaper som effektivitet, ærlighet, intelligens, etc., benyttes rangeringsforskjellsmetode for å finne ut omfanget av korrelasjon.

Formelen for beregning av rangkorrelasjon er:

hvor R betegner koeffisient av rangkorrelasjon mellom parrede rekker, D betegner forskjellene mellom de parrede rekkene og N står for antall par.

Vi skal ved hjelp av følgende eksempel illustrere anvendelsen av formelen ovenfor:

Beregning av koeffisienten av korrelasjon etter rangeringsmetode :

(Når det er to eller flere elementer med samme verdi) :

Hvis det er mer enn ett element med samme verdi, gis en felles rang til slike elementer. Denne rangeringen er gjennomsnittet av rangeringene som disse elementene ville ha fått, hadde det vært en liten forskjell i verdiene deres. Anta at karakterene oppnådd av fem studenter er henholdsvis 70, 66, 66, 65, 63.

Hvis disse merkene er ordnet i synkende rekkefølge, vil figuren 70 motta den første rangen, 66 den andre rangen, 65 den tredje og 63, den fjerde rangen. Siden de to elevene i eksemplet har en likeverdig rang er 2. Nå blir de gitt den gjennomsnittlige rangen av de rekkene som disse studentene ville ha sikret hadde de avviket litt fra hverandre.

På denne forutsetningen vil rangen av begge elementene være 2 + 3/2. dvs. 2, 5 og rangen til neste punkt (65) ville være 4. Således vil koeffisienten for rangkorrelasjon trenge en korreksjon fordi den ovennevnte formelen [R = 1 6ΣD 2 / N (N 2 -1] er basert på antatt at rekkene til ulike elementer er forskjellige.

Når det er mer enn ett element med samme verdi, tilsettes en korreksjonsfaktor, 1/12 (t 3- t) til verdien av zd 2, hvor t. står for antall elementer hvis ranger er vanlige. Denne korreksjonsfaktoren legges til så mange ganger som antall elementer med felles rekkefølge oppstår.

Dette forklares i følgende eksempel:

Analyse av data og tolkning

Eksempel:

Beregn koeffisienten til rangkorrelasjon fra følgende data:

I det ovennevnte datasettet av X-serien forekommer tallet 60 tre ganger. Rangeringen av alle tre elementene er 5 som er gjennomsnittet på 4, 5 og 6, de rangeringene som disse elementene ville ha sikret hadde de avviket litt fra hverandre. Andre tall 68 i X-serien og 70 i Y-serien, har skjedd to ganger. Deres rang er henholdsvis 2, 5 og 1, 5.

Og dermed:

Den modifiserte formel for koeffisient av rangkorrelasjon ville således være:

hvor n står for antall gjenopptatte gjenstander. Med hensyn til eksemplet ovenfor vil formelen være:

En forsiktighet knyttet til betydningen og implikasjonen av korrelasjonskoeffisient er ganske berettiget. Korrelasjonskoeffisienten, som i seg selv er et svært nyttig estimat av forhold, bør ikke tas som et absolutt bevis på tilknytning mellom relevante variabler i så mye som dens tolkning avhenger i stor grad av størrelsen på prøven valgt for studien, som også på innholdet av de innsamlede dataene.

En tilsynelatende høy korrelasjonskoeffisient, si 0, 80 (+), kan egentlig være ganske misvisende hvis standardfeilen som indikerer eksempelsvingninger er relativt stor, eller for å ta et motsatt eksempel, kan en tilsynelatende lav koeffisient på 0, 45 (+) tyde på at forholdet mellom variablene vel kan ignoreres, men på virkelighetsplanet, kan denne indikasjonen igjen være feilaktig, da korrelasjonskoeffisienten for visse variabler typisk kan være så lav at den ovenfor nevnte korrelasjonskoeffisienten, dvs. 0, 45 i sammenligning ville trenge å betraktes som relativt ganske høy for den aktuelle klassen av data.

Men statistisk konvensjon bestemmer at korrelasjonskoeffisienten varierer fra 1 til 0, 7 (+) som en indikasjon på "høy" eller signifikant korrelasjon, som varierer fra 0, 7 til 0, 4 (+) som vesentlig, at mellom 0, 4 og 0, 2 (+ ) så lavt og at under 0, 2 (+) som ubetydelig.

Det må også understrekes at en høy korrelasjon mellom to variabler ikke i seg selv utgjør et bevis for at de er tilfeldig relatert. En vesentlig sammenheng mellom variabler - for eksempel mellom inntekt og størrelse på familien eller størrelsen på en utdanningsinstitusjon og studentens ytelse - gir ikke noe tegn på et uformelt forhold mellom dem.

Anta at vi skulle finne at høyere inntekt er omvendt korrelert med antall problemer (barn), dvs. høyere inntektene til foreldre, jo mindre deres antall problemer (korrelasjonskoeffisienten er 0, 8, som er statistisk ganske høy), Vi skal ha feil og uberettiget å si at høyere inntekt er årsaken til lavere fruktbarhet.

Det ble tidligere påpekt at en årsakssammenheng bare er berettiget dersom tre typer bevis, samtidig variasjon, tidsordre og eliminering av en hvilken som helst annen variabel som bestemmende tilstand for den hypoteseeffekten, kan sikres.

I det foreliggende tilfelle kan følgende innledninger muligens trekkes i full hensyn til den uttalt korrelasjonen som er tydelig blant variablene av inntekt og antall barn:

(a) Man kan forårsake den andre,

(b) Begge variablene kan være effekten av annen årsak eller årsaker, og

(c) Foreningen kan bare være en tilfeldighet. Årsakssammenheng kan selvsagt helt sikkert etableres i en eksperimentell situasjon.

Vi har vurdert dette når det gjelder eksperimentelle design. I samfunnsvitenskap er det svært vanskelig å sette opp eksperimenter, så må av studiene være ikke-eksperimentelle. Analytiske prosedyrer har imidlertid blitt utarbeidet for å tegne avledninger om årsakssammenheng i ikke-eksperimentelle studier.

Sosialforskeren er ganske ofte interessert i å estimere graden av tilknytning mellom attributter, dvs. mellom variabler som er definert kvalitativt; for eksempel vil han kanskje fastslå graden av tilknytning mellom den seksuelle egenskapen og den politiske preferansen eller mellom fødsel og holdning til et bestemt samfunnsspørsmål.

I utgangspunktet er forbindelsesproblemet en av korrelasjon, men foreningen mellom attributter kan ikke lett bli egnet til matematisk behandling som i tilfelle kvantitative målinger av variabler. Et mål for slik tilknytning blant attributter er koeffisienten for relativ forutsigbarhet (RP), som faktisk er en kvalitativ korrelasjonskoeffisient.