20. Koreliacinė analizė: ryšys tarp kintamųjų

Koreliacinė analizė yra vienas iš analizės tipų, skirtų įvertinti statistinę sąsają (ryšį) tarp dviejų kintamųjų. Tinka, kai statistinis ryšys tarp kintamųjų yra monotoninis (negriežtai sakant, arba nuolat didėjantis ir protarpiais nekintantis, arba nuolat mažėjantis ir protarpiais nekintantis) ir netinka, kai ryšys yra kitokio pobūdžio (pvz., iš pradžių mažėja, o po to didėja, pvz., pav. 20.1 trečia eilutė). Iš to išplaukia, kad kintamieji turi būti skaitiniai arba ranginiai, bet turėti pakankamai daug skirtingų reikšmių. Kitu atveju naudojama kategorinių kintamųjų ryšiui tirti skirta analizė.

Koreliacijos koeficientas parodo tiesinio, jei koreliacija tiesinė, arba ranginio, jei koreliacija ranginė, sąryšio tarp 2 kintamųjų stiprumą: t.y., ar tikėtina, kad padidėjus vieno kintamojo reikšmėms, padidės (arba sumažės) ir kito kintamojo reikšmės (ką tai reiškia ir ko nereiškia, vaizduojama pirmoje ir antroje pav. 20.1 eilutėse). Įprastai, jei neminima, apie kurį koreliacijos koeficientą kalbama, omenyje turimas Pearson (Pirsono) tiesinės koreliacijos koeficientas. Visgi, aprašant savo tyrimo rezultatus, rekomenduoju vengti dviprasmybės ir aiškiai nurodyti, kurį koreliacijos koeficientą naudojate.

Keletas teiginių apie koreliacinę analizę:

  1. Koreliacijos koeficientas nepriklauso nuo kintamųjų matavimo vienetų.
  2. Kinta nuo -1 iki +1;
  3. Ypatingieji taškai: -1, 0, +1;
  4. Koeficiento ženklas:
    • teigiamas koeficientas rodo tiesioginę priklausomybę (padidėjus X reikšmėms, tikėtina, kad padidėja ir Y reikšmės);
    • neigiamas – atvirkštinę (padidėjus X reikšmėms, tikėtina, kad Y reikšmės sumažėja).
  5. Koreliacijos stiprumą rodo absoliučioji koeficiento reikšmė:
    • konkreti interpretacija priklauso nuo tyrimo srities;
    • preliminarus vertinimas pateiktas 20.1 lentelėje.
  6. Jei dydžiai koreliuoja, vadinasi – jie yra priklausomi, bet jei nekoreliuoja, tada gali būti visaip: ir priklausomi (pvz., netiesiškai), ir nepriklausomi.
  7. Koreliacija laikoma statistiškai reikšminga, kai \(p\) reikšmė yra maža (pvz., kai \(p <\) 0,05, jei \(\alpha =\) 0,05). Iš principo toks rezultatas rodo, kad koreliacijos koeficientas (žymėkime \(\varrho\)) statistiškai reikšmingai skiriasi nuo 0 \((\varrho \ne 0)\).
  8. Generalinės aibės tiesinės koreliacijos koeficientas įprastai žymimas \(\varrho\), o jo įvertis, apskaičiuotas iš imties duomenų, žymimas \(r.\) Koeficientas \(r\) yra atsitiktinis dydis (dėl to, kad imtis sudaryta atsitiktinai), tad jo reikšmė gali būti didelė, nors tikrasis \(\varrho = 0\). Dėl to ir tikriname statistinį reikšmingumą (t.y., tikriname, ar iš turimų duomenų galime pagrįstai teigti, kad tikrasis koeficientas nelygus nuliui).
  9. Koreliacijos koeficiento reikšmės nereikėtų interpretuoti tiesiškai: pavyzdžiui situacija, kai \(\varrho\) = 0,2, nereiškia, kad ryšys yra 2 kartus stipresnis nei tada, kai \(\varrho\) = 0,1.


Grafiškai atvaizduoti dviejų kintamųjų priklausomybės variantai (sklaidos diagramos) ir **Pearson** (Pirsono) **koreliacijos koeficientas** (skaičius virš grafikų).
Kiekviena eilutė vaizduoja tam tikrus koreliacinės analizės aspektus.
    **(1)** Pirmoji eilutė -- ką Pearson koreliacijos koeficientas **parodo**: parodo *tiesinės* sąsajos stiprumą, t.y., kuo sąsaja stipresnė, tuo glaudžiau taškai išsidėsto į vieną tiesę.
    **(2)** Antroji eilutė -- ko **neparodo**: neparodo geriausiai taškus atitinkančios regresijos tiesės pokrypio kampo.
    Apskritai, šios eilutės viduriniam grafikui (horizontali linija) koreliacijos koeficientas negali būti apibrėžtas, nes y ašies reikšmių pokytis lygus nuliui. 
    **(3)** Trečioji eilutė -- kada **netinka**: netinka, kai statistinė priklausomybė tarp kintamųjų nėra tiesinė, didėjant X reikšmėms, Y ir didėja, ir mažėja. 
Tokiais atvejais priklausomybė yra, bet koreliacijos koeficientas jos neparodys. 
Iliustracijos šaltinis [<i class="fa fa-external-link-alt" aria-hidden="true"></i>](https://commons.wikimedia.org/wiki/File:Correlation_examples2.svg#/media/File:Correlation_examples2.svg), autorius -- DenisBoigelot, licencija -- [Creative Commons, CC0](http://creativecommons.org/publicdomain/zero/1.0/deed.en).

Pav. 20.1: Grafiškai atvaizduoti dviejų kintamųjų priklausomybės variantai (sklaidos diagramos) ir Pearson (Pirsono) koreliacijos koeficientas (skaičius virš grafikų). Kiekviena eilutė vaizduoja tam tikrus koreliacinės analizės aspektus. (1) Pirmoji eilutė – ką Pearson koreliacijos koeficientas parodo: parodo tiesinės sąsajos stiprumą, t.y., kuo sąsaja stipresnė, tuo glaudžiau taškai išsidėsto į vieną tiesę. (2) Antroji eilutė – ko neparodo: neparodo geriausiai taškus atitinkančios regresijos tiesės pokrypio kampo. Apskritai, šios eilutės viduriniam grafikui (horizontali linija) koreliacijos koeficientas negali būti apibrėžtas, nes y ašies reikšmių pokytis lygus nuliui. (3) Trečioji eilutė – kada netinka: netinka, kai statistinė priklausomybė tarp kintamųjų nėra tiesinė, didėjant X reikšmėms, Y ir didėja, ir mažėja. Tokiais atvejais priklausomybė yra, bet koreliacijos koeficientas jos neparodys. Iliustracijos šaltinis , autorius – DenisBoigelot, licencija – Creative Commons, CC0.

Lentelė 20.1: Preliminarus Pearson koreliacijos koeficiento vertinimas.
Preliminarus koreliacijos vertinimasKoreliacijos koeficiento reikšmės
koreliacijos nėra0
labai silpna[-0,2; 0) arba (0; 0,2]
silpna[-0,4; -0,2) arba (0,2; 0,4]
vidutinė[-0,7; -0,4) arba (0,4; 0,7]
stipri[-0,9; -0,7) arba (0,7; 0,9]
labai stipri[-1,0; -0,9) arba (0,9; 1,0]
tiesinis sąryšis-1 arba 1

20.1 Kurį koreliacijos variantą pasirinkti?

Schema 20.2 gali padėti pasirinkti tinkamą koreliacijos koeficientą.

Schema yra supaprastinta ir tik rekomendacinio pobūdžio. Jos tikslas – būti „atspirties tašku“ renkantis analizės metodą. Konkrečiu atveju gali būti išlygų, papildomų sąlygų arba pasirinkimo variantų, kurie schemoje nepažymėti.

Schema, rekomenduojanti, kurį (Pearson, Spearman ar Kendall) koreliacijos koeficientą pasirinkti. 
Spalvinio žymėjimo reikšmės pateiktos skyriuje „\@ref(ht-schemos) [Schemos metodams pasirinkti](#ht-schemos)“.

Pav. 20.2: Schema, rekomenduojanti, kurį (Pearson, Spearman ar Kendall) koreliacijos koeficientą pasirinkti. Spalvinio žymėjimo reikšmės pateiktos skyriuje „12.4 Schemos metodams pasirinkti“.

Skaičiais pažymėtų 20.2 schemos dalių paaiškinimai:

  1. Žiūrėti schemą 18.1.
  2. Šioje svetainėje tema nenagrinėjama.
  3. Nagrinėkite skyrių „15 Sąsaja tarp kategorinių kintamųjų“.
  4. Klasikinis metodas yra jautrus šių prielaidų pažeidimams. Dėl to gali būti neteisingai apskaičiuotas koreliacijos koeficiento dydis arba \(p\) reikšmė.

Yra keli praktikoje dažnai naudojami koreliacinės analizės variantai:

  • Tiesinė koreliacija – tinka, kai duomenys yra skaitiniai ir be išskirčių, o ryšys tarp kintamųjų yra tiesinis. Įprastai norime patikrinti ir statistinį reikšmingumą (t.y., kaip labai tikėtina, kad sąsaja yra atsitiktinė), o tam papildomai reikia, kad duomenys būtų normalieji ir imties dydis pakankamai didelis, pvz., 20 ar didesnis (Čekanavičius ir Murauskas 2004, p.33). Tiesinę koreliaciją įvertina:
    • Pearson (Pirsono) tiesinės koreliacijos koeficientas \(\varrho\) (tariama „ro“; angl. Pearson product-moment correlation coefficient). Iš imties duomenų apskaičiuotas koeficientas žymimas \(r\).
  • Ranginė koreliacija – įprastai naudojama, kai netenkinamos kai kurios tiesinei koreliacijai keliamos prielaidos. Tinka, kai ryšys yra nebūtinai tiesinis, bet monotoninis, duomenys nebūtinai normalieji arba ranginiai, yra išskirčių bei kai stebėjimų skaičius mažas. Ranginių koreliacijos koeficientų skaičiavimo prielaida yra ta, kad bendras analizuojamų požymių skirstinys yra tolydusis, t.y., yra mažai pasikartojančių reikšmių (Venclovienė 2010, p.175). Ranginės koreliacijos koeficientų variantai:
    • Spearman (Spirmeno) ranginės koreliacijos koeficientas \(\varrho_s\) (tariama „ro“; angl. Spearman rank-order). Jei koeficientas skaičiuotas iš imties duomenų, jis žymimas \(r_s\). Iš principo, tai Pirsono koreliacijos koeficientas, tik skaičiuojamas ne pradiniams duomenims, o rangams. Yra populiaresnis nei Kendalo \(\tau\) (Field ir kt. 2012, p.225), tačiau nerekomenduojamas itin mažoms imtims ar kai duomenyse yra daug sutampančių reikšmių.
    • Kendall (Kendalo) koreliacijos koeficientas \(\tau\) (angl. Kendall’s tau) – lengviau interpretuojamas nei Spirmeno (Venclovienė 2010, p.177), tiksliau įvertina tikrąją koreliaciją generalinėje aibėje, tad geriau generalizuoja (Field ir kt. 2012, p.225), labiau tinka mažoms imtims, kuriose yra daug pasikartojančių reikšmių (Field ir kt. 2012, p.225);
    • Absoliučiąja reikšme Kendall koreliacijos koeficientas yra šiek tiek mažesnis už Spearman, bet padarytos išvados yra vienodai reikšmingos (Čekanavičius ir Murauskas 2004, p.39), jei koeficientai naudojami korektiškai.

Jei konkrečiai neįvardinta, įprastai mokslinėje literatūroje kalbant apie „koreliaciją“ omenyje turimas Pearson koreliacijos koeficientas.

Schemoje 20.2 pateikiamas siūlymas, kaip išsirinkti tinkamą koreliacinės analizės variantą. Jei duomenys tenkina reikiamas prielaidas, įprastai pasirenkamas Pirsono koreliacijos koeficientas.

20.2 Prielaidų ir kitų reikalavimų tikrinimas

Įprastai pirmiausia siekiama naudoti tiesinės koreliacijos modelį. Šis modelis tinka, kai:

  1. Tenkinama tiesiškumo prielaida. Ar tenkinama tiesiškumo prielaida, įvertinama iš sklaidos diagramos.
  2. Nėra išskirčių. Ar yra išskirčių taip pat vertiname pagal sklaidos diagramą.
  3. Tenkinama normaliojo pasiskirstymo prielaida. Duomenys turėtų tenkinti dvimačio normaliojo pasiskirstymo reikalavimą. Tam yra sukurta specialių kriterijų. Dažnai (bet ne visada), jei kiekvienas analizuojamas kintamasis yra normalusis, tai ir dvimatis jų pasiskirstymas būna normalusis. Apie normalumo tikrinimą kiekvienam kintamajam atskirai plačiau skaitykite skyriuje „16 Normalumo tikrinimas“.
  4. Duomenų struktūra – du skaitiniai kintamieji.
Lentelė 20.2: Koreliacinei analizei reikiama duomenų struktūra – du skaitiniai kintamieji. Abu kintamieji turi turėti po tiek pat analizuotinų reikšmių.
xy
187.71.9045
163.31.9386
179.32.1459
174.01.8876
187.92.0003
155.51.9929

20.3 Rezultatų aprašymas: koreliacinė analizė

Aprašant koreliacinės analizės rezultatus trumpai nurodoma, kas analizuota, apibūdinami analizuojami požymiai. Taip pat pateikiamas tikslus analizės metodo pavadinimas, koreliacijos statistinis reikšmingumas (\(p\) reikšmė, įprastai 3 skaitmenų po kablelio tikslumu) ir koreliacijos koeficientas (įprastai užtenka 2 skaitmenų po kablelio). Jei reikia, nurodoma, kokia alternatyvioji hipotezė tikrinta: vienpusė (kai domina tik konkreti sąsajos kryptis) ar dvipusė (kai domina, ar koreliacija reikšminga apskritai; tai įprastinis pasirinkimas).

Taip pat įprasta pateikti sklaidos diagramą.

20.3.1 Aprašymo pavyzdys 1

„Atliktas 200 krabų tyrimas, kuriame lyginta gyvūnų priekinės skilties dydžio (FL) ir kūno storio (BD) priklausomybė. Pastebėta stipri teigiama koreliacija (\(r\) = 0,99, 95% PI 0,98–0,99, \(p\) < 0,001). Sąryšis tarp kintamųjų atvaizduotas pav. ___ (nurodomas paveikslo numeris).“

arba

„…tarp krabų (\(n\) = 200) priekinės skilties dydžio ir kūno storio nustatyta stipri koreliacija (\(r\) = 0,99, 95% PI 0,98–0,99, \(p\) < 0,001).“

Taip pat turi būti nurodomi trumpinių paaiškinimai: n – imties dydis, \(r\) – Pirsono (Pearson) koreliacijos koeficientas, PI – pasikliautinasis intervalas.

Svarbu! Moksliniuose darbuose nerašykite „koreliacijos nėra“, nes tai nekorektiškas teiginys. Įprastai rašoma „koreliacija buvo statistiškai nereikšminga“ ar „statistiškai reikšmingos koreliacijos nerasta“.

20.3.2 Aprašymo pavyzdys 2

Aprašymo pavyzdys. „Tiriant sąsają tarp namų dydžio (kvadratinės pėdos) ir suvartojamo elektros kiekio (kilovatvalandės per mėnesį) atlikta ranginė Kendall koreliacinė analizė, kuri atskleidė labai stiprų tiesioginį ryšį tarp šių kintamųjų (\(\tau\) = 1,00, \(p\) < 0,001). Imties dydis – 12. Priklausomybė atvaizduota sklaidos diagrama (skliaustuose nurodomas paveikslo numeris).“

Taip pat turi būti nurodomi trumpinių paaiškinimai: \(\tau\) – Kendall koreliacijos koeficientas.

arba

„Tarp namų dydžio ir suvartoto elektros kiekio ryšys buvo netiesinis, tačiau aptikta stipri ranginė koreliacija (Kendall \(\tau\) = 1,00, \(p\) < 0,001). Imties dydis – 12 stebėjimų.“


Jei atlikome Spearman analizę:

„Tarp namų dydžio ir suvartoto elektros kiekio ryšys buvo netiesinis, tačiau aptikta stipri ranginė koreliacija (Spearman \(\varrho_s\) = 1,00, \(p\) < 0,001). Imties dydis – 12 stebėjimų.“

20.4 Simuliacija: Pirsono koreliacijos koeficientas

Siekdami susipažinti su koreliacijos koeficientu ir jo grafine interpretacija, išbandysite interaktyvias simuliacijas „Atspėk koreliacijos koeficientą “ ir „Interpretuok tiesinės koreliacijos koeficientą “. Nuorodas atsidarykite atskirame lange ir atlikite 20.1 bei 20.2 užduotis.

Užduotis 20.1 Atspėk koreliacijos koeficientą. Atskirame lange atsidarykite simuliacijos įrankį , kuris generuoja grafikus, pagal kuriuos reikia iš 3 pateiktų variantų teisingai pasirinkti tiesinės koreliacijos koeficientą. Užduočiai skirkite bent 5 min. ir atlikite bent 40 spėjimų.

Užduotis 20.2 Interpretuok tiesinės koreliacijos koeficientą. Atskirame lange atsidarykite simuliacijos įrankį ir atsakykite į šiuos klausimus:

  1. Kaip sklaidos diagramos taškų „debesėlio“ forma priklauso nuo pasirinkto koreliacijos koeficiento?
    1. Pasirinkite imties dydį („sample size“) lygų 100;
    2. Koreliacijos koeficientą keiskite nuo -1 iki +1 kas 0,25 (slankiklis „Slide me“);
    3. Naudodami tą patį koreliacijos koeficientą sugeneruokite 3-5 naujas imtis (tai atliksite pakartotinai paspaudę mygtuką „New sample“) ir pažiūrėkite, ką visos jos turi bendra.
    4. Užrašuose nusibraižykite, kaip atrodo sklaidos diagramos taškų „debesėlis“ naudojant kiekvieną išbandytą koreliacijos koeficientą.
    5. Visą simuliaciją pakartokite su kitokio dydžio imtimi. Kas pasikeičia, jei imties dydis yra:
      1. 20?
      2. 200?
  2. Kokią įtaką Pirsono koreliacijos koeficientui daro išskirtys?
    1. Imties dydis lygus 100, koreliacijos koeficientas – -0,8. Pele pasirinkite vieną tašką sklaidos diagramoje (užveskite žymeklį ir paspauskite dešinį pelės klavišą) ir neatleisdami klavišo nutempkite jį į viršutinį dešinį kampą. Įvertinkite, kaip pasikeitė koreliacijos koeficientas.
    2. Koreliacijos koeficientas – 0. Vėl pasirinkite vieną tašką ir nutempkite į tą patį kampą. Vėl įvertinkite, kaip pakito koreliacijos koeficientas.
    3. Simuliaciją pakartokite naudodami kitokio dydžio imtis (20, 200 ir pan.).
    4. Kokį įspūdį susidarėte: ar Pirsono koreliacijos koeficiento įvertis atsparus išskirtims?

20.5 Rekomenduojami informacijos šaltiniai

Šiame konspekte pateikti tik esminiai koreliacinės analizės bruožai. Išsamiau teorija išdėstyta šiuose vadovėliuose:

  1. (Čekanavičius ir Murauskas 2006, p.97–98, 124–126, 165–169) – tiesinė koreliacija;
  2. http://www.biostathandbook.com/linearregression.html – tiesinė koreliacija;
  3. (Čekanavičius ir Murauskas 2004, p.33–40) – ranginė koreliacija;
  4. http://www.biostathandbook.com/spearman.html – ranginė koreliacija;
  5. (Venclovienė 2010, p.66–68, 167–183);
  6. „Correlation Analyses in R“

Informacijos šaltiniai

Čekanavičius V., Murauskas G. Statistika ir jos taikymai I. Vilnius: TEV (2006).
Čekanavičius V., Murauskas G. Statistika ir jos taikymai II. Vilnius: TEV (2004).
Field A., Miles J., Field Z. Discovering Statistics Using R. London: Sage (2012). Prieiga per internetą: https://us.sagepub.com/en-us/nam/discovering-statistics-using-r/book236067.
Venclovienė J. Statistiniai metodai medicinoje. Kaunas: Vytauto didžiojo universitetas (2010). Prieiga per internetą: https://www.vdu.lt/cris/bitstream/20.500.12259/271/1/ISBN9789955125587.pdf.