5. Grafikai
Grafinė analizė – neatsiejama statistinės analizės dalis: prieš pradedant sudėtingesnę analizę, būtina duomenis nusibraižyti. Akimis mes priimame didelę dalį informacijos, todėl grafikai ir diagramos padės pastebėti esminius duomenų bruožus.
Grafikai ir diagramos padeda greitai pastebėti esminius duomenų bruožus.
Aišku, tam, kad grafinė analizė apskritai būtų naudinga, turime mokėti suprasti ir analizuoti įvairius statistinius grafikus. Šioje dalyje pateikta teorinė medžiaga apie dažnai statistinėms suvestinėms atlikti naudojamus grafikus. Peržiūrėkite pateiktą video medžiagą, išnagrinėkite grafikus.
Vos įsikėlę duomenis analizei, peržiūrėkite juos grafiškai.
Skyrius apie aprašomąją statistiką ir statistinius grafikus galite rasti vadovėliuose (Čekanavičius ir Murauskas 2006; Venclovienė 2010; Field ir kt. 2012).
5.1 Grafikai vieno kintamojo apibendrinimui
5.1.1 Kategoriniams duomenims
Kategoriniams duomenims apibendrinti įprastai naudojama stulpelinė diagrama (pav. 5.1).
Šis grafikas tinkamas nominaliesiems, ranginiams ir kiekybiniams diskretiesiems duomenims, kai skirtingų reikšmių yra nedaug.
Apie šio tipo grafiką pasakojama video epizode 5.1.
Video epizodas 5.1 Stulpelinė diagrama.
5.1.2 Tolydiesiems duomenims
Tolydiesiems (bendruoju atveju – kiekybiniams) duomenims atvaizduoti įprastai naudojami tokie grafikai, kaip histograma, branduolinio tankio ar stačiakampė diagramos.
Šiame poskyryje aptariami grafikai tinkami ir kiekybiniams tolydiesiems, ir kiekybiniams diskretiesiems duomenims.
Video epizodas 5.2 Histograma.
Video epizodas 5.3 Branduolinio tankio diagrama.
Video epizodas 5.3 Branduolinio tankio diagrama.
Straipsnyje „Boxplots“ pasakojama apie tai, ką reiktų matyti ir kaip interpretuoti stačiakampes diagramas.
Video epizodas 5.4 Stačiakampė, smuikinė ir pasklaidytų taškų diagramos.
5.1.3 Diagramų palyginimas
Grafiniam informacijos palyginimui, pateiktam šio poskyrio grafikuose 5.8, 5.9, 5.11, buvo dirbtinai sugeneruoti duomenys. Kintamasis „Reikšmė“ padalintas į 8 duomenų grupes (nuo A iki H). Grupė A yra kontrolinė. Visos kitos nuo jos skiriasi pagal vieną konkretų požymį:
- imties dydį (n): A grupėje n = 250 (didesnė grupė), B – n = 63 (keturis kartus mažesnė grupė);
- centro padėtį: A vidurkis yra 50 (vidutiniškai didesnės reikšmės), C – 40 (vidutiniškai mažesnės reikšmės);
- sklaidą: A standartinis nuokrypis (SD) yra 5 (mažesnė sklaida), D – 10 (didesnė sklaida);
- viršūnių skaičių: A viena viršūnė, E – dvi viršūnės;
- simetriją: A pasiskirstymas simetriškas, F – dešinioji asimetrija (skirstinio „uodega“ nutįsusi į didelių reikšmių pusę);
- simetriją: A pasiskirstymas simetriškas, G – kairioji asimetrija (skirstinio „uodega“ nutįsusi į mažų reikšmių pusę);
- išskirtis: A ryškių išskirčių nėra, H – yra du labai smarkiai nuo centro nutolę taškai.
Peržvelkite žemiau pateiktus grafikus ir įvertinkite, kaip ši informacija juose matoma.
5.2 Kaip analizuoti grafikus?
Analizuodami grafikus atkreipkite dėmesį į duomenų padėtį, sklaidą, pasiskirstymo formą (simetriją/asimetriją, viršūnių skaičių), imties dydį ir išskirtinius bruožus, jei tokių yra. Jei analizuojate duomenis pogrupiais, šiuos dalykus pastebėkite kiekvienai grupei atskirai (žr. poskyrį „5.3.3 Grafinis grupių palyginimas“).
Kiekvienam iš šių bruožų apibūdinti gali padėti OSEM akronimas (metodo autorius – Jeremy Brocklehurst):
- O (obvious) – tam tikros akivaizdžios grafiko savybės pastebėjimas;
- S (specify) – patikslinimas ir sukonkretinimas taip, kad suprastų kitas;
- E (evidence) – pagrindimas skaičiais, papildomos analizės rezultatais;
- M (meaning) – įprasminimas:
- „Kas iš to šiame kontekste?“
- „Kaip tai siejasi su tyrimo klausimu ir problema?“ (Nes tyrimas/analizė prasideda nuo klausimo ar problemos formulavimo.)
Rekomenduojami video resursai: „Analysing and commenting on graphical output using OSEM“ .
5.3 Grafikai kintamųjų porai
Jei turime 2 kintamuosius, dažni šitokie grafikų pasirinkimai:
- sklaidos diagrama (angl. scatter plot) – jei du kiekybiniai kintamieji;
- stačiakampė diagrama, histograma, BTD ar panašaus tipo diagrama grupėms – jei skirtingų rūšių kintamieji (t.p. žr. poskyrį „5.3.3 Grafinis grupių palyginimas“);
- mozaikinė diagrama (angl. mosaic plot, Marimekko diagram) arba stulpelinė diagrama grupėms – jei du kategoriniai, diskretieji, nominalieji kintamieji.
5.3.1 Sklaidos diagrama
Sklaidos diagrama yra grafikas, taškais (simboliais) atvaizduojantis kiekybinių kintamųjų poros pasiskirstymą.
Analizuojant šio tipo grafiką reiktų vertinti:
- Ryšio pobūdį:
- tiesinis,
- netiesinis (monotoninis arba nemonotoninis),
- ryšio nėra (pvz., jei sklaidos diagramoje matomas apskritimo formos taškų „debesėlis“ arba tiesė, lygiagreti kuriai nors – x arba y – ašiai).
- Ryšio stiprumą:
- visiška priklausomybė (taškai išsidėstę į vieną kreivę, pvz., tiesę, paklaidų nėra);
- stiprus (taškai arti įsivaizduojamos geriausiai juos apibūdinančios kreivės, paklaidos mažos);
- silpnas (taškai toli nuo įsivaizduojamos linijos, paklaidos didelės);
- ryšio nėra.
- Ryšio kryptį:
- tiesioginis,
- atvirkštinis,
- kintamo pobūdžio;
- (ryšio nėra).
5.3.2 Kreivių diagrama
Įprastai 2 kintamuosius vaizduojame kreivėmis, kai vieno kintamojo, dažniausiai vaizduojamo x ašyje, reikšmės renkamos natūralia didėjimo tvarka. Įprastai tai būna kokio nors rodiklio kitimas laike (pvz., kondensatoriaus išsikrovimo dinamika), spektroskopinio signalo kitimas pagal bangos ilgį (pvz., hemoglobino sugerties spektras) ar pan.
5.3.3 Grafinis grupių palyginimas
Kai turite du skirtingo tipo kintamuosius (vienas – kategorinis, kitas – kiekybinis), dažnai norite palyginti tolydžiojo skirstinio reikšmes kategorinio kintamojo pogrupiuose. Šiuo atveju tarpusavyje palyginkite grupių (centro) padėtį, sklaidą ir imties dydį (tuos pačius dalykus, kuriuos reikia apsirašyti atliekant aprašomąją statistiką). Taip pat panagrinėkite kiekvienos grupės savybes atskirai. Keletas pavyzdžių pateikta žemiau (pav. 5.15–5.18).
Pagal pradinius kriterijus peržvelgę grafikus, toliau turime išsamiau paanalizuoti (tam gali prireikti papildomų grafikų ar skaitinių suvestinių, jei nesimato):
- centro padėtį:
- kokie centrai matomi? Vidurkiai, medianos, modos?
- ar centrai labai nutolę vienas nuo kito?
- kurios grupės reikšmės vidutiniškai didžiausios, kurios – mažiausios?
- viso skirstinio padėtį:
- ar grupių reikšmės (skirstiniai) smarkiai persidengia?
- sklaidą:
- ar visų grupių sklaida daugmaž vienoda?
- imties dydį:
- ar apskritai duomenų yra pakankamai daug? T.y., ar galiu pasitikėti tuo, ką vaizduoja grafikas?
- ar visos grupės pakankamo dydžio? (Galbūt tik vienoje grupėje per mažai duomenų?)
- ar grupių dydžiai daugmaž vienodi?
- skirstinio formą:
- ar visų grupių forma daugmaž vienoda?
- ar simetriška?
- jei ne, kokia asimetrija?
- ar asimetrija smarki? Gal tik neženkli?
- viena ar kelios viršūnės?
- ar yra labai didelių išskirčių, kurios paveiks rezultatus?
- ar kiekvienos grupės duomenys yra normalieji?
- kitus ypatingus ar neįprastus bruožus, jei tokių yra.
Jei reikia, savo pastebėjimus patikslinkite žiūrėdami į aprašomųjų statistikų lentelę, kurioje kiekviena grupė aprašyta atskirai (pvz., lentelė 5.1).
Grupė | n | Praleista | Vidurkis | SD | Mediana | MAD | IQR | Asimetrija |
---|---|---|---|---|---|---|---|---|
A | 30 | 0 | 82.3 | 11.0 | 83.5 | 7.9 | 9.6 | 0.48 |
B | 30 | 0 | 81.5 | 29.1 | 87.3 | 21.4 | 30.9 | -0.31 |
C | 25 | 0 | 144.5 | 10.2 | 144.2 | 7.6 | 11.9 | 0.39 |
D | 25 | 0 | 127.6 | 8.8 | 129.4 | 7.2 | 12.8 | -0.22 |
E | 31 | 0 | 96.4 | 32.5 | 99.8 | 24.0 | 28.4 | 0.52 |
F | 31 | 0 | 70.2 | 8.2 | 71.8 | 7.0 | 9.5 | -0.26 |
Visos 6 anksčiau demonstruotos grupės viename grafike (pav. 5.18).
5.3.4 Mozaikinė diagrama
Mozaikinė, arba Marimekko, diagrama – tai grafikas dviejų ar daugiau kategorinių kintamųjų reikšmėms atvaizduoti. Šiame skyriuje nagrinėsime atvejį, skirtą lygiai dviems kategoriniams kintamiesiems (pvz., lentelėje 5.2).
Lytis | Apavas |
---|---|
Vyras | Bateliai |
Moteris | Basutės |
Moteris | Bateliai |
Vyras | Šlepetės |
Moteris | Basutės |
Moteris | Šlepetės |
Žingsniai, kaip sudaryti mozaikinę diagramą:
- Turime 2 kategorinius kintamuosius (sakykime, lytis - vyras ir moteris – ir apavo tipas – bateliai, basutės, šlepetės);
- Lape nubrėžiame kvadratą, kurio vienoje ašyje parašome vieno, kitoje ašyje – kito kintamojo pavadinimą (sakykime, x ašyje yra lytis).
- Sudarome dažnių lentelę pagal vieną kintamąjį (pasirenkame savo nuožiūra). Pvz., suskaičiuojame, kiek procentų vyrų ir moterų yra imtyje;
- Pagal gautą santykį, proporcingai padaliname x ašies ilgį į stačiakampius: kiekvienos grupės dažnis proporcingas kategoriją atitinkančio stačiakampio ilgiui.
- Kiekviename pirmo kintamojo pogrupyje suskaičiuojame antrojo kintamojo dažnį:
- Vyrams: kiek su bateliais, basutėmis bei šlepetėmis;
- Moterims: kiek su bateliais, basutėmis bei šlepetėmis;
- Pagal gautas proporcijas y ašies kryptimi sudaliname kiekvieną prieš tai nubraižytą (t.y., vyrų ir moterų) stačiakampį: pogrupio dažnis proporcingas stačiakampio aukščiui. Atkreipkite dėmesį į tai, kad gavome atskiras proporcijas vyrams, atskiras – moterims.
- Susidariusių stačiakampių skaičius lygus pirmo ir antro kintamojo galimų reikšmių sandaugai. Šiuo atveju \(2 \times 3 = 6\). Stačiakampio plotas proporcingas pogrupio dydžiui.
Turbūt akivaizdu, kad iš tų pačių duomenų galime gauti dvi skirtingas mozaikines diagramas (todėl toliau bus vaizduojamos dvi diagramos), priklausomai nuo to, kurį kintamąjį pasirinkome dalinti pirmiausia.
Kaip pagal mozaikinę diagramą įvertinti sąsajos tarp kintamųjų stiprumą? Jei pirmo kintamojo pogrupiuose proporcijos yra vienodos – kintamieji yra nepriklausomi. Jei skirtingos – tada priklausomi. Kuo skirtumas tarp proporcijų didesnis, tuo ryšys yra stipresnis.
Mozaikinės diagramos trūkumas – nesimato imties dydžio, tik santykinis pasiskirstymas.
Paveikslai 5.19–5.27 vaizduoja įvairius mozaikinėmis diagramomis pateiktus simuliuotų ir tikrų duomenų atvejus. Išnagrinėkite juos.
5.3.5 Stulpelinės diagramos pogrupiams
Kaip alternatyva mozaikinėms gali būti naudojamos stulpelinės diagramos pogrupiais (pav. 5.28).