1. Pradinės sąvokos
Jūsų užduotis studijuojant šį skyrių – susipažinti su bazinėmis šio kurso sąvokomis ir idėjomis.
1.1 Statistika ir biostatistika
Statistiką galima apibūdinti kaip tikslųjį mokslą apie tyrimų planavimą (bent jau statistinius planavimo aspektus), duomenų rinkimą, sisteminimą, analizę ir gautų rezultatų interpretavimą (Bagdonavičius ir Kruopis 2015; Čekanavičius ir Murauskas 2006). Pačią statistiką galima suskirstyti į matematinę bei taikomąją. Pagrindinis matematinės statistikos dėmesys nukreiptas į matematikos ir tikimybių teorijos principus, statistikos teorijos ir metodų plėtrą bei tyrimus. Tai labiau teorinė, labiau abstrakti sritis, kuriai konkretūs tyrimo objektai ar konkrečios praktinio pritaikymo sritys mažiau svarbios. Tuo tarpu taikomoji statistika statistikos teoriją priartina prie tam tikros srities – žemės ūkio, inžinerijos, sporto, medicinos, kultūros, socialinių mokslų ar kitos – bei taiko statistikos principus šios srities problemoms spręsti (Martišius ir Kėdaitis 2013). Kai kurios taikomosios statistikos sritys netgi turi specifinius pavadinimus: psichologijos tyrimų metodologija ir statistika – psichometrija, ekonomikos statistika – ekonometrija, cheminių sistemų statistika – chemometrija, biomokslų (biologijos, genetikos, medicinos ir kitų bio sričių) statistika – biostatistika.
Užduotis 1.1
- Kas yra statistika ir biostatistika? Kuo skiriasi?
1.2 Statistikos dalys
Statistikos metodus galima suskirstyti į kelias pagrindines dalis:
- Tyrimo planavimas – prieš vykdant tyrimą, visa jo eiga turi būti kruopščiai suplanuojama. Norint tinkamai suplanuoti tyrimą, reikia tiek specialybės srities (pvz., biologijos, genetikos), tiek statistikos žinių. Specialybinės tiriamos srities žinios nėra statistikos mokslo objektas, tad čia reikalingas tos srities ekspertas. Tačiau statistiniai aspektai yra, todėl čia taip pat reikalingas ir reikiamų statistikos žinių turintis ekspertas. Šio etapo metu suformuluojama tiriamoji problema, apibrėžiama, kas yra tyrėją dominantys tiriamieji ar objektai, nusprendžiama, kaip bus sudaroma tinkama tiriamųjų imtis, kokios savybės bus ištiriamos, kaip bus renkami duomenys, numatoma, kokios analizės metodų grupės bus naudojamos. Nuo to priklauso reikiamas tiriamųjų skaičius bei kitos subtilybės. Jei tyrimas prastai suplanuotas ar duomenų surinkimo stadija prastai įvykdyta, mažai tikėtina, kad kitos tyrimo ir duomenų analizės dalys atsvers šiuos trūkumus. Tad planavimui privalo būti skiriamas prideramas dėmesys.
- Aprašomoji statistika (angl. descriptive statistics) – grafiniai ir skaitiniai duomenų sisteminimo metodai. Jais glaustai apibūdiname esmines surinktų duomenų savybes, o tai padeda gauti įžvalgų apie duomenis, interpretuoti rezultatus. Deja, aprašomosios statistikos metodai neįvertina paklaidų ir gautų rezultatų patikimumo (statistinio reikšmingumo), todėl įprastai reikalingi tolimesni analizės etapai. Visgi pagal šio etapo rezultatus pasirenkama ar patikslinama tolimesnė analizės eiga.
- Statistinės išvados (angl. inferential statistics) – tai pagal imties duomenis padarytos išvados apie visą generalinę aibę (GA). Šio etapo metu vertinamos paklaidos bei rezultatų statistinis reikšmingumas. Statistinių išvadų darymas yra grindžiamas tikimybių teorijos dėsniais ir aksiomomis. Tad tam, kad būtų įmanoma įvertinti paklaidas ir išvados būtų korektiškos, imtis turi būti sudaryta tinkamai. Tai pasiekiama tik gerai suplanavus ir tinkamai įvykdžius tyrimą.
Pav. 1.1 („centrinė statistikos dogma“ ) vaizduoja, kaip susijusios tikimybių teorija, aprašomoji statistika ir statistinių išvadų darymas.
Kiekviena iš šių dalių plačiau bus nagrinėjama atskiruose skyriuose. O dabar aptarkime kelias svarbiausias sąvokas.
1.3 Generalinė aibė, imtis ir duomenys
Statistikoje yra keli svarbūs pradiniai terminai: generalinė aibė (populiacija), imtis bei duomenys (pav. 1.2).
Generalinė aibė (GA), arba populiacija (statistikos prasme),– tai statistinio tyrimo metu tyrėją dominanti objektų visuma. Pvz., visi diabetikai.
Imtis – tai į tyrimą patekusi GA dalis (į tyrimą patekę tiriamieji ar objektai). Pvz., tik tie diabetikai, apie kuriuos surinkome duomenis.
Duomenys – tai imties narių (tiriamųjų, objektų) savybių reikšmės. Savybės gali būti kokybinės (pvz., spalva) bei kiekybinės (pvz., svoris gramais).
Imties dydis – tai imtyje esančių elementų (objektų, tiriamųjų, stebėjimų) skaičius. Pvz., ištirtų diabetikų skaičius.
Pavyzdys. GA – tai visi 4-5 m. amžiaus naminiai šunys, imtis – tai į tyrimą patekę 4-5 m. amžiaus naminiai šunys, duomenys – į tyrimą patekusių šunų kailio spalva: šviesi, tamsi, marga, …
Statistiniam tyrimui tinkama imtis turėtų būti reprezentatyvi, tikimybinė ir pakankamo dydžio.
- Reprezentatyvi imtis yra tokia, kurioje pakankamai tiksliai atsispindi visos tyrimui svarbios GA savybės. Tai pagal tam tikrų savybių reikšmių pasiskirstymą yra tarsi maža GA kopija. Imtis turi būti reprezentatyvi tai GA, apie kurią daromos statistinės išvados (kartais duomenis surenkame netinkamu būdu, todėl jie neatspindi mus dominančios GA savybių – taip galim apgauti patys save), nes kitaip išvados bus klaidingos, jas nekorektiška apibendrinti visai GA. T.y., jei imtyje yra tik vyresni nei 60 m. amžiaus vyrai, tai didelis klausimas, ar ištyrę juos galime daryti išvadas apie visus žmones, tarp kurių yra ir moterys, vaikai, kūdikiai bei jaunimas.
- Tikimybinė imtis yra sudaryta pagal tikimybių teorijos principus: atsitiktinumas yra griežtai apibrėžtas ir kiekvienam GA elementui yra žinoma tikimybė patekti į imtį. Jei atsitiktinumas yra griežtai apibrėžtas, tai jį galime įvertinti, pvz., skaičiuodami paklaidas. Jei atsitiktinumas nėra griežtai apibrėžtas, tai jo įvertinti negalime, tad ir paklaidas skaičiuoti ar daryti apibendrinančias išvadas yra beprasmiška.
- Pakankamo dydžio. Per mažo dydžio imtys yra nereprezentatyvios ir iš jų padarytos išvados, tikėtina, bus klaidingos. Vien tik didelis imties dydis irgi pats savaime negarantuoja reprezentatyvumo, jei imtis sudaryta netinkamu būdu (pvz., jei yra netikimybinė).
Kelios pastabos:
- Atkreipkite dėmesį į tai, kad terminas „populiacija“ statistikoje reiškia ne tą patį, ką biologijoje, ekologijoje ar demografijoje, todėl, vengiant dviprasmybės, lietuvių kalba yra aprobuotas kitas statistinis terminas („populiacijos“ sinonimas) – generalinė aibė (GA).
- Terminas „imtis“ gali reikšti ir tiriamųjų imtį (pvz., į tyrimą įtraukti 4-5 m. amžiaus naminiai šunys), ir duomenų imtį (pvz., tyrimo metu užregistruota kiekvieno iš šių šunų kailio spalva). Tikiuosi, dėl to problemų nekils.
Plačiau su temomis apie statistinių duomenų tipus galite susipažinti vadovėliuose (Čekanavičius ir Murauskas 2006; McDonald 2014m).