2. Tyrimų eiga

Šiame skyriuje apžvelgsime statistinio tyrimo vykdymą iš kelių perspektyvų.

Jūsų užduotis:

  • išstudijuoti pateiktą medžiagą,
  • atkreipti dėmesį tiek į anglišką, tiek į lietuvišką terminiją,
  • peržiūrėti visus rekomenduojamus filmukus (anglų kalba),
  • suprasti pagrindines idėjas.

2.1 Mokslinis metodas

Mokslinių tyrimų metu gautos žinios privalo būti objektyvios (turime kuo tiksliau nustatyti, kaip iš tiesų yra). Moksliniai rezultatai turi būti atkartojami (t.y., kelis kartus tiriant tą patį objektą, reiškinį ar procesą tais pačiais įrankiais, prietaisais ir metodais turi būti gauti analogiški rezultatai). Šiomis savybėmis pasižymi taip vadinamas mokslinis metodas. Mokslinis metodas yra empiriniais tyrimais pagrįsta metodika, kurios dėka gaunamos mokslinės žinios apie pasaulį (objektus, reiškinius, procesus, …). Tai tam tikrų žingsnių, skirtų surinkti duomenis, gauti informaciją bei spręsti problemas, seka. Skirtingos mokslo šakos gali šiek tiek skirtingai apibrėžti mokslinio metodo etapus, bet esmė lieka ta pati. Pvz. (Field ir kt. 2012, p.1–7; sciencebuddies.org 2020; Sprouts 2017):

  1. Stebėti aplinką ir iškelti klausimą (identifikuoti problemą): rasti ką nors, kam reikia paaiškinimo.
  2. Atlikti informacijos šaltinių apžvalgą (pvz., apžvelgti mokslinę literatūrą).
  3. Sukurti teoriją – galimą paaiškinimą, kodėl taip yra arba kaip tai išsprendžiama.
  4. Suformuluoti hipotezę (vieną ar kelias) – teiginį, susijusį su teorija, kurio teisingumą galima patikrinti.
  5. Suplanuoti tyrimą (kuo tyrimas skiriasi nuo eksperimento žr. skyriuje „3.2 Tyrimas ir eksperimentas“), kuriuo galima patikrinti hipotezę.
  6. Atlikti tyrimą ir surinkti duomenis.
  7. Išanalizuoti duomenis ir padaryti išvadas.
  8. Jei rezultatai neprieštarauja teorijai (neatmeta hipotezės), pakartoti tyrimą, kad įsitikintume, jog rezultatai atsikartoja.
  9. Jei rezultatai prieštarauja teorijai, tada patikslinti, performuluoti ar sukurti naują paaiškinimą, kelti ir tikrinti naujas hipotezes ir pakartoti tolimesnius mokslinio metodo žingsnius. Patikslinimus ir pakartojimus vykdyti tol, kol rezultatai nebeprieštaraus teorijai.
  10. Pasidalinti savo tyrimo rezultatais.

Rekomenduojamas video šaltinis „The Scientific Method: Steps, Examples, Tips, and Exercise“ (anglų kalba). Prieš žiūrėdami jį, perskaitykite užduotis 2.1.

Užduotis 2.1 Naudodami video šaltinį, nurodytą šiek tiek aukščiau, susipažinkite su tuo, kas yra mokslinis metodas. Atsakykite į klausimus:

  1. Kas yra mokslinis metodas?
  2. Kokie yra pagrindiniai jo etapai (žingsniai)?
  3. Kodėl teiginio neįmanoma „moksliškai įrodyti“ (angl. prove), bet galima paneigti, parodyti, kad jis yra klaidingas (angl. falsify)?

2.2 Pastabos apie mokslinį metodą

2.2.1 Mokslinės teorijos falsifikuojamumas

Čia terminas falsifikuojamumas reiškia „galimybė patikrinti, ar yra klaidingas, ir paneigti“, o ne „galimybė suklastoti“.

Jei teorija yra mokslinė, turi būti galima patikrinti, ar ji yra klaidinga. O kodėl „klaidinga“, o ne „teisinga“?

Hipotezės (teiginiai apie teoriją) turi būti formuluojamos taip, kad jų teisingumą ar klaidingumą būtų galima patikrinti objektyviomis priemonėmis. Įprastai mes negalime 100% įrodyti, kad kažkoks reiškinys neegzistuoja, nes neturime galimybių tyrimą atlikti visomis įmanomomis sąlygomis. Tačiau galime surinkti pakankamai mokslinių tyrimų rezultatų, pagrindžiančių mūsų teorijos teisingumą (kartais tai žargonu vadinama „moksliniais įrodymais“, bet apie tai plačiau – kitame skyriuje). Tačiau gavus prieštaraujančių rezultatų mes galime lengvai paneigti teoriją (aišku, jei tyrimas atliktas tinkamai, t.y., tie rezultatai yra pagrįsti). Dažnai ši savybė yra vadinama „falsifikuojamumu“ („paneigiamumu“, galimybe parodyti, kad jis yra klaidingas), kurį taip pat galime suprasti, kaip galimybę objektyviomis priemonėmis apeliuoti į teiginio teisingumą. Jei teiginio neįmanoma falsifikuoti (t.y., patikrinti, ar jis yra klaidingas), tai šis teiginys nėra mokslinis.

Jei teiginys yra toks, kad objektyviomis priemonėmis neįmanoma apeliuoti į jo teisingumą – tai nėra mokslinis teiginys.

Pvz., teiginys „Tu esi mylimiausia pasaulyje“ nėra mokslinis, nes negalima patikrinti, ar jis teisingas arba klaidingas: neaišku, kas tiksliai yra tas „buvimas mylima“ bei kokiomis objektyviomis priemonėmis būtų galima išmatuoti šio reiškinio stiprumą. Tuo tarpu teiginys „2020 kovo 8 dieną tu gavai daugiausiai gėlių“ jau yra mokslinis, nes jo teisingumą galima patikrinti. Tikriausiai ištirti visų žmonių, kurie nurodytą dieną gavo gėles, neįmanoma (t.y., parodyti, kad tas teiginys yra absoliučiai teisingas), bet galime paimti, sakykime, atsitiktinę 1000 žmonių imtį ir paklausti, kiek gėlių jie gavo tą dieną: jei visi apklaustieji teigia, kad gavo mažiau gėlių nei teiginyje minimas žmogus, tai kuo daugiau žmonių apklausiame, tuo daugiau turime pagrindo manyti, kad teiginys yra teisingas. Šiuo atveju jau sudaroma galimybė apeliuoti į teiginio teisingumą. Teiginio „Iš visų tavo seserų 2020 kovo 8 dieną tu gavai daugiausiai gėlių“ teisingumą būtų dar lengviau patikrinti (apibrėžta konkreti data, nurodyta, kas yra visi tiriamieji – „visos seserys“, kurių skaičių galima tiksliai nustatyti – ir pagal kokią objektyvią savybę – gautų gėlių skaičius – vertiname). Tačiau, jei rastume bent vieną žmogų, kuris gavo daugiau gėlių, teiginio negalėtume laikyti teisingu.

2.2.2 „Moksliškai pagrįsti“ ar „įrodyti“?

Keli su tyrimais susiję angliški terminai – „proof“ ir „evidence“ – neretai į lietuvių kalbą verčiami panašiai ar net identiškai. Pirmasis – „įrodyti“/„įrodymas“ („proof“): mokslinių tyrimų kontekste reikia vengti posakių, tokių kaip „mokslininkai įrodė“ ar „moksliniai įrodymai“ (nors jie labai mėgstami žurnalistų), nebent kalbate apie matematinius įrodymus (angl. mathematical proof). Matematika – vienintelė mokslo šaka, kur galima įrodyti. Visur kitur reiktų teigti „moksliškai pagrįsta“, „turi mokslinio pagrindo“. Tad „evidence“ ar „scientific evidence“ turėtų būti verčiama kaip „mokslinis pagrindimas“, „mokslinių tyrimų rezultatai“, „has evidence“ ar „evidence-based“ – „moksliškai pagrįsta“, „moksliniais tyrimais pagrįsta“, „(mokslinių) tyrimų rezultatais pagrįsta“ ar „turi mokslinio pagrindo“ (ne „įrodymais pagrįsta“), o „we found evidence that“ – „mūsų (mokslinio) tyrimo rezultatai atskleidė, jog“, „gavome mokslinių rezultatų, kurie“ ar „turime (mokslinio) pagrindo teigti, kad“.

Yra mokslininkų, kurie žargonu ne matematikos kontekste vartoja terminą „moksliškai įrodyti“. Pastebėjau, kad ši terminija ypač gaji medikų tarpe. Tačiau kalbant su auditorija, kuri apie mokslinių tyrimų vykdymą, jų privalumus ir ribotumus mažai tenusimano, šis terminas mažų mažiausiai yra nepakankamai tikslus (savo vertimo variantus pateikiau aukščiau). Tad mano siūlymas yra jo vengti. O jeigu girdite, kad kas nors yra (žargonu kalbant) „moksliškai įrodyta“, tai prisiminkite, kad mokslininkai išvadas daro su tam tikra paklaida ir tai nėra 100% garantuojama. Be to, prisiminkite, kad yra teiginio falsifikuojamumas (žr. skyriuje 2.2.1).

Beje, šitame skyriuje neapeliuoju į absoliučią teisybę, kaip vartoti terminus. Tačiau išreiškiu požiūrį, su kuriuo pats buvau supažindintas per mokymus mokslininkams 2016 metais, ir akcentuoju skirtumus tarp kelių skirtingų idėjų, kurios kartais išreiškiamos tuo pačiu terminu. Taip pat pasiūlau tikslesnius (labiau mokslinį suvokimą atspindinčius) vertinius.

2.2.3 Koreliacija neparodo priežastingumo

Tai, kad du reiškiniai yra susiję (ar koreliuoja), dar nereiškia, kad juos sieja priežastinis ryšys (t.y., kad vienas sukėlė kitą). Pvz., pastebėta, kad miestuose, kuriuose yra daugiau bažnyčių, yra ir daugiau barų. Ar tai reiškia, kad bažnyčių skaičiaus didėjimas (religingumo didėjimas?) mieste nulemia ir barų skaičių (didina polinkį vartoti alkoholį?). O gal yra atvirkščiai – padidėjęs polinkis vartoti daugiau alkoholio lemia didesnį religingumą? (Jei apskritai apie „religingumą“ ar „alkoholio suvartojimą“ galima spręsti vien tik pagal barų ir bažnyčių skaičių.) Na, tikriausiai suprantate, kad ne – šie du reiškiniai yra susiję su kitu dalyku – miesto dydžiu: kuo miestas didesnis, tuo jame daugiau žmonių, kurie nori eiti į bažnyčią, ir tuo daugiau tų, kurie nori eiti į barą. Ir tai nebūtinai tie patys žmonės, kurie nori daryti ir vieną, ir kitą. Tad miesto dydis daro įtaką barų ir bažnyčių skaičiui.

Plačiau apie koreliaciją ir priežastingumą bus rašoma skyriuje „12.1.1 Sąsaja neparodo priežastingumo“.

2.2.4 Venkite selektyvaus rezultatų pristatymo

Tam, kad būtume korektiški, turėtume būti nešališki. T.y., pristatyti „abi medalio puses“ net tada, kai randate mums nebūtinai patinkančių rezultatų ar rezultatų, prieštaraujančių mūsų teorijai.

Nors tai tiesiogiai nesusiję su statistikos kursu, bet turėtumėte žinoti, kad egzistuoja įvairūs psichologiniai reiškiniai (pvz., taip vadinama „save išpildanti pranašystė“, angl. „self-fulfilling prophecy“ ), dėl kurių galime matyti tik dalį tiesos (tik vieną „medalio pusę“).

2.3 Statistinio tyrimo ciklas

Statistinio tyrimo ciklas yra metodologinis modelis, leidžiantis pritaikyti mokslinį metodą, kai siekiama išspręsti analitinį ar tiriamąjį klausimą. Šis modelis taikomas projektams, kuriems reikalinga statistinė analizė. Modelį sukūrė statistikai R.J. MaKay ir R.W. Oldfordas. Grįsdami šiuo modeliu, statistinio tyrimo eigą galime suskirstyti į 5 etapus (pav. 2.1). Ciklo dalys yra tarpusavyje susijusios: pasirinkimai vėlesnių etapų metu priklauso nuo sprendimų, padarytų prieš tai buvusių etapų metu.

Jei reikėtų pasirinkti, kas svarbiau atliekant tyrimą – analizės metodas, tinkami duomenys, tyrimo planas ar klausimas,– jūs turėtumėte aiškiai žinoti, kad pagal svarbą šie dalykai išsirikiuoja šitaip: klausimas (ir tikslas) → tyrimo planas → tinkami duomenys → analizės metodas, nes kiekviena dalis priklauso nuo prieš tai buvusios.

Statistinio tyrimo ciklas.
Parengta pagal 
[<i class="fa fa-image" aria-hidden="true"></i>](https://www.stat.auckland.ac.nz/~wild/StatThink/images/99.Investigative.png){target="_blank"} 
bei
[<i class="fa fa-external-link-alt" aria-hidden="true"></i>](https://shop.creativemaths.net/products/ppdac-poster-statslc){target="_blank"}.

Pav. 2.1: Statistinio tyrimo ciklas. Parengta pagal bei .

Apie tyrimo ciklą plačiau skaitykite (Wild ir Pfannkuch 1999) bei (Smith ir kt. 2018, sk.3). O dabar trumpai aptarsime kiekvieną ciklo dalį.

2.3.1 Klausimas

Pagrindinis analizės tikslas – spręsti tam tikrą mokslinę, medicininę, gamtinę, socialinę, verslo, buitinę ar kitokią problemą. Tam, kad galėtume išspręsti, pirmiausia turime ją apsibrėžti. Kuo konkrečiau susiformuluosime klausimą, tuo aiškiau žinosime, ką norime padaryti, ištirti, sužinoti, išspręsti. Ir tuo bus lengviau suprasti, ar įvykdėme savo tikslą: kuo klausimas konkretesnis, tuo konkretesnio atsakymo galima tikėtis. Jei klausimas yra ganėtinai neapibrėžtas, tai ir atsakymas, tikėtina, bus toks pats, o tai mūsų įprastai netenkina. Tyrimas ar analizė, kurie neturi konkretaus klausimo, yra neefektyvūs.

Kokie tie klausimai gali būti? Ogi labai įvairūs, pvz., kuris šokoladas Lietuvos žmonėms labiau patinka (juodasis, pieniškas ar baltasis); kokią įtaką vienas papildomas euras, išleistas ledų reklamai, darytų įmonės pelnui; ar GMC studentai greičiau įsisavina kurso medžiagą, jei prie įprastos rašytinės medžiagos papildomai pateikiama video medžiaga; kurioje terpėje dumbliai auga greičiausiai; ar naujai kuriamas vaistas gali pailginti miego trukmę; ar pagal fenotipinius požymius galima atpažinti bakterijos genotipinius Gardnerella vaginalis pogrupius; ar kovų baidymas padeda reikšmingai sumažinti paukščių keliamą triukšmą Panevėžio mieste?

Tad tyrimas prasideda nuo klausimo ir visi kiti etapai vykdomi tam, kad į tą klausimą būtų atsakyta pagrįstai ir korektiškai. Todėl tinkamas aiškiai ir konkrečiai suformuluotas klausimas – pati svarbiausia visos analizės dalis. Pastaba: šiame kontekste terminai „klausimas“ ir „problema“ vartojami kaip sinonimai.

Apie duomenų analizės klausimų tipus plačiau galite skaityti (Leek ir Peng 2015).

2.3.2 Planas

Kai jau žinome klausimą, privalome kruopščiai susiplanuoti, kaip į jį atsakysime. Vėlesni tyrimo etapai negali atsverti ir ištaisyti prastai suplanuoto bei nekorektiškai atlikto tyrimo pasekmių. Apie įvairius su statistika susijusius tyrimo planavimo aspektus bus kalbama skyriuje „3 Tyrimų planavimas“.

2.3.3 Duomenys

Įvykdome tyrimą ir surenkame duomenis, kurie yra tinkami atsakyti į išsikeltą klausimą. Po to duomenis parengiame analizei. Tam, kad duomenys būtų pateikti tinkama analizei forma, svarbu suprasti bent kelias pagrindines duomenų struktūras (žr. 1.5 Duomenų struktūros statistikoje).

2.3.4 Analizė

Padarome duomenų suvestines, braižome grafikus ir taip išsiaiškiname pagrindines duomenų savybes. Pagal klausimą ir duomenų savybes pasirenkame tinkamą tolimesnės analizės metodą. Atliekame pagrindinę analizę, kuri padeda atsakyti į išsikeltą klausimą.

Parenkant tinkamą analizės metodą svarbu mokėti atpažinti statistinius duomenų tipus (žr. 1.4 Duomenų tipai statistikoje) ir daugelį idėjų, aprašomų skyriuje „3 Tyrimų planavimas“.

2.3.5 Išvados

Grįsdami analizės rezultatais padarome išvadas – atsakome į iškeltą klausimą. Įprastai gavus vieną atsakymą, kyla dar keletas naujų klausimų. Tad toliau bandant atsakyti į naujuosius, susidaro ciklas: vėl planuojam, vykdom, analizuojam, darom išvadas ir vėl keliam klausimus.

2.4 Statistinio tyrimo eiga

Statistiniam tyrimui būdinga eiga pagal (Čekanavičius ir Murauskas 2006) su keliais papildomai pridėtais akcentais pavaizduota pav. 2.2:

  1. Išsikeliame klausimą, apsibrėžiame problemą, kad žinotume, ką norime išspręsti savo tyrimu ar analize.
  2. Tiksliai apsibrėžiame, kas yra mūsų tyrimo metu nagrinėjami objektai (t.y., generalinė aibė, GA). Susiplanuojame, kaip juos tirsime.
  3. Sudarome tiriamųjų imtį, kuri yra reprezentatyvi visai GA ir pakankamo dydžio (tam, kad vėliau galėtume daryti išvadas apie visą GA).
  4. Išmatuojame ar užregistruojame tiriamųjų savybes ir taip surenkame duomenis.
  5. Surinktus duomenis susisteminame: parengiame analizei, atliekame grafines ir skaitines suvestines.
  6. Pagal klausimą ir duomenų savybes, nustatytas iš suvestinių bei kitais metodais, parenkame sudėtingesnės analizės metodą – duomenims parenkame statistinį modelį, pagal kurį galėsime daryti statistines išvadas ir/arba prognozuoti.
  7. Darome statistines išvadas (pagal duomenis sprendžiame apie visos GA savybes) ir/arba prognozuojame (pvz., ar ligonis serga, ar sveikas).
  8. Tyrimo metodus, eigą ir rezultatus tinkamai aprašome.
  9. Tyrimą pateikiame tokia forma, kuri tinkama pristatyti kitiems (pvz., aprašas, pristatymas, straipsnis) ar bent jau sau, jei po kurio laiko norėsime tiksliai prisiminti, ką ir kaip darėme.
Būdinga statistinio tyrimo eiga.
Ši schema parengta vadovėlyje [@Cekanavicius_stat_I] pateiktos schemos pagrindu, papildomai pridėjus punktus „klausimo formulavimas“ (taip norėta akcentuoti, kad pirmiausia reikia nusistatyti tyrimo tikslą), „rezultatų aprašymas“ ir „tyrimo viešinimas“ (taip norėta akcentuoti, kad rezultatus svarbu pateikti tinkama forma).
Visgi svarbu žinoti, kad kai kurie eigos etapai gali persidengti.
Pvz., galutinį tyrimo klausimą galime susiformuluoti tik tada, kai tiksliai apsibrėžiame, kas yra mūsų GA (generalinė aibė).

Pav. 2.2: Būdinga statistinio tyrimo eiga. Ši schema parengta vadovėlyje (Čekanavičius ir Murauskas 2006) pateiktos schemos pagrindu, papildomai pridėjus punktus „klausimo formulavimas“ (taip norėta akcentuoti, kad pirmiausia reikia nusistatyti tyrimo tikslą), „rezultatų aprašymas“ ir „tyrimo viešinimas“ (taip norėta akcentuoti, kad rezultatus svarbu pateikti tinkama forma). Visgi svarbu žinoti, kad kai kurie eigos etapai gali persidengti. Pvz., galutinį tyrimo klausimą galime susiformuluoti tik tada, kai tiksliai apsibrėžiame, kas yra mūsų GA (generalinė aibė).

Šią schemą papildo knygoje „Handbook of Biological Statistics“ (McDonald 2014l) rekomenduojama 12 žingsnių duomenų analizės sistema. Šiuos žingsnius galima formuluoti šitaip:

  1. Suformuluokite biologijos, psichologijos, genetikos ar kitos disciplinos klausimą (tyrimo klausimą), į kurį norite atsakyti (apie klausimus kalbama 2.3.1 skyriuje).
  2. Pateikite klausimą kaip tyrimo (pvz., biologinę) nulinę ir alternatyviąją hipotezes.
  3. Pateikite klausimą kaip statistines nulinę ir alternatyviąją hipotezes (žr. sk. 11).
  4. Nustatykite, kurie kintamieji yra svarbūs norint atsakyti į šį klausimą.
  5. Nustatykite, kokie kintamųjų (duomenų) tipai (žr. sk. 1.4).
  6. Suplanuokite tyrimą, kuris eliminuoja ar sumažina samplaikos kintamųjų įtaką (žr. sk. 3.1, t.p. (McDonald 2014d)).
  7. Grįsdami kintamųjų skaičiumi, kintamųjų (duomenų) tipais, imties dydžiu, kitomis duomenų savybėmis (pvz., įžvalgomis, ar duomenys tenkina tam tikras prielaidas) pasirinkite labiausiai tinkamą analizės metodą (pvz., sk. 12.4).
  8. Jei įmanoma, atlikite statistinės galios analizę, kad įvertintumėte reikiamą imties dydį (pvz., sk. 10.2.3).
  9. Atlikite tyrimą, surinkite duomenis.
  10. Patyrinėkite duomenis, atlikite aprašomąją statistiką bei kitokią žvalgomąją (angl. exploratory analysis) analizę (žr. sk. 4 ir 5), patikrinkite, ar jie tenkina jūsų pasirinkto statistinio tyrimo – visų pirma, normalumo (sk. 16) ir lygių dispersijų (sk. 17) – prielaidas. Jei netenkina, pasirinkite tinkamesnį metodą.
  11. Taikykite pasirinktą statistinį metodą ir interpretuokite rezultatus.
  12. Efektyviai iškomunikuokite (viešinkite) rezultatus. Įprastai naudodami grafiką ar lentelę.

Norėdami konkretaus pavyzdžio, kaip šie žingsniai taikomi atliekant tyrimą, perskaitykite minėtojo McDonald (2014l) vadovėlio skyrių „Step-by-step analysis of biological data“.

Informacijos šaltiniai

Čekanavičius V., Murauskas G. Statistika ir jos taikymai I. Vilnius: TEV (2006).
Field A., Miles J., Field Z. Discovering Statistics Using R. London: Sage (2012). Prieiga per internetą: https://us.sagepub.com/en-us/nam/discovering-statistics-using-r/book236067.
Leek J.T., Peng R.D. What is the question?, Science 347: 1314–1315 (2015). DOI: 10.1126/science.aaa6146.
McDonald J.H. Confounding variables. Handbook of Biological Statistics. Baltimore, Maryland: Sparky House Publishing. (2014d). Prieiga per internetą: http://www.biostathandbook.com/confounding.html.
McDonald J.H. Step-by-step analysis of biological data. Handbook of Biological Statistics. Baltimore, Maryland: Sparky House Publishing. (2014l). Prieiga per internetą: http://www.biostathandbook.com/analysissteps.html.
sciencebuddies.org Steps of the Scientific Method (2020). Prieiga per internetą: https://www.itl.nist.gov/div898/handbook/.
Smith M.J. de, Goodchild M.F., Longley P.A. Geospatial Analysis: A Comprehensive Guide to Principles Techniques and Software Tools.The Winchelsea Press (2018). Prieiga per internetą: http://www.spatialanalysisonline.com/HTML/.
Sprouts The Scientific Method: Steps, Examples, Tips, and Exercise (2017). Prieiga per internetą: https://youtu.be/yi0hwFDQTSQ.
Wild C.J., Pfannkuch M. Statistical Thinking in Empirical Enquiry, International Statistical Review 67(3): 223–248 (1999). DOI: 10.1111/j.1751-5823.1999.tb00442.x.