Pagrindinės statistinės sąvokos
Statistikos sąvokų pristatymas
Pradėkite ir kartu lygiagrečiai skaitykite su Vidurkis ir nuokrypis statistikoje;
Taip pat skaitykite Kada statistika gali meluoti?Svarbu mokėti apibendrinti kokius nors surinktus duomenis. Tai aprašomoji statistika. Kai kurie aprašomosios statistikos duomenys yra kategorizuoti, t.y. išskaidyti į tam tikras grupes (kategorijas), pvz., pagal svorio, aukščio, amžiaus ir pan. rėžius. Individų (imties narių) kiekis grupėje yra vadinamas absoliučiuoju (statistiniu) dažniu, o jų procentinė išraiška santykiniu dažniu (tačiau gali būti išreiškiamas ir ne procentu, o santykiu su visos imties dydžiu).
Matavimų duomenys reiškia realius, konkrečius skaičius, pvz., kūno masės indeksą ar teksto rinkimo spartą. Juos galima matuoti įvairiai, pvz., paskaičiuojant (statistinį) vidurkį.
Taip pat paskaičiuojamas ir imties plotis, kuris yra skirtumas tarp didžiausios ir mažiausios reikšmių, kaip ir moda, mediana, vidutinis nuokrypis ar kvartilių plotis. Aprašomoji statistika, priklausomai nuo situacijos ir tikslo, gali labiau vertinti vienus paskaičiavimus nei kitus.
Kintamasis (dydis, reikšmė) yra yra bet koks požymis, kurį jūs norite suskaičiuoti užregistruoti, išmatuoti ar pan., pvz, ūgis, akių spalva, ėjimo greitis ir t.t. Skirstinys apibūdina imties reikšmių pasiskirstymą (išsibarstymą) pvz., aukštesnių už 200 cm yra 2,7% .
Trys dažniausi skirstiniai yra:
1) Binominis skirstinys - sėkmių pasiskirstymas n nepriklausymų bandymų, kai sėkmės tikimybė kiekviename bandyme yra pastovi (p).
2) Normalusis skirstinys kai imties reikšmės pasiskirstę taip, kad sudaro varpo formos kreivę.
3) Stjudento skirstinys (arba T-skirstinys) naudojamas tikintis vidurkio normaliai pasiskirsčiusiose populiacijoje, kai imties plotis yra mažas, o standartinis nuokrypis (deviacija) nežinomas. Pvz., nustatymui, kaip efektingai veikia vaistai.
Kiti skirstiniai yra: Puasono, eksponentinis, trikampio skirstiniai.
Apklausos tik surenka duomenis iš tam tikros, ribotos populiacijos. Aišku, kiekvienoje jos imtyje bus tam tikri nukrypimai. Eksperimento paklaida nusako imties rezultatų patikimumą. Atvirkščias dydis yra eksperimento tikslumas. Pvz., jei nustatoma, kad 40% pudelių (šunų) mėgsta tam tikrą šunų
maisto rūšį su 2% paklaida, tai reiškia, kad eksperimento tikslumas yra 38-42%.
Hipoteze vadinamas teiginys apie populiacijos skirstinį. Hipotezių tikrinimas yra bandymas patvirtinti arba paneigi tą teiginį. Pvz., hipotezė būtų, kad tam tikras procentas pudelių teikia pirmenybę kokiam nors vienam šunų maistui. Jos patikrinimas būtų tam tikros pudelių imties pomėgių patikrinimas.
Skaitykite Nulinė hipotezėKaip gerai žinoma, statistikas siekia nustatyti priežastinius ryšius tarp kintamųjų, pvz., kaip maitinimosi įpročiai veikia tokius kintamuosius, kaip Alzhaimerio liga ar vėžys ir t.t. Tokių priežastinių sąryšių nustatymas pragmatiškai padeda mums sukurti geresnį maistą, vaistus ir t.t. Koreliacija padeda nustatyti regresiją, kuri yra prognozė apie vieno kintamojo priklausomybę nuo kito.
Kitas rezultatų pateikimo būdas yra juos pateikti diagramų ar kitokia grafine forma. Bet jas irgi svarbu suprasti ir paaiškinti.
Koreliacija
Koreliacija - statistinis ryšys (priklausomybė) tarp kintamųjų (atsitiktinių dydžių). Koreliacijos koeficientas koreliacijos stiprumo matas. Jeigu jis dviems kintamiesiems lygus nuliui, tai tie kintamieji yra statistiškai nepriklausomi.
Pirmasis terminą koreliacija įvedė prancūzų paleontologas Žoržas Kiuvjė (18 a.). Jis sukūrė gyvų būtybių organų koreliacijos dėsnį, kurio dėka galima atkurti gyvūno išvaizdą teturint tik dalį gyvūno. Statistikoje koreliaciją pirmasis ėmė naudoti anglas F. Galtonas (19 a. pabaiga).
Koreliacijos koeficientų yra keletas, iš jų žinomiausi:
- Rxy - Pirsono (Pearson) tiesinės koreliacijos koeficientas;
- rS - Spirmeno (Spearman) ranginės koreliacijos koeficientas.
Koreliacija ir priežastingumas
Iš to, kad dviejų kintamųjų koreliacijos koeficientas nelygus nuliui, galima daryti tik tokią išvadą, jog egzistuoja statistinis ryšys, o ne koks nors priežastingumas (t. y., X nebūtinai veikia Y, nors X ir Y yra statistiškai susiję). Koreliacija, kuri tiesiogiai neatspindi priežastingumo, statistikoje vadinama klaidingąja koreliacija (spurious correlation).
Viena geriausių tokio teiginio iliustracijų yra pavyzdys su ledų suvartojimu ir nuskendusiųjų skaičiumi: pastebėta, jog padidėjus ledų suvartojimui, padidėja ir skenduolių skaičius, tad lyg ir norėtųsi daryti išvadą, jog ledų valgymas yra labai kenksmingas plaukikams. Šitame pavyzdyje neatsižvelgiama į svarbiausią užslėptą kintamąjį oro temperatūrą. Vasarą būna karšta, todėl padidėja tiek ledų suvartojimas, tiek skenduolių skaičius, nes daugiau žmonių maudosi.Regresija į vidurkį arba kodėl retai būna tobula
Tarkim, sudalyvavote nuostabiame vakarėlyje. Viskas buvo puiku. Nusprendėte pats pakartoti tomis pat sąlygomis, tačiau nusivylėte? Gal nenusisekė oras? Gal pasitaikė erzinantis svečias? Gal kas nesuprato jūsų pokštų?
Gerai, kad tai neveikia amžinai kitą kartą gali ir pasisekti...Šis reiškinys vadinamas regresija į vidurkį kai nenumatyti nutikimai neretai pasitaiko po įprastinių. Įvairiapusis mokslininkas D. Galtonas sukūrė šį terminą, kai pastebėjo, kad aukštiems tėvams linkę gimti žemesni už juos vaikai, o žemi tėvai neretai turi už juos aukštesnius vaikus.
Regresiją į vidurkį sukelia ir valdo atsitiktinumai. Ji paprastai nekenksminga, tačiau tampa problema, kai klaidingai suprantamas jos sukeltas pasikeitimas. Tarkim, sunkiai sergančių ligonių gydymas. Jiems padėti gali praktiškai bet kurie vaistai. Jei buvo vartoti tam tikri vaistai, kurie padėjo tokiu atveju, gali susidaryti įspūdis kad būtent jei efektyvūs gydant tą ligą ir imama juos, kaip geriausią priemonę, siūlyti sergantiems nesunkiai.
Dispersija
Dispersija - (angl. variance) statistinė imties charakteristika, atspindinti labiausiai tikėtiną eilinio matavimo vertės nukrypimą nuo aritmetinio vidurkio (atsitiktinio dydžio išsibarstymą).
Kvartiliai ir procentiliai
Mediana imtį dalija į dvi dalis. O ketvirtoji imties dalis vadinama kvartiliu. Kvartilis q1 yra skaičius, už kurį mažesnės reikšmės sudaro 25%. Mediana yra antrojo kvartilio q2 riba (50%). Trečiasis kvartilis q3 yra skaičius, už kurį mažesnės stebimos reikšmės sudaro 75%. Procentiliai (kvantiliai) visus imties duomenis pagal jų dydį surikiuoja procentinėje skalėje. Pavyzdžiui, eilės 0,2 procentilis (arba 0.95) yra toks realusis skaičius, už kurį mažesnės stebimos reikšmės sudaro 20% (arba 95%). Kvartilių ir procentilių apskaičiavimui dažnai reikia interpoliuoti stebimų reikšmių padėtį.
Pvz. Matuojant 1 dienos amžiaus arba vyresnių žiurkių deguonies apytaką (ml/h), gauti tokie stebėjimo duomenys (n=16):
1.57 1.60 1.81 1.60 1.88 1.79 1.75 1.85
1.92 1.68 1.75 1.73 1.72 1.68 1.76 1.78
Tada kvartilio q3 padėtis duomenų sekoje tokia: 12,75 [ 3(n+1)/4 = 3(16+1)/4 = 51/4 = 12,75 ]
Tačiau sekoje nėra pozicijos 12,75. Todėl imame 12-ąjį stebėjimą (1.79) ir 13-ąjį stebėjimą (1.81). Šių dviejų stebėjimo duomenų interpoliaciją atliekame taip: 1.79+0.75(1.81-1.79)=1.805.
Analogiškai paskaičiavus gauname, kad pirmojo kvartilio reikšmė yra 1.68.
Kvartilių plotis - jo esmė panaši į standartinio nuokrypio. Kvartilių plotis apskaičiuojamas iš lygybės:
Qp=q3-q1.Tad mūsų pavyzdžiui Qp=1.805-1.68=0.125
Pasikliautinas intervalas
Pasikliautinas intervalas (CI) intervalas, kuriame su tam tikra tikimybe (vadinama reikšmingumo arba pasikliovimo lygmeniu, praktikoje dažnai naudojama 0,95 reikšmė) yra matuojamas dydis (pvz., aritmetinis vidurkis). Jų teoriją išvystė lenkų kilmės matematikas Jerzy Neymanas (1894-1981).
Pasikliautinas intervalas dažnai skaičiuojamas pagal formulę:
![]()
kur n - matavimų kiekis;
- aritmetinis vidurkis, xi - i-ojo matavimo reikšmė. Tada didžiausia reikšmė, kuria gali skirtis nustatytas vidurkis nuo tikrojo (esant nustatytam reikšmingumo lygmeniui P) yra
![]()
kur t(n, P) Stjudento koeficientas n-1 laisvės laipsniams (jo reikšmė dažnai imama iš lentelių).
Varpo kreivė
![]()
Su viršūne centre ir palengva žemėjančiais šlaitais ši kreivė yra žinomiausia ir viena svarbiausių kreivių matematikoje ir aplamai moksle. Aiškinant supaprastintai, ji parodo reikšmių pasiskirstymą pagal kaupiamąjį atsitiktinumų poveikį dažniausiai sutinkamos reikšmės centre, o retesnės - kuriame nors jos šlaitų. Jai nėra apribojimų ji aproksimuoja tiek akcijų rinką, tiek žmonių ūgis ir IQ... Todėl dauguma matematikų kreivę vadino tiesiog normaliuoju pasiskirstymu.
Daugelyje vadovėlių ji vadinama Gauso kreive, pažymint tą faktą, kad K. Gausas išvedė kreivės formą tirdamas, kaip duomenys paveikiami atsitiktinių klaidų. Tačiau jau prieš kelis dešimtmečius ją buvo gavęs matematikos mokytojas prancūzas Abraham de Moivre*), kai nagrinėjo metų metus matematikams rūpėjusį klausimą: kokiu dažniu pasirodo skaičiai ir herbai išmetant daugelį monetų.
Taigi, jos vadinimas Gauso kreive yra ir Stiglerio eponimijos dėsnio iliustracija kai moksliniai atradimai nevadinami jų tikrojo atradėjo vardu.
*) Abraomas de Muavras (Abraham de Moivre, 1667-1754) - prancūzų kilmės anglų matematikas, I. Niutono mokinys ir pagalbininkas, žinomas Muavro formule, sujungiančia kompleksinius skaičius ir trigonometriją, bei darbais, susijusiais su tikimybių teorija bei normaliuoju pasiskirstymu. Parašė knygą "Atsitiktinumų doktrina" apie tikimybių teoriją, sakoma, labai vertintą žaidėjų. Pirmasis atrado Bineto formulę, susijusią su Fibonačio skaičiais ir siejančią n-tąjį aukso pjūvio laipsnį su n-tuoju Fibonačio skaičiumi. Jis taip pat pirmasis suformulavo centrinę ribinę teoremą, svarbiausią tikimybių teorijoje.
Monte-Karlo metodas
Zenono paradoksai
Matematiniai anekdotai
Santykis ir proporcija
Kada statistika gali meluoti?
Scenoje - paprastos grupės
Skaičiai apžvalga/ pradmenys
Parabolės lenktas likimas
Iniciatyva: Matematikos keliu
Kombinatorika, polinomai, tikimybės
Vidurkis ir nuokrypis statistikoje
VU Matematikos fakultetas pokariu
Pitagoro skaičiai per Fibonačio seką
Austrų ekonominė ir plokščios žemės teorija
Ar nepabandysite išpręsti uždavinį?
Pagrindinės algebrinės struktūros
Gausas iškirstas langas į 19 a.
Mokslininkui nereikia matematikos!
Omaras Chajamas: ne vien Rubijatai
Simpsonų trauka ir žaidimas skaičiais
Geriausios alternatyvos parinkimas
S. Lemas. Televizija be korseto
Matematika - tai žavesys ir tiesa
Vištų matematiniai pokalbiai
Kas tie romėniški skaitmenys?
Naujasis Černo medalis
Ar įrodytas abc teiginys?
Laplasas. Dėl tikimybių
Loterijų matematika
Grandi paradoksas
Vartiklis