Kada statistika gali meluoti?  

„Egzistuoja trys melo rūšys: melas, įžūlus melas ir statistika“. Markas Tvenas

Apvalūs skaičiai visada meluoja. S. Džonsonas
Skaičiai nemeluoja. Paskaičiuok, kiek žmonių tave aplojo, ir kiek šunų! „Przekrój“

Skaitykite: Pagrindinės statistinės sąvokos    

Skaičiai medijoje – kaip neužkibti?

„Yra tyrimų, kurie nustato, kad seksualumas gali būti nustatomas pagal žmonių pirštų ilgius“ - taip 2018 m. lapkričio mėn. „Archives of Sexual Behavior“ (vienas pagrindinių žurnalų skirtą seksualumo klausimams) savo straipsnyje paskelbė gerbiami Essex un-to tyrinėtojai. Tai, mano galva, visiška fignia, tačiau juk taip lengva apkvailinti skaitytojus. Tad susipažinkime su kai kuriais principais, galinčiais apsaugoti nuo užkibimo ant „tyrimų rezultatų“.

Kiek realiai aš rizikuoju?

Viena slogiausių skaitytų antraščių buvo „8 m. trukusios studijos nustatė, kad gausus bulvyčių fri valgymas padvigubina mirties galimybes“ (2017 m. birželį Australijos naujienų portale). „Ach“, atsidusau vakare įsipildamas raudono vyno taurę ir pasidėdamas didoką paketą geltonų riebių bulvyčių fri. Ar tikrai? Ir ką manot, - portalas rėmėsi tyrimais paskelbtais gerai vertiname „Am. J. of Clinical Nutrition“. Tačiau koks gi tas bulvyčių fri kiekis ir, dar daugiau, kokia asmeninė mano mirties rizika?

Aha, toji studija nurodo, kad mirties rizika padvigubėja valgant bulvytes fri 3 ir daugiau kartų per savaitę. Bet ... paimkite vidurkinį studijos žmogų: 60 m. amžiaus. Kokia jo mirties rizika? 1%. Tai reiškia, kad jei paimsime 100-mt 60- mečių, bent vienas jų mirs per ateinančius metus vien dėl to, kad jis 60-metis.

Taigi jis pradeda valgyti bulvytes fri 3 ir daugiau kartų per savaitę. Kokia tada jo mirties rizika? 2%. Tai reiškia, kad iš 100 tokių valgytojų ateinančiais metais mirs du. Tai statistikoje vadinama santykine rizika. Jei tikimybė susirgti yra 1 atvejis iš milijono, tai net paketurbėjus rizikai, tai tebus 4 atvejai iš milijono. Ne kažin kokia tikimybė, kad tai nutiks.

Tad, kai išvystate teiginį, kad rizika padidėjo ar sumažėjo, - užduokite sau klausimą, o kokia buvo pradinė rizika?

Sūrio valgymas prieš miegą lygu mirčiai susisukus paklodėms?

Išpopuliarėjo dėžučių naujagimiams dovanos, o ši mada išsivystė iš 4-o dešimt. suomių iniciatyvos siekiant sumažinti naujagimių mirčių skaičių šiems miegant. Į kartoninę dėžutę sudedami keli kūdikiui reikalingi daiktai: kelios sauskelnės, žindukas ir pan. Tada suomių naujagimių mirtingumas smarkiai sumažėjo. Tad yra pagrindo manyti, kad būtent tos dėžutės sumažino mirtingumą.

Bet pažiūrėkim, kas dar pasikeitė? Priežiūra gimdymo namuose: pvz., 1944 m. 31% suomių buvo apmokytos prieš gimdymus. Tai klasikinis pavyzdys to, kad koreliacija nėra priežastingumas. Tačiau nesustabdė dėžučių naujagimiams bumo.

Tad kai išvystate klausimą, panašų į pateiktą paantraštėje, paklauskite savęs – kas dar gali tą sukelti?

Kai klaidos paklaida yra didesnė už efektą

Tarkim, paskelbiama, kad partijos populiarumas nuo 17,7% padidėjo iki 17,9%. Aišku, buvo apklausta santykinai maža imtis – iš pagal jos rezultatus išvada apibendrinta visai šaliai. Galimą paklaidą statistikai įvardija kaip pasikliautiną intervalą. Jei pasikliautinas intervalas yra 1%, tai tik spėjimas, kad populiarumas padidėjo. Taip ir dėl seksualumo priklausomybės nuo pirštų ilgio. Puikiausias pasikliautinas intervalas veikimas parodomas per balsavimus. Partija, nebuvusi stipria favorite pagal apklausas, staiga per balsavimą išsiveržia į priekį (pvz., „gandriukai“).

Tad, kai pamatysite kažkokius skaičius „visai tautai“, pažiūrėkite, o koks buvo pasikliautinas intervalas.

Klaidos įvėlimas Harvardo universiteto ekonomistų C. Reinhart'o ir K. Rogoff'o įtakingoje studijoje kelia klausimą: kiek galime pasitikėti bet kurio tyrinėtojo tvirtinimais?

O tikrovė yra tokia, kad įprastos daug rimtesnės klaidos nei ta atrastoji? Supergreiti kompiuteriai ir įmantrūs statistiniai moduliai negali apsaugoti nuo žmogiškų suklydimų. Tačiau tai nereiškia, empiriniai tyrinėjimai nieko neverti.

C. Reinhart'o ir K. Rogoff'o klaida, kai jie atsitiktinai pašalino 5 šalis skaičiuojant vidutinę priklausomybę tarp vyriausybės skolos ir ekonominio augimo, pakeičia aptarimo apie šiuolaikines ekonomikas pradinį tašką. Primityvus apsirikimas, dėl kurio galima pasijuokti su draugais, yra tipinis „skirta TV“ atvejis. Šiais laikais, kai „suminkomi“ milžiniški informacijos kiekiai, klaidos gali būti gerokai klastingesnės ir aptinkamos sudėtingais būdais.

Prisimintinas Marko Tveno aforizmas žodžių žaismas „liars figure and figures lie“ (melagiai naudojasi formulėmis, o skaičiai meluoja). Tai kaip atskirti vertingus rezultatus nuo šiukšlių? Tam skirtos 6 taisyklės.

  1. Pasitikrinkite, kiek patikimi yra rezultatai – t.y., ar skirtingi požiūrio taškai duoda tas pačias išvadas. Ar tie pačios tendencijos kartojasi daugelyje duomenų imčių, skirtingose šalyse, pramonės šakose ar laikotarpiais? Ar rezultatas yra jautrus duomenų pokyčiams?
  2. Duomenų apdorojimo specialistai neretai teigia, kad jų rezultatai yra labai reikšmingi, kai tokie teiginiai neretai atspindi faktą, kad jie atrado tik atsitiktinę priklausomybę. Didelėse duomenų imtyse beveik viskas yra statistiškai reikšminga. Kartais klausimai tokie svarbūs, kad svarbu nors ką išgauti iš turimų duomenų – geriausias netikęs įrodymas vis tik yra geriau nei jokio įrodymo.
  3. Būkite atsargūs dėl mokslininkų, naudojančių sudėtingus statistinius metodus kaip vėzdą kritikų, nesančių specialistais, nutildymui. Jei autorius negali paaiškinti savo rezultatų jums suprantamais terminais, neprivalote juo tikėti. Sudėtingi metodai gali būti naudingi, tačiau jie gali ir daugiau paslėpti nei atskleisti.
  4. Nepakliūkite į pinkles galvodami apie empirinius rezultatus kaip „teisingus“ ir „klaidingus“. Geriausiu atveju, duomenys duota tik apytikslį vaizdą. Įrodymai gali padaryti poslinkį tuo klausimu – tik klausimas, kokiu mastu.
  5. Nepainiokite koreliacijų su priežastimis. Pvz., nustatyta, kad paprastai ekonominis augimas lėtesnis kai valstybės skola didesnė. Bet ar didesnė skola lėtina augimą, ar lėtesnis augimas verčia daugiau skolintis? O gal yra kitų veiksnių, tokių kaip populistų siekis išlaidauti tam, kad išliktų valdžioje?
  6. Visad klauskite - „ir kas?” Ar yra prasmė kalbėti apie „priklausomybę tarp vyriausybės skolos ir ekonominio augimo“, kai yra daugybė kitų priklausomybių, pvz., vyriausybės skolinasi vien tam, kad finansuotų savo rinkimus. Tad klausimas „ir kas?” yra išorinės naudos paieškos.

Iš tikro, prasmės atradimas dideliuose duomenų kiekiuose nėra labai lengvas dalykas, tačiau jis nėra beviltiškas. Vienintele alternatyva yra intuicija, kuri ne tik su spragomis, bet, anot psichologų, net labiau ydinga nei linkę galvoti. Geriau jau strategijose remtis netobulomis analizėmis, nei būrimais iš kavos tirščių, politologų ir šarlatanų svaičiojimais.


Nulinė hipotezė    

Taip pat skaitykite Hipotezė ir prognozė    

Nulinė hipotezė – suderinamumo su turimais parinktais (empiriniais) duomenimis hipotezė. Metodas naudojamas statistiniame patikrinime ir yra sprendimo priėmimo dalimi.
Dažnai tai tarpusavio ryšio ar koreliacijos nebuvimo tarp tiriamų nežinomųjų, skirtumų nebuvimo (vienalytiškumo) dviejų ar daugiau imčių pasiskirstymuose teiginiai. Paprastai tyrėjas bando įrodyti nulinės hipotezės klaidingumą, jos nesuderinamumą su turimais duomenimis, t.y. paneigti hipotezę kitos, alternatyvios hipotezės naudai.

Ji naudojama teiginių apie rinką, investavimą, ekonomiką patikrinimui. Pvz., pasirinkome investavimo strategiją tikintis, kad grąža bus didesnė nei rinkoje. Nuline hipoteze būtų tvirtinimas, kad tarp nėra skirtumo tarp pasirinktos strategijos ir rinkoje nusipirktų fondų. Šią hipotezę.reikia laikyti teisinga tol, kol ji nepaneigiama.
Jei patikrinus duomenis bus nustatyta, kad yra principinis skirtumas, tada nulinė hipotezė atmetama ir galima priimti alternatyvią hipotezę.

Dažniausiai nebūna „gryno“ eksperimento, tad duomenis reikia rinkti kelis kartus. O išvada priklauso nuo daugybės veiksnių, tad reikia sugebėti svarbius duomenis atskirti nuo antraeilių. Tarkim, nustatinėjame ryšį tarp rūkymo ir plaučių vėžio. Nepakanka rasti nors vieną rūkantį, mirusį nuo plaučių vėžio. Reikia surinkti pakankamą duomenų kiekį, kad būtų nustatyta pakankama priklausomybė. Ir kol jos nenustatėme, galioja nulinė hipotezė.

Pasekmės priėmus nulinę ar alternatyvią hipotezes gali labai skirtis. Tarkime, net nedideli nukrypimai technologiniame sudėtingo vaisto gamybos procese gali sukelti vaisto toksiškumą. Tad reikia atlikti kruopščius tyrimus, kurių išvados gali būti: a) partiją leisti į prekybą; b) partiją sunaikinti.
Antruoju atveju farmacijos įmonė gali patirti žymius finansinius nuostolius, o tai padidina ir vaisto kainą. Tačiau tai nepalyginamai geriau, nei išleisti į prekybą toksišką vaistą (t.y., priimti nulinę hipotezę).

Nulinės hipotezės priėmimo klaida (toksiško preparato išleidimas) yra pirmojo tipo klaida ir jos tikimybė turi būti 0.05 (pirmas lygis), 0,01 (antras lygis) arba 0,001. Antrojo tipo klaida yra nulinės hipotezės priėmimo klaida (toksiško spartijos išleidimas į prekybą).
Kriterijaus statistika (T) – tam tikra funkcija, kuria pagal duomenis tikrinama nulinė hipotezė. Kritinė sritis - kriterijaus reikšmės, kurioms esant nulinę hipotezę atmeta. Kriterijaus galia yra reikšmė (F), reiškianti nukrypimo nuo klaidingos nulinės hipotezės tikimybę (t.y. kriterijaus patekimo į kritinę sritį tikimybė) – kuo didesnė F reikšmė, tuo mažesnė antro tipo klaidos tikimybė. Kurio nors parametro laisvės laipsnių kiekis - parametro paskaičiavimo bandymų kiekis atmetus vienodas reikšmes, tuose bandymuose aptiktas nepriklausomai.

Pirminiai skaičiai
Apie aukso pjūvį
Naujagimio dezute Loterijų matematika
Hipotezė ir prognozė
Santykis ir proporcija
Kokiu greičiu skriejame?
Revoliucija mazgų teorijoje
Skaičiai – apžvalga/ pradmenys
Pagrindinės statistinės sąvokos
Matematika prieš eismo spūstis
Faneroskopija prieš fenomenologiją
Paradoksai sulig dirbtiniu intelektu
Laimėti pralaimint: „dviejų vokų“ paradoksas
Kodėl matematikoje nežinomąjį žymi „x“?
2014 m. "Abelis" - biliardo teorijos kūrėjas
Endre Szemeredi darbų esmė „ant pirštų“
Simpsonų trauka ir žaidimas skaičiais
Mokslinis požiūris į Absoliutą
Statistikos sąvokų pristatymas
3-iojo tūkstantmečio mokslas
Ant sveiko proto svarstyklių
Žmonės prieš kompiuterius
Visata kaip kompiuteris
Monte-Karlo metodas
Zenono paradoksai
Ar viskas čia taip?
Nešo pusiausvyra
Dalyba iš nulio
Vartiklis