Kada statistika gali meluoti?

„Egzistuoja trys melo rūšys: melas, įžūlus melas ir statistika“. Markas Tvenas

Apvalūs skaičiai visada meluoja. S. Džonsonas
Skaičiai nemeluoja. Paskaičiuok, kiek žmonių tave aplojo, ir kiek šunų! „Przekrój

Skaitykite: Pagrindinės statistinės sąvokos

Klaidos įvėlimas Harvardo universiteto ekonomistų C.Reinhart'o ir K. Rogoff'o įtakingoje studijoje kelia klausimą: kiek galime pasitikėti bet kurio tyrinėtojo tvirtinimais?

O tikrovė yra tokia, kad įprastos daug rimtesnės klaidos nei ta atrastoji? Supergreiti kompiuteriai ir įmantrūs statistiniai moduliai negali apsaugoti nuo žmogiškų suklydimų. Tačiau tai nereiškia, empiriniai tyrinėjimai nieko neverti.

C.Reinhart'o ir K. Rogoff'o klaida, kai jie atsitiktinai pašalino 5 šalis skaičiuojant vidutinę priklausomybę tarp vyriausybės skolos ir ekonominio augimo, pakeičia aptarimo apie šiuolaikines ekonomikas pradinį tašką. Primityvus apsirikimas, dėl kurio galima pasijuokti su draugais, yra tipinis „skirta TV“ atvejis. Šiais laikais, kai „suminkomi“ milžiniški informacijos kiekiai, klaidos gali būti gerokai klastingesnės ir nustatomas sudėtingais būdais.

Prisimintinas Marko Tveno aforizmas žodžių žaismas „liars figure and figures lie“ (melagiai naudojasi formulėmis, o skaičiai meluoja). Tai kaip atskirti vertingus rezultatus nuo šiukšlių? Tam skirtos 6 taisyklės.

  1. Pasitikrinkite, kiek patikimi yra rezultatai – t.y., ar skirtingi požiūrio taškai duoda tas pačias išvadas. Ar tie pačios tendencijos kartojasi daugelyje duomenų imčių, skirtingose šalyse, pramonės šakose ar laikotarpiais? Ar rezultatas yra jautrus duomenų pokyčiams?
  2. Duomenų apdorojimo specialistai neretai teigia, kad jų rezultatai yra labai reikšmingi, kai tokie teiginiai neretai atspindi faktą, kad jie atrado tik atsitiktinę priklausomybę. Didelėse duomenų imtyse beveik viskas yra statistiškai reikšminga. Kartais klausimai tokie svarbūs, kad svarbu nors ką išgauti iš turimų duomenų – geriausias netikęs įrodymas vis tik yra geriau nei jokio įrodymo.
  3. Būkite atsargūs dėl mokslininkų, naudojančių sudėtingus statistinius metodus kaip vėzdą kritikų, nesančių specialistais, nutildymui. Jei autorius negali paaiškinti savo rezultatų jums suprantamais terminais, neprivalote juo tikėti. Sudėtingi metodai gali būti naudingi, tačiau jie gali ir daugiau paslėpti nei atskleisti.
  4. Nepakliūkite į pinkles galvodami apie empirinius rezultatus kaip „teisingus“ ir „klaidingus“. Geriausiu atveju, duomenys duota tik apytikslį vaizdą. Įrodymai gali padaryti poslinkį tuo klausimu – tik klausimas, kokiu mastu.
  5. Nepainiokite koreliacijų su priežastimis. Pvz., nustatyta, kad paprastai ekonominis augimas lėtesnis kai valstybės skola didesnė. Bet ar didesnė skola lėtina augimą, ar lėtesnis augimas verčia daugiau skolintis? O gal yra kitų veiksnių, tokių kaip populistų siekis išlaidauti tam, kad išliktų valdžioje?
  6. Visad klauskite - „ir kas?” Ar yra prasmė kalbėti apie „priklausomybę tarp vyriausybės skolos ir ekonominio augimo“, kai yra daugybė kitų priklausomybių, pvz., vyriausybės skolinasi vien tam, kad finansuotų savo rinkimus. Tad klausimas „ir kas?” yra išorinės naudos paieškos.

Iš tikro, prasmės atradimas dideliuose duomenų kiekiuose nėra labai lengvas dalykas, tačiau jis nėra beviltiškas. Vienintele alternatyva yra intuicija, kuri ne tik su spragomis, bet, anot psichologų, net labiau ydinga nei linkę galvoti. Geriau jau strategijose remtis netobulomis analizėmis, nei būrimais iš kavos tirščių, politologų ir šarlatanų svaičiojimais.


Nulinė hipotezė    

Taip pat skaitykite Hipotezė ir prognozė    

Nulinė hipotezė – suderinamumo su turimais parinktais (empiriniais) duomenimis hipotezė. Metodas naudojamas statistiniame patikrinime ir yra sprendimo priėmimo dalimi.
Dažnai tai tarpusavio ryšio ar koreliacijos nebuvimo tarp tiriamų nežinomųjų, skirtumų nebuvimo (vienalytiškumo) dviejų ar daugiau imčių pasiskirstymuose teiginiai. Paprastai tyrėjas bando įrodyti nulinės hipotezės klaidingumą, jos nesuderinamumą su turimais duomenimis, t.y. paneigti hipotezę kitos, alternatyvios hipotezės naudai.

Ji naudojama teiginių apie rinką, investavimą, ekonomiką patikrinimui. Pvz., pasirinkome investavimo strategiją tikintis, kad grąža bus didesnė nei rinkoje. Nuline hipoteze būtų tvirtinimas, kad tarp nėra skirtumo tarp pasirinktos strategijos ir rinkoje nusipirktų fondų. Šią hipotezę.reikia laikyti teisinga tol, kol ji nepaneigiama.
Jei patikrinus duomenis bus nustatyta, kad yra principinis skirtumas, tada nulinė hipotezė atmetama ir galima priimti alternatyvią hipotezę.

Dažniausiai nebūna „gryno“ eksperimento, tad duomenis reikia rinkti kelis kartus. O išvada priklauso nuo daugybės veiksnių, tad reikia sugebėti svarbius duomenis atskirti nuo antraeilių. Tarkim, nustatinėjame ryšį tarp rūkymo ir plaučių vėžio. Nepakanka rasti nors vieną rūkantį, mirusį nuo plaučių vėžio. Reikia surinkti pakankamą duomenų kiekį, kad būtų nustatyta pakankama priklausomybė. Ir kol jos nenustatėme, galioja nulinė hipotezė.

Pasekmės priėmus nulinę ar alternatyvią hipotezes gali labai skirtis. Tarkime, net nedideli nukrypimai technologiniame sudėtingo vaisto gamybos procese gali sukelti vaisto toksiškumą. Tad reikia atlikti kruopščius tyrimus, kurių išvados gali būti: a) partiją leisti į prekybą; b) partiją sunaikinti.
Antruoju atveju farmacijos įmonė gali patirti žymius finansinius nuostolius, o tai padidina ir vaisto kainą. Tačiau tai nepalyginamai geriau, nei išleisti į prekybą toksišką vaistą (t.y., priimti nulinę hipotezę).

Nulinės hipotezės priėmimo klaida (toksiško preparato išleidimas) yra pirmojo tipo klaida ir jos tikimybė turi būti 0.05 (pirmas lygis), 0,01 (antras lygis) arba 0,001. Antrojo tipo klaida yra nulinės hipotezės priėmimo klaida (toksiško spartijos išleidimas į prekybą).
Kriterijaus statistika (T) – tam tikra funkcija, kuria pagal duomenis tikrinama nulinė hipotezė. Kritinė sritis - kriterijaus reikšmės, kurioms esant nulinę hipotezę atmeta. Kriterijaus galia yra reikšmė (F), reiškianti nukrypimo nuo klaidingos nulinės hipotezės tikimybę (t.y. kriterijaus patekimo į kritinę sritį tikimybė) – kuo didesnė F reikšmė, tuo mažesnė antro tipo klaidos tikimybė. Kurio nors parametro laisvės laipsnių kiekis - parametro paskaičiavimo bandymų kiekis atmetus vienodas reikšmes, tuose bandymuose aptiktas nepriklausomai.

Pirminiai skaičiai
Loterijų matematika
Hipotezė ir prognozė
Santykis ir proporcija
Kokiu greičiu skriejame?
Revoliucija mazgų teorijoje
Skaičiai – apžvalga/ pradmenys
Izingo modelis įmagnetinimui
Pagrindinės statistinės sąvokos
Matematika prieš eismo spūstis
Faneroskopija prieš fenomenologiją
Paradoksai sulig dirbtiniu intelektu
Laimėti pralaimint: „dviejų vokų“ paradoksas
Kodėl matematikoje nežinomąjį žymi „x“?
2014 m. "Abelis" - biliardo teorijos kūrėjas
Endre Szemeredi darbų esmė „ant pirštų“
Simpsonų trauka ir žaidimas skaičiais
Statistikos sąvokų pristatymas
Da Vinči matematinė klaidelė
3-iojo tūkstantmečio mokslas
Ant sveiko proto svarstyklių
Žmonės prieš kompiuterius
Visata kaip kompiuteris
Monte-Karlo metodas
Zenono paradoksai
Ar viskas čia taip?
Nešo pusiausvyra
Dalyba iš nulio