paradoksi on lausunto tai ilmiö, joka pinnalla vaikuttaa ristiriitaiselta. Paradoksit auttavat paljastamaan taustalla olevan totuuden absurdin näytöllä. Tilastojen alalla Simpsonin paradoksi osoittaa, millaisia ongelmia syntyy useiden ryhmien tietojen yhdistämisestä.
Kaikkien tietojen kanssa meidän on oltava varovaisia. Mistä se tuli? Kuinka se saatiin? Ja mitä se oikeastaan sanoo? Nämä kaikki ovat hyviä kysymyksiä, jotka meidän pitäisi kysyä, kun heille esitetään tiedot. Hyvin yllättävä tapaus Simpsonin paradoksista osoittaa meille, että joskus se, mitä tiedot näyttävät sanoneen, ei oikeastaan pidä paikkaansa.
Katsaus paradoksiin
Oletetaan, että tarkkailemme useita ryhmiä ja perustamme suhteen tai korrelaatio jokaiselle näistä ryhmistä. Simpsonin paradoksi sanoo, että kun yhdistämme kaikki ryhmät yhteen ja tarkastelemme tietoja aggregoidussa muodossa, aiemmin huomannut korrelaatio voi kääntää itsensä. Tämä johtuu useimmiten piilevistä muuttujista, joita ei ole otettu huomioon, mutta joskus se johtuu tietojen numeerisista arvoista.
esimerkki
Katsotaanpa seuraavaa esimerkkiä, jotta Simpsonin paradoksista saataisiin hiukan enemmän ymmärrystä. Tietyssä sairaalassa on kaksi kirurgia. Kirurgi A leikkaa 100 potilasta ja 95 hengissä. Kirurgi B leikkaa 80 potilasta ja 72 hengissä. Harkitsemme leikkauksen tekemistä tässä sairaalassa ja leikkauksen läpi eläminen on jotain, mikä on tärkeää. Haluamme valita paremman kahdesta kirurgista.
Tarkastelemme tietoja ja käytämme sitä laskeaksesi kuinka suuri osuus kirurgin A-potilaista selvisi leikkauksistaan ja vertaa sitä kirurgin B potilaiden eloonjäämisasteeseen.
- 95 potilasta 100: sta selvisi kirurgin A kanssa, joten 95/100 = 95% heistä selvisi.
- 72 potilasta 80: stä selvisi kirurgin B kanssa, joten heistä 72/80 = 90% selvisi.
Minkä kirurgin meidän tulisi valita hoitamaan meitä tästä analyysistä? Vaikuttaa siltä, että kirurgi A on turvallisempi veto. Mutta onko tämä todella totta?
Entä jos tutkimme lisätietoja ja huomasimme, että sairaala oli alun perin harkinnut sitä kaksi erityyppistä leikkausta, mutta yhdistettiin sitten kaikki tiedot yhteen raportoidakseen jokaisesta kirurgit. Kaikki leikkaukset eivät ole samanarvoisia, toisia pidettiin riskialttiina kiireellisinä leikkauksina, kun taas toiset olivat luonteeltaan rutiininomaisempia, jotka oli suunniteltu etukäteen.
Sadasta potilaasta, joita kirurgi A hoiti, 50 oli korkea riski, joista kolme kuoli. Muita 50 pidettiin rutiinina, ja näistä 2 kuoli. Tämä tarkoittaa, että rutiinileikkauksessa kirurgin A hoitamalla potilaalla on eloonjäämisaste 48/50 = 96%.
Nyt tarkastelemme tarkemmin kirurgin B tietoja ja havaitsemme, että 80 potilaasta 40 oli korkea riski, joista seitsemän kuoli. Muut 40 olivat rutiininomaisia ja vain yksi kuoli. Tämä tarkoittaa, että potilaan eloonjäämisaste 39/40 = 97,5% rutiinileikkauksesta kirurgin B kanssa.
Nyt mikä kirurgi näyttää paremmalta? Jos leikkauksen on oltava rutiinia, niin kirurgi B on oikeasti parempi kirurgi. Jos tarkastelemme kaikkia kirurgien suorittamia leikkauksia, A on parempi. Tämä on melko vastaintuitiivista. Tässä tapauksessa leikkaustyypin piilevä muuttuja vaikuttaa kirurgien yhteenlaskettuihin tietoihin.
Simpsonin paradoksin historia
Simpsonin paradoksi on nimetty Edward Simpsonin mukaan, joka kuvasi tämän paradoksin ensimmäisen kerran vuonna 1951 julkaistussa artikkelissa "Tulkinta vuorovaikutuksesta varataulukoissa" Royal Statistics Society -lehti. Pearson ja Yule havaitsivat kumpikin samanlaisen paradoksin puoli vuosisataa aikaisemmin kuin Simpson, joten Simpsonin paradoksiin viitataan joskus myös Simpson-Yule-ilmiönä.
Paradoksilla on monia laaja-alaisia sovelluksia niin moninaisilla alueilla kuin urheilutilastot ja työttömyystiedot. Aina kun nämä tiedot yhdistetään, varo, että tämä paradoksi näkyy.