Korrelaation ja syy-erojen erot

Eräänä päivänä lounaalla nuori nainen söi suuren kulhon jäätelöä, ja toinen tiedekunnan jäsen käveli hänen luokseen ja sanoi: ”Sinun olisi parempi olla varovainen, siellä on korkea tilastollinenkorrelaatio jäätelön ja hukkumisen välillä. ” Hänen on pitänyt antaa hänelle hämmentynyt ilme, kun hän kehitti lisää. "Päivät, joissa eniten myydään jäätelöä, näkevät myös eniten ihmisiä hukkumassa."

Kun hän oli valmistanut jäätelöni, molemmat kollegat keskustelivat tosiasiasta, että vain koska yksi muuttuja liittyy tilastollisesti toiseen, se ei tarkoita, että yksi on toisen syy. Joskus taustalla on piilossa muuttuja. Tässä tapauksessa tietoihin on piilotettu vuoden päivä. Kuumina kesäpäivinä myydään enemmän jäätelöä kuin lumisina talvisina. Yhä useammat ihmiset uivat kesällä, joten hukkuu kesällä enemmän kuin talvella.

Varo varjoavia muuttujia

Yllä oleva anekdootti on erinomainen esimerkki nk. Varitsevasta muuttujasta. Kuten nimensä päättelee, piilevä muuttuja voi olla vaikea ja vaikea havaita. Kun huomaamme, että kaksi numeerista tietojoukkoa korreloivat voimakkaasti, meidän on aina kysyttävä: "Voisiko jotain muuta aiheuttaa tämän suhteen?"

instagram viewer

Seuraavat ovat esimerkkejä piilevän muuttujan aiheuttamasta vahvasta korrelaatiosta:

  • Keskimääräinen tietokoneiden lukumäärä henkilöä kohden maassa ja maan keskimääräinen elinajanodote.
  • Palossa olleiden palomiesten lukumäärä ja tulipalon aiheuttamat vahingot.
  • Ala-asteen oppilaan korkeus ja hänen lukutaso.

Kaikissa näissä tapauksissa muuttujien välinen suhde on erittäin vahva. Tätä merkitään tyypillisesti korrelaatiokerroin jolla on arvo lähellä 1 tai -1. Ei ole väliä kuinka lähellä tämä korrelaatiokerroin on 1 tai -1, tämä tilasto ei voi osoittaa, että yksi muuttuja on syynä toiseen muuttujaan.

Varjoavien muuttujien havaitseminen

Varjostavien muuttujien luonne on vaikea havaita. Yksi strategia, jos sitä on saatavilla, on tutkia, mitä datalle tapahtuu ajan myötä. Tämä voi paljastaa vuodenaikojen trendit, kuten esimerkiksi jäätelöesimerkki, joka hämärtyy, kun tietoja kerrotaan yhteen. Toinen tapa on tarkastella harha ja yritä selvittää, mikä erottaa ne muista tiedoista. Joskus tämä antaa vihjeen kulissien takana tapahtuvalle. Paras toimintatapa on olla ennakoiva; kysyä oletuksia ja suunnittelukokeita huolellisesti.

Miksi sillä on väliä?

Oletetaan, että avausskenaariossa on tarkoituksellinen, mutta tilastollisesti tietämätön kongressiedustaja ehdotti kaikkien jäätelöiden kieltämistä hukkumisen estämiseksi. Tällainen lakiehdotus aiheuttaisi haittaa suurille väestöryhmille, pakottaisi useita yrityksiä konkurssiin ja poistaisi tuhansia työpaikkoja maan jäätelöteollisuuden sulkeutuessa. Parhaista aikeista huolimatta tämä lakiesitys ei vähentäisi hukkumistapahtumien määrää.

Jos tämä esimerkki tuntuu hieman liian kauas haetusta, harkitse seuraavaa, mikä todella tapahtui. 1900-luvun alkupuolella lääkärit huomasivat, että jotkut imeväiset kuolivat salaperäisesti unessaan havaittujen hengitysvaikeuksien vuoksi. Tätä kutsuttiin sänkykuolemaksi, ja nykyään se tunnetaan nimellä SIDS. Yksi SIDS: stä kuolleille suoritetuista ruumiinavauksista erotettu asia oli laajentunut kateenkorva, rintakehä. SIDS-vauvojen laajentuneiden kateenkorvan rauhasten korrelaatiosta lääkärit olettivat, että epänormaalisti suuri kateenkorva aiheutti väärää hengitystä ja kuolemaa.

Ehdotetun ratkaisun tarkoituksena oli kutistaa kateenkorva suurella säteilytehtävällä tai poistaa rauhaset kokonaan. Näiden toimenpiteiden kuolleisuus oli korkea, ja ne johtivat entistä enemmän kuolemaan. Surullista on, että näitä operaatioita ei tarvinnut suorittaa. Myöhemmät tutkimukset ovat osoittaneet, että nämä lääkärit ovat erehtyneet oletuksissaan ja että kateenkorva ei ole vastuussa SIDS: stä.

Korrelaatio ei tarkoita syy-yhteyttä

Edellä esitetyn pitäisi saada meidät taukoon, kun ajattelemme, että tilastollisia todisteita käytetään perustelemaan esimerkiksi lääketieteellisiä ohjelmia, lainsäädäntöä ja koulutusehdotuksia. On tärkeää, että datan tulkinnassa tehdään hyvää työtä, varsinkin jos korrelaatioon liittyvät tulokset vaikuttavat muiden elämään.

Kun joku toteaa: ”Tutkimukset osoittavat, että A on syy B: hen ja jotkut tilastot tukevat sitä”, ole valmis vastaus, "korrelaatio ei tarkoita syy-yhteyttä". Ole aina etsimässä sitä, mikä on tiedot.

instagram story viewer