Mikä on korrelaatio tilastoissa?

click fraud protection

Joskus numeerinen tieto tulee pareittain. Ehkä a paleontologi mittaa reisiluun (jalan luun) ja olkaluun (käsivarsiluun) pituudet viidessä saman dinosauruslajin fossiilissa. Voi olla järkevää harkita käsivarren pituuksia erikseen jalan pituuksista ja laskea esimerkiksi keskiarvo tai keskihajonta. Mutta entä jos tutkijalla on utelias tietää, onko näiden kahden mittauksen välillä yhteys? Ei riitä, että katsot vain käsivarsia erillään jaloista. Sen sijaan paleontologin tulee pariksi muodostaa pari luiden pituudet kutakin luurankoa varten ja käyttää alaa tilasto tunnetaan korrelaatio.

Mikä on korrelaatio? Oletetaan, että yllä olevassa esimerkissä tutkija on tutkinut tietoja ja saavuttanut kovin yllättävän Seurauksena oli, että dinosaurus fossiileilla, joilla oli pidemmät aseet, oli myös pidemmät jalat, ja fossiileilla, joilla oli lyhyemmät aseet lyhyemmät jalat. Tietojen sirontakaavio osoitti, että kaikki datapisteet olivat klusteroituneet lähellä suoraa viivaa. Tutkija sanoo sitten, että olemassa on vahva suoraviivainen suhde, tai

instagram viewer
korrelaatio, fossiilien käsivarren luiden ja jalkojen luiden välillä. Se vaatii vielä lisää työtä korrelaation vahvuuden sanomiseksi.

Korrelaatio ja sirontapisteet

Koska kukin datapiste edustaa kahta numeroa, kaksiulotteinen sirontaplotti on suuri apu datan visualisoinnissa. Oletetaan, että meillä on tosiasiallisesti käsissämme dinosaurus -tiedot ja viidellä fossiililla on seuraavat mittaukset:

  1. Reisiluu 50 cm, rintakehä 41 cm
  2. Reisiluu 57 cm, olkavarsi 61 cm
  3. Reisiluu 61 cm, rintakehä 71 cm
  4. Reisiluu 66 cm, rintakehä 70 cm
  5. Reisiluu 75 cm, rintakehä 82 cm

Tietojen sirontapiste, jossa reisimitta on vaakasuunnassa ja olkavarren mittaus pystysuunnassa, johtaa yllä olevaan kaavioon. Jokainen piste edustaa yhden luurankon mittoja. Esimerkiksi vasemmassa alakulmassa oleva piste vastaa luurankoa nro 1. Oikeassa yläreunassa oleva piste on luuranko # 5.

Näyttää varmasti siltä, ​​että voisimme vetää suoran linjan, joka olisi hyvin lähellä kaikkia kohtia. Mutta kuinka voimme kertoa varmasti? Läheisyys on katsojan silmissä. Kuinka tiedämme, että "läheisyyden" määritelmät vastaavat jotakuta toista? Onko jollain tavalla mahdollista määritellä tämä läheisyys?

Korrelaatiokerroin

Jotta objektiivisesti mitataan, kuinka lähellä dataa on suoraa, on korrelaatiokerroin pelastettava. korrelaatiokerroin, tyypillisesti merkitty R, on reaaliluku välillä -1 ja 1. Arvo R mittaa kaavaan perustuvan korrelaation voimakkuuden eliminoimalla prosessin kaiken subjektiivisuuden. Arvoa tulkittaessa on pidettävä mielessä useita ohjeita R.

  • Jos R = 0, sitten pisteet ovat täydellinen sekoitus ilman mitään suoraa suhdetta tietojen välillä.
  • Jos R = -1 tai R = 1, niin kaikki datapisteet ovat linjassa täydellisesti viivalla.
  • Jos R on muu arvo kuin nämä ääripäät, silloin tulos on suoraa vähemmän kuin täydellinen sovitus. Reaalimaailman tietokokonaisuuksissa tämä on yleisin tulos.
  • Jos R on positiivinen, niin linja nousee a: lla positiivinen kaltevuus. Jos R on negatiivinen, sitten viiva laskee negatiivisella kaltevuudella.

Korrelaatiokertoimen laskeminen

Korrelaatiokertoimen kaava R on monimutkainen, kuten täältä voidaan nähdä. Kaavan ainesosat ovat molemmien numeeristen datajoukkojen keskiarvot ja keskihajonnat sekä datapisteiden lukumäärä. Useimpiin käytännön sovelluksiin R on tylsiä laskea käsin. Jos tietomme on syötetty laskin- tai laskentataulukko-ohjelmaan tilastolliset komennot, sitten on yleensä sisäänrakennettu toiminto laskeakseen R.

Korrelaation rajoitukset

Vaikka korrelaatio on tehokas työkalu, sen käyttöön liittyy joitain rajoituksia:

  • Korrelaatio ei kerro meille kaikkea tietoa. Keinot ja keskihajonnat ovat edelleen tärkeitä.
  • Tiedot voidaan kuvata käyrällä, joka on monimutkaisempi kuin suora, mutta tätä ei näytetä laskeessa R.
  • Poikkeamat vaikuttavat voimakkaasti korrelaatiokertoimeen. Jos tiedoissamme havaitaan poikkeavuuksia, meidän pitäisi olla varovaisia ​​johtopäätösten perusteella, jotka arvon perusteella teemme r.
  • Vain koska kaksi tietojoukkoa korreloivat, se ei tarkoita, että yksi on syy toisesta.
instagram story viewer