Quantiilin ymmärtäminen: määritelmät ja käyttötavat

Tiivistelmätilastot, kuten mediaani, ensimmäinen kvartiili ja kolmas kvartiili ovat paikan mittoja. Tämä johtuu siitä, että nämä numerot osoittavat, missä tietty osuus tiedon jakautumisesta on. Esimerkiksi mediaani on tutkittavan tiedon keskiasento. Puolet tiedoista ovat arvoja pienempiä kuin mediaani. Samoin 25%: lla tiedoista on arvoja, jotka ovat vähemmän kuin ensimmäisellä kvartiililla, ja 75%: lla tiedoista on arvoja, jotka ovat vähemmän kuin kolmannella kvartiililla.

Tämä käsite voidaan yleistää. Yksi tapa tehdä tämä on harkita persentiilit. 90. prosenttipiste osoittaa pisteen, jossa 90 prosentilla tiedoista on arvoja vähemmän kuin tämä luku. Yleisemmin pth prosenttipiste on luku n mille p% tiedoista on vähemmän kuin n.

Jatkuvat satunnaismuuttujat

Vaikka mediaanin, ensimmäisen kvartiilin ja kolmannen kvartiilin tilastotilastot otetaan yleensä käyttöön a Asettamalla erillisellä datajoukolla nämä tilastot voidaan määritellä myös jatkuvalle satunnaiselle muuttuja. Koska työskentelemme jatkuvan jakelun kanssa, käytämme integraalia. pth prosenttipiste on luku n sellainen, että:

instagram viewer

-₶nf ( x ) dx = p/100.

Tässä f ( x ) on todennäköisyystiheysfunktio. Siten voimme saada minkä tahansa haluamasi prosenttipisteen a jatkuva jakelu.

quantiles

Lisä yleistyksenä on huomata, että tilaustilastomme jakavat jakelun, jonka kanssa työskentelemme. Mediaani jakaa datajoukon puoliksi, ja jatkuvan jakauman mediaani eli 50. prosenttipiste jakaa jakauman puoleen pinta-alan suhteen. Ensimmäinen kvartiili, mediaani ja kolmas kvartiili jakaa tietomme neljään osaan, joilla jokaisella on sama määrä. Voimme käyttää yllä olevaa integraalia saadaksesi 25., 50. ja 75. prosenttipiste ja jakamaan jatkuva jakauma neljään yhtä suureen osaan.

Voimme yleistää tämän menettelyn. Kysymykselle, josta voimme aloittaa, on annettu luonnollinen luku n, kuinka voimme jakaa muuttujan jakauman n yhtä suuret kappaleet? Tämä puhuu suoraan kvanttien ajatukseen.

n tietojoukon kvantit löydetään suunnilleen järjestämällä tiedot järjestyksessä ja jakamalla sitten tämä sijoitus läpi n - 1 tasavälein oleva piste pisteellä.

Jos meillä on todennäköisyystiheysfunktio jatkuvalle satunnaismuuttujalle, käytämme yllä olevaa integraalia kvanttien löytämiseen. varten n kvantit, haluamme:

  • Ensimmäisellä on 1 /n jakauman pinta-alasta sen vasemmalla puolella.
  • Toisella on 2 /n jakauman pinta-alasta sen vasemmalla puolella.
  • Rth on R/n jakauman pinta-alasta sen vasemmalla puolella.
  • Viimeisimmätn - 1)/n jakauman pinta-alasta sen vasemmalla puolella.

Me näemme sen kaikille luonnollisille numeroille n, n kvantit vastaavat 100: taR/nkymmenes prosenttipiste, missä R voi olla mikä tahansa luonnollinen luku välillä 1 - n - 1.

Yleiset Quantiles

Tietyntyyppisiä kvantteja käytetään riittävän yleisesti tiettyjen nimien saamiseksi. Alla on luettelo näistä:

  • 2 kvantiiliä kutsutaan mediaaniksi
  • Kolme kvantisilia kutsutaan tersiileiksi
  • Näitä neljää kvanttia kutsutaan kvartiileiksi
  • Viittä kvantiilia kutsutaan kvintiileiksi
  • Näitä kahta kvanttia kutsutaan sekstiileiksi
  • Seitsemää kvanttia kutsutaan septiles
  • Kahta kvantiilia kutsutaan oktiileiksi
  • 10 kvanttia kutsutaan decileiksi
  • Tätä 12 kvanttia kutsutaan duodecileiksi
  • 20 kvanttia kutsutaan vigintiileiksi
  • 100 kvanttia kutsutaan prosenttipisteiksi
  • 1000 kvanttia kutsutaan permilleiksi

Tietysti muita kvantteja on olemassa yllä olevien luetteloiden ulkopuolella. Monta kertaa käytetty tietty kvantiili vastaa jatkuvan näytteen kokoa jakelu.

Kvantiilien käyttö

Tietoryhmän sijainnin määrittelemisen lisäksi kvantit ovat hyödyllisiä myös muilla tavoilla. Oletetaan, että meillä on yksinkertainen satunnainen otos väestöstä, ja populaation jakautumista ei tunneta. Jotta voimme selvittää, sopivatko mallit, kuten normaalijakauma tai Weibull-jakauma, sopivaksi väestölle, josta otimme otoksen, voimme tarkastella tietojemme ja mallin kvantteja.

Sovittamalla näytteetietojemme kvantisilit tietyn kvantisileihin todennäköisyysjakauma, tulos on kokoelma pariksi muodostettua dataa. Piirrämme nämä tiedot sirontakaavioon, jota kutsutaan kvantiili-kvantti- tai q-q-kuvaajaksi. Jos tuloksena oleva sirontaplot on suunnilleen lineaarinen, malli sopii hyvin tietoihimme.