Histogrammilajit: Tiedot ja esimerkit

Ei todellakaan ole sääntöä kuinka monta luokkaa tulisi olla. Tuntien lukumäärässä on harkittava muutamia asioita. Jos luokkaa olisi vain yksi, kaikki tiedot kuuluisivat tähän luokkaan. Histogrammi olisi yksinkertaisesti yksi suorakulmio, jonka korkeuden ilmoittaisi tietosarjamme elementtien lukumäärä. Tämä ei olisi kovin hyödyllistä tai hyödyllinen histogrammi.

Toisessa ääripäässä meillä voisi olla useita luokkia. Tämä johtaisi lukuisiin palkkeihin, joista yksikään ei todennäköisesti olisi kovin korkea. Olisi erittäin vaikeaa määrittää erottavia ominaisuuksia tiedoista käyttämällä tämän tyyppistä histogrammia.

Suojellaksemme näitä kahta ääripäätä olemme peuklasääntö, jonka avulla määritetään histogrammin luokkien lukumäärä. Kun meillä on suhteellisen pieni tietojoukko, käytämme yleensä vain noin viittä luokkaa. Jos tietojoukko on suhteellisen suuri, käytämme noin 20 luokkaa.

On jälleen korostettava, että tämä on peukalosääntö, ei ehdoton tilastollinen periaate. Eri luokkien lukumäärälle voi olla hyviä syitä. Näemme tästä esimerkin tästä.

instagram viewer

Ennen kuin harkitsemme muutamia esimerkkejä, näemme kuinka määritellä, mitkä luokat ovat tosiasiallisesti. Aloitamme tämän prosessin löytämällä alue tiedoistamme. Toisin sanoen vähennämme pienimman datan arvon korkeimmasta data-arvosta.

Kun tietojoukko on suhteellisen pieni, jaamme alueen viidellä. Määrä on histogrammin luokkien leveys. Meidän on todennäköisesti tehtävä joitain pyöristyksiä tässä prosessissa, mikä tarkoittaa, että luokkien kokonaismäärä ei välttämättä ole viisi.

Kun tietojoukko on suhteellisen suuri, jaamme alueen 20: lla. Kuten aikaisemmin, tämä jako-ongelma antaa meille histogrammille luokkien leveyden. Kuten aiemmin näimme, pyöristyksemme voi myös johtaa hiukan enemmän tai vähemmän kuin 20 luokkaa.

Kummassakin suuressa tai pienessä tietojoukossa tapaamme ensimmäisen luokan alkavan pisteestä, joka on hieman pienempi kuin pienin tietoarvo. Meidän on tehtävä tämä siten, että ensimmäinen data-arvo kuuluu ensimmäiseen luokkaan. Muut myöhemmät luokat määräytyvät leveyden perusteella, joka asetettiin jakamalla alue. Tiedämme, että olemme viimeisessä luokassa, kun korkein tietoarvo sisältyy tähän luokkaan.

Esimerkiksi määritetään sopiva luokanleveys ja luokat tietojoukolle: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Näemme, että joukossamme on 27 datapistettä. Tämä on suhteellisen pieni joukko, joten jaamme alueen viidellä. Alue on 19,2 - 1,1 = 18,1. Jaamme 18,1 / 5 = 3,62. Tämä tarkoittaa, että luokan leveys 4 olisi sopiva. Pienin tietoarvo on 1,1, joten aloitamme ensimmäisen luokan tästä pienemmässä pisteessä. Koska tietomme koostuvat positiivisista numeroista, olisi järkevää asettaa ensimmäinen luokka asteikolle 0 - 4.

Oletetaan, että yksi esimerkki tästä on monivalintakoe, jossa on 35 kysymystä, ja testin suorittaa 1000 lukion opiskelijaa. Haluamme muodostaa histogrammin, joka näyttää oppilaiden lukumäärän, joka on saavuttanut testissä tietyt pisteet. Näemme, että 35/5 = 7 ja että 35/20 = 1,75. Huolimatta nyrkkisäännöstämme, joka antaa meille valinnat luokkien leveydeksi 2 tai 7, joita voidaan käyttää histogrammiimme, voi olla parempi, että luokan leveys on 1. Nämä luokat vastaavat kutakin kysymystä, johon opiskelija vastasi oikein testissä. Ensimmäinen näistä keskittyisi nollaan ja viimeinen keskittyisi 35: een.