Poikkeamat ovat data-arvoja, jotka eroavat suuresti suurimmasta osasta tietoryhmiä. Nämä arvot eivät kuulu datan läsnä olevaan yleiseen suuntaukseen. Tietojoukon huolellinen tutkiminen poikkeavien etsimiseksi aiheuttaa joitain vaikeuksia. Vaikka on helppo nähdä, mahdollisesti käyttämällä stemplot-sovellusta, että jotkut arvot eroavat muista tiedoista, kuinka paljon erilaista arvoa on pidettävä ulkoisena? Tarkastelemme erityistä mittausta, joka antaa meille objektiivisen standardin siitä, mikä muodostaa poikkeavuuden.
Kvartalien välinen alue
interkvartelialue on se, mitä voimme käyttää määrittämään, onko ääriarvo todellakin poikkeava arvo. Kvartalien välinen alue perustuu osaan viiden numeron yhteenveto tietokokonaisuudesta, nimittäin ensimmäinen kvartiili ja kolmas kvartiili. Kvartalien välisen alueen laskenta sisältää yhden aritmeettisen operaation. Ainoa mitä meidän on tehtävä löytääksemme kvartiilien välinen alue on vähentää ensimmäinen kvartiili kolmannesta kvartiilista. Tuloksena oleva ero kertoo meille, kuinka hajaantunut keskimmäinen puoli tietojamme on.
Poikkeavuuksien määrittäminen
Kertomalla kvartiilien välinen etäisyys (IQR) 1,5: llä antaa meille tavan määrittää, onko tietty arvo poikkeava. Jos vähennämme 1,5 x IQR ensimmäisestä kvartiilista, kaikkia tätä arvoa pienempiä data-arvoja pidetään poikkeavina. Samoin, jos lisäämme 1,5 x IQR: n kolmanteen kvartiiliin, kaikkia tätä arvoa suurempia data-arvoja pidetään poikkeavina.
Vahvat poikkeavuudet
Jotkut poikkeavat osoittavat äärimmäisen poikkeavan muusta tietojoukosta. Näissä tapauksissa voimme ottaa askeleen ylhäältä muuttamalla vain lukumäärän, jolla kerrotaan IQR: llä, ja määritellä tietyn tyyppinen ulkopuolisuus. Jos vähennämme ensimmäisestä kvartiilista 3,0 x IQR, mitä tahansa tämän luvun alapuolella olevaa pistettä kutsutaan vahvaksi ulkoiseksi. Samoin 3,0 x IQR: n lisääminen kolmanteen kvartiliin antaa meille mahdollisuuden määritellä vahvat poikkeamat tarkastelemalla pisteitä, jotka ovat tätä lukua suurempia.
Heikot poikkeavuudet
Vahvojen poikkeavuuksien lisäksi on olemassa myös toinen luokka poikkeavuuksille. Jos data-arvo on poikkeava, mutta ei vahva, niin sanomme, että arvo on heikko. Tarkastelemme näitä käsitteitä tutkimalla muutamia esimerkkejä.
Esimerkki 1
Oletetaan ensin, että meillä on tietojoukko {1, 2, 2, 3, 3, 4, 5, 5, 9}. Numero 9 varmasti näyttää siltä, että se voisi olla poikkeava. Se on paljon suurempi kuin mikään muu arvo muusta sarjasta. Objektiivisesti määrittääksesi, onko 9 poikkeava, käytämme yllä olevia menetelmiä. Ensimmäinen kvartiili on 2 ja kolmas kvartiili on 5, mikä tarkoittaa, että kvartiilien välinen etäisyys on 3. Kerrotaan kvartiilien välinen alue 1,5: llä, saadaan 4,5, ja lisätään sitten tämä luku kolmanteen kvartiiliin. Tulos 9,5 on suurempi kuin mikään data-arvoista. Siksi ei ole poikkeamia.
Esimerkki 2
Nyt tarkastelemme samaa tietojoukkoa kuin aikaisemmin, paitsi että suurin arvo on 10 eikä 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Ensimmäinen kvartiili, kolmas kvartiili ja kvartiilien välinen alue ovat identtisiä esimerkin 1 kanssa. Kun lisäämme 1,5 x IQR = 4,5 kolmanteen kvartiliin, summa on 9,5. Koska 10 on suurempi kuin 9,5, sitä pidetään poikkeuksellisena.
Onko 10 vahva tai heikko ulkopuolinen? Tätä varten meidän on tarkasteltava 3 x IQR = 9. Kun lisäämme 9 kolmanteen kvartiiliin, päädymme summaan 14. Koska 10 ei ole suurempi kuin 14, se ei ole vahva poikkeavuus. Siten päättelemme, että 10 on heikko poikkeus.
Syyt poikkeavien tunnistamiseen
Meidän on aina oltava etsimässä poikkeavia. Joskus ne johtuvat virheestä. Toisinaan poikkeavuudet osoittavat aiemmin tuntemattoman ilmiön esiintymisen. Toinen syy siihen, että meidän on oltava ahkera tarkistamaan poikkeavuuksia, johtuu kaikista kuvailevia tilastoja jotka ovat herkkiä poikkeavuuksille. Ilkeät, keskihajonta ja korrelaatiokerroin paritiedot ovat vain muutama tällaisista tilastoista.