Klusterianalyysi on tilastollinen tekniikka, jota käytetään tunnistamaan kuinka eri yksiköt - kuten ihmiset, ryhmät tai yhteiskunnat - voidaan ryhmitellä toisiinsa yhteisten ominaisuuksiensa vuoksi. Tunnetaan myös nimellä klusterointi, se on tutkittava tietoanalyysityökalu, jonka tarkoituksena on lajitella eri kohteet ryhmiin siten, että kun ne kuuluvat samaan ryhmään heillä on maksimaalinen assosiaatioaste ja kun he eivät kuulu samaan ryhmään, heidän assosiaatioaste on minimaalinen. Toisin kuin jotkut muut tilastolliset tekniikat, klusterianalyysin avulla paljastetut rakenteet eivät tarvitse selitystä tai tulkintaa - se havaitsee datan rakenteen selittämättä miksi ne ovat olemassa.
Mikä on klusterointi?
Klustereita esiintyy melkein kaikissa arkipäivän osa-alueissa. Ota esimerkiksi tavarat ruokakaupasta. Erityyppiset tavarat näytetään aina samoissa tai lähellä olevissa paikoissa - liha, vihannekset, sooda, vilja, paperituotteet jne. Tutkijat haluavat usein tehdä saman datan kanssa ja ryhmitellä objekteja tai aiheita järkeviksi klustereiksi.
Oletetaan esimerkki yhteiskuntatieteestä, sanotaan esimerkiksi, että tarkastelemme maita ja haluamme ryhmitellä ne klustereihin sellaisten ominaisuuksien perusteella kuin työnjako, armeija, tekniikka tai koulutettu väestö. Huomaamme, että Britanniassa, Japanissa, Ranskassa, Saksassa ja Yhdysvalloissa on samanlaiset piirteet ja että ne olisivat ryhmittyneet toisiinsa. Uganda, Nicaragua ja Pakistan olisivat myös ryhmitelty toiseen klusteriin, koska niillä on erilaiset ominaisuudet, mukaan lukien alhainen varallisuuden taso, yksinkertaisempi työnjako, suhteellisen epävakaat ja epädemokraattiset poliittiset instituutiot ja matala teknologinen taso kehittäminen.
Klusterianalyysiä käytetään yleensä tutkimuksen tutkimusvaiheessa, kun tutkijalla ei ole sellaista ennakoidut hypoteesit. Se ei yleensä ole ainoa käytetty tilastollinen menetelmä, vaan se tehdään projektin varhaisessa vaiheessa muun analyysin ohjaamiseksi. Tästä syystä merkitsevyystestaus ei yleensä ole merkityksellistä eikä tarkoituksenmukaista.
Klusterianalyysejä on useita erityyppejä. Kaksi yleisimmin käytettyä ovat K-keskittyminen ja hierarkkinen klusterointi.
K-tarkoittaa klusterointia
K-välineiden ryhmittely käsittelee datassa olevia havaintoja kohteina, joilla on sijainnit ja etäisyydet toisistaan (huomioi, että klusteroinnissa käytetyt etäisyydet eivät usein edusta alueellisia etäisyyksiä). Se jakaa objektit K: sta toisiaan poissulkeviin klusteriin siten, että jokaisen klusterin objektit ovat sellaisia lähellä toisiaan kuin mahdollista ja samalla, mahdollisimman kaukana muiden klustereiden kohteista. Jokaiselle klusterille on sitten ominaista sen keskiarvo tai keskipiste.
Hierarkkinen klusterointi
Hierarkkinen klusterointi on tapa tutkia tietojen ryhmittelyjä samanaikaisesti useilla asteikoilla ja etäisyyksillä. Se tekee tämän luomalla klusteripuun, jolla on eri tasot. Toisin kuin K-tarkoittaa klusterointia, puu ei ole yksi joukko klustereita. Pikemminkin puu on monitasoinen hierarkia, jossa yhden tason klusterit yhdistetään klustereiksi seuraavalla ylemmällä tasolla. Käytetty algoritmi alkaa jokaisella tapauksella tai muuttujalla erillisessä klusterissa ja yhdistää sitten klusterit, kunnes vain yksi on jäljellä. Tämän avulla tutkija voi päättää, mikä klusterointitaso on tutkimukselleen sopivin.
Klusterianalyysin suorittaminen
Useimmat tilasto-ohjelmistot osaa suorittaa klusterianalyysin. Valitse SPSS-sovelluksessa analysoida sitten valikosta luokitella ja ryhmäanalyysi. SAS: ssä proc-klusteri toimintoa voidaan käyttää.
Päivittänyt Nicki Lisa Cole, tohtori