Tietojen puhdistus on tärkeä osa tietojen analysointia, varsinkin kun kerät omia kvantitatiivisia tietoja. Kun olet kerännyt tiedot, sinun on kirjoitettava ne tietokoneohjelmaan, kuten SAS, SPSS tai Excel. Tämän prosessin aikana tapahtuu virheitä riippumatta siitä, tehdäänkö se käsin tai skanneri. Riippumatta siitä, kuinka huolellisesti tiedot on syötetty, virheet ovat väistämättömiä. Tämä voi tarkoittaa väärää koodausta, kirjoitettujen koodien virheellistä lukemista, mustien merkkien virheellistä tunnistamista, puuttuvaa tietoa ja niin edelleen. Tietojen puhdistus on prosessi, jolla havaitaan ja korjataan nämä koodausvirheet.
Tietotyyppien puhdistus on kahta tyyppiä. Ne ovat mahdollinen koodipuhdistus ja varapuhdistus. Molemmat ovat tärkeitä tietojen analysointiprosessille, koska jos niitä ei huomioida, tuotat melkein aina harhaanjohtavia tutkimustuloksia.
Mahdollinen koodipuhdistus
Jokaisella muuttujalla on määritetty joukko vastausvaihtoehtoja ja -koodeja vastaamaan kutakin vastausvalintaa. Esimerkiksi muuttuja
sukupuoli on kolme vastausvaihtoehtoa ja -koodia kullekin: 1 miehille, 2 naisille ja 0 ei vastauksille. Jos sinulla on vastaaja, joka on koodattu arvoon 6 tälle muuttujalle, on selvää, että on tehty virhe, koska se ei ole mahdollinen vastauskoodi. Mahdollinen koodipuhdistus on prosessi, jolla tarkistetaan, että vain kunkin kysymyksen vastausvalinnoille määritetyt koodit (mahdolliset koodit) näkyvät datatiedostossa.Jotkut tietojen syöttämiseen käytettävissä olevat tietokoneohjelmat ja tilastolliset ohjelmistopaketit tarkistavat tämän tyyppiset virheet tietojen syöttämisen aikana. Tässä käyttäjä määrittelee mahdolliset koodit jokaiselle kysymykselle ennen tietojen syöttämistä. Sitten, jos syötetään numero ennalta määritettyjen mahdollisuuksien ulkopuolella, näyttöön tulee virheviesti. Esimerkiksi, jos käyttäjä yritti syöttää sukupuolen 6, tietokone saattaa antaa äänimerkin ja kieltäytyä koodista. Muut tietokoneohjelmat on suunniteltu testaamaan laittomia koodeja valmiissa datatiedostoissa. Eli jos niitä ei tarkistettu juuri syötetyn tietojen syöttöprosessin aikana, on olemassa tapoja tarkistaa tiedostoissa koodausvirheet tietojen syöttämisen jälkeen.
Jos et käytä tietokoneohjelmaa, joka tarkistaa koodausvirheiden tietojen syöttöprosessin aikana, voit paikantaa joitain virheitä yksinkertaisesti tutkimalla vastausten jakautumisen jokaisessa tietokohdassa aseta. Voit esimerkiksi luoda taajuustaulukon muuttujalle sukupuoli ja täällä näet numero 6, joka on annettu väärin. Voit sitten etsiä kyseisen merkinnän datatiedostosta ja korjata sen.
Varauspesu
Toinen tyyppi data puhdistusta kutsutaan varapuhdistukseksi ja se on hiukan monimutkaisempi kuin mahdollinen koodipuhdistus. Tietojen looginen rakenne voi asettaa tietyt rajoitukset tiettyjen vastaajien vastauksille tai tietyille muuttujille. Hätäpuhdistus on prosessi, jolla tarkistetaan, että vain niissä tapauksissa, joissa pitäisi olla tietoja tietystä muuttujasta, on tosiasiallisesti tällainen tieto. Oletetaan esimerkiksi, että sinulla on kyselylomake, jossa kysyt vastaajilta, kuinka monta kertaa he ovat olleet raskaana. Kaikilla naisilla vastaajilla tulisi olla tietoihin koodattu vastaus. Urosten tulee kuitenkin joko jättää tyhjäksi tai heillä tulisi olla erityinen koodi vastauksen epäämiseen. Jos joku tietojen tiedoista koodataan siten, että sillä on esimerkiksi 3 raskautta, tiedät, että virhe on ja se on korjattava.
Viitteet
Babbie, E. (2001). Sosiaalitutkimuksen käytäntö: 9. painos. Belmont, Kalifornia: Wadsworth Thomson.