Lineaarinen regressio on tilastollinen tekniikka, jota käytetään oppimaan lisää riippumattoman (ennustajan) muuttujan ja riippuvan (kriteerin) muuttujan välisestä suhteesta. Kun analyysissäsi on useampi kuin yksi riippumaton muuttuja, tätä kutsutaan useaan lineaariseen regressioon. Yleensä regressio antaa tutkijalle kysyä yleistä kysymystä ”Mikä on paras ennustaja?”
Oletetaan esimerkiksi, että tutkimme syitä liikalihavuus, mitattu kehon massaindeksillä (BMI). Erityisesti halusimme nähdä, olivatko seuraavat muuttujat merkittäviä ennustajia ihmisen BMI: lle: pikaruoan määrä viikossa syödyt ateriat, katsottujen televisiotuntien lukumäärä viikossa, liikunnalla käytettyjen minuuttien määrä viikossa ja vanhempien BMI. Lineaarinen regressio olisi hyvä menetelmä tähän analyysiin.
Regressioyhtälö
Kun teet regressioanalyysin yhdellä riippumattomalla muuttujalla, regressioyhtälö on Y = a + b * X missä Y on riippuvainen muuttuja, X on riippumaton muuttuja, a on vakio (tai sieppaus) ja b on regressioviivan kaltevuus
. Oletetaan esimerkiksi, että GPA ennustetaan parhaiten regressioyhtälöllä 1 + 0,02 * IQ. Jos opiskelijan IQ on 130, niin hänen GPA olisi 3,6 (1 + 0,02 * 130 = 3,6).Kun teet regressioanalyysin, jossa sinulla on useampi kuin yksi riippumaton muuttuja, regressioyhtälö on Y = a + b1 * X1 + b2 * X2 +… + Ep * Xp. Jos esimerkiksi haluaisimme sisällyttää enemmän muuttujia GPA-analyysiimme, kuten motivaation ja itsekurin mittareita, käyttäisimme tätä yhtälö.
R-Square
R-neliö, joka tunnetaan myös nimellä määrityskerroin, on yleisesti käytetty tilasto regressioyhtälön mallin sopivuuden arvioimiseksi. Eli kuinka hyvin kaikki itsenäiset muuttujat ennustavat riippuvaista muuttujaa? R-neliön arvo on välillä 0,0 - 1,0 ja se voidaan kertoa 100: lla prosenttiosuuden saamiseksi vaihtelu selitti. Palaamme esimerkiksi takaisin GPA-regressioyhtälöön, jossa on vain yksi riippumaton muuttuja (IQ)... Sanotaan, että R-neliö yhtälölle oli 0,4. Voisimme tulkita tämän tarkoittavan, että 40 prosenttia GPA: n varianssista selittyy IQ. Jos lisäämme sitten kaksi muuta muuttujamme (motivaatio ja itsetunto) ja R-neliö kasvaa 0,6, tämä tarkoittaa, että IQ, motivaatio ja itsetunto selittävät yhdessä 60% GPA: n varianssista tulokset.
Regressioanalyysit tehdään yleensä käyttämällä tilastollisia ohjelmistoja, kuten SPSS tai SAS, joten R-neliö lasketaan sinulle.
Regressiokertoimien tulkinta (b)
Yllä olevien yhtälöiden b-kertoimet edustavat riippumattomien ja riippuvien muuttujien välisen suhteen vahvuutta ja suuntaa. Jos tarkastelemme GPA- ja IQ-yhtälöä, 1 + 0,02 * 130 = 3,6, 0,02 on muuttujan IQ regressiokerroin. Tämä kertoo meille, että suhteen suunta on positiivinen, joten kun IQ kasvaa, myös GPA kasvaa. Jos yhtälö olisi 1 - 0,02 * 130 = Y, tämä tarkoittaisi, että IQ: n ja GPA: n välinen suhde olisi negatiivinen.
oletukset
Tietoja on useita oletuksia, jotka on täytettävä lineaarisen regressioanalyysin suorittamiseksi:
- lineaarisuus: Oletetaan, että riippumattomien ja riippuvien muuttujien välinen suhde on lineaarinen. Vaikka tätä olettamaa ei voida koskaan vahvistaa täysin, tarkastellaan a scatterplot muuttujistasi voi auttaa tekemään tämän määrityksen. Jos suhteessa on kaarevuus, voit harkita muuttujien muuttamista tai epälineaaristen komponenttien sallimista.
- normaalius: Oletetaan, että jäännökset muuttujistasi jaetaan normaalisti. Eli virheet Y: n (riippuvainen muuttuja) arvon ennustamisessa jakautuvat tavalla, joka lähestyy normaalia käyrää. Voit katsoa histogrammit tai normaalit todennäköisyyskäyrät tarkistaaksesi muuttujien ja niiden jäännösarvojen jakauman.
- riippumattomuus: Oletetaan, että virheet Y: n arvon ennustamisessa ovat kaikki toisistaan riippumattomia (ei korreloivia).
- Homoscedasticity: Oletetaan, että varianssi regressioviivan ympärillä on sama kaikille riippumattomien muuttujien arvoille.
Lähde
- StatSoft: Sähköisen tilastotieteen oppikirja. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.