8,688 matches
-
mai sus, însă faptul că dispersia punctelor din grafic nu variază odată cu Y așteptat sugerează egalitatea dispersiilor claselor de valori reziduale. Graficele de regresie parțială permit vizualizarea relației dintre un predictor și dependentă, precum și identificarea cazurilor extreme. 8.2. Regresia logistică Regresia logistică este un alt tip de regresie cu aplicabilitate pentru cazurile în care variabila dependentă este de tip dihotomic (de exemplu, votul pentru un anumit partid, decizia de a cumpăra un automobil) și se poate presupune lipsa unor efecte
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
însă faptul că dispersia punctelor din grafic nu variază odată cu Y așteptat sugerează egalitatea dispersiilor claselor de valori reziduale. Graficele de regresie parțială permit vizualizarea relației dintre un predictor și dependentă, precum și identificarea cazurilor extreme. 8.2. Regresia logistică Regresia logistică este un alt tip de regresie cu aplicabilitate pentru cazurile în care variabila dependentă este de tip dihotomic (de exemplu, votul pentru un anumit partid, decizia de a cumpăra un automobil) și se poate presupune lipsa unor efecte de interacțiune
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
decizia de a cumpăra un automobil) și se poate presupune lipsa unor efecte de interacțiune între predictorii modelului. Predictorii pot fi măsurați la nivel de raport, interval, ordinal sau pot fi de tip dihotomic ca și variabila dependentă. Popularitatea regresiei logistice se datorează faptului că este o metodă robustă, care nu necesită ca variabila dependentă să fie cantitativă și să aibă o distribuție normală. Există cerințe care se aplică la fel ca și în cazul regresiei liniare, și anume: * Specificarea corectă
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
între variabilele independente care conduce, ca și în cazul regresiei liniare, la efectul de multicoliniaritate; * Independența între termenii eroare (dependența poate apărea atunci când se lucrează cu eșantioane corelate în care aceiași subiecți sunt intervievați la momente diferite de timp). Regresia logistică nu presupune existența unei relații liniare între variabila dependentă și cele independente, ipoteza testată fiind cea a unei relații exponențiale între variabila dependentă și predictori. Regresie liniară multiplă: y= a + b1x1 + b2x2 +...+bnxn Regresie logistică: se pornește de la o relație
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
variabila dependentă și predictori. Regresie liniară multiplă: y= a + b1x1 + b2x2 +...+bnxn Regresie logistică: se pornește de la o relație de forma y = abx care logaritmată exprimă o relație liniară între log y și x. Mai exact forma ecuației de regresie logistică este: (5) Raportul reprezintă un raport de șanse, adică probabilitatea ca y să ia valoarea 1 împărțită la probabilitatea ca y să ia valoarea 0. Ecuația de regresie logistică este deci o relație liniară între: logaritm din raportul de șanse
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
între log y și x. Mai exact forma ecuației de regresie logistică este: (5) Raportul reprezintă un raport de șanse, adică probabilitatea ca y să ia valoarea 1 împărțită la probabilitatea ca y să ia valoarea 0. Ecuația de regresie logistică este deci o relație liniară între: logaritm din raportul de șanse pentru evenimentul y și variabilele independente. 8.2.1. Interpretarea coeficienților regresiei logistice În regresia liniară coeficienții b aveau o interpretare directă a impactului asupra dependentei (modificarea cu o
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
să ia valoarea 1 împărțită la probabilitatea ca y să ia valoarea 0. Ecuația de regresie logistică este deci o relație liniară între: logaritm din raportul de șanse pentru evenimentul y și variabilele independente. 8.2.1. Interpretarea coeficienților regresiei logistice În regresia liniară coeficienții b aveau o interpretare directă a impactului asupra dependentei (modificarea cu o unitate a lui x conducea, în medie, la modificarea cu b unități a lui y, celelalte variabile fiind ținute sub control). În cazul regresiei
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
În regresia liniară coeficienții b aveau o interpretare directă a impactului asupra dependentei (modificarea cu o unitate a lui x conducea, în medie, la modificarea cu b unități a lui y, celelalte variabile fiind ținute sub control). În cazul regresiei logistice, estimarea impactului pe care modificarea lui x o are asupra lui y se face prin intermediul lui eb. Dacă ridicăm la puterea e ecuația (5) pentru un predictor x, obținem: = e a +bx = ea *(eb)x (6) Din ecuația (6) reiese
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
eb)x (6) Din ecuația (6) reiese faptul că modificarea lui x cu 1 unitate conduce la multiplicarea raportului cu eb (notat în continuare cu exp b), celelalte variabile fiind ținute sub control. O interpretare mai directă a coeficientului b logistic poate fi făcută în termeni de probabilități. Să luăm ca exemplu votul pentru un partid. Dacă probabilitatea ca cineva să voteze pentru partid este de 15%, raportul de șanse va fi de 15/85 = 0,176. Presupunând că, pentru variabila
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
sub control. Ca și în cazul regresiei liniare, modificarea cu o unitate a predictorului poate duce la scăderea sau creșterea lui y. La regresia liniară acest lucru era observabil prin semnul pozitiv sau negativ al coeficientului b. În cazul regresiei logistice comparăm valoarea lui exp b cu 1. Astfel, dacă: * exp b>1, înseamnă că noul raport de șanse obținut ca urmare a creșterii lui x cu o unitate va fi multiplicat cu un număr pozitiv mai mare ca 1, și
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
0<exp b<1, noul raport de șanse va scădea în urma multiplicării cu un număr subunitar (impact negativ) * exp b=1, raportul de șanse nu se modifică deloc (independență). Limitele intervalului de încredere în care putem încadra coeficientul de regresie logistică cu o probabilitate de 95% sunt date de valoarea coeficientului (eroarea standard a coeficientului). Pentru a testa ipoteza că predictorul x are un impact semnificativ asupra variabilei dependente, se folosește statistica Wald calculată de SPSS. Ipoteza de nul fiind aceea
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
nul fiind aceea că impactul în populația studiată este zero (nu există asociere între x și y). Se urmărește respingerea acestei ipoteze pentru un nivel de semnificație mai mic sau egal cu 0,05. În unele cazuri coeficientul de regresie logistică este semnificativ, chiar dacă coeficientul de corelație corespunzător nu este semnificativ (și invers). Acest lucru este posibil deoarece coeficientul logistic reflectă și relația non-liniară care nu este detectată de coeficientul liniar. În plus, într-un model de regresie multiplă impactul unui
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
respingerea acestei ipoteze pentru un nivel de semnificație mai mic sau egal cu 0,05. În unele cazuri coeficientul de regresie logistică este semnificativ, chiar dacă coeficientul de corelație corespunzător nu este semnificativ (și invers). Acest lucru este posibil deoarece coeficientul logistic reflectă și relația non-liniară care nu este detectată de coeficientul liniar. În plus, într-un model de regresie multiplă impactul unui predictor este măsurat ținând sub control influența celorlalte variabile. Trebuie menționat că statistica Wald (= b2/SEb2, unde SEb2 este
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
eroarea standard a coeficientului b) dă rezultate eronate atunci când valoarea foarte mare a lui b este asociată cu o eroare standard foarte mare și, prin urmare, valoarea statisticii Wald va fi mică. 8.2.2. Indicatori ai modelului de regresie logistică În afară de măsurile statistice prin care estimăm importanța coeficienților b, există diverse moduri prin care putem aprecia cât de bine prezice modelul de regresie logistică datele observate. Spre deosebire de modelul de regresie liniară unde valoarea R2 ne indică procentul din variația totală
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
prin urmare, valoarea statisticii Wald va fi mică. 8.2.2. Indicatori ai modelului de regresie logistică În afară de măsurile statistice prin care estimăm importanța coeficienților b, există diverse moduri prin care putem aprecia cât de bine prezice modelul de regresie logistică datele observate. Spre deosebire de modelul de regresie liniară unde valoarea R2 ne indică procentul din variația totală a dependentei explicat de predictori, în cazul regresiei logistice folosirea lui R2 este controversată. Există însă încercări de a propune măsuri similare care să
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
b, există diverse moduri prin care putem aprecia cât de bine prezice modelul de regresie logistică datele observate. Spre deosebire de modelul de regresie liniară unde valoarea R2 ne indică procentul din variația totală a dependentei explicat de predictori, în cazul regresiei logistice folosirea lui R2 este controversată. Există însă încercări de a propune măsuri similare care să măsoare cu cât se îmbunătățește predicția valorilor dependentei atunci când predictorii sunt incluși în model. O astfel de măsura calculată de SPSS este R2 a lui
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
linii valorile observate ale variabilei dependente, iar pe coloane valorile prezise. Din tabel putem afla câte cazuri au fost prezise corect și câte incorect pentru fiecare valoare a dependentei. Pentru a prezice valorile dependentei și a calcula coeficienții de regresie logistică se folosesc Maximum Likelihood Estimates (spre deosebire de metoda celor mai mici pătrate care este folosită în regresia liniară). Această metodă permite calcularea probabilității de apariție a lui y pentru fiecare combinație a valorilor predictorilor. Convențional, dacă probabilitatea estimată este >0,5
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
Un alt mod de a vedea gradul de potrivire a datelor prezise cu cele observate este valoarea testului HI PĂTRAT PENTRU MODEL, calculată în fișierul de rezultate SPSS. În acest caz ipoteza de nul este aceea că toți coeficienții regresiei logistice estimați la nivelul populației din care a fost extras eșantionul sunt zero. Practic, hi pătrat este calculat pe baza diferenței dintre erorile pentru modelul cu toți predictorii și erorile pentru modelul fără nici un predictor (care presupune lipsa asocierii dintre predictori
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
semnificație este >0,05 acceptăm ipoteza de nul, concluzionând că datele estimate de model se potrivesc cu cele observate. 8.2.3. Exemplu de fișier de rezultate SPSS comentat (Barometrul de opinie publică, iunie 1998). În acest model de regresie logistică variabila dependentă este intenția de vot pentru CDR, vot CDR (1 indică intenția de vot pentru CDR, 0 pentru alte partide, nonrăspunsurile au fost scoase din analiză). Predictorii sunt dir (consideră că direcția în care se îndreaptă lucrurile în țară este
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
la 15% a probabilității de a vota cu CDR. Pentru a putea clasifica corect valorile 1 ale variabilei dependente ar fi trebuit ca această creștere să depășească pragul de 50% (cut value). Se poate observa deci că modelele de regresie logistică se aplică cu succes în cazul variabilelor dihotomice care au o distribuție binomială și probabilitățile pentru valorile 1 și 0 sunt aproape de valorile 50% ; -50%. Variables in the Equation B S.E. Wald df Sig. Exp(B) Lower Upper Lower Upper
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
1,608 z.transilvania ,161 ,227 ,504 1 ,478 1,175 Constant -3,031 ,236 164,951 1 ,000 ,048 a Variable(s) entered on step 1: dir, urban, z.transilvania 8.3. Analiza logliniară Analiza logliniară diferă de regresia logistică în următoarele două privințe: 1. valorile prezise sunt estimări ale frecvențelor din căsuțele tabelului de contingență, funcția folosită fiind logaritm natural din frecvențe și nu logaritm din șansă precum în cazul regresiei logistice. 2. nu există o singură variabilă dependentă
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
Analiza logliniară Analiza logliniară diferă de regresia logistică în următoarele două privințe: 1. valorile prezise sunt estimări ale frecvențelor din căsuțele tabelului de contingență, funcția folosită fiind logaritm natural din frecvențe și nu logaritm din șansă precum în cazul regresiei logistice. 2. nu există o singură variabilă dependentă, efectele de interacțiune fiind posibile între toate variabilele introduse în model. Analiza logliniară are drept scop găsirea modelelor explicative și descrierea mărimii și paternurilor de asociere dintre variabile, în condițiile în care influența
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
variabile, în condițiile în care influența altor variabile este ținută sub control. Putem spune că analiza loglineară este: o metodă de analiză a datelor categoriale, o metodă multivariată, o metodă "fără" variabilă dependentă. În nici un caz nu este o regresie logistică sau o analiză de varianță. Totuși are o serie de asemănări cu regresia, pentru că face parte din aceeași categorie a modelelor multivariate, explicative, care încearcă să descrie relațiile dintre variabile. Cel mai mult seamănă cu regresia logistică, în sensul în
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
este o regresie logistică sau o analiză de varianță. Totuși are o serie de asemănări cu regresia, pentru că face parte din aceeași categorie a modelelor multivariate, explicative, care încearcă să descrie relațiile dintre variabile. Cel mai mult seamănă cu regresia logistică, în sensul în care variabila dependentă este categorială (la regresia logistică ea este binomială). Dar, în cazul analizei logliniare variabila dependentă este categorială și nu binomială, distribuția variabilei dependente este Poisson și nu binomială, variabila dependentă este legată de frecvența
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
o serie de asemănări cu regresia, pentru că face parte din aceeași categorie a modelelor multivariate, explicative, care încearcă să descrie relațiile dintre variabile. Cel mai mult seamănă cu regresia logistică, în sensul în care variabila dependentă este categorială (la regresia logistică ea este binomială). Dar, în cazul analizei logliniare variabila dependentă este categorială și nu binomială, distribuția variabilei dependente este Poisson și nu binomială, variabila dependentă este legată de frecvența celulară și nu o funcție logit a unei variabile Y. De
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]