16,386 matches
-
ANOVAb Model Sum of Squares df Mean Square F Sig. 1 Regression 541078,332 6 90179,722 31,318 ,000a Residual 3469755,002 1205 2879,465 Total 4010833,333 1211 a. Predictors: (Constant), transilvania, cdr, subscoal, subvirst, maghiar, locord b. Dependent Variable: IOPD Coefficientsa Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) -97,777 7,762 -12,597 ,000 maghiar 45,052 6,722 ,191 6,703 ,000 locord 4,028 ,994 ,119 4,051 ,000
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
994 ,119 4,051 ,000 cdr 17,803 5,325 ,090 3,343 ,001 subvirst ,267 ,097 ,078 2,762 ,006 subscoal 3,958 1,162 ,103 3,408 ,001 transilvania 24,838 3,503 ,203 7,091 ,000 a. Dependent Variable: IOPD Din tabelul de mai sus putem afla valoarea coeficienților de regresie și a constantei. Ecuația de regresie se poate scrie astfel: IOPD = -97,8 + 45*maghiar + 4*locord + 17,8*cdr + 0,3*subvirst + 4*subscoal + 24,8
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
în cazul predictorului transilvania limita inferioară este 24,8 1,96*3,5 = 17,94, cea superioară fiind 24,8 + 6,86 = 31,66. Corelația de ordin zero (zero order correlation) din tabel este corelația simplă, bivariată dintre predictor și dependentă. Corelația parțială (partial correlation) este cea dintre predictor și variabilă atunci când ceilalți predictori sunt ținuți sub control. Al doilea tip de corelație parțială (part correlation) diferă de primul prin faptul că efectul variabilelor ținute sub control este îndepărtat doar pentru
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
dintre predictor și variabilă atunci când ceilalți predictori sunt ținuți sub control. Al doilea tip de corelație parțială (part correlation) diferă de primul prin faptul că efectul variabilelor ținute sub control este îndepărtat doar pentru variabila independentă, nu și pentru cea dependentă. Se folosește atunci când se presupune că variabila de control afectează variabila independentă, dar nu și pe cea dependentă (David Garson, An Online Textbook). Coefficientsa Model Unstandardized Coefficients Stan-dardi-zed Coeffi-cients t Sig. 95,0% Confidence Interval for B Correlations Collinearity Statistics
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
correlation) diferă de primul prin faptul că efectul variabilelor ținute sub control este îndepărtat doar pentru variabila independentă, nu și pentru cea dependentă. Se folosește atunci când se presupune că variabila de control afectează variabila independentă, dar nu și pe cea dependentă (David Garson, An Online Textbook). Coefficientsa Model Unstandardized Coefficients Stan-dardi-zed Coeffi-cients t Sig. 95,0% Confidence Interval for B Correlations Collinearity Statistics B Std. Error Beta Lower Bound Upper Bound Zero-order Partial Part Tolerance VIF (Constant) -97,777 7,762
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
10 subscoal 3,958 1,162 ,103 3,408 ,001 1,679 6,237 ,116 ,098 ,09 ,78 1,26 transilvania 24,838 3,503 ,203 7,091 ,000 17,966 31,710 ,246 ,200 ,19 ,87 1,14 a. Dependent Variable: IOPD Ultimele două coloane din tabel conțin indicatori ai multicolinearității, adică ai gradului de corelație care există între predictori. Pentru o variabilă, toleranța este egală cu a regresiei variabilei respective funcție de ceilalți predictori. Valorile apropiate de 0 indică probleme
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
84446 1212 Stud. Deleted Residual -2,415 3,057 ,000 1,001 1212 Mahal. Distance ,735 31,229 5,995 4,765 1212 Cook's Distance ,000 ,014 ,001 ,001 1212 Centered Leverage Value ,001 ,026 ,005 ,004 1212 a. Dependent Variable: IOPD Printr-o inspecție a graficelor de mai jos se verifică dacă este satisfăcută condiția ca valorile reziduale să aibă o distribuție normală. Deviațiile ușoare sunt acceptate, regresia fiind o metodă robustă. Se verifică, prin graficul de mai jos
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
se abate ușor de la normalitate, așa cum am văzut mai sus, însă faptul că dispersia punctelor din grafic nu variază odată cu Y așteptat sugerează egalitatea dispersiilor claselor de valori reziduale. Graficele de regresie parțială permit vizualizarea relației dintre un predictor și dependentă, precum și identificarea cazurilor extreme. 8.2. Regresia logistică Regresia logistică este un alt tip de regresie cu aplicabilitate pentru cazurile în care variabila dependentă este de tip dihotomic (de exemplu, votul pentru un anumit partid, decizia de a cumpăra un
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
dispersiilor claselor de valori reziduale. Graficele de regresie parțială permit vizualizarea relației dintre un predictor și dependentă, precum și identificarea cazurilor extreme. 8.2. Regresia logistică Regresia logistică este un alt tip de regresie cu aplicabilitate pentru cazurile în care variabila dependentă este de tip dihotomic (de exemplu, votul pentru un anumit partid, decizia de a cumpăra un automobil) și se poate presupune lipsa unor efecte de interacțiune între predictorii modelului. Predictorii pot fi măsurați la nivel de raport, interval, ordinal sau
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
un anumit partid, decizia de a cumpăra un automobil) și se poate presupune lipsa unor efecte de interacțiune între predictorii modelului. Predictorii pot fi măsurați la nivel de raport, interval, ordinal sau pot fi de tip dihotomic ca și variabila dependentă. Popularitatea regresiei logistice se datorează faptului că este o metodă robustă, care nu necesită ca variabila dependentă să fie cantitativă și să aibă o distribuție normală. Există cerințe care se aplică la fel ca și în cazul regresiei liniare, și
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
interacțiune între predictorii modelului. Predictorii pot fi măsurați la nivel de raport, interval, ordinal sau pot fi de tip dihotomic ca și variabila dependentă. Popularitatea regresiei logistice se datorează faptului că este o metodă robustă, care nu necesită ca variabila dependentă să fie cantitativă și să aibă o distribuție normală. Există cerințe care se aplică la fel ca și în cazul regresiei liniare, și anume: * Specificarea corectă a modelului de regresie, adică includerea tuturor variabilelor relevante pentru explicarea variabilei dependente și
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
variabila dependentă să fie cantitativă și să aibă o distribuție normală. Există cerințe care se aplică la fel ca și în cazul regresiei liniare, și anume: * Specificarea corectă a modelului de regresie, adică includerea tuturor variabilelor relevante pentru explicarea variabilei dependente și excluderea celor irelevante; * Lipsa unei relații de corelație între variabilele independente care conduce, ca și în cazul regresiei liniare, la efectul de multicoliniaritate; * Independența între termenii eroare (dependența poate apărea atunci când se lucrează cu eșantioane corelate în care aceiași
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
regresiei liniare, la efectul de multicoliniaritate; * Independența între termenii eroare (dependența poate apărea atunci când se lucrează cu eșantioane corelate în care aceiași subiecți sunt intervievați la momente diferite de timp). Regresia logistică nu presupune existența unei relații liniare între variabila dependentă și cele independente, ipoteza testată fiind cea a unei relații exponențiale între variabila dependentă și predictori. Regresie liniară multiplă: y= a + b1x1 + b2x2 +...+bnxn Regresie logistică: se pornește de la o relație de forma y = abx care logaritmată exprimă o relație
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
se lucrează cu eșantioane corelate în care aceiași subiecți sunt intervievați la momente diferite de timp). Regresia logistică nu presupune existența unei relații liniare între variabila dependentă și cele independente, ipoteza testată fiind cea a unei relații exponențiale între variabila dependentă și predictori. Regresie liniară multiplă: y= a + b1x1 + b2x2 +...+bnxn Regresie logistică: se pornește de la o relație de forma y = abx care logaritmată exprimă o relație liniară între log y și x. Mai exact forma ecuației de regresie logistică este
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
Ecuația de regresie logistică este deci o relație liniară între: logaritm din raportul de șanse pentru evenimentul y și variabilele independente. 8.2.1. Interpretarea coeficienților regresiei logistice În regresia liniară coeficienții b aveau o interpretare directă a impactului asupra dependentei (modificarea cu o unitate a lui x conducea, în medie, la modificarea cu b unități a lui y, celelalte variabile fiind ținute sub control). În cazul regresiei logistice, estimarea impactului pe care modificarea lui x o are asupra lui y
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
independență). Limitele intervalului de încredere în care putem încadra coeficientul de regresie logistică cu o probabilitate de 95% sunt date de valoarea coeficientului (eroarea standard a coeficientului). Pentru a testa ipoteza că predictorul x are un impact semnificativ asupra variabilei dependente, se folosește statistica Wald calculată de SPSS. Ipoteza de nul fiind aceea că impactul în populația studiată este zero (nu există asociere între x și y). Se urmărește respingerea acestei ipoteze pentru un nivel de semnificație mai mic sau egal
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
măsurile statistice prin care estimăm importanța coeficienților b, există diverse moduri prin care putem aprecia cât de bine prezice modelul de regresie logistică datele observate. Spre deosebire de modelul de regresie liniară unde valoarea R2 ne indică procentul din variația totală a dependentei explicat de predictori, în cazul regresiei logistice folosirea lui R2 este controversată. Există însă încercări de a propune măsuri similare care să măsoare cu cât se îmbunătățește predicția valorilor dependentei atunci când predictorii sunt incluși în model. O astfel de măsura
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
unde valoarea R2 ne indică procentul din variația totală a dependentei explicat de predictori, în cazul regresiei logistice folosirea lui R2 este controversată. Există însă încercări de a propune măsuri similare care să măsoare cu cât se îmbunătățește predicția valorilor dependentei atunci când predictorii sunt incluși în model. O astfel de măsura calculată de SPSS este R2 a lui Cox and Snell, care este însă dificil de interpretat din cauză că valoarea maximă este mai mică decât 1. R2 a lui Nagelkerke reprezintă o
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
acestei măsuri, care ia valori între 0 și 1 și se folosește în mod uzual pentru a estima cât de bun este modelul. Un alt indicator al modelului este tabelul de clasificare care conține pe linii valorile observate ale variabilei dependente, iar pe coloane valorile prezise. Din tabel putem afla câte cazuri au fost prezise corect și câte incorect pentru fiecare valoare a dependentei. Pentru a prezice valorile dependentei și a calcula coeficienții de regresie logistică se folosesc Maximum Likelihood Estimates
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
Un alt indicator al modelului este tabelul de clasificare care conține pe linii valorile observate ale variabilei dependente, iar pe coloane valorile prezise. Din tabel putem afla câte cazuri au fost prezise corect și câte incorect pentru fiecare valoare a dependentei. Pentru a prezice valorile dependentei și a calcula coeficienții de regresie logistică se folosesc Maximum Likelihood Estimates (spre deosebire de metoda celor mai mici pătrate care este folosită în regresia liniară). Această metodă permite calcularea probabilității de apariție a lui y pentru
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
este tabelul de clasificare care conține pe linii valorile observate ale variabilei dependente, iar pe coloane valorile prezise. Din tabel putem afla câte cazuri au fost prezise corect și câte incorect pentru fiecare valoare a dependentei. Pentru a prezice valorile dependentei și a calcula coeficienții de regresie logistică se folosesc Maximum Likelihood Estimates (spre deosebire de metoda celor mai mici pătrate care este folosită în regresia liniară). Această metodă permite calcularea probabilității de apariție a lui y pentru fiecare combinație a valorilor predictorilor
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
Pentru (1) 326 7 97,9% Contra (0) 75 13 14,77% Total: 80,52% Sursa: G. David Garson, Statnotes: An Online Textbook Procentul valorilor prezise corect este de 80,52%, însă acest procent nu indică o îmbunătățire a predicției dependentei pe baza modelului. În absența predictorilor am fi putut prezice pentru toate cazurile valoarea cea mai frecventă a dependentei, adică 1. În acest caz am fi prezis corect (326+7)/(326+7+75+13) din cazuri, adică un procent de
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
Statnotes: An Online Textbook Procentul valorilor prezise corect este de 80,52%, însă acest procent nu indică o îmbunătățire a predicției dependentei pe baza modelului. În absența predictorilor am fi putut prezice pentru toate cazurile valoarea cea mai frecventă a dependentei, adică 1. În acest caz am fi prezis corect (326+7)/(326+7+75+13) din cazuri, adică un procent de 79,10%. Înseamnă deci că modelul ne-a îmbunătățit predicția doar cu 1,4% din cazuri. Metoda folosită aici
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
nr. erorilor fără model nr. erorilor cu model)/nr. erorilor fără model. Un alt mod de a analiza cazurile prezise corect este histograma probabilităților prezise (sau classplot în opțiunile SPSS). Pe axa X este reprezentată probabilitatea de a prezice valoarea dependentei ca fiind egală cu 1. Pe axa Y se află frecvențele, adică numărul de cazuri clasificate sau prezise. Graficul conține deci coloane cu valori observate ordonate funcție de probabilitatea prezisă. Știind că dacă probabilitatea prezisă este <0,5 valoarea prezisă este
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]
-
ne asigură deci că fiecare predictor în parte este semnificativ. Se urmărește ca nivelul de semnificație pentru valoarea hi pătrat a modelului să fie <0,05 astfel încât să respingem ipoteza de nul, care spune că modelul nu îmbunătățește predicția valorilor dependentei. O metodă alternativă, preferabilă celei anterioare, este testul de concordanță propus de HOSMER și LEMESHOW (Goodness of Fit Test). Acesta testează ipoteză că datele prezise de model se potrivesc cu cele observate. Dacă nivelul de semnificație este >0,05 acceptăm
by Claudiu Coman [Corola-publishinghouse/Science/1072_a_2580]