2,315 matches
-
Variabilele care își asumă valori de 0 și 1 se numesc variabile fictive (variabile indicatoare, binare, categorice, calitative sau dihotomice). Variabilele fictive pot fi folosite în modele de regresie la fel de ușor ca și variabilele cantitative. De fapt, un model de regresie poate conține variabile explicatorii care sunt exclusiv fictive sau calitative. Asemenea modele sunt numite ANOVA. Ca exemplu, avem următorul model: Unde: = salariul anual al unui profesor universitar i = 1, dacă profesorul este de sex masculin = 0, dacă profesorul este de
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
explicatorii care sunt exclusiv fictive sau calitative. Asemenea modele sunt numite ANOVA. Ca exemplu, avem următorul model: Unde: = salariul anual al unui profesor universitar i = 1, dacă profesorul este de sex masculin = 0, dacă profesorul este de sex feminin Modelul regresiei ce conține un amestec de variabile cantitative și calitative este numit ANCOVA. Regresia unei variabile cantitative și a unei variabile calitative cu două categorii Ca exemplu, avem următorul model : Unde: Yi = salariul anual al unui profesor universitar Xi = vechimea în
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
exemplu, avem următorul model: Unde: = salariul anual al unui profesor universitar i = 1, dacă profesorul este de sex masculin = 0, dacă profesorul este de sex feminin Modelul regresiei ce conține un amestec de variabile cantitative și calitative este numit ANCOVA. Regresia unei variabile cantitative și a unei variabile calitative cu două categorii Ca exemplu, avem următorul model : Unde: Yi = salariul anual al unui profesor universitar Xi = vechimea în învățământ i = 1, dacă profesorul este de sex masculin = 0, dacă profesorul este
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
universitar Xi = vechimea în învățământ i = 1, dacă profesorul este de sex masculin = 0, dacă profesorul este de sex feminin Modelul (2) conține o variabilă cantitativă (vechimea în învățământ) și una calitativă (sex) care are 2 categorii (masculin și feminin). Regresia la o variabilă cantitativă și una calitativă cu mai mult de 2 categorii De exemplu, dorim să realizăm un model de regresie pentru cheltuielile anuale cu sănătatea. Presupunem că avem 3 niveluri de educație: mai puțin de liceu, liceu și
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
conține o variabilă cantitativă (vechimea în învățământ) și una calitativă (sex) care are 2 categorii (masculin și feminin). Regresia la o variabilă cantitativă și una calitativă cu mai mult de 2 categorii De exemplu, dorim să realizăm un model de regresie pentru cheltuielile anuale cu sănătatea. Presupunem că avem 3 niveluri de educație: mai puțin de liceu, liceu și facultate. Reiese următorul model : (3) Unde: Yi = cheltuieli anuale cu sănătatea Xi = veniturile anuale 2 = 1, dacă este absolvent de liceu = 0
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
următorul model : (3) Unde: Yi = cheltuieli anuale cu sănătatea Xi = veniturile anuale 2 = 1, dacă este absolvent de liceu = 0, dacă nu este absolvent de liceu 3 = 1, dacă este absolvent de facultate = 0, dacă nu este absolvent de facultate Regresia pe o variabilă cantitativă și două variabile calitative Tehnica variabilelor fictive poate fi ușor extinsă pentru a putea lucra cu mai mult de o variabilă calitativă. Întorcându-ne la regresia salariului profesorilor universitari, vom presupune că în relație cu vechimea
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
absolvent de facultate = 0, dacă nu este absolvent de facultate Regresia pe o variabilă cantitativă și două variabile calitative Tehnica variabilelor fictive poate fi ușor extinsă pentru a putea lucra cu mai mult de o variabilă calitativă. Întorcându-ne la regresia salariului profesorilor universitari, vom presupune că în relație cu vechimea și sexul, naționalitatea este, de asemenea, determinată pentru salariu; pentru a simplifica, vom atribui două categorii: român sau nu. Ca exemplu, avem următorul model: (4) Unde Yi = salariul anual Xi
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
Xi = vechimea 2 = 1, dacă profesorul este de sex masculin 2 = 0, dacă profesorul este de sex feminin 3 = 1, dacă profesorul este roman 3 = 0, dacă profesorul nu este roman 8.1.8. Etape în construcția unui model de regresie În concluzie, pentru a construi un model de regresie trebuie parcurși următorii pași: 1. Se alege variabila dependentă și, dacă este cazul, se construiește un indice pe baza întrebărilor din chestionar. Se verifică nivelul de măsurare și normalitatea distribuției. 2
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
masculin 2 = 0, dacă profesorul este de sex feminin 3 = 1, dacă profesorul este roman 3 = 0, dacă profesorul nu este roman 8.1.8. Etape în construcția unui model de regresie În concluzie, pentru a construi un model de regresie trebuie parcurși următorii pași: 1. Se alege variabila dependentă și, dacă este cazul, se construiește un indice pe baza întrebărilor din chestionar. Se verifică nivelul de măsurare și normalitatea distribuției. 2. Pe baza ipotezelor formulate, se aleg predictorii și în
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
și fiecare predictor în parte și se selectează predictorii pentru care corelația este semnificativă. Se poate întâmpla să existe o corelație bivariată semnificativă între predictor și variabila dependentă și totuși predictorul să nu aibă o influență semnificativă în modelul de regresie multiplă. Aceasta se datorează faptului că în modelul final, impactul unui predictor asupra dependentei este măsurat ținând sub control ceilalți predictori. 4. Se verifică dacă există corelație între predictori și se selectează predictorii, astfel încât să fie independenți între ei. 5
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
faptului că în modelul final, impactul unui predictor asupra dependentei este măsurat ținând sub control ceilalți predictori. 4. Se verifică dacă există corelație între predictori și se selectează predictorii, astfel încât să fie independenți între ei. 5. Se construiește modelul de regresie și în continuare se verifică dacă sunt îndeplinite condițiile de aplicare conform măsurilor discutate în secțiunea anterioară. Se analizează impactul valorilor extreme; pentru condiția de necoliniaritate se verifică valoarea indicilor T și VIF; pentru condiția de egalitate a dispersiilor se
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
egalitate a dispersiilor se analizează diagrama Yobservat-Yașteptat funcție de Yașteptat (pct.7); pentru condiția de independență a reziduurilor se verifică valoarea indicelui Durbin-Watson (pct.8). 8.1.9. Output SPSS comentat În acest exemplu, urmărim să explicăm printr-un model de regresie liniară variația încrederii în minorități etnice, respectiv în maghiari, germani, evrei și rromi. Baza de date folosită este Barometru de Opinie Publică din luna iunie 1998. Pentru aceasta am construit pe baza celor 4 întrebări din chestionar un indice de
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
001 subvirst ,267 ,097 ,078 2,762 ,006 subscoal 3,958 1,162 ,103 3,408 ,001 transilvania 24,838 3,503 ,203 7,091 ,000 a. Dependent Variable: IOPD Din tabelul de mai sus putem afla valoarea coeficienților de regresie și a constantei. Ecuația de regresie se poate scrie astfel: IOPD = -97,8 + 45*maghiar + 4*locord + 17,8*cdr + 0,3*subvirst + 4*subscoal + 24,8*transilvania. Cu alte cuvinte, a locui în Transilvania versus restul țării conduce în
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
762 ,006 subscoal 3,958 1,162 ,103 3,408 ,001 transilvania 24,838 3,503 ,203 7,091 ,000 a. Dependent Variable: IOPD Din tabelul de mai sus putem afla valoarea coeficienților de regresie și a constantei. Ecuația de regresie se poate scrie astfel: IOPD = -97,8 + 45*maghiar + 4*locord + 17,8*cdr + 0,3*subvirst + 4*subscoal + 24,8*transilvania. Cu alte cuvinte, a locui în Transilvania versus restul țării conduce în medie la o creștere cu 24
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
locui în Transilvania versus restul țării conduce în medie la o creștere cu 24,8 de unități pe scala indicelui încrederii în minorități (indice care are valori de la -100 la +100), ceilalți predictori fiind ținuți sub control. Restul coeficienților de regresie se citesc în mod similar. Se observă că ipotezele inițiale au fost confirmate. De asemenea, din tabel se pot citi și coeficienții beta care, fiind adimensionali, permit compararea predictorilor; aflăm astfel că predictorul cel mai important este transilvania. Ipoteza de
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
17,966 31,710 ,246 ,200 ,19 ,87 1,14 a. Dependent Variable: IOPD Ultimele două coloane din tabel conțin indicatori ai multicolinearității, adică ai gradului de corelație care există între predictori. Pentru o variabilă, toleranța este egală cu a regresiei variabilei respective funcție de ceilalți predictori. Valorile apropiate de 0 indică probleme cu multicolinearitatea, ceea ce nu este cazul în exemplul de față. VIF (variance inflation factor) este inversul toleranței și deci valorile mari (>4) vor indica probleme de acest gen. În
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
de mai jos sunt prezentate cazurile extreme (aberante) pentru care valoarea prezisă se situează la mai mult de 3 deviații standard de valoarea medie. De obicei aceste cazuri sunt excluse din analiză sau pentru ele se construiește un model de regresie separat. Următorul tabel conține informații despre valorile reziduale (valorile prezise minus cele observate) și măsurile influenței unui caz asupra modelului de regresie. Acestea pot fi folosite pentru a determina cazuri extreme sau aberante. Valorile extreme sunt cele care au o
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
valoarea medie. De obicei aceste cazuri sunt excluse din analiză sau pentru ele se construiește un model de regresie separat. Următorul tabel conține informații despre valorile reziduale (valorile prezise minus cele observate) și măsurile influenței unui caz asupra modelului de regresie. Acestea pot fi folosite pentru a determina cazuri extreme sau aberante. Valorile extreme sunt cele care au o valoare a lui H (centered leverage value) >0,5 (ceea ce nu este cazul în acest exemplu, unde maximul este 0,001) sau
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
001 1212 Centered Leverage Value ,001 ,026 ,005 ,004 1212 a. Dependent Variable: IOPD Printr-o inspecție a graficelor de mai jos se verifică dacă este satisfăcută condiția ca valorile reziduale să aibă o distribuție normală. Deviațiile ușoare sunt acceptate, regresia fiind o metodă robustă. Se verifică, prin graficul de mai jos, condiția de egalitate a dispersiilor valorilor reziduale și normalitatea distribuției reziduurilor. Ideal această bandă ar trebui să fie perpendiculară pe Oy. Distribuția reziduurilor se abate ușor de la normalitate, așa cum
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
ar trebui să fie perpendiculară pe Oy. Distribuția reziduurilor se abate ușor de la normalitate, așa cum am văzut mai sus, însă faptul că dispersia punctelor din grafic nu variază odată cu Y așteptat sugerează egalitatea dispersiilor claselor de valori reziduale. Graficele de regresie parțială permit vizualizarea relației dintre un predictor și dependentă, precum și identificarea cazurilor extreme. 8.2. Regresia logistică Regresia logistică este un alt tip de regresie cu aplicabilitate pentru cazurile în care variabila dependentă este de tip dihotomic (de exemplu, votul
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
văzut mai sus, însă faptul că dispersia punctelor din grafic nu variază odată cu Y așteptat sugerează egalitatea dispersiilor claselor de valori reziduale. Graficele de regresie parțială permit vizualizarea relației dintre un predictor și dependentă, precum și identificarea cazurilor extreme. 8.2. Regresia logistică Regresia logistică este un alt tip de regresie cu aplicabilitate pentru cazurile în care variabila dependentă este de tip dihotomic (de exemplu, votul pentru un anumit partid, decizia de a cumpăra un automobil) și se poate presupune lipsa unor
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
sus, însă faptul că dispersia punctelor din grafic nu variază odată cu Y așteptat sugerează egalitatea dispersiilor claselor de valori reziduale. Graficele de regresie parțială permit vizualizarea relației dintre un predictor și dependentă, precum și identificarea cazurilor extreme. 8.2. Regresia logistică Regresia logistică este un alt tip de regresie cu aplicabilitate pentru cazurile în care variabila dependentă este de tip dihotomic (de exemplu, votul pentru un anumit partid, decizia de a cumpăra un automobil) și se poate presupune lipsa unor efecte de
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
grafic nu variază odată cu Y așteptat sugerează egalitatea dispersiilor claselor de valori reziduale. Graficele de regresie parțială permit vizualizarea relației dintre un predictor și dependentă, precum și identificarea cazurilor extreme. 8.2. Regresia logistică Regresia logistică este un alt tip de regresie cu aplicabilitate pentru cazurile în care variabila dependentă este de tip dihotomic (de exemplu, votul pentru un anumit partid, decizia de a cumpăra un automobil) și se poate presupune lipsa unor efecte de interacțiune între predictorii modelului. Predictorii pot fi
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
partid, decizia de a cumpăra un automobil) și se poate presupune lipsa unor efecte de interacțiune între predictorii modelului. Predictorii pot fi măsurați la nivel de raport, interval, ordinal sau pot fi de tip dihotomic ca și variabila dependentă. Popularitatea regresiei logistice se datorează faptului că este o metodă robustă, care nu necesită ca variabila dependentă să fie cantitativă și să aibă o distribuție normală. Există cerințe care se aplică la fel ca și în cazul regresiei liniare, și anume: * Specificarea
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
și variabila dependentă. Popularitatea regresiei logistice se datorează faptului că este o metodă robustă, care nu necesită ca variabila dependentă să fie cantitativă și să aibă o distribuție normală. Există cerințe care se aplică la fel ca și în cazul regresiei liniare, și anume: * Specificarea corectă a modelului de regresie, adică includerea tuturor variabilelor relevante pentru explicarea variabilei dependente și excluderea celor irelevante; * Lipsa unei relații de corelație între variabilele independente care conduce, ca și în cazul regresiei liniare, la efectul
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]