3,519 matches
-
6% Total Count 203 1751 1954 % within i4 a 10,4% 89,6% 100,0% % within e1 04 100,0% 100,0% 100,0% % of Total 10,4% 89,6% 100,0% Interpretare: Primul număr din fiecare căsuță a tabelului reprezintă frecvența observată. Știm deci că din total eșantion (1954), 85 au mers la medic pentru o problemă medicală și au relații în sistemul sanitar, 528 nu au mers la medic pentru o problemă medicală dar au relații în sistemul sanitar, 118 au
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
au fost la medic 30,2% au relații în sistemul sanitar și 69,8% nu au. Al patrulea număr reprezintă procentul din total, care este ușor de citit, de exemplu pentru prima căsuță 4,4% este obținut prin împărțirea frecvenței observate (85) la total subiecți (1954) și înmulțirea cu 100 și se citește astfel: 4,4% din total respondenți la aceste două întrebări au cunoștințe în sistemul sanitar și au fost la medic pentru o problemă medicală. Exercițiu: Tabelul de mai
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
N, unde N este volumul eșantionului. (5) Există două modalități foarte directe de a vedea dacă variabilele ce formează tabelul de contingență sunt independente sau nu: 1) Compararea frecvențelor așteptate, calculate cu formula (5) pe baza frecvențelor marginale, cu frecvențele observate. Dacă acestea coincid, înseamnă că variabilele sunt independente. 2) Compararea procentelor pe coloană. Să luăm drept exemplu distribuția celor două variabile i4 a și e1 04. i4 a * e1 04 Crosstabulation e1 04 Total da nu i4 a da Count 85 528 613 % within e1 04 41
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
au încredere în CDR este mai mic în mediu rural (16,7%) decât în mediul urban (25,9%) și decât pe total eșantion (20,9%). Dacă variabilele ar fi fost independente, aceste procente ar fi fost egale. Cu cât diferența observată este mai mare, cu atât asocierea este mai puternică. Diferența de procente în acest caz este de δ1 = 9,2% (25,9%-16,7%). În continuare se calculează procentele pe coloană și diferența dintre acestea: Tabelul nr. 7.14: Diferența
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
parte, folosind formula de mai sus. Ipoteza de nul a acestui test presupune inexistența unei relații de asociere dintre cele două variabile analizate. Ipoteza alternativă presupune existența unei relații de asociere dintre cele două variabile. Figura nr. 7.7: Frecvențe observate și frecvențe așteptate În SPSS pentru a obține aceste valori, precum și valoarea testului 2 se selectează din meniu ANALYZE/DESCRIPTIVES STATISTICS/ CROSSTABS, se introduc variabila de pe linie și cea de pe coloană, apoi din opțiunea Statistics se bifează Chi-square, iar din
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
a obține aceste valori, precum și valoarea testului 2 se selectează din meniu ANALYZE/DESCRIPTIVES STATISTICS/ CROSSTABS, se introduc variabila de pe linie și cea de pe coloană, apoi din opțiunea Statistics se bifează Chi-square, iar din Cells/ Counts se aleg Observed (frecvențele observate) și Expected (frecvențele așteptate). Rezultatele din fișierul Outuput sunt prezentate mai jos. Cât de mulțumit(a) sunteți de sănătatea dvs.?. Total Deloc mulțumit Nu prea mulțumit Destul de mulțumit Foarte mulțumit Sex masculin Count 100 252 482 161 995 Expected Count
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
acestea nu caracterizează tabelul în ansamblu, ci numai două valori particulare ale variabilelor. Dacă pentru o celulă a tabelului valoarea reziduală standardizată ajustată este >2 sau <-2, atunci cu o probabilitate de eroare de 5% se poate susține că frecvența observată este semnificativ mai mare decât cea așteptată în cazul independenței între variabile, deci se presupune că există o asociere între aceste două valori ale variabilelor. Pentru cazul anterior valorile sunt următoarele: Adjusted Residual Cât de mulțumit(a) sunteți de sănătatea
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
cu cel discutat în cazul independenței dintre variabile, în acest caz frecvențele așteptate fiind cele corespunzătoare distribuției teoretice. Metode grafice * Histograma. Aceasta se obține din meniul GRAPHS/HISTOGRAM. * Graficele Q-Q și P-P. Graficul Q-Q conține pe axa Ox valorile observate, iar pe Oy cele așteptate, în timp ce graficul P-P reprezintă probabilitățile cumulate observate și așteptate. În ambele cazuri punctele de pe grafic formează o linie înclinată la 45˚ atunci când distribuția este normală. * Boxplot. Acest tip de grafic se găsește în SPSS
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
fiind cele corespunzătoare distribuției teoretice. Metode grafice * Histograma. Aceasta se obține din meniul GRAPHS/HISTOGRAM. * Graficele Q-Q și P-P. Graficul Q-Q conține pe axa Ox valorile observate, iar pe Oy cele așteptate, în timp ce graficul P-P reprezintă probabilitățile cumulate observate și așteptate. În ambele cazuri punctele de pe grafic formează o linie înclinată la 45˚ atunci când distribuția este normală. * Boxplot. Acest tip de grafic se găsește în SPSS la DESCRIPTIVE STATISTICS/EXPLORE/PLOTS/BOXPLOT și testează ipoteza normalității distribuției. Graficul boxplot
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
introduce variabilele una câte una; Backward introduce toate variabilele și apoi înlătură una câte una în funcție de îndeplinirea criteriilor statistice; Stepwise combinare a procedurilor Forward și Backward; Remove variabilele sunt înlăturate într-o etapă. 8. 1.2. Valori așteptate (prezise) și observate ale lui Y Valorile Y obținute prin ecuația de regresie (1) reprezintă valorile așteptate ale lui Y (prezise pe baza combinației liniare dintre predictori), notate în continuare cu Y*. Între valorile așteptate ale lui Y (Y*) și cele observate (Y
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
și observate ale lui Y Valorile Y obținute prin ecuația de regresie (1) reprezintă valorile așteptate ale lui Y (prezise pe baza combinației liniare dintre predictori), notate în continuare cu Y*. Între valorile așteptate ale lui Y (Y*) și cele observate (Y) va exista o diferență numită reziduu sau variabilă reziduală. Pentru a trasa graficul ecuației de regresie se folosește metoda celor mai mici pătrate (Ordinary Least Squares sau prescurtat OLS). Această metodă determină valorile Y*, astfel încât suma pătratelor valorilor reziduale
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
Y așteptate și Y mediu. VE este deci o măsură a gradului în care s-a îmbunătățit predicția lui Y pe baza modelului, comparativ cu predicția pe baza valorii medii. Variația totală (VT) este suma pătratului diferențelor dintre valorile Y observate și Y mediu, adică indică cu cât se abat valorile observate de la valorile medii. Din această variație totală modelul explică doar cu cât se abat valorile așteptate de la valorile medii, restul, adică diferența dintre valorile observate și cele așteptate, alcătuind
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
diferențelor dintre valorile Y observate și Y mediu, adică indică cu cât se abat valorile observate de la valorile medii. Din această variație totală modelul explică doar cu cât se abat valorile așteptate de la valorile medii, restul, adică diferența dintre valorile observate și cele așteptate, alcătuind variația neexplicată (VN). VN este calculată ca suma pătratului diferențelor dintre valorile observate și cele așteptate. Pentru a testa semnificația lui R și implicit a gradului în care modelul explică variația dependentei, se folosește testul F.
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
valorile medii. Din această variație totală modelul explică doar cu cât se abat valorile așteptate de la valorile medii, restul, adică diferența dintre valorile observate și cele așteptate, alcătuind variația neexplicată (VN). VN este calculată ca suma pătratului diferențelor dintre valorile observate și cele așteptate. Pentru a testa semnificația lui R și implicit a gradului în care modelul explică variația dependentei, se folosește testul F. Dacă nivelul de semnificație calculat de SPSS prob(F)<0,05, ipoteza de nul se respinge și
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
situează la mai mult de 3 deviații standard de valoarea medie. De obicei aceste cazuri sunt excluse din analiză sau pentru ele se construiește un model de regresie separat. Următorul tabel conține informații despre valorile reziduale (valorile prezise minus cele observate) și măsurile influenței unui caz asupra modelului de regresie. Acestea pot fi folosite pentru a determina cazuri extreme sau aberante. Valorile extreme sunt cele care au o valoare a lui H (centered leverage value) >0,5 (ceea ce nu este cazul
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
valoarea statisticii Wald va fi mică. 8.2.2. Indicatori ai modelului de regresie logistică În afară de măsurile statistice prin care estimăm importanța coeficienților b, există diverse moduri prin care putem aprecia cât de bine prezice modelul de regresie logistică datele observate. Spre deosebire de modelul de regresie liniară unde valoarea R2 ne indică procentul din variația totală a dependentei explicat de predictori, în cazul regresiei logistice folosirea lui R2 este controversată. Există însă încercări de a propune măsuri similare care să măsoare cu
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
o corecție a acestei măsuri, care ia valori între 0 și 1 și se folosește în mod uzual pentru a estima cât de bun este modelul. Un alt indicator al modelului este tabelul de clasificare care conține pe linii valorile observate ale variabilei dependente, iar pe coloane valorile prezise. Din tabel putem afla câte cazuri au fost prezise corect și câte incorect pentru fiecare valoare a dependentei. Pentru a prezice valorile dependentei și a calcula coeficienții de regresie logistică se folosesc
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
predictorilor. Convențional, dacă probabilitatea estimată este >0,5 atunci cazul respectiv se clasifică cu valoarea 1, iar dacă este <0,5 se clasifică cu valoarea 0. SPSS oferă opțiunea de a modifica acest prag (cut value). Comparând apoi cu datele observate, se poate calcula numărul de erori. Tabelul nr. 8.1: Tabel de clasificare pentru pedeapsa capitală Pragul = 0.50 Prezise Procent corect Observate Pentru (1) Contra (0) Pentru (1) 326 7 97,9% Contra (0) 75 13 14,77% Total
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
sau classplot în opțiunile SPSS). Pe axa X este reprezentată probabilitatea de a prezice valoarea dependentei ca fiind egală cu 1. Pe axa Y se află frecvențele, adică numărul de cazuri clasificate sau prezise. Graficul conține deci coloane cu valori observate ordonate funcție de probabilitatea prezisă. Știind că dacă probabilitatea prezisă este <0,5 valoarea prezisă este 0 și dacă este >0,5 valoarea prezisă este 1, putem practic vizualiza numărul și distribuția erorilor făcute. Un alt mod de a vedea gradul
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
probabilitatea prezisă este <0,5 valoarea prezisă este 0 și dacă este >0,5 valoarea prezisă este 1, putem practic vizualiza numărul și distribuția erorilor făcute. Un alt mod de a vedea gradul de potrivire a datelor prezise cu cele observate este valoarea testului HI PĂTRAT PENTRU MODEL, calculată în fișierul de rezultate SPSS. În acest caz ipoteza de nul este aceea că toți coeficienții regresiei logistice estimați la nivelul populației din care a fost extras eșantionul sunt zero. Practic, hi
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
care spune că modelul nu îmbunătățește predicția valorilor dependentei. O metodă alternativă, preferabilă celei anterioare, este testul de concordanță propus de HOSMER și LEMESHOW (Goodness of Fit Test). Acesta testează ipoteză că datele prezise de model se potrivesc cu cele observate. Dacă nivelul de semnificație este >0,05 acceptăm ipoteza de nul, concluzionând că datele estimate de model se potrivesc cu cele observate. 8.2.3. Exemplu de fișier de rezultate SPSS comentat (Barometrul de opinie publică, iunie 1998). În acest
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
și LEMESHOW (Goodness of Fit Test). Acesta testează ipoteză că datele prezise de model se potrivesc cu cele observate. Dacă nivelul de semnificație este >0,05 acceptăm ipoteza de nul, concluzionând că datele estimate de model se potrivesc cu cele observate. 8.2.3. Exemplu de fișier de rezultate SPSS comentat (Barometrul de opinie publică, iunie 1998). În acest model de regresie logistică variabila dependentă este intenția de vot pentru CDR, vot CDR (1 indică intenția de vot pentru CDR, 0 pentru
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
519 3 ,000 Model 43,519 3 ,000 O măsura alternativă este testul lui Hosmer and Lemeshow, pentru care în cazul de față p>0,05, deci acceptăm ipoteza de nul că datele prezise de model se potrivesc cu cele observate. Hosmer and Lemeshow Test Step Chi-square df Sig. 1 6,763 6 ,343 În continuare este prezentat tabelul de clasificare pentru pragul de 0,5. Observăm că au fost prezise corect toate cele 433 de valori 0 ale dependentei, însă
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
și femei cu privire la încrederea interpersonală este mai mică pentru cei de peste 40 de ani decât pentru cei de sub 40 de ani. 8.3.5. Șansele locale (Local odds ratios) Fie un tabel de 3*4: Tabelul nr. 8.2: Frecvențe observate pentru un tabel 3*4 B1 B2 B3 B4 A1 f11 f12 f13 f14 A2 f21 f22 f23 f24 A3 f31 f32 f33 f34 Tabelul nr. 8.3: Șansele locale pentru un tabel 3x4 Paradoxul lui Simpson: Agregarea datelor schimbă
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]
-
Analiza logliniară este rareori justificată prin construcția unui model saturat. De obicei se urmărește găsirea unor relații de independență. Pentru aceasta se setează parametrii doriți cu valoarea 0, se calculează frecvența așteptată în baza modelului și se compară cu cea observată. Frecvența așteptată (calculată pe baza unor algoritmi iterativi) nu va mai coincide cu cea observată ca în cazul modelului saturat, diferențele dintre acestea fiind denumite reziduuri (residuals). SPSS-ul calculează frecvențele observate, așteptate, reziduurile și reziduurile standardizate pentru fiecare combinație
Statistică aplicată în științele sociale by Claudiu Coman () [Corola-publishinghouse/Science/1072_a_2580]