3,337 matches
-
F1,F2) + ... + + b21 b12 r(F1,F2) Ajunși aici, putem spune ceea ce deja am sugerat în această secțiune prin modelele și conceptele introduse. Prin analiza factorială dorim să descoperim structura latentă a unui set de date, dat prin m variabile observate X1, X2, ..., Xm, folosind matricea de covarianțe (corelații) dintre ele. Până acum ne-am folosit de câteva exemple care presupuneau că modelul factorial este cunoscut (erau specificate numărul de factori comuni, complexitatea factorială a fiecărei variabile observate, ortogonalitatea sau oblicitatea
[Corola-publishinghouse/Science/2075_a_3400]
-
prin m variabile observate X1, X2, ..., Xm, folosind matricea de covarianțe (corelații) dintre ele. Până acum ne-am folosit de câteva exemple care presupuneau că modelul factorial este cunoscut (erau specificate numărul de factori comuni, complexitatea factorială a fiecărei variabile observate, ortogonalitatea sau oblicitatea factorilor) și că există o corespondență perfectă între matricea de saturații factoriale și matricea de covarianțe (corelații) dintre variabile. Dacă saturațiile factoriale sunt cunoscute, atunci putem deriva în mod univoc corelațiile dintre variabile. În realitate însă, situația
[Corola-publishinghouse/Science/2075_a_3400]
-
practică în care suntem este inversa: dorim să obținem structura factorială (matricea saturațiilor, complexitatea factorială a variabilelor, gradul de determinare factorială a fiecărei variabile, relația dintre factori în termeni de ortogonalitate sau oblicitate) pornind de la corelațiile (covarianțele) cunoscute dintre variabilele observate. Dificultatea apare deoarece demersul prin care facem inferențe despre factori pornind de la covarianțele (corelațiile) dintre variabile conține o serie de nedeterminări. Aceeași structură de covarianță poate fi produsă de nenumărate structuri cauzale (modele factoriale). Cunoașterea covarianțelor dintre variabile nu duce
[Corola-publishinghouse/Science/2075_a_3400]
-
număr variabil de factori. Se poate demonstra matematic că există o corespondență între numărul de factori într-un model cauzal și rangul unei matrice construite, numită matrice de corelație ajustată. Matricea de corelație ajustată este alcătuită din corelațiile între variabilele observate, calculate în funcție de saturațiile factoriale (așa cum am făcut mai sus de câteva ori), și comunalitățile variabilelor, situate pe diagonală. Această corespondență sugerează că și inversa ei ar putea fi posibilă, și anume că numărul de factori comuni latenți poate fi aflat
[Corola-publishinghouse/Science/2075_a_3400]
-
ne indică un model consistent cu datele, ce are un număr minimal de factori egal cu rangul matricei de corelație ajustată, nu demonstrează însă că există doar acei factori, și nu mai mulți, care să dea seama de corelațiile variabilelor observate. În acest caz ne confruntăm cu ceea ce se numește o problemă de rotație, care este și problema nedeterminării de primul tip. Ce este o problemă de rotație? Este una de transformare a datelor astfel încât să obținem un model mai ușor
[Corola-publishinghouse/Science/2075_a_3400]
-
să facem comparații între grupuri: corelațiile, care sunt măsuri standardizate folosind standarde specifice grupului, vor face invariante valori care sunt diferite de la grup la grup. Una dintre asumpțiile critice ale analizei factoriale, de natură conceptuală, este aceea că între variabilele observate există suficientă corelație pentru a avea sens să realizăm o analiză factorială. Dacă între variabile nu există corelație substanțială, atunci nu are rost să căutăm factori comuni care să le determine. Există câteva modalități de a stabili dacă există suficientă
[Corola-publishinghouse/Science/2075_a_3400]
-
analiza factorial datele: 1) Una este aceea de a testa statistic prezența corelației între variabile. Acest lucru se face cu ajutorul testului de sfericitate Bartlett, care testează ipoteza că matricea de corelație este matricea-identitate (testează ipoteza că între fiecare două variabile observate nu există nici o corelație). Statistica de test este o transformare a determinantului matricei de corelație. Cu cât statistica de test este mai mare și nivelul de semnificație asociat mai mic, cu atât șansa ca matricea de corelație să fie matricea-identitate
[Corola-publishinghouse/Science/2075_a_3400]
-
este o transformare a determinantului matricei de corelație. Cu cât statistica de test este mai mare și nivelul de semnificație asociat mai mic, cu atât șansa ca matricea de corelație să fie matricea-identitate este mai mică, deci cu atât corelațiile observate sunt mai importante. Dacă însă ipoteza nu se poate respinge, atunci probabil că analiza factorială pentru datele respective nu-și are locul și rostul. Figura 8. Ipoteza testului de sfericitate Bartlett 2) Altă modalitate de a stabili dacă avem suficientă
[Corola-publishinghouse/Science/2075_a_3400]
-
mai este adevărată și trebuie să găsim un criteriu prin care să stabilim numărul de factori. În mod imediat, acest criteriu este cel al adecvării modelului la date, determinând cât de bine factorii comuni respectivi pot produce matricea de corelații observate. Conform logicii statistice obișnuite, se vor extrage atâția factori până când discrepanța dintre corelațiile observate și corelațiile produse de modelul factorial va fi suficient de mică pentru a fi atribuită erorilor de eșantionare. Algoritmul de extragere pornește de la ipoteza unui factor
[Corola-publishinghouse/Science/2075_a_3400]
-
de factori. În mod imediat, acest criteriu este cel al adecvării modelului la date, determinând cât de bine factorii comuni respectivi pot produce matricea de corelații observate. Conform logicii statistice obișnuite, se vor extrage atâția factori până când discrepanța dintre corelațiile observate și corelațiile produse de modelul factorial va fi suficient de mică pentru a fi atribuită erorilor de eșantionare. Algoritmul de extragere pornește de la ipoteza unui factor comun unic. Acestui model cu un factor i se aplică testul discrepanței dintre matricea
[Corola-publishinghouse/Science/2075_a_3400]
-
produse de modelul factorial va fi suficient de mică pentru a fi atribuită erorilor de eșantionare. Algoritmul de extragere pornește de la ipoteza unui factor comun unic. Acestui model cu un factor i se aplică testul discrepanței dintre matricea de corelații observate și cea produsă 1. Dacă testul esterespins (discrepanța dintre cele două seturi de corelații este prea mare din punct de vedere statistic), atunci se estimează un model cu doi factori. Acestui nou model i se aplică, de asemenea, testul discrepanței
[Corola-publishinghouse/Science/2075_a_3400]
-
factorilor principali - principal axis factoring, (f) metoda componentelor principale- principal component analysis. Una dintre diferențele conceptuale fundamentale între aceste metode, care distinge între analiza componentelor principale (f) și toate celelalte, poate fi descrisă în felul următor. Varianța totală a variabilelor observate poate fi descompusă astfel: varianța comună, adică totalul varianței variabilelor care se datorează factorilor comuni, varianța specifică, datorată factorilor unici, și eroarea introdusă de măsurare, eșantionare, culegerea datelor etc. În analiza componentelor principale se va descompune întreaga varianță a variabilelor
[Corola-publishinghouse/Science/2075_a_3400]
-
varianța datorată factorului de unicitate și eventualele erori. În cazul analizei factoriale propriu-zise, factorii vor da seama doar de varianța comună a variabilelor. În obținerea componentelor principale nu presupunem existența unor factori latenți. Componentele principale sunt funcții matematice de variabile observate. Ca și în cazul analizei factoriale propriu-zise, metoda este folosită pentru a obține o reducere a reprezentării, dar obiectivul ei nu este să explice covariația dintre variabile (un model cauzal), ci să explice cât mai mult din varianța datelor. Analiza
[Corola-publishinghouse/Science/2075_a_3400]
-
obține o reducere a reprezentării, dar obiectivul ei nu este să explice covariația dintre variabile (un model cauzal), ci să explice cât mai mult din varianța datelor. Analiza factorială, în schimb, are ca scop principal explicarea corelației (covariației) dintre variabilele observate. Diferența dintre cele două abordări poate fi prezentată și astfel: analiza factorială propriuzisă reprezintă structura de covarianță în termenii unui model cauzal ipotetic, în timp ce analiza componentelor principale sumarizează datele prin intermediul unei combinații liniare a datelor observate. Prima încearcă să explice
[Corola-publishinghouse/Science/2075_a_3400]
-
corelației (covariației) dintre variabilele observate. Diferența dintre cele două abordări poate fi prezentată și astfel: analiza factorială propriuzisă reprezintă structura de covarianță în termenii unui model cauzal ipotetic, în timp ce analiza componentelor principale sumarizează datele prin intermediul unei combinații liniare a datelor observate. Prima încearcă să explice covarianța, pe când cea de a doua explică varianța variabilelor. Voi începe prin a prezenta ultimele două dintre metodele enumerate, și anume: (f) metoda componentelor principale (principal component analysis) și (e) metoda factorilor principali (principal axis factoring
[Corola-publishinghouse/Science/2075_a_3400]
-
principal component analysis), respectiv factorii în cazul analizei factoriale propriu-zise (principal axis factoring), vom apela la câteva elemente elementare de algebră matriceală. Într-o secțiune anterioară am arătat că, în cazul modelului factorial ortogonal general, corelația între oricare două variabile observate, r(Xi,Xj), atunci când factorii sunt ortogonali, va fi egală cu suma produselor dintre saturațiile corespunzătoare factorilor comuni: r(Xi,Xk) = bi1 bk1 + bi2 bk2 + bi3 bk3 + ... + bin bkn pentru i, k = 1, ..., m Matriceal, acest lucru se poate scrie
[Corola-publishinghouse/Science/2075_a_3400]
-
Matriceal, acest lucru se poate scrie în felul următor: R = B BT = R1 unde B BT reprezintă matricea de corelații rezultată. În analiza factorială încercăm un demers invers, și anume să estimăm coeficienții bik, adică saturațiile factoriale pentru fiecare variabilă observată, având la dispoziție coeficienții de corelație r(Xi,Xk). Vom pune condiția ca matricea reziduală, adică diferența dintre matricea de corelație ajustată (R1) și matricea de corelații rezultată (B BT), să fie cât mai aproape de zero, adică diferențele dintre corelațiile
[Corola-publishinghouse/Science/2075_a_3400]
-
având la dispoziție coeficienții de corelație r(Xi,Xk). Vom pune condiția ca matricea reziduală, adică diferența dintre matricea de corelație ajustată (R1) și matricea de corelații rezultată (B BT), să fie cât mai aproape de zero, adică diferențele dintre corelațiile observate și cele rezultate din modelul factorial să fie minimizate. Acest lucru se reduce, în formă matriceală, la următoarea ecuație: R1 V = λ V unde R1 este matricea de corelație ajustată, λ este o valoare proprie (eigenvalue) a matricei R, iar
[Corola-publishinghouse/Science/2075_a_3400]
-
explica astfel covarianța dintre variabile printr-un număr cât mai mic de factori comuni. Primul factor extras va corespunde valorii proprii celei mai mari, cu alte cuvinte primul factor extras este cel care explică cel mai mult din varianța variabilelor observate. Următorul factor extras va putea să explice cât mai mult din restul de varianță rămas neexplicat și așa mai departe. La câți factori ne oprim? De câți factori avem nevoie pentru a reprezenta datele? Una dintre soluții este aceea de
[Corola-publishinghouse/Science/2075_a_3400]
-
fie substanțiali și interpretabili teoretic (îndeosebi după rotație)1. Cât despre (a) metoda celor mai mici pătrate - the least squares method -, similară procedurii anterioare, aceasta pleacă de la presupoziția că un număr de k factori (k<m) poate să explice corelațiile observate. Se calculează estimate inițiale pentru comunalități (cel mai adesea se folosește coeficientul de corelație multiplă între o variabilă și celelalte variabile). Se extrag apoi k factori care să reproducă pe cât posibil mai bine matricea de corelații observate, folosind metoda celor
[Corola-publishinghouse/Science/2075_a_3400]
-
să explice corelațiile observate. Se calculează estimate inițiale pentru comunalități (cel mai adesea se folosește coeficientul de corelație multiplă între o variabilă și celelalte variabile). Se extrag apoi k factori care să reproducă pe cât posibil mai bine matricea de corelații observate, folosind metoda celor mai mici pătrate. Pentru a obține matricea de saturații care reproduce cel mai bine matricea de corelații observate, se reestimează comunalitățile pe baza saturațiilor factoriale de la pasul anterior. Procedura se repetă până când nu se mai produce nici o
[Corola-publishinghouse/Science/2075_a_3400]
-
variabilă și celelalte variabile). Se extrag apoi k factori care să reproducă pe cât posibil mai bine matricea de corelații observate, folosind metoda celor mai mici pătrate. Pentru a obține matricea de saturații care reproduce cel mai bine matricea de corelații observate, se reestimează comunalitățile pe baza saturațiilor factoriale de la pasul anterior. Procedura se repetă până când nu se mai produce nici o îmbunătățire a modelului 1. În ceea ce privește (b) metoda probabilității maxime - the maximum likelihood method -, ea încearcă, de asemenea, să găsească o soluție
[Corola-publishinghouse/Science/2075_a_3400]
-
de la pasul anterior. Procedura se repetă până când nu se mai produce nici o îmbunătățire a modelului 1. În ceea ce privește (b) metoda probabilității maxime - the maximum likelihood method -, ea încearcă, de asemenea, să găsească o soluție factorială care modelează cel mai bine corelațiile observate. Se pornește de la presupunerea că eșantionul de pe care s-au cules datele provine dintr-o populație pentru care un model factorial cu k factori explică perfect corelațiile dintre variabile și în care distribuția variabilelor (inclusiv a factorilor) este normală. Nu
[Corola-publishinghouse/Science/2075_a_3400]
-
variabilelor (inclusiv a factorilor) este normală. Nu se cunoaște însă configurația exactă a parametrilor, adică saturațiile factorilor pentru fiecare variabilă. Se vor estima acei parametri care, în presupunerea de mai sus, au probabilitatea maximă de a produce matricea de corelații observate. În privința următoarei metode, (c) metoda de extragere factorială Alpha - Alpha factoring -, logica ei este cu totul alta decât a celor discutate până acum. Dacă, în cazul celorlalte metode, s-a considerat că universul este reprezentat prin variabilele observate și că
[Corola-publishinghouse/Science/2075_a_3400]
-
de corelații observate. În privința următoarei metode, (c) metoda de extragere factorială Alpha - Alpha factoring -, logica ei este cu totul alta decât a celor discutate până acum. Dacă, în cazul celorlalte metode, s-a considerat că universul este reprezentat prin variabilele observate și că datele provin de pe un eșantion de obiecte, în metoda Alpha variabilele sunt considerate un eșantion dintr-un univers de variabile, observate pentru o populație dată de obiecte. Saturațiile factoriale vor fi astfel determinate încât factorii extrași să coreleze
[Corola-publishinghouse/Science/2075_a_3400]