1,321 matches
-
de asociere. Coeficienți de corelațietc "Coeficienți de corelație" Coeficientul de corelație este o măsură intuitivă a similarității dintre două obiecte. Corelația dintre două obiecte (și nu dintre două variabile, așa cum acest coeficient a fost introdus original) este o măsură a similarității dintre profilurile celor două obiecte după un număr de variabile. În loc să corelăm două variabile măsurate pentru un set de obiecte, corelăm două obiecte în funcție de valorile pe care le iau pentru un set de variabile. Coeficientul de corelație reprezintă similaritatea prin
[Corola-publishinghouse/Science/2075_a_3400]
-
a similarității dintre profilurile celor două obiecte după un număr de variabile. În loc să corelăm două variabile măsurate pentru un set de obiecte, corelăm două obiecte în funcție de valorile pe care le iau pentru un set de variabile. Coeficientul de corelație reprezintă similaritatea prin corespondența configurațiilor luate de două obiectepentru un set de variabile. Un coeficient de corelație egal cu 1 indică o similaritate perfectă. Similaritatea dintre obiecte scade o dată cu valoarea coeficientului, iar valoarea 0 pentru coeficientul de corelație reprezintă disimilaritate totală între
[Corola-publishinghouse/Science/2075_a_3400]
-
obiecte, corelăm două obiecte în funcție de valorile pe care le iau pentru un set de variabile. Coeficientul de corelație reprezintă similaritatea prin corespondența configurațiilor luate de două obiectepentru un set de variabile. Un coeficient de corelație egal cu 1 indică o similaritate perfectă. Similaritatea dintre obiecte scade o dată cu valoarea coeficientului, iar valoarea 0 pentru coeficientul de corelație reprezintă disimilaritate totală între obiecte (obiectele nu se aseamănă deloc, în nici o privință). Pentru a înțelege mai bine măsurile corelaționale de similaritate, voi apela la
[Corola-publishinghouse/Science/2075_a_3400]
-
două obiecte în funcție de valorile pe care le iau pentru un set de variabile. Coeficientul de corelație reprezintă similaritatea prin corespondența configurațiilor luate de două obiectepentru un set de variabile. Un coeficient de corelație egal cu 1 indică o similaritate perfectă. Similaritatea dintre obiecte scade o dată cu valoarea coeficientului, iar valoarea 0 pentru coeficientul de corelație reprezintă disimilaritate totală între obiecte (obiectele nu se aseamănă deloc, în nici o privință). Pentru a înțelege mai bine măsurile corelaționale de similaritate, voi apela la un grafic
[Corola-publishinghouse/Science/2075_a_3400]
-
1 indică o similaritate perfectă. Similaritatea dintre obiecte scade o dată cu valoarea coeficientului, iar valoarea 0 pentru coeficientul de corelație reprezintă disimilaritate totală între obiecte (obiectele nu se aseamănă deloc, în nici o privință). Pentru a înțelege mai bine măsurile corelaționale de similaritate, voi apela la un grafic. În figura de mai jos sunt reprezentate trei obiecte, 1, 2 și 3, în funcție de valorile pe care le iau pentru 5variabile, X1, X2, ..., X5. Obiectele 1 și 2 au configurații similare după cele 5 variabile
[Corola-publishinghouse/Science/2075_a_3400]
-
Obiect 1, Obiect 3) = -0,464 și nu este semnificativ diferită de zero la nivel 0,05 (nivelul de semnificație al coeficientului de corelație dintre obiectele 1 și 3 este 0,431). Figura 1. Coeficientul de corelație ca măsură de similaritate între două obiecte Obiectele 1 și 2 sunt perfect similare - ele au aceeași configurație în funcție de variabilele X1, ..., X5. Asemănarea dintre obiectele 1 și 3 este mult mai mică - configurațiile lor după variabilele X1, ..., X5 sunt diferite. Coeficientul de corelație este
[Corola-publishinghouse/Science/2075_a_3400]
-
formă de standardizare a obiectelor după setul de variabile, ignoră magnitudinea valorilor luate de obiecte pentru variabile. Acest lucru este util în disciplinele care lucrează cu „profiluri”, cum sunt psihologia, sociologia sau antropologia 1. Una dintre limitările acestei măsuri de similaritate este aceea că adesea nu satisface condiția inegalității triunghiulare, fapt ce poate influența rezultatele algoritmului de grupare a obiectelor. Un alt neajuns al acestei măsuri este lipsa de înțeles statistic. În calculul coeficientului de corelație, valorile obiectelor pentru fiecare variabilă
[Corola-publishinghouse/Science/2075_a_3400]
-
neajuns al acestei măsuri este lipsa de înțeles statistic. În calculul coeficientului de corelație, valorile obiectelor pentru fiecare variabilă se raportează la media valorilor obiectului pentru toate variabilele; or, aceasta din urmă nu are nici un sens. Distanțetc "Distanțe" Măsurile de similaritate de tipul distanței sunt cele mai comune, datorită caracterului lor intuitiv. Distanțele reprezintă similaritatea ca proximitate a obiectelor într-un sistem de coordonate definit de variabile. Să presupunem că estimăm similaritatea a două obiecte după două variabile. Atunci putem să
[Corola-publishinghouse/Science/2075_a_3400]
-
valorile obiectelor pentru fiecare variabilă se raportează la media valorilor obiectului pentru toate variabilele; or, aceasta din urmă nu are nici un sens. Distanțetc "Distanțe" Măsurile de similaritate de tipul distanței sunt cele mai comune, datorită caracterului lor intuitiv. Distanțele reprezintă similaritatea ca proximitate a obiectelor într-un sistem de coordonate definit de variabile. Să presupunem că estimăm similaritatea a două obiecte după două variabile. Atunci putem să ne imaginăm un plan definit de cele două variabile (pe post de coordonate), iar
[Corola-publishinghouse/Science/2075_a_3400]
-
urmă nu are nici un sens. Distanțetc "Distanțe" Măsurile de similaritate de tipul distanței sunt cele mai comune, datorită caracterului lor intuitiv. Distanțele reprezintă similaritatea ca proximitate a obiectelor într-un sistem de coordonate definit de variabile. Să presupunem că estimăm similaritatea a două obiecte după două variabile. Atunci putem să ne imaginăm un plan definit de cele două variabile (pe post de coordonate), iar obiectele ca puncte în acest plan. Ele sunt cu atât mai similare cu cât distanța între ele
[Corola-publishinghouse/Science/2075_a_3400]
-
cunoaștem ca atare. Matematic, distanța euclidiană este definită în felul următor: dij= unde dij este distanța dintre obiectele i și j, iar xik este valoarea pe care o ia obiectul i pentru variabila Xk. Adesea, se folosește ca măsură de similaritate pătratul distanței euclidiene, dij2, pentru a evita extragerea radicalului. Acest lucru simplifică mult calculele în algoritmul de grupare a obiectelor, fără a afecta rezultatele. O altă măsură populară este distanța Manhattan, sau city-block1. Formula ei matematică este următoarea: dij= Pentru
[Corola-publishinghouse/Science/2075_a_3400]
-
calculele în algoritmul de grupare a obiectelor, fără a afecta rezultatele. O altă măsură populară este distanța Manhattan, sau city-block1. Formula ei matematică este următoarea: dij= Pentru a înțelege semnificația acestei distanțe, să luăm din nou exemplul obiectelor a căror similaritate este estimată în funcție de două variabile, X1 și X2 (în acest caz, p=2). Distanța euclidiană dintre două obiecte 1 și 2 este dreapta care unește punctele ce reprezintă obiectele. Distanța Manhattan dintre cele două obiecte este suma distanțelor dintre obiecte
[Corola-publishinghouse/Science/2075_a_3400]
-
într-un plan dat de variabilele X1 și X2 O simplificare a distanței Manhattan este distanța Cebîșev, definită astfel: dij= Distanța Cebîșev dintre două obiecte este dată de cea mai mare dintre diferențele după variabilele Xk dintre obiecte. Pentru estimarea similarității sau, mai degrabă, a disimilarității dintre obiecte, în analiza cluster se folosesc și alte distanțe, care sunt forme generalizate ale distanței euclidiene. Distanța Minkowski este dată de rădăcina de ordinul r, r fiind un număr întreg pozitiv, din suma puterilor
[Corola-publishinghouse/Science/2075_a_3400]
-
rezolvă două dintre problemele analizei de grupare, și anume lipsa de unitate a scalelor pe care sunt măsurate variabilele și supraponderarea unui anumit set de variabile strâns corelate. Coeficienți de asocieretc "Coeficienți de asociere" Coeficienții de asociere sunt măsuri de similaritate folosite la compararea obiectelor ale căror caracteristici sunt măsurate pe scale non-metrice (nominale sau ordinale). În general, coeficienții de asociere stabilesc gradul de corespondență între obiecte, în funcție de prezența sau absența unor însușiri (variabile dihotomice). Această informație poate fi pusă sub
[Corola-publishinghouse/Science/2075_a_3400]
-
asociere simplă, coeficientul lui Jaccard, coeficientul lui Gower. Coeficientul de asociere simplă raportează numărul de corespondențe (prezențe și absențe ale însușirii deopotrivă) la numărul total de însușiri. Acesta ia valori între 0 și 1, unde 0 semnifică disimilaritate, iar 1 similaritate perfectă. Coeficientul lui Jaccard omite din calcul situațiile în care nici unul dintre cele două obiecte nu prezintă o însușire. Acest coeficient se calculează raportând numărul de însușiri care sunt prezente la ambele obiecte la numărul de însușiri care sunt prezente
[Corola-publishinghouse/Science/2075_a_3400]
-
Coeficientul lui Jaccard, în schimb, se concentrează doar asupra însușirilor pe care le au obiectele, și nu asupra celor care le lipsesc amândurora. Dacă această argumentație este întemeiată, sunt situații în care lipsa anumitor însușiri este la fel de importantă în estimarea similarității dintre două obiecte ca și prezența altor însușiri. Rămâne la latitudinea cercetătorului să decidă semnificația absenței unor însușiri și să decidă ce măsură de similaritate va folosi în algoritmul de grupare. Coeficientul lui Gower este o generalizare a coeficientului lui
[Corola-publishinghouse/Science/2075_a_3400]
-
argumentație este întemeiată, sunt situații în care lipsa anumitor însușiri este la fel de importantă în estimarea similarității dintre două obiecte ca și prezența altor însușiri. Rămâne la latitudinea cercetătorului să decidă semnificația absenței unor însușiri și să decidă ce măsură de similaritate va folosi în algoritmul de grupare. Coeficientul lui Gower este o generalizare a coeficientului lui Jaccard. În calculul său este folosită o funcție-pondere pentru a elimina din calcul situațiile de concordanță negativă (lipsa însușirii în cazul ambelor obiecte) și situațiile
[Corola-publishinghouse/Science/2075_a_3400]
-
elimina din calcul situațiile de concordanță negativă (lipsa însușirii în cazul ambelor obiecte) și situațiile în care obiectele nu sunt comparabile, din cauza variabilelor după care se compară. Prin aceasta este permisă folosirea unor variabile măsurate pe scale diferite, în estimarea similarității dintre două obiecte. Metode (algoritmi) de gruparetc "Metode (algoritmi) de grupare" Scopul analizei cluster este acela de a explora sau confirma structura unui set de date prin obținerea unui număr de grupuri de obiecte similare în raport cu variabile specificate. Nu există
[Corola-publishinghouse/Science/2075_a_3400]
-
alăturate două dintre grupuri într-unul singur (fie că sunt cazuri individuale, fie că deja sunt grupuri care cuprind mai multe obiecte), conform unui criteriu particular. Pentru a face acest lucru, la fiecare pas se calculează o matrice simetrică de similarități (măsuri de similaritate) între grupurile existente (obiecte individuale sau grupuri deja formate). La fiecare pas deci rămân mai puțin cu unul grupuri. La penultimul pas toate cazurile vor fi deja aglomerate în două grupuri. La ultimul pas vor fi unite
[Corola-publishinghouse/Science/2075_a_3400]
-
grupuri într-unul singur (fie că sunt cazuri individuale, fie că deja sunt grupuri care cuprind mai multe obiecte), conform unui criteriu particular. Pentru a face acest lucru, la fiecare pas se calculează o matrice simetrică de similarități (măsuri de similaritate) între grupurile existente (obiecte individuale sau grupuri deja formate). La fiecare pas deci rămân mai puțin cu unul grupuri. La penultimul pas toate cazurile vor fi deja aglomerate în două grupuri. La ultimul pas vor fi unite ultimele două grupuri
[Corola-publishinghouse/Science/2075_a_3400]
-
respectiv centroizii lor drept centri inițiali de cluster. Metode factorialetc "Metode factoriale" Cunoscute și sub numele de analiză factorială inversă, Q-type factoring sau factor analysis variants, acest tip de metode sunt foarte populare în rândul psihologilor. Sunt folosite matrice de similarități între cazuri (spre deosebire de analiza factorială clasică, unde sunt folosite matrice de corelații între variabile) pentru obținerea unui număr de factori, urmând regulile analizei factoriale clasice, iar obiectele (cazurile) sunt alocate în grupuri conform scorurilor lor factoriale. Acest tip de analiză
[Corola-publishinghouse/Science/2075_a_3400]
-
este indicat să încheiem aglomerarea (combinarea) grupurilor la pasul respectiv, cu numărul de grupuri existente în momentul respectiv (pentru pasul p, vom avea N-p+1 grupuri). În cazul metodelor de partiționare iterativă, distanța dintre centroizi este un indicator al similarității grupurilor. Dacă aceasta este foarte mică pentru două grupuri, atunci putem considera unirea celor două grupuri într-unul singur. În orice caz, o strategie utilă în faza de selectare a numărului de grupuri este aceea de a produce mai multe
[Corola-publishinghouse/Science/2075_a_3400]
-
10.1" Pachetul statistic SPSS conține un set de proceduri pentru realizarea analizei cluster. Acestea acoperă majoritatea metodelor de grupare ierarhice aglomerative și două dintre metodele de grupare prin partiționare iterativă și permite folosirea unui număr mare de măsuri de similaritate, pentru toate tipurile de variabile de grupare. De asemenea, permite obținerea și analiza simultană a mai multor soluții (mai multor grupuri) și salvarea acestor soluții sub forma unor noi variabile care înregistrează apartenența obiectelor la grupuri. Cum realizăm o analiză
[Corola-publishinghouse/Science/2075_a_3400]
-
criterii de grupare. În continuare vom specifica diferitele elemente ale unei grupări aglomerative. În meniul deschis de butonul Statistics, putem cere afișarea schemei de grupare (Agglomeration schedule), care ne indică la fiecare pas grupurile (clusters) care se unesc, coeficientul de similaritate între grupuri, calculat în funcție de măsura de similaritate, pașii anteriori în care aceste două grupuri particulare au mai fost unite, respectiv pasul următor la care grupul va intra într-o nouă combinație. De asemenea, putem cere afișarea matricei de proximități, precum și
[Corola-publishinghouse/Science/2075_a_3400]
-
diferitele elemente ale unei grupări aglomerative. În meniul deschis de butonul Statistics, putem cere afișarea schemei de grupare (Agglomeration schedule), care ne indică la fiecare pas grupurile (clusters) care se unesc, coeficientul de similaritate între grupuri, calculat în funcție de măsura de similaritate, pașii anteriori în care aceste două grupuri particulare au mai fost unite, respectiv pasul următor la care grupul va intra într-o nouă combinație. De asemenea, putem cere afișarea matricei de proximități, precum și componența grupurilor, fie pentru o soluție unică
[Corola-publishinghouse/Science/2075_a_3400]