458 matches
-
soiuri de realități prin imaginație, aceste realități imaginare nu pot niciodată s-o dărâme pe aceea pe care o vedem, o auzim și o pipăim. De aceea și d1 Tannery zice că „geometria care este aplicată realității concrete este geometria euclidiană, ale cărei axiome au un caracter așa de intuitiv, că ele pot fi privite ca făcând parte din concepția noastră a lumii din afară” (p. 37). Este În adevăr admis În principiu de către știință, că realitatea slujește de control ideilor
[Corola-publishinghouse/Science/2158_a_3483]
-
comun de strângere a datelor, și anume chestionarul. Dimensionalitatea datelortc "Dimensionalitatea datelor" Un concept important pentru înțelegerea structurii datelor este cel de dimensionalitate. Termenul este intuitiv și avem câteva reprezentări comune asupra lui. De exemplu, lumea noastră este un spațiu euclidian tridimensional. Intuim că există mai multe dimensiuni decât dimensiunea clasică stânga-dreapta, după care se disting partidele dintr-un sistem politic. O problemă de rezolvat are mai multe dimensiuni, adică mai multe aspecte de luat în considerare atunci când se caută o
[Corola-publishinghouse/Science/2075_a_3400]
-
post de coordonate), iar obiectele ca puncte în acest plan. Ele sunt cu atât mai similare cu cât distanța între ele este mai mică, i.e. cu cât sunt mai apropiate în acest spațiu. (Intuitiv, distanța din acest exemplu este cea euclidiană, adică așa cum o experimentăm în lumea în care trăim.) Obiectele sunt identice dacă distanța dintre ele este egală cu zero. Distanțele sunt măsuri care nu au limită superioară și sunt dependente de scalele pe care sunt măsurate variabilele. Cea mai
[Corola-publishinghouse/Science/2075_a_3400]
-
în lumea în care trăim.) Obiectele sunt identice dacă distanța dintre ele este egală cu zero. Distanțele sunt măsuri care nu au limită superioară și sunt dependente de scalele pe care sunt măsurate variabilele. Cea mai uzuală măsură este distanța euclidiană. În spațiul tridimensional, aceasta este distanța pe care o cunoaștem ca atare. Matematic, distanța euclidiană este definită în felul următor: dij= unde dij este distanța dintre obiectele i și j, iar xik este valoarea pe care o ia obiectul i
[Corola-publishinghouse/Science/2075_a_3400]
-
zero. Distanțele sunt măsuri care nu au limită superioară și sunt dependente de scalele pe care sunt măsurate variabilele. Cea mai uzuală măsură este distanța euclidiană. În spațiul tridimensional, aceasta este distanța pe care o cunoaștem ca atare. Matematic, distanța euclidiană este definită în felul următor: dij= unde dij este distanța dintre obiectele i și j, iar xik este valoarea pe care o ia obiectul i pentru variabila Xk. Adesea, se folosește ca măsură de similaritate pătratul distanței euclidiene, dij2, pentru
[Corola-publishinghouse/Science/2075_a_3400]
-
Matematic, distanța euclidiană este definită în felul următor: dij= unde dij este distanța dintre obiectele i și j, iar xik este valoarea pe care o ia obiectul i pentru variabila Xk. Adesea, se folosește ca măsură de similaritate pătratul distanței euclidiene, dij2, pentru a evita extragerea radicalului. Acest lucru simplifică mult calculele în algoritmul de grupare a obiectelor, fără a afecta rezultatele. O altă măsură populară este distanța Manhattan, sau city-block1. Formula ei matematică este următoarea: dij= Pentru a înțelege semnificația
[Corola-publishinghouse/Science/2075_a_3400]
-
este distanța Manhattan, sau city-block1. Formula ei matematică este următoarea: dij= Pentru a înțelege semnificația acestei distanțe, să luăm din nou exemplul obiectelor a căror similaritate este estimată în funcție de două variabile, X1 și X2 (în acest caz, p=2). Distanța euclidiană dintre două obiecte 1 și 2 este dreapta care unește punctele ce reprezintă obiectele. Distanța Manhattan dintre cele două obiecte este suma distanțelor dintre obiecte măsurate pe cele două axe. Figura 2. Distanța Manhattan între două obiecte, într-un plan
[Corola-publishinghouse/Science/2075_a_3400]
-
dintre două obiecte este dată de cea mai mare dintre diferențele după variabilele Xk dintre obiecte. Pentru estimarea similarității sau, mai degrabă, a disimilarității dintre obiecte, în analiza cluster se folosesc și alte distanțe, care sunt forme generalizate ale distanței euclidiene. Distanța Minkowski este dată de rădăcina de ordinul r, r fiind un număr întreg pozitiv, din suma puterilor de ordinul r ale diferențelor dintre obiecte măsurate pentru variabilele Xk, k=1,..., p. Distanța euclidiană este un caz particular al distanței
[Corola-publishinghouse/Science/2075_a_3400]
-
care sunt forme generalizate ale distanței euclidiene. Distanța Minkowski este dată de rădăcina de ordinul r, r fiind un număr întreg pozitiv, din suma puterilor de ordinul r ale diferențelor dintre obiecte măsurate pentru variabilele Xk, k=1,..., p. Distanța euclidiană este un caz particular al distanței Minkovski pentru r=2. Distanța putere este o altă formă de generalizare a distanței euclidiene, dată de rădăcina de ordinul t din suma puterilor de ordinul r ale diferențelor dintre obiecte măsurate pentru variabilele
[Corola-publishinghouse/Science/2075_a_3400]
-
pozitiv, din suma puterilor de ordinul r ale diferențelor dintre obiecte măsurate pentru variabilele Xk, k=1,..., p. Distanța euclidiană este un caz particular al distanței Minkovski pentru r=2. Distanța putere este o altă formă de generalizare a distanței euclidiene, dată de rădăcina de ordinul t din suma puterilor de ordinul r ale diferențelor dintre obiecte măsurate pentru variabilele Xk, k=1,..., p, unde t și r sunt numere întregi pozitive. Distanța Minkovski este un caz particular al distanței putere
[Corola-publishinghouse/Science/2075_a_3400]
-
t din suma puterilor de ordinul r ale diferențelor dintre obiecte măsurate pentru variabilele Xk, k=1,..., p, unde t și r sunt numere întregi pozitive. Distanța Minkovski este un caz particular al distanței putere, când t=r, iar distanța euclidiană este cazul său particular pentru t=r=2. Distanța Mahalanobis este o generalizare care încorporează standardizarea variabilelor și ajustează intercorelațiile dintre variabile. Această distanță este importantă, pentru că rezolvă două dintre problemele analizei de grupare, și anume lipsa de unitate a
[Corola-publishinghouse/Science/2075_a_3400]
-
printr-o diagramă-arbore (dendogramă), care arată grupurile unite la fiecare pas. Iată, spre exemplu, cum arată o astfel de diagramă pentru o analiză cluster care grupează cinci țări după PIB per capita și speranța de viață a bărbaților, folosind distanțe euclidiene și o metodă de aglomerare ierarhică. Datele în funcție de care s-a realizat gruparea sunt pentru anul 1995 și sunt disponibile în fișierul programului SPSS numit World 95.sav. Lungimea „brațelor” dendogramei este un indicator al distanței dintre grupurile care au
[Corola-publishinghouse/Science/2075_a_3400]
-
populație să ia calea migrației. De asemenea, explorarea grafică a țărilor în funcție de aceste variabile ne poate ajuta la decizia privind numărul final de grupuri. Voi realiza o grupare a cazurilor printr-o metodă ierarhică aglomerativă, between groups linkage, folosind distanțe euclidiene pătrate, squared euclidian distance. Voi standardiza variabilele în scoruri z și voi salva soluțiile cu 3, 4, 5, 6 și 7 grupuri. Iată cum arată schema de grupare. Voi prezenta doar primii șiultimii pași, întrucât tabelul este prea mare pentru
[Corola-publishinghouse/Science/2075_a_3400]
-
calea migrației. De asemenea, explorarea grafică a țărilor în funcție de aceste variabile ne poate ajuta la decizia privind numărul final de grupuri. Voi realiza o grupare a cazurilor printr-o metodă ierarhică aglomerativă, between groups linkage, folosind distanțe euclidiene pătrate, squared euclidian distance. Voi standardiza variabilele în scoruri z și voi salva soluțiile cu 3, 4, 5, 6 și 7 grupuri. Iată cum arată schema de grupare. Voi prezenta doar primii șiultimii pași, întrucât tabelul este prea mare pentru a fi reprodus
[Corola-publishinghouse/Science/2075_a_3400]
-
de puncte care redă cel mai bine proximitățile dintre obiecte, în general se stabilește o configurație inițială a obiectelor (punctelor) într-un spațiu cu un număr de dimensiuni stabilit, apoi se calculează distanțele dintre acestea. Distanța dintre puncte este cea euclidiană (atunci când nu este indicat altfel). Matricea distanțelor se notează cu D, iar cu dij distanța dintre obiectele i și j în spațiul R-dimensional, adică distanța dintre punctele xi și xj, dij=d(xi,xj). Mai departe, vom încerca să transformăm
[Corola-publishinghouse/Science/2075_a_3400]
-
analiză RMDS sau una WMDS). Nivelul de măsurare (Level of measurement) permite selectarea unui model metric sau non-metric) - evident, alegerea modelului depinde de nivelul de măsurare pentru proximități. La opțiunea de scalare Scaling model se va selecta varianta Individual differences Euclidian distances în cazul în care avem mai multe matrice de disimilaritate și dorim un model WMDS. În toate celelalte cazuri se va alege Euclidian distance. Secțiunea Conditionality ne permite să specificăm comparațiile care au sens: vom alege varianta potrivită în funcție de
[Corola-publishinghouse/Science/2075_a_3400]
-
de măsurare pentru proximități. La opțiunea de scalare Scaling model se va selecta varianta Individual differences Euclidian distances în cazul în care avem mai multe matrice de disimilaritate și dorim un model WMDS. În toate celelalte cazuri se va alege Euclidian distance. Secțiunea Conditionality ne permite să specificăm comparațiile care au sens: vom alege varianta potrivită în funcție de numărul de matrici de disimilaritate și tipul de model dorit, RMDS sau WMDS. Tot în acest meniu vom specifica numărul minim și numărul maxim
[Corola-publishinghouse/Science/2075_a_3400]
-
mult de realitatea dispunerii geografice a celor 23 de orașe din România. Totuși, există unele mici neconcordanțe. De exemplu, orașul Pitești se găsește la sud de București. Teoretic, dacă distanțele introduse de noi ar fi cele geografice, măsurate ca distanțe euclidiene (ca linii drepte între orașe), nu ar trebui să apară inexactități, căci distanțele modelului scalat ar corespunde perfect, conform algoritmului de reprezentare, transformatelor proximităților. De ce apar totuși mici erori? Explicația este simplă și nu se referă nici la algoritm, nici
[Corola-publishinghouse/Science/2075_a_3400]
-
datele originale (adică în evaluările subiecților, pentru cazul modelului general de scalare multidimensională) vor fi reflectate în disparitățile dintre transformatele proximităților obținute din setul de date original și distanțele din modelul scalat (i.e. din harta perceptuală, unde distanțele sunt distanțe euclidiene, adică linii drepte între puncte). Figura 5. Reprezentarea distanțelor și a transformatelor proximităților pentru model Modelul scalat bidimensional este adecvat pentru reprezentarea orașelor pe o hartă perceptuală. Știm acest lucru, deoarece cunoaștem realitatea geografică a dispunerii lor, și știm că
[Corola-publishinghouse/Science/2075_a_3400]
-
puține date de la subiecții maghiari. Matricele astfel reconstruite sunt matrice binare rectangulare, din moment ce numărul și subiecții de pe linii diferă de cei de pe coloane. Datele din cele două matrice nu reprezintă proximități, astfel încât au fost transformate în distanțe (proximități) folosind metrica euclidiană pentru valori binare. Matricea distanțelor a fost construită pentru scriitorii reprezentați prin variabilele din baza de date SPSS, adică scriitorii situați pe coloane în matricele de date obținute așa cum s-a descris mai sus1. Aceștia sunt scriitorii către care au
[Corola-publishinghouse/Science/2075_a_3400]
-
aflată pe coloane (în cazul nostru, n=5). Categoria i a variabilei X este reprezentată ca vector cu n coordonate (xi1, xi2,..., xin), coordonatele fiind date de profilul categoriei. Distanța spațiului în care trăim, cu care suntem obișnuiți, este distanța euclidiană. Conform definiției acesteia, distanța dintre două categorii i și j (distanța dintre cele două puncte corespunzătoare categoriilor i și j în spațiul n-dimensional) este următoarea: distanța(i, j)= Pentru a distinge mai bine între categorii, în analiza de corespondență
[Corola-publishinghouse/Science/2075_a_3400]
-
cele două puncte corespunzătoare categoriilor i și j în spațiul n-dimensional) este următoarea: distanța(i, j)= Pentru a distinge mai bine între categorii, în analiza de corespondență vom folosi distanța hi pătrat, care este o variantă ponderată a distanței euclidiene. Fiecare termen al sumei de pătrate va fi ponderat cu inversul profilului mediu respectiv (i.e. cu masele categoriilor de pe coloane). Astfel, distanța hi pătrat dintre două categorii i și j ale variabilei X (variabila „partid”) se calculează în felul următor
[Corola-publishinghouse/Science/2075_a_3400]
-
departe de originea axelor de coordonate, iar cele cu mai multe observații vor tinde să fie așezate aproape de centrul configurației. Centrul axelor de coordonate se numește centroid și este dat de profilul mediu (pe linii și pe coloane respectiv). Distanțele euclidiene dintre puncte aproximează distanțele hi pătrat. Punctele (categoriile) pot fi reprezentate perfect într-un spațiu cu n-1 dimensiuni. Problema de rezolvat este aceea de retrasare a axelor astfel încât să se afle cât mai aproape de puncte (i.e. distanțele ponderate de la
[Corola-publishinghouse/Science/2075_a_3400]
-
fereastră în care putem defini caracteristicile modelului de analiză. În primul rând, vom defini distanța dintre categorii pe care o vom folosi. Analiza de corespondență standard folosește distanțele hi pătrat - și recomand folosirea acesteia. În cazul în care folosim distanța euclidiană, care nu are proprietățile metrice ale distanței hi pătrat, va trebui definită o metodă de standardizare a datelor. Metoda de normalizare se referă la felul în care este distribuită inerția pentru scorurile de pe linii și de pe coloane și are de-
[Corola-publishinghouse/Science/2075_a_3400]
-
de pe rânduri, nici cele dintre categoriile de pe coloane nu sunt aproximări ale distanțelor hi pătrat. Această metodă se folosește atunci când suntem interesați de similaritățile și diferențele dintre cele două variabile. Varianta Principal folosește distanțe care sunt aproximări ale distanțelor alese (euclidiene sau hi pătrat). Această metodă se folosește atunci când suntem interesați de distanțele dintre categoriile fiecărui set de date separat. În acest caz, reprezentările celor două configurații într-un singur grafic nu sunt posibile, iar SPSS nu permite realizarea acestuia. Apăsând
[Corola-publishinghouse/Science/2075_a_3400]