Elementele Valorii Vectoriale a unui termen
Am dezbătut ipoteza şi ecuaţiile teoriei vectoriale privind valoarea termenilor şi, pentru înţelegerea profundă a teoriei, vom realiza următorul exemplu:
Să considerăm un termen index, care conţine următoarele cuvinte: "pagini", "web" şi "design". Baza de date este formată din 3 documente. Vom calcula frecvenţa de apariţie a termenilor în fiecare document, de unde reiese:
Documentul 1: pagini (de 4 ori) ; web (de 3 ori) ; design (de 5 ori)
Documentul 2: pagini (de 1 ori) ; web (de 4 ori) ; design (de 2 ori)
Documentul 3: pagini (de 3 ori) ; web (de 0 ori) ; design (de 1 ori)
Luăm un sistem şi vom efectua o căutare pe termenul
"web". În urma căutării vom obţine 0 pentru termenul "pagini", 0 pentru termenul "design" şi 1 pentru termenul "web", 0 = fals, 1 = adevărat.
| Termenul index |
Date |
|
Căutare="Web" |
| |
Contor apariţie, tf |
|
Contor căutare |
| Termeni |
DOC 1 |
DOC 2 |
DOC 3 |
|
Q |
| pagini |
4 |
1 |
3 |
|
0 |
| web |
3 |
4 |
0 |
|
1 |
| design |
5 |
2 |
1 |
|
0 |
| Coordonate
| (4,3,5) |
(1,4,2) |
(3,0,1) |
|
(0,1,0) |
| Magnitudine
| |D1| |
|D2| |
|D3| |
|
|Q| |
Dacă analizăm tabelul, coloană cu coloană :
- prima coloană conţine termenii specifici din cele trei documente
- coloana 2, 3 şi 4 conţine date privind apariţia termenilor în fiecare document. Apariţia acestora fiind reprezentată prin coordinate specifice apariţiei acestora în spaţiul vectorial.
Coordinatele fiecărui document fiind: (4,3,5), (1,4,2) şi (3,0,1). În cazul în care coordinatele de pornire sunt (0,0,0), distanţa punctelor de la locul de origine-pornire poate fi reprezentată printr-un vector. Lungimea magnitudinii acestor vectori poate fi calculat cu ajutorul teoremei lui Pithagora.
- coloana 4 arată coordinatele privind termenul căutat de către noi, care în cazul nostru este (0,1,0)
Calculul Magnitudinii
Prin definiţie, un Vector are o magnitudine şi o direcţie. În vederea calculării magnitudinii vectorilor, vom folosi teorema lui Pithagora, de unde pentru
n dimensiuni:
| |Di| = (a1(2) +a2 +a3 +a4+.....an) (1/2) |
În exemplul nostru n = 3 , deci în cazul acesta magnitudinile vor arăta în felul următor:
|D1| = (16 + 9+ 25)(1/2)= 50(1/2) = 7.333
|D2| = 1+16 + 4 = 4.733
|D3| = 9+0 +1 = 3.333
|Q| = 0 + 1 +0 = 1
Înainte de a calcula direcţia vectorilor (valoare cosinus), avem nevoie de mărimea scalară, acesta fiind calculat din valorea coordinatelor, iar în cazul documentului 1 vom obţine următoarele rezultate:
Coordinate:
Vectorul căutării (0,1,0)
Vectorul DOC 1 (4,3,5)
de unde rezultă:
Q * D1 = 0*4 +1*3 + 0*5 = 0 + 3 + 0 = 3
Notă: Scalarul este reprezentat prin suma dintre contor căutare şi contor termeni.
În cazul acesta obţinem următoarele rezultate :
pentru DOC 1 : Q*D1 = 3
pentru DOC 2 : Q*D2 = 4
pentru DOC 3 : Q*D3 = 0
După ce am obţinut rezultatele mărimii scalarului să calculăm şi valoare cosinus ~ direcţia vectorilor.
Cos D1 = Q*D1/ (|Q|*|D1|) = 3/(1*7.333) = 0.409
Cos D2 = Q*D2/ (|Q|*|D2|) = 4/(1*4.733) = 0.8451
Cos D3 = Q*D3/ (|Q|*|D3|) = 0/(1*3.333) = 0
După cum putem vedea :
| DOC 2 |
|
|
| DOC 1 |
| este mai puţin relevant !!! |
|
|
| DOC 3 |
| este cel mai puţin relevant !!! |
|
|