Relevanta Continutului - Modelul spatio-vectorial Salton
Modelul spatio-vectorial SaltonMotoarele de cautare, sau sistemele IR, intrebuinteaza termenilor o anumita greutate, "importanta", in functie de:
1. Informatii locale din documente individuale
2. Informatii globale dintr-un numar mare de documente
Trebuie sa mentionam ca sistemele de cautare intrebuinteaza o anumita importanta linkurilor, folosind metode grafice pentru a determina conexiunile dintre documente. Schema clasica folosita este schema Spatio-vectoriala al lui Salton :
Prima Ecuatie :
Valoarea Termenului: Wi = tfi * log(D/dfi)
de unde :
tfi= frecventa termenilor sau numarul de aparitie al acestora intr-un anumit document
dfi= numarul documentelor care contin termenul "i"
D= numarul documentelor din baza de date
Conform lui Callan, marea majoritate a motoarelor de cautare functioneaza dupa un model mult simplificat :
Wi = tfi
adica valoarea termenului este dat de frecventa aparitiei acestuia.
Sunt multe persoane, care acorda o importanta exagerata elementelor meta dintr-o pagina web, importanta acestore insa se va dezbate intr-un alt articol.
Din puctul de vedere al algoritmului folosit, exista doua tipuri de motoare de cautare, unul perfectionat, care va analiza intreaga informatie din codul sursa a paginii web si va ordona o scara a primilor 50 de cuvinte cheie (ipotetic), si sunt unele supreficiale - lente, care analizeaza informatiile doar din elementele Meta, neluand in considerare continutul paginii.
Importanta - valoarea locala
Prima ecuatie arata ca Wi creste odata cu tfi. Adica "valoarea documentului" creste odata cu cresterea frecventei termenilor intr-un document, lucru care demonstreaza vulnerabilitatea ecuatiei in cazul abuzului de termeni (repetarea excesiva a celuias termer = spam de cuvinte cheie) deoarece:
1. In cazul documentelor de aceeasi lungime si topic relevant, cele care cunosc o densitate ridicata, sunt favorizate in cadrul afisarii rezultatelor pentru termenul cautat.
2. In cazul documentelor cu o lungime diferita, documentele lungi sunt favorizate, deoarece posibilitatea de a contine mai multe cuvinte cheie este mult mai ridicata decat in cazul documentelor scurte.
Acest lucru demostreaza ca termenii care apar frecvent in documente ( cuvinte de legatura, cum ar fi: este, de, in, etc) vor obtine o "valoare pe termen" scazuta, pe cand termenii cu o frecventa redusa, vor obtine o "valoare pe termen" ridicata.
Calculul densitatii cuvintelor cheie poate fi reprezentat prin urmatoarea ecuatie:
KDi= tfi/Li
de unde:
tfi= reprezinta frecventa de aparitie a termenului "i" intr-un document
Li=este numarul total de termeni dintr-un document
in concluzie, densitatea cuvintelor cheie este doar un parametru local, si se refera la concentratia termenilor intr-un document, fara a lua in considerare pozitionarea, dispersia acestora in document.
Credem ca acesta este un lucru important de mentionat, deoarece exista prea multe persoane care isi petrec timpul cu realizarea unei structuri perfecte in ceea ce priveste densitatea cuvintelor cheie, energie care poate fi directionata spre intelegerea altor elemente privind motoarele de cautare...
Inainte de a trece la subiectul urmator, vom incerca sa demonstram afirmatiile de mai sus printr-un exemplu simplu.
Luand in considerare ecuatia de mai sus, daca un termen i se repeta de acelasi ori in doua documente diferite, acestia au aceeasi densitate de cuvinte cheie, fara a se lua in considerare contextul - tipul documentului, sau natura bazei de date, ne referim aici la existenta sinonimitatii intre termeni, sau termeni cu mai multe intelesuri (polisemie).