Optimizare
   Design
   Programare
   Marketing
   Tools
   Portfoliu
   Parteneri
   Forum
   Acasă
Vă oferim
  Studiu de Marketing
  Programare
  Web Design
  Promovare
  Optimizare
  Consultanţă


Modelul spatio-vectorial Salton

Motoarele de căutare, sau sistemele IR, întrebuinţează termenilor o anumită greutate, "importanţă", în funcţie de:  

1. Informaţii locale din documente individuale
2. Informatii globale dintr-un număr mare de documente

Trebuie să menţionăm că sistemele de căutare întrebuinţează o anumită importanţă linkurilor, folosind metode grafice pentru a determina conexiunile dintre documente. Schema clasică folosită este schema Spaţio-vectorială al lui Salton :

Prima Ecuaţie :
Valoarea Termenului:
Wi = tfi * log(D/dfi)
 

de unde :

    tfi = frecvenţa termenilor sau numărul de apariţie al acestora într-un anumit document
    dfi
    = numărul documentelor care conţin termenul "i"
    D
    = numărul documentelor din baza de date

Conform lui Callan, marea majoritate a motoarelor de căutare funcţionează după un model mult simplificat :

  Wi = tfi  

adică valoarea termenului este dat de frecvenţa apariţiei acestuia.

Sunt multe persoane, care acordă o importanţă exagerată elementelor meta dintr-o pagină web, importanţa acestore însă se va dezbate într-un alt articol.

Din puctul de vedere al algoritmului folosit, există două tipuri de motoare de căutare, unul perfecţionat, care va analiza întreaga informaţie din codul sursă a paginii web şi va ordona o scară a primilor 50 de cuvinte cheie (ipotetic), şi sunt unele supreficiale - lente, care analizează informaţiile doar din elementele Meta, neluând în considerare conţinutul paginii.

Importanţa - valoarea locală 

Prima ecuaţie arată că Wi creşte odată cu tfi. Adică "valoarea documentului" creşte odată cu creşterea frecvenţei termenilor într-un document, lucru care demonstrează vulnerabilitatea ecuaţiei în cazul abuzului de termeni (repetarea excesivă a celuiaş termer = spam de cuvinte cheie) deoarece:
    1. În cazul documentelor de aceeaşi lungime şi topic relevant, cele care cunosc o densitate ridicată, sunt favorizate în cadrul afişării rezultatelor pentru termenul căutat.
    2. În cazul documentelor cu o lungime diferită, documentele lungi sunt favorizate, deoarece posibilitatea  de a conţine mai multe cuvinte cheie este mult mai ridicată decât în cazul documentelor scurte.
Valoarea globală

În prima ecuaţie log(D/dfi) este cunoscut şi sub numele de frecvenţa inversă a documentelor IDF. După cum observăm, din ecuaţie rezultă că Wi descreşte odată cu creşterea lui dfi. Pentru a înţelege mai bine, vom folosi un exemplu simplu:

- într-o bază de date avem 1000 de documente, dintre care doar 10 conţin termenul "wedis", IDF= log(1000/10) = 2 , iar în cazul în care doar un singur document conţine termenul "wedis" IDF va arăta în felul următor IDF = log(1000/1) = 3

Acest lucru demostrează că termenii care apar frecvent în documente ( cuvinte de legătură, cum ar fi: este, de, în, etc) vor obţine o "valoare pe termen" scăzută, pe când termenii cu o frecvenţă redusă, vor obţine o "valoare pe termen" ridicată.  

Densitatea cuvintelor cheie 

Calculul densităţii cuvintelor cheie poate fi reprezentat prin următoarea ecuaţie:

  KDi= tfi/Li  
 
de unde:
    tfi = reprezintă frecvenţa de apariţie a termenului "i" într-un document
    Li =  este numărul total de termeni dintr-un document
În concluzie, densitatea cuvintelor cheie este doar un  parametru local, şi se referă la concentraţia termenilor într-un document, fără a lua în considerare poziţionarea, dispersia acestora în document.  

Credem că acesta este un lucru important de menţionat, deoarece există prea multe persoane care îşi petrec timpul cu realizarea unei structuri perfecte în ceea ce priveşte densitatea cuvintelor cheie, energie care poate fi direcţionată spre înţelegerea altor elemente privind motoarele de căutare...

Înainte de a trece la subiectul următor, vom încerca să demonstrăm afirmaţiile de mai sus printr-un exemplu simplu.

Luând în considerare ecuaţia de mai sus, dacă un termen i se repetă de acelaşi ori în două documente diferite, aceştia au aceeaşi densitate de cuvinte cheie, fără a se lua în considerare  contextul - tipul documentului, sau natura bazei de date, ne referim aici la existenţa sinonimităţii între termeni, sau termeni cu mai multe înţelesuri (polisemie).

    înainte

  Articole
 
Indexarea motoarelor de căutare
Caută pentru orice termen, folosind motorul tău de căutare preferat. Aproape instantaneu motorul de căutare va realiza o sortare
află mai mult...
 
Algoritmul Page Rankului
Page Rankul şi funcţionarea acestuia este un topic mult discutat în intermediul experţilor SEO. La baza acestuia stă o formulă matematică
află mai mult...
 
Motoare de căutare
Termenul de "Motor de căutare" este adesea folosit pentru a descrie atât motoarele de căutare bazate pe bots-uri (robot de căutare)
află mai mult...
 
Importanţa Coocurenţei& Semantismului
Pe scurt, termenii, conceptele, care apar frecvent împreună, tind să fie considerate ca şi asociate...
află mai mult...
 
Relevanţă conţinut
Motoarele de căutare, sau sistemele IR, întrebuinţează termenilor o anumită greutate, "importanţă"
află mai mult...