Co-Ocurenţa Globală
În cadrul motorului de căutare Google modul de căutare de bază este " Find all" - "găseşte tot", cunoscut şi sub numele de "şi sau and". În acest fel căutările sunt realizate fără a ţine seama de ordinea cuvintelor, adică sistemul are tendinţa de a găsi toate rezultatele care conţin măcar unul din termeni, indiferent de ordinea acestora.
1. Scenariul 1: Rezultate 1 - 10 din aproximativ 14.000 pagini române pentru câine animal de casă, pentu cuvintele cheie R12 = R1 + R2 = câine animal de casă
2. Scenariul 2 : Rezultate 1 - 10 din aproximativ 584 pagini române pentru câine canin, pentru cuvintele cheie R12= R1 +R2 = câine canin
În cazul acesta, în urma ambelor căutari obţinem mai puţine documente - rezultate, ceea ce este şi de înţeles, deoarece motorul de căutare Google a afişat toate acele rezultate care conţin combinaţia de termeni. Datorită acestuia, expresia de " Co-ocurenţă globală" este foarte propice.
Dacă interpretăm rezultatele, vom ajunge la următoarele concluzii: termenul de "câine" este mult mai des folosit - co-ocurent cu termenul de "animal de casă", decât cu termenul "canin", deoarece:
- în scenariul 1 combinăm doi "termeni de flanc"
- în scenariul 1 termenii folosiţi nu sunt sinonimi
- în scenariul 2 combinăm un "termen de flanc" cu un "termen de vecinătate"
În scenariul 2 termenii sunt sinonimi, şi după cum am menţionat termenii sinonimi rareori apar împreună, de obicei apar în acelaşi context.
Co-ocurenţă Normalizată
Metoda de co-ocurenţă globală este o formă a co-ocurenţei fără o anumită normalizare, adică pentru diferite combinaţii de termeni ne sunt afişate diferite seturi de documente. Pentru o înţelegere mai exactă este nevoie de o normalizare a co-ocurenţei dintre doi termeni, menţionând, că normalizarea respectivă se referă, sau poate fi utilizată doar în cazul a doar doi termeni.
Indexul de co-ocurenţă, sau "Cindex", în cazul a doi termeni, R1 şi R2, va arăta în felul următor:
c12 = n12/ n1+n2-n12
de unde:
- c12 = 0 în cazul în care n12 = 0 ; R1 şi R2 nu au nici o relaţie de co-ocurenţă (sunt doi termeni care se exclud mutual)
- c12 > 0 în cazul în care n12 > 0 ; între R1 şi R2 există o relaţie de co-ocurenţă (termenii nu se exclud mutual)
- c12 = 1 în cazul în care n12 = 1 ; între R1 şi R2 există o relaţie de co-ocurenţă în toate cazurile când unul dintre termeni apare
Aplicând ecuaţia Cindex în cazul exemplului mai sus amintit, vom obţine următoarele rezultate:
Scenariul 1: Cindex= (14000/ 143.000 + 183.000 -14.000) * 1000 = 44.8 ppt (părţi pe milion)
Scenariul 2 : Cindex = (548/ 143.000 + 35.000 - 548) * 1000 = 3.088 ppt (părţi pe milion)
Urmărind rezultatele, ajungem la concluzia, că termenul de "câine" are o co-ocurenţă de 14 ori mai mare cu termenul "animal de casă", decât cu termenul "canin".