Importanta Co-ocurentei si Semantismului

Pe scurt, termenii, conceptele, care apar frecvent impreuna, tind sa fie considerate ca si asociate, cum ar fi de exemplu, cand auzim termenul "Dracula" ne gandim la "Transilvania" si nu la Germania sau Italia. Acesta reprezinta de fapt, o asociere semantica dintre doi termeni.

De ce este important cunoasterea semantismului din punctul de vedere al Marketingului Online?

Iata cateva exemple:

- Asociere de cuvinte cheie - Informatii utile privind un "Brand " in cadrul motoarelor de cautare - Pozitionarea documentelor in cadrul listarilor motoarelor de cautare - Cercetarea cuvintelor cheie

Manfred Wettler si Reinhard Rapp de la Universitatea din Paderbon, au efectat studii importante in ceea ce priveste folosirea semantismului si co-ocurentei in cadrul motoarelor de cautare, si au ajuns la concluzia, ca asociatiile normale, bazate pe co-ocurenta cuvintelor pot fi folosite pentru:

- generarea de cuvinte cheie pentru documente - efectul cuvintelor asupra publicului larg in cadrul unei campanii publicitare

Intelegerea co-ocurentei

In functie de sursa, co-ocurenta poate fi:

1. Globala: extrasa dintr-o baza de date
2. Locala: extrasa dintr-un document individual
3. Fractala: extrasa din sine


Partea de calcul teoretic este diferit in cadrul fiecarui tip de co-ocurenta. Datele obtinute de pe urma co-ocurentei pot fi folosite pentru a extrage o lista de termeni asociati, sau o lista de sinonime. Este evident ca intelegerea fenomenului de co-ocurenta este foarte importanta pentru intelegerea semantismului in cadrul motoarelor de cautare.

Pentru a ilustra relatiile de semantism dintre doi termeni, care nu sunt sinonime, putem folosi statisticile de aparitie, sau frecventa cuvintelor in cadrul unor documente. Aparitia frecventa a doua cuvinte non-sinonime poate atrage dupa sine o co-ocurenta relativa, totusi, descoperirea de sinonime, sau generarea unei liste cu sinonime, necesita statistici de ordinul doi. Exista cazuri cand, pentru determinarea sinonimitatii, sunt necesare statistici de ordinul trei sau statistici superioare pentru a putea rezolva fenomenul de "tranzitie" dintre doi termeni. Pentru a intelege mai bine, in cazul cuvintelor sinonime, avem nevoie de statistici de ordinul doi, deoarece termenii sinonimi rareori apar impreuna, de obicei apar in acelasi context.

Termeni "granita" sau "limita"

Extragerea datelor de co-ocurenta, fara o intelegere adecvata a teoriei acesteia, poate induce pe unii la concluzii gresite. Urmatorul exemplu ilustreaza foarte bine punctul de mai sus.

Sa presupunem ca dorim sa efectuam o cautare de sinonimitate pentru substantivul "caine", folosind doi alti termeni: "Canin" si "Animal de casa" . Pentru identificarea termenilor cheie sa folosim litera "R", si sa realizam doua scenarii de co-ocurenta. in vederea obtinerii unor date cat mai exacte, sa ignoram toate celelalte scenarii posibile, combinatii de termeni sau anumite secvente ale acestora:

1. scenariul 1: R1= caine R2= canin 2. scenariul 2: R1= caine R2= animal de casa

in urma unor cautari efectuate in Google.ro pentru acesti termeni, vom obtine urmatoarele rezultate:

1. Rezultate 1 - 10 din aproximativ 143.000 romana pagini pentru caine. = 143.000 2. Rezultate 1 - 10 din aproximativ 30.500 romana pagini pentru canin. = 30.500 3. Rezultate 1 - 10 din aproximativ 183.000 romana pagini pentru animal de casa. = 183.000

Pentru cuvintele "caine" si "animal de casa" obtinem un numar mult mai ridicat de rezultate decat in cazul cuvantului "canin". Aceste rezultate nu sunt surprinzatoare, si au de-a face cu scopul termenilor. Spre deosebire de "canin", cuvintele "caine" si "animal de casa" sunt foarte apropiate in ceea ce priveste scopul acestora, din aceasta cauza sunt numite si termeni de "flanc" . De mentionat este faptul ca termenii, care sunt limitate in relatie cu alti termeni, prin scopul lor, cum ar fi "canin", sunt asa numitele "Termeni de apropiere", sau "Termeni de vecinatate".

Nota: - exista o relatie de sinonimitate intre termenii "canin" si "caine" , dar nu intre termenii "canin" si "animale de casa" sau " animale de casa" si "caine" - "canin" are diferite insemnari (polisemie) - "canin" face parte dintre acele cuvinte care poseda un inteles in cadrul unui inteles. Pentru a intelege despre ce vorbim, iata un exemplu descriptiv : "Caninul unui canin". Folosind termenul in acest fel, acesta la randul sau se va comporta ca avand un scop in cadrul scopului.

Sa examinam cum afecteaza natura acestor termeni co-ocurenta globala a acestora in cadrul motoarelor de cautare (Google).

Co-Ocurenta Globala

in cadrul motorului de cautare Google modul de cautare de baza este " Find all" - "gaseste tot", cunoscut si sub numele de "si sau and". in acest fel cautarile sunt realizate fara a tine seama de ordinea cuvintelor, adica sistemul are tendinta de a gasi toate rezultatele care contin macar unul din termeni, indiferent de ordinea acestora.

1. Scenariul 1: Rezultate 1 - 10 din aproximativ 14.000 pagini romane pentru caine animal de casa, pentu cuvintele cheie R12 = R1 + R2 = caine animal de casa 2. Scenariul 2 : Rezultate 1 - 10 din aproximativ 584 pagini romane pentru caine canin, pentru cuvintele cheie R12= R1 +R2 = caine canin

in cazul acesta, in urma ambelor cautari obtinem mai putine documente - rezultate, ceea ce este si de inteles, deoarece motorul de cautare Google a afisat toate acele rezultate care contin combinatia de termeni. Datorita acestuia, expresia de " Co-ocurenta globala" este foarte propice.

Daca interpretam rezultatele, vom ajunge la urmatoarele concluzii: termenul de "caine" este mult mai des folosit - co-ocurent cu termenul de "animal de casa", decat cu termenul "canin", deoarece:

- in scenariul 1 combinam doi "termeni de flanc" - in scenariul 1 termenii folositi nu sunt sinonimi - in scenariul 2 combinam un "termen de flanc" cu un "termen de vecinatate"

in scenariul 2 termenii sunt sinonimi, si dupa cum am mentionat termenii sinonimi rareori apar impreuna, de obicei apar in acelasi context.

Co-ocurenta Normalizata

Metoda de co-ocurenta globala este o forma a co-ocurentei fara o anumita normalizare, adica pentru diferite combinatii de termeni ne sunt afisate diferite seturi de documente. Pentru o intelegere mai exacta este nevoie de o normalizare a co-ocurentei dintre doi termeni, mentionand, ca normalizarea respectiva se refera, sau poate fi utilizata doar in cazul a doar doi termeni.

Indexul de co-ocurenta, sau "Cindex", in cazul a doi termeni, R1 si R2, va arata in felul urmator:

c12 = n12/ n1+n2-n12

de unde: - c12 = 0 in cazul in care n12 = 0 ; R1 si R2 nu au nici o relatie de co-ocurenta (sunt doi termeni care se exclud mutual) - c12 > 0 in cazul in care n12 > 0 ; intre R1 si R2 exista o relatie de co-ocurenta (termenii nu se exclud mutual) - c12 = 1 in cazul in care n12 = 1 ; intre R1 si R2 exista o relatie de co-ocurenta in toate cazurile cand unul dintre termeni apare

Aplicand ecuatia Cindex in cazul exemplului mai sus amintit, vom obtine urmatoarele rezultate:

Scenariul 1: Cindex= (14000/ 143.000 + 183.000 -14.000) * 1000 = 44.8 ppt (parti pe milion) Scenariul 2 : Cindex = (548/ 143.000 + 35.000 - 548) * 1000 = 3.088 ppt (parti pe milion)

Urmarind rezultatele, ajungem la concluzia, ca termenul de "caine" are o co-ocurenta de 14 ori mai mare cu termenul "animal de casa", decat cu termenul "canin".