Inhoud
In dit artikel laten we u kennis maken met een bijzonder geavanceerde en nuttige methode die berekent hoe relevant verschillende woorden zijn als ze met elkaar vergeleken worden. Latent semantic indexing berekent om het in correcte woorden uit te leggen de zogenaamde semantische afstand tussen verschillende woorden.
Hierbij dient er van uit te worden gegaan dat woorden die aan elkaar verwant zijn een kleine semantische afstand hebben terwijl woorden die helemaal niets met elkaar te maken hebben beschikken over een grote semantische afstand. Latent semantic indexing is op deze manier in staat om verbanden te leggen tussen verschillende teksten die, hoewel ze gebruik maken van andere woorden, toch over hetzelfde onderwerp gaan.
Wat is latent semantic indexing?
Laat ons nu even dieper ingaan op de werking van latent semantic indexing. Bij deze analyse wordt er gekeken naar welke woorden al dan niet met elkaar verwant zijn. Aan elkaar verwante woorden worden vervolgens in groepen opgedeeld. Wanneer dit is gebeurd zullen de teksten op hun beurt eveneens aan de verschillende groepen gekoppeld worden. Latent semantic indexing doet dus met andere woorden niets anders dan een link te leggen tussen de inhoud van verschillende teksten. We geven u een voorbeeld van latent semantic indexing:
In dit voorbeeld maken we gebruik van tweedehands dvd’s. Een LSI analyse zou in dit geval kunnen aantonen dat “tweedehands”, “dvd’s”, gebruikt”, “occasie” en “zoeken” vaak bij elkaar staan in een tekst. De tekst gaat immers over het verkopen van tweedehandse dvd’s en dan wordt er bijna automatisch een link gelegd tussen deze verschillende woorden. LSI besluit na analyse van de tekst dat andere teksten die veelvuldig gebruik maken van dezelfde woorden meer dan waarschijnlijk over hetzelfde onderwerp zullen gaan.

Stel nu dat er twee teksten zijn waarvan de ene tekst spreekt over “tweedehandse dvd’s” en de andere over “occasie films”. Een standaard geautomatiseerd programma zal hier geen link in herkennen, want er wordt immers gebruik gemaakt van verschillende kernwoorden. LSI maakt het mogelijk om welk een link te leggen tussen dit onderwerp en zo meer relevante documenten terug te vinden.
Hoe interessant latent semantic indexing ook maar zijn, het is technisch niet mogelijk om het volledige internet aan een dergelijke analyse te onderwerpen. Simpelweg omdat servers niet over voldoende rekencapaciteit beschikken om dit tot stand te kunnen brengen. Dit zorgt er eveneens voor dat ook zoekmachines moeten gaan nadenken over hoe ze deze methode in hun voordeel kunnen gebruiken. Het antwoord was in principe vrij eenvoudig. Zoekmachines lossen dit probleem namelijk op door de analyse toe te passen op kleinere groepen teksten.
Probleem van latent semantic indexing
Het grote probleem waar latent semantic indexing mee te maken heeft gekregen is dat het geen rekening houdt met het feit dat er verschillende onderwerpen in een tekst voor kunnen komen. Andere methodes zoals Probabilistic Latent Semantic Analysis kunnen dit wel. In principe zijn deze methodes niet meer dan varianten op de LSI methode, maar dan met de mogelijkheid om vast te stellen hoe gerelateerde een tekst is aan een bepaald onderwerp. Stel nu dat het een tekst betreft over voetbal en tennis, dan is een dergelijke methode in staat om uit te rekenen hoe gerelateerd de tekst is aan het onderwerp voetbal en hoe gerelateerde het is aan tennis.
Google gaat het dan weer nog verder zoeken. Deze populaire zoekmachine maakt gebruik van een methode waarbij ook de volgorde van woorden en zinnen mee telt. Woorden die aan elkaar gerelateerd zijn staan doorgaans dicht bij elkaar in een zin en zo probeert deze methode ook verbanden te leggen.
Het herkennen van relaties tussen verschillende woorden is een geavanceerde manier van data verwerken en het wordt over het algemeen aangenomen dat zoekmachines hier aanzienlijk rekening mee houden. Hou er rekening mee dat het met opzet in de kijker plaatsen van verschillende woorden snel door de zoekmachines wordt herkend. Een dergelijke tekst zal dan ook vaak niet of slechts zeer beperkt in de zoekresultaten voorkomen. Wie de methode slim gebruikt kan er echter zeker een aanzienlijk voordeel uithalen. Het is dus altijd verstandig om rekening te houden met latent semantic indexing.