Latent Semantic Indexing (LSI) - ein kurzer Überblick


Presentation (Elaboration), 2001

15 Pages, Grade: 2,0


Excerpt


Inhalt

Vektorraum- Modell und seine Verbesserung: LSI

Was ist LSI?

Wie funktioniert LSI?

Einsatz von LSI im Cross-Language Information Retrieval
Cross-Language-LSI (CL-LSI)
Machine Translation-LSI (MT-LSI)

Singular Value Decomposition (SVD) (englisch)

Vor- und Nachteile von LSI

Literatur

Mehr zum Thema LSI

1 Vektorraum-Modell und seine Verbesserung: LSI

Latent Semantic Indexing ist eine Variante des Vektorraum-Modells.

Das Vektorraum-Modell:

Bei dieser Retrieval-Methode werden in einem n-dimensionalen Raum Anfragen und Dokumente in Form von Vektoren repräsentiert, wobei jeder Suchbegriff eine Dimension darstellt. Die gefundenen Dokumente werden aufgrund ihrer Deskriptoren als Vektoren in den Raum eingeordnet, ihre Position im Raum bezeichnet ihre Relevanz. Messbar wird die Ähnlichkeit zwischen Anfrage und Dokument anhand des Cosinus- Winkels zwischen Anfrage- und Dokumentvektor: Je kleiner das Cosinus-Maß des Winkels zwischen Anfrage und Dokument, desto größer die Ähnlichkeit zwischen Dokument und Anfrage.

Abbildung in dieser Leseprobe nicht enthalten

Mehr zum Thema Vektorraum-Modell unter:

http://www.informatik.hu-berlin.de/~schulzki/sm/sm2-2.html Verifizierungsdatum: 15.08.01

http://www.iud.fh-darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26 Verifizierungsdatum: 15.08.01

Die Vektor-Retrieval-Methode ist weit verbreitet, hat jedoch den Nachteil, dass sie Terme als voneinander unabhängig betrachtet. Wie bei den anderen „klassischen“ Retrieval-Techniken (Boolsches Retrieval, probabilistisches Retrieval, vgl. http://www.iud.fh-darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26) werden exakte Übereinstimmungen zwischen in der Anfrage enthaltenen und in den Dokumenten verwendeten Termen, unabhängig vom Kontext, in dem sie gebraucht werden gesucht. Diese Technik ist in der Hinsicht problematisch, dass es z.B. für ein und dieselbe Sache oft verschiedene Bezeichnungen gibt, und somit relevante Dokumente oft nicht ausgegeben werden, weil im Dokument eine andere Bezeichnung als in der Anfrage verwendet wurde. Hier setzt Latent Semantic Indexing an: Dokumente werden aufgrund von Wort-Assoziationen und kontextuellen Zusammenhängen indexiert, sodass auch relevante Dokumente, die mit der Anfrage keine Wörter gemeinsam haben gefunden werden.

2 Was ist Latent Semantic Indexing?

- Variante der Vektor-Retrieval-Methode, bei der die Abhängigkeiten zwischen Termen zur Verbesserung des Retrievals genau und automatisch modelliert werden
- Abweichen von traditionellen Retrieval- Methoden, die auf dem Prinzip des exact match zwischen Termen in Anfrage und Dokument basieren, und die Wörter behandeln, als wären sie voneinander unabhängig
- Methode zur Verbesserung des Document Retrieval die berücksichtigt, dass Wörter in Dokumenten nicht unabhängig voneinander und zufällig verwendet werden, sondern dass sie in impliziten Abhängigkeiten - „latent semantics -, basierend auf ihrer Bedeutung, zueinander stehen
- LSI umgeht Probleme der traditionellen Retrieval-Methoden (z.B. verschiedene Ausdrücke für ein- und dieselbe Sache) durch eine Indexierung der Dokumente basierend auf sekundären und tertiären Wort-Assoziationen, den semantischen Relationen, welche man erhält, indem man Muster eruiert, nach welchen Wörter gemeinsam verwendet werden
- LSI erleichtert die Konstruktion eines mehrdimensionalen Raumes, in dem Terme und Dokumente einander zugeordnet werden
- Diese Methode erstellt erst eine Repräsentation von Gebrauch/Bedeutung eines Wortes und nutzt dann diese Repräsentation für das Retrieval, der abgeleitete feature space reflektiert diese Wechselbeziehungen

3 Wie funktioniert LSI?

- Dokumente werden im Hinblick auf Ähnlichkeiten bei kontextuellen Zusammenhängen analysiert
- Analyse der Dokumente mit Hilfe von singular value decomposition (SVD)
- Durch SVD werden assoziative Beziehungen zwischen Termen untersucht, der Gebrauch von externen Wörterbüchern, Thesauri oder knowledge bases ist dafür nicht nötig, Wort-Assoziationen werden abgeleitet durch numerische Analyse existierender Texte
- Entwicklung einer Repräsentation von Gebrauch und Bedeutung der Worte in einem mehrdimensionalen Raum

- Erstellung einer Correlation Matrix, ähnlich wie bei Boolschem Retrieval: Zeilen sind Wörter, Spalten sind Dokumente
- Zuordnung eines Werts zu einem Wort (z.B. „0“ oder „1“), je nachdem, ob es im Dokument vorkommt oder nicht
- Jede Reihe von Wörtern definiert eine rechtwinklige Dimension
- Während des LSI-Prozesses wird diese word x document Matrix, ein high-dimensional Raum, mit Hilfe von SVD in einen, in den Dimensionen reduzierten Raum umgewandelt, Vektoren werden mit in den reduzierten Raum übertragen und somit näher zusammen geschoben
- Leitet man vom reduced dimension space wieder die zugrunde liegende Matrix ab, so zeigt sich, dass sich einige Einträge verändert haben

[...]

Excerpt out of 15 pages

Details

Title
Latent Semantic Indexing (LSI) - ein kurzer Überblick
College
University of Hildesheim  (Angewandte Sprachwissenschaft)
Course
Virtuelles Hauptseminar
Grade
2,0
Author
Year
2001
Pages
15
Catalog Number
V21633
ISBN (eBook)
9783638252065
File size
683 KB
Language
German
Keywords
Latent, Semantic, Indexing, Virtuelles, Hauptseminar
Quote paper
Irene Götz (Author), 2001, Latent Semantic Indexing (LSI) - ein kurzer Überblick, Munich, GRIN Verlag, https://www.grin.com/document/21633

Comments

  • No comments yet.
Look inside the ebook
Title: Latent Semantic Indexing (LSI) - ein kurzer Überblick



Upload papers

Your term paper / thesis:

- Publication as eBook and book
- High royalties for the sales
- Completely free - with ISBN
- It only takes five minutes
- Every paper finds readers

Publish now - it's free