Anwendung wahrscheinlichkeitstheoretischer Methoden in der linguistischen Informationsverarbeitung
Mahmoud Gindiyeh
In dieser Dissertation wird gezeigt, wie linguistische Analyseverfahren als Grundlage für statistische Verfahren beim Information Retrieval verwendet werden können. Ausgehend von den Ergebnissen einer automatischen Termextraktion, die auf lexikalischen und grammatischen Wissensquellen basiert, werden Verfahren entwickelt, die zentrale Aufgabenstellungen der Informationsverarbeitung optimieren, wie etwa die Berechnung der Ähnlichkeit von Dokumenten, die Klassifikation von Dokumenten oder die Ermittlung von Wortwolken. Es wird dabei die wichtige Rolle der Wahrscheinlichkeitstheorie bei vielen Verfahren und Anwendungen der Computerlinguistik und des maschinellen Lernens deutlich.
Ziel dieser Arbeit ist es also, aufzuzeigen, wie linguistische und statistische Verfahren kombiniert und aufeinander abgestimmt werden müssen, um bei einigen konkreten Aufgaben des Information Retrieval optimale und in der Praxis brauchbare Ergebnisse zu erzielen. Beispielhaft werden die Teilaufgaben Termextraktion und Termgruppierung, Dokumentenähnlichkeit, Dokumentenklassifikation und Wortwolken behandelt und an konkreten praktischen Fallstudien veranschaulicht.