Korpusbasierte Verfahren zur Generierung lexikalischer Ressourcen für das Opinion Mining
Dirk Reinel
Die ständig zunehmende Anzahl nutzergenerierter textueller Daten im World Wide Web, wie beispielsweise Kundenrezensionen, und die Begehrlichkeiten diese Daten hinsichtlich der darin ausgedrückten Meinungen zu Unternehmen, Produkten, Dienstleistungen etc. maschinell auszuwerten, erfordern gut funktionierende, angepasste Methoden des Opinion Mining. Die Grundlage für viele dieser Methoden bilden lexikalische Ressourcen in Form von Lexika meinungstragender Wörter und Phrasen. Diese Lexika existieren bisher allerdings nur für ausgewählte Sprachen, haben diverse inhaltliche Lücken, und sind automatisch (für verschiedene Sprachen) nur mit großem Aufwand zu erzeugen.
In dieser Arbeit wird deshalb ein neues Verfahren vorgestellt, das dazu beitragen soll, die benannten Probleme – durch den Einsatz statistischer Methoden – zu überwinden. Zudem wurde, mittels dieses Verfahrens, der Prototyp eines neuen Lexikons mit meinungstragenden Wörtern und Phrasen für die deutsche Sprache generiert und anschließend evaluiert. Dafür wurde im Rahmen eines Experiments mit 20 Teilnehmern ein Basis-Referenzlexikon für die deutsche Sprache manuell erzeugt.
Klassische Einsatzgebiete der Opinion Mining Algorithmen und Ressourcen, und damit des vorgestellten Verfahrens, sind Systeme zur Erfassung von Kundenmeinungen zu verschiedenen Unternehmensbereichen zur Unterstützung des Beschwerde- und Reputationsmanagements. Allerdings sind die Möglichkeiten des neu entwickelten Verfahrens nicht auf diese klassischen Anwendungsfelder begrenzt. Auch der interdisziplinäre Einsatz, z.B. zur Untersuchung von Sprachvarietäten im Forschungsfeld der Sprachstatistik, ist denkbar.