Optimierung des semantischen Informationszugriffs auf Technische Dokumentation
Jörg Hennig, Jan Oevermann, Marita Tjarks-Sobhani
Technische Dokumentation wird oft in Formaten bereitgestellt, die keinen granularen und semantischen Zugriff auf die benötigten Informationen zulassen. Dadurch können viele Inhalte nicht in moderne Digitalisierungsszenarien integriert werden und sind aus Sicht des Information Retrieval schwer zugänglich. In dieser Arbeit werden vier Optimierungen vorgestellt, die durch den Einsatz von Maschinellem Lernen und semantischen Technologien die notwendige Aufbereitung automatisieren.
Die Ergebnisse der durchgeführten Versuche zeigen, dass eine domänenspezifische Anpassung etablierter Methoden eine wesentliche Verbesserung des Informationszugriffs bewirkt. Auf Basis etablierter Konzepte in der Technischen Dokumentation wird zunächst ein Optimierungsmodell für den semantischen Informationszugriff entwickelt, das Methoden und ihre softwaregestützte Anwendung in ein einheitliches Schema einordnet. Vier konkrete Untersuchungen gehen jeweils im Detail auf die speziellen Herausforderungen im Bereich der Technischen Dokumentation ein: die semantische Ähnlichkeitsanalyse zur Identifikation von unkontrollierten Varianten, die automatisierte Klassifizierung von Modulen im Content Management, die formatierungsunabhängige Segmentierung von PDF-Dokumenten und die einheitliche Annotation heterogener Datenquellen mit semantischen Konzepten.