Textgenerierung aus visuellen Daten: Beschreibungen von Straßenszenen
Hans-Joachim Novak
Das Thema der Untersuchung ist die algorithmische Generierung einer natürlichsprachlichen Beschreibung einer Bildfolge, wobei von einer symbolischen Repräsentation der Bildfolge ausgegangen wird, die im wesentlichen die erkannten Objekte, sowie deren Ort und Orientierung für jedes Bild der Folge enthält. Fragen der Textgenerierung werden in umfassender Weise unter dem Aspekt der Beschreibung visueller zeitveränderlicher Daten behandelt, für die ein Verfahren zum Erzeugen kohärenter Beschreibungstexte angegeben wird. Dem Verfahren liegt der Gedanke zugrunde, dem Hörer/Leser den Aufbau einer mentalen Vorstellung von den beschriebenen Bewegungen zu ermöglichen. Insbesondere wird ein Computerprogramm vorgestellt, das NAOS-System, das von der Erkennung von Teilbereichen einer Bildfolge, die durch ein Verb beschrieben werden können, bis zur Ausgabe des kohärenten Beschreibungstextes alle notwendigen Prozesse beispielhaft integriert. NAOS verbindet damit zwei bisher weitgehend separat verfolgte Teilbereiche der Künstlichen Intelligenz, Bildverstehen und Verarbeitung natürlicher Sprache. Die umfassende Behandlung der Fragestellung reicht von der theoretischen Diskussion bis zur praktischen Implementation.