Automatischer Erwerb von linguistischem Wissen
Ein Ansatz zur Inferenz von DATR-Theorien
Petra Barg
In dieser Arbeit wird ein Verfahren entwickelt, mit dem strukturierte linguistische Beschreibungen maschinell erzeugt werden. Ausgangspunkt für eine zu erstellende Beschreibung ist eine Menge von Einzeldaten, die einen bestimmten linguistischen Gegenstandsbereich charakterisieren. Das aus diesen Daten automatisch gewonnene linguistische Wissen wird in der Sprache DATR repräsentiert, einem innerhalb der Computerlinguistik entwickelten vererbungsbasierten Formalismus zur Repräsentation lexikalischer Information. Die Strukturierung eines gegebenen linguistischen Bereiches erfolgt über die Identifikation und Repräsentation von Beziehungen zwischen den Einzeldaten, durch Generalisierung über den Daten sowie durch Abstraktion von ihren Eigenschaften, was zur Repräsentation linguistischer Klassen führt. Das Lernverfahren, das diese Strukturierung leistet, basiert auf einer Menge von Regeln, die Vererbungsbeziehungen zwischen einzelnen Daten herstellen, und einem Algorithmus, der durch die Inferenz von Default-Information über den Daten generalisiert. Da für eine gegebene Menge von Daten viele unterschiedliche Beschreibungen möglich sind, werden Gütekriterien verwendet, die bestimmen, wodurch sich eine gute Beschreibung für einen konkreten Phänomenbereich auszeichnet. Durch den formalen Vergleich von Beschreibungen in DATR anhand dieser Kriterien erfolgt die Auswahl des Ereignisses. Die Leistungsfähigkeit des implementierten Verfahrens wird durch Anwendungen auf linguistische Daten aus zwei unterschiedlichen Bereichen gezeigt. In der ersten Gruppe von Aufgaben werden Flexionsklassen auf Grund flektierter Substantivformen des Deutschen gebildet. In den Aufgaben des zweiten Bereichs werden Verben auf Grund ihrer syntaktischen Eigenschaften klassifiziert.