Generative Vorhersagetechniken für Raten und Ontologie-basierte Ähnlichkeitsberechnung mit Anwendungen im Suchmaschinenmarketing
Edgar Kalkowski
Diese Arbeit gliedert sich in zwei Teile, die aufeinander aufbauen. Zunächst werden fünf generative Verfahren zur kurzzeitigen Vorhersage von Raten entwickelt. Die Modelle verwenden dabei unterschiedliche Glättungskomponenten, um Rauschen und Ausreißern in den Daten entgegenzuwirken, und kombinieren diese mit Bayes’schen Trainingsverfahren. So erhalten die Techniken Vorteile beider Welten: Aufgrund des Bayes’schen Updates der Modellparameter sind die Verfahren stochastisch fundiert und durch die einfachen Arten der Glättung unterschiedlich robust gegenüber Störungen in den Daten sowie schnell zu trainieren und einfach parametrisierbar. Anhand mehrerer künstlicher und realer Datensätze, insbesondere aus dem Bereich des Suchmaschinenmarketing, werden die Vorhersagequalität und die Laufzeit der Verfahren evaluiert und mit den Ergebnissen von nicht-generativen Modellen sowie mehreren Varianten einer Support Vector Regression verglichen. Die Qualität der Vorhersagen der generativen Modelle ist ähnlich hoch wie bei ihren nicht-generativen Varianten, die Laufzeit ist etwas höher. Da die entwickelten generativen Modelle auf Wahrscheinlichkeitsverteilungen aufbauen, lässt sich jedoch auf Basis der Varianz der Verteilungen leicht die Unsicherheit erstellter Vorhersagen einschätzen. Eine Vorhersage wird dabei als umso sicherer bewertet, auf je mehr beobachteten Daten sie aufbaut. Besonders bei Anwendungen wie dem Suchmaschinenmarketing, wo täglich für Hunderttausende Keywords Vorhersagen zu erstellen sind, ist eine solche Unsicherheitsabschätzung wichtig, um bei zu unsicheren Vorhersagen z. B. einen menschlichen Experten hinzuziehen zu können. Einige Varianten der Support Vector Regression liefern je nach Datensatz leicht bessere Vorhersageergebnisse als die generativen Modelle, die Laufzeit liegt jedoch um mehrere Größenordnungen höher, insbesondere bei Berechnung von Unsicherheitsabschätzungen.
Im zweiten Teil dieser Arbeit wird untersucht, wie für sehr anwendungsspezifische Begriffe Ähnlichkeiten berechnet werden können und ob sich diese Ähnlichkeiten zur Steigerung der Vorhersagequalität nutzen lassen. Für einen Anwendungsfall aus dem Suchmaschinenmarketing wird dazu eine Ontologie und ein darauf aufbauendes Ähnlichkeitsmaß entwickelt. Im Vergleich mit bekannten Ähnlichkeitsmaßen erzielt die Kombination aus anwendungsspezifischer Ontologie und Ähnlichkeitsmaß die höchste Übereinstimmung mit von Menschen vergebenen Ähnlichkeitswerten, die in einer Befragung unter 183 Teilnehmern ermittelt wurden. Zunächst sind mithilfe der errechneten Ähnlichkeiten im Anwendungsfall des Suchmaschinenmarketings auch fundierte Vorhersagen möglich, wenn für einzelne Keywords gar keine historischen Daten vorliegen. In diesem Fall können die Daten von ähnlichen Keywords zum Training eines Vorhersagemodells herangezogen werden. Liegen dagegen bereits historische Daten vor, kann die Nutzung der Daten ähnlicher Keywords weiterhin zu einer Verbesserung der Vorhersagen führen. Ein Vergleich zweier unterschiedlicher Vorgehensweisen zur Berücksichtigung von Daten ähnlicher Keywords zeigte, dass die Aggregation der Daten mit anschließendem Training eines Gesamtvorhersagemodells bessere Ergebnisse liefert als das separate Training mehrerer Modelle mit anschließender Aggregation der Vorhersagen. Bei einer Menge von 20 Beispielkeywords führte erstere Vorgehensweise in den meisten Fällen im Mittel zu einer Verbesserung der Vorhersagen, während letztere Vorgehensweise die Vorhersagen fast immer und zum Teil deutlich verschlechterte.