Konzeption, Umsetzung und Evaluation einer hybriden Cluster- und Cloud-Infrastruktur für Anwendungen aus dem Bereich des High-Performance- und High-Throughput-Computing
Alexander Ditter
Während Cluster-Computing eine bereits seit Anfang der 1990er Jahre gebräuchliche und etablierte Technologie im Bereich des verteilten Rechnens darstellt, ist das heute weit verbreitete Cloud-Computing gerade erst den Kinderschuhen entwachsen. Auch wenn es beim wissenschaftlich orientierten High-Performance- und High-Throughput-Computing (HPC und HTC) anfangs große Bedenken gab, was die Verwendung der neuen Technologie in diesen Bereichen angeht, so hat sich innerhalb der letzten Jahre doch eine gewisse Trendwende vollzogen. Die Cloud hat sich hier aus einer Nische heraus und hin zur inzwischen konkurrenzfähigen Lösung für viele klassische HPC- und HTC-Anwendungen entwickelt. Gerade industriell ausgerichtete Anwendungen und Probleme können von Cloud-Systemen und deren leichter Verfügbarkeit sowie hohen Skalierbarkeit profitieren.
Diese Arbeit beschäftigt sich mit der Entwicklung einer Lösung zur Integration von Cluster- und Cloud-Computing in einem hybriden Gesamtsystem, zur effizienten Verarbeitung wissenschaftlicher und industrieller Problemstellungen und Anwendungen. Es wird ein Framework vorgestellt, das es ermöglicht, parallel zu einem bestehenden Cluster- System eine oder mehrere Cloud-Middleware-Systeme zu betreiben. Durch den Einsatz des Frameworks können Arbeitslasten, welche aus bestimmten Gründen die Ausführung auf physikalischer Hardware erfordern, weiterhin in einer Cluster-Umgebung gestartet werden, während flexiblere oder gut skalierbare Anwendungen mit einem hohen Durchsatz auch in der Cloud ausgeführt werden können. Selbst die gleichzeitige Verarbeitung eines Jobs in Teilen des Clusters und der Cloud ist damit möglich. Die hybride Cluster- und Cloud-Infrastruktur wird mit typischen Benchmarks aus dem Bereich des HPC vermessen, um die charakteristischen Kenngrößen für die Leistungsfähigkeit der Recheneinheiten und des Netzwerks zu ermitteln. Anschließend wird der Einsatz des Frameworks für drei typische Klassen von Problemstellungen evaluiert: eine durchsatzorientierte Anwendung aus dem Bereich des HTC und der zerstörungsfreien Materialprüfung, ein mit GPUs beschleunigtes Verfahren aus der Wetter- und Klimaforschung sowie einem asynchronen Iterationsverfahren aus dem Bereich des wissenschaftlichen Rechnens, das speziell für den Einsatz auf Cloud-Infrastruktur optimiert wurde. Alle drei Anwendungen und Verfahren wurden im Rahmen dieser Arbeit entwickelt und umgesetzt.