Cluster Computing
Transcription
Cluster Computing
Seminar: Rechnerverbunde / Cluster Computing und Anwendungsbeispiel Johannes Krafft Bodo Brand Thorsten Blank Betreuer: Prof. Dr. Rainer Werthebach Hochschule Aalen Sommersemester 2016 Ehrenwörtliche Erklärung Wir versichern hiermit, dass wir unsere Seminararbeit mit dem Thema »Rechnerverbunde / Cluster Computing« selbständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt haben. Bodo Brand, Thorsten Blank, Johannes Krafft 1 Zusammenfassung In dieser Arbeit behandeln wir die Grundlagen von Cluster Computing und erläutern einige Konzepte der Parallelität in den beiden Gebieten Hardware und Software. Dazu grenzen wir zunächst den Begriff »Cluster Computing« von anderen Begriffen und Themen ab und führen dann Anwendungszwecke von Clustern aus. Anschließend wird auf die Hardware von Clustern eingegangen und es werden Vor- und Nachteile von unterschiedlichen Methoden erläutert. Dabei kommt ein Clustereigenbau zum Einsatz, worauf wir einen Hashcracker implementiert haben, um die Schwierigkeiten von paralleler Programmierung zu erforschen. MPP Massively Parallel Processor MPI Message Passing Interface SSH Secure Shell HPC High-Performance Computing SMB Server Message Block NFS Network Filesystem RAID Redundant Array of Inexpensive Disks 1 Abbildungsverzeichnis 3.1 3.2 3.3 3.4 3.5 3.6 Ein Setup ohne Failover-Funktionalität . . . . . . . . . . . Beispiel-Setup eines Failover-Clusters . . . . . . . . . . . . Load-Balancer . . . . . . . . . . . . . . . . . . . . . . . . . Zentralisiertes Session-Managment . . . . . . . . . . . . . Asynchrones Session-Managment . . . . . . . . . . . . . . Bestimmung der optimalen Prozessoranzahl nach Amdahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 10 10 12 12 14 4.1 4.2 4.3 4.4 4.5 Stromverbrauch ARM und X86/64 Prozessoren. Leistung von ARM und X86 . . . . . . . . . . . HA-Cluster mit zwei Knoten . . . . . . . . . . . Netzwerktypen . . . . . . . . . . . . . . . . . . Unterschied bei Ethernet und SCI oder Myrine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 18 19 20 20 5.1 Hello World Beispiel mit MPI unter C . . . . . . . . . . . . . . . . . . . . . . . 24 6.1 6.2 6.3 6.4 Versuchsaufbau für einen experimentellen Cluster Parallelisierungsansatz MPI Hashcracker . . . . . 2. Parallelisierungsansatz MPI Hashcracker . . . Finaler Parallelisierungsansatz MPI Hashcracker 7.1 Geschwindigkeitsvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 26 27 28 Inhaltsverzeichnis 1 Einleitung (Bodo Brand) 1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Ziel der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 5 2 Grundlagen Cluster Computing (Bodo Brand) 2.1 Definition Computer Cluster . . . . . . . . . . . . . 2.2 Abgrenzung von Begriffen und Verwendungszwecke 2.2.1 Supercomputer . . . . . . . . . . . . . . . . 2.2.2 Massively Parallel Processor . . . . . . . . . 2.2.3 Grid-Computing . . . . . . . . . . . . . . . 2.2.4 Cloud-Computing . . . . . . . . . . . . . . . . . . . . . 6 6 6 6 6 7 7 3 Verwendungszwecke(Johannes Krafft) 3.1 Workstation Cluster . . . . . . . . . . 3.2 Hochverfügbarkeitscluster . . . . . . . 3.3 Load-Balancing-Cluster . . . . . . . . 3.4 High Performance Computing Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 8 9 11 4 Hardware (Thorsten Blank) 4.1 Prozessor . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Festplatten Speicher . . . . . . . . . . . . . . . . . . . . . 4.2.1 Speicherlose Knoten . . . . . . . . . . . . . . . . . 4.2.2 Knoten mit jeweils eigenem und geteiltem Speicher 4.2.3 Knoten mit eigenem Speicher . . . . . . . . . . . . 4.3 Netzwerk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 16 16 16 17 18 18 . . . . . . . 22 22 22 22 23 23 23 24 . . . . . . . . . . . . . . . . 5 Implementation 5.1 Betriebssysteme (Johannes Krafft) . . . . . . 5.1.1 Windows HPC . . . . . . . . . . . . . 5.1.2 Linux . . . . . . . . . . . . . . . . . . 5.2 Message Passing Interface (Bodo Brand) . . . 5.2.1 Einführung . . . . . . . . . . . . . . . 5.2.2 Programmiergrundlagen mit MPICH2 5.2.3 MPI Implementationen Vergleich . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Anwendungsbeispiel (Bodo Brand) 6.1 Wahl der Hardwarearchitektur . . 6.2 Wahl der MPI Implementierung . . 6.3 Installation und Konfiguration . . . 6.4 Anwendungsfall Hashcracker . . . . 6.4.1 Einführung . . . . . . . . . 6.4.2 Umsetzung . . . . . . . . . . . . . . . . . . . . . 7 Geschwindigkeit (Bodo Brand) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 25 26 26 26 26 29 8 Zusammenfassung und Ausblick (Bodo Brand) 31 8.1 Erreichte Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 8.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4 Kapitel 1 Einleitung (Bodo Brand) 1.1 Motivation Cluster Computer werden heutzutage in vielen Gebieten eingesetzt. Organisationen wie Hochschulen, Firmen und Forschungseinrichtungen benutzen diese in den unterschiedlichsten Gebieten. So kann ein Computer Cluster genutzt werden, um die Forschung bei Genomen, in der Meteorologie, Physik, Chemie oder bei der Herstellung von neuen Materialien zu unterstützen[1]. Computer Cluster können auch verschiedene Serviceleistungen einer großen Anzahl von Menschen zur Verfügung stellen. Die Möglichkeiten von Simulationen und Experimenten sind endlos. 1.2 Ziel der Arbeit Das Ziel der Arbeit ist es, die Funktionsweise eines Cluster Computers und deren Verwendungszwecke und Programmierschnittstellen zu verstehen und verständlich niederzuschreiben. Zudem wollen wir anhand eines eigenen Clusters, die Hardware und Software Komponenten installieren und eigene Software schreiben, um mit den Schwierigkeiten von paralleler Programmierung zu experimentieren und diese in dieser Arbeit teilen. 1.3 Vorgehen Als erstes haben wir nach einem Einführenden Gespräch von unserem betreuenden Prof. Dr. Rainer Werthebach einen Computer Cluster aus 4 Raspberry Pis erhalten, welchen wir mit entsprechender Software ausgerüstet haben. Durch Brainstorming haben wir schließlich nach Anwendungsfällen gesucht, welche Software wir für diesen Cluster implementieren wollen und haben uns für einen Hashcracker entschieden. Um die Implementation zu bewerkstelligen, suchten wir nach Tutorials, welche die Funktionsweise des parallelen Programmierens mit dem Message Passing Interface genau genug erläutern. Durch das Wissen aus dem Tutorial wurde dann der Hashcracker in Eigenproduktion erstellt. Um die Grundlagen und Methoden von Cluster Computing zu verstehen, haben wir nach einem entsprechenden Büchern recherchiert, welches das Themen Gebiet Cluster Computing möglichst gut abdecken. 5 Kapitel 2 Grundlagen Cluster Computing (Bodo Brand) 2.1 Definition Computer Cluster Ein Cluster ist eine Ansammlung von Dingen vom selben Typ, welches wächst und nahe beieinander erscheint [2]. Somit ist ein Computer Cluster ein Verbund aus mehreren Computern, welche zu einer Einheit verschmelzen. Die Computer werden dabei über ein Netzwerk verbunden und bieten je nach Einsatzgebiet mehr Geschwindigkeit, mehr Kapazität, bessere Datenintegrität, höhere Zuverlässigkeit und mehr Verfügbarkeit von Ressourcen, als ein herkömmlicher Computer [3]. Alle Rechnerknoten in einem Cluster haben dabei oft dieselbe Ausstattung an Hardware [4]. Neben diesen homogenen Clustern gibt es auch heterogene Cluster, die aus verschiedenen Betriebssystemen und Hardware bestehen [5]. 2.2 2.2.1 Abgrenzung von Begriffen und Verwendungszwecke Supercomputer Wie Jan Christian Meyer zu »What is the difference between a supercomputer and a computer cluster?«[6] schreibt, ist der Begriff Supercomputer ein Überbegriff für alle Computer, die Probleme lösen können, die so viel Rechenleistung benötigen, wie sonst kaum ein anderer Computer zu einer bestimmten Zeit. Die Art von Supercomputer kann sich über die Zeit ändern. So gibt es momentan viele Supercomputer vom Typ Cluster und MPP1 [7]. 2.2.2 Massively Parallel Processor Ein MPP ist ein Computer, der stark zusammenhängende Komponenten hat, um parallele Rechnungen durchzuführen. Im Vergleich zu einem Cluster Computer, wie in Stackoverflow beschrieben [8], können die CPUs nicht voneinander getrennt laufen, sondern die gesamte Maschine wird als ein Computer angesehen. Da der Zusammenhang so stark ist, kann ein schneller Austausch zwischen den CPUs stattfinden. 1 Massively Parallel Processor 6 2.2.3 Grid-Computing Der Begriff Grid wird von dem englischen Begriff »Electrical Power Grid« abgeleitet, welches übersetzt Stromnetz heißt [9]. Die Idee dahinter ist, die Ressourcen unterschiedlicher Nutzer zu nutzen, wie Strom aus der Steckdose [9]. Somit verbindet Grid-Computing mehrere Computer an unterschiedlichen geografischen Stellen zusammen, um hohe Rechenleistung und Speicherkapazität zu erreichen. Dabei ist die Hardware der einzelnen Knotenpunkte im Vergleich zu einem Cluster Computer und MPP typischerweise heterogen [4]. Grids werden vornehmlich von einer bestimmten Gruppe von Nutzern aufgebaut und eingesetzt, die ein gemeinsames Vorhaben, z.B. die Durchführung wissenschaftlicher Simulationsexperimente, eint [10]. Dabei können unterschiedliche Gesellschaften verknüpft werden und zusammenarbeiten. So wurde 1997 versucht, den Supercomputer »High Performance Computing Center Stuttgart« mit dem »Pittsburgh Supercomputing Centre« zu verbinden [9]. Wenn man zwei Cluster Computer verbindet, muss zudem eine hohe Anforderung an Sicherheit gewährleistet werden, da die Verbindung zwischen den zwei Clustern meist mit unsicheren Netzen verbunden ist [11]. 2.2.4 Cloud-Computing Cloud-Computing bezieht sich sowohl auf die Applikationen, die als Service über das Internet bereitgestellt werden, als auch auf die Hardware und Systemsoftware in den Datencentern, welche diesen Service bereitstellen. Die Hardware und Software des Datencenters ist dabei das, was wir als Cloud bezeichnen [12, S. 1]. So werden Dienstleistungen, wie Rechenleistung und Speicherkapazität, zur Verfügung gestellt und je nach Verbrauch abgerechnet. Im Vergleich zu Grid-Computing ist Cloud-Computing zentralisiert und wird lediglich von einer Gesellschaft betrieben [4]. 7 Kapitel 3 Verwendungszwecke(Johannes Krafft) Die Verwendungszwecke von Computerclustern sind vielseitig. Einige populäre Anwendungsbeispiele sollen in diesem Kapitel vorgestellt werden. 3.1 Workstation Cluster Das Ziel eines Workstation-Clusters ist eine »Einheitliche Arbeitsumgebung unabhängig vom Arbeitsplatz« zu schaffen, sowie einen »Geringer[en] Administrationsaufwand durch Homogenität der Maschinen« zu erzielen [13]. Zu einem Workstation-Cluster gehört üblicherweise eine zentrale Benutzerverwaltung, zentrale Benutzerverzeichnisse, zentrale Softwareverwaltung, ein zentrales Konfigurationsmanagment und automatisierte Installationsprozesse [13]. 3.2 Hochverfügbarkeitscluster Der Großteil der Serviceanbieter im Internet sind darauf angewiesen, dass ihre Dienste ohne Unterbrechung immer und überall erreichbar sind. Das Aussetzen einzelner Services, Softwareoder Hardwarekomponenten kann bei solchen Diensten schnell zum Totalausfall führen. Angenommen eine Webserver-Applikation läuft nur auf einem Server. Es reicht wenn eine Komponente ausfällt und die gehostete Webseite ist nicht mehr verfügbar (siehe Abbildung 3.1). Auch Wartungsarbeiten am Server wie ein Betriebssystem- oder Softwareupdate führen zwangsläufig zu kurzer Downtime. [14] Die Lösung für dieses Problem ist das Einrichten eines Hochverfügbarkeitsclusters (engl. Failover-Cluster). Das Konzept: Wichtige Komponenten in einem System werden mehrfach vorgesehen. Wenn eine Komponente ausfällt, wird ihre Aufgabe von einer anderen übernommen. Für jeden aktiven Server, der einen Dienst bereitstellt, muss mindestens ein äquivalenter Standby-Server vorgesehen sein, der einspringt, wenn der Dienst auf dem aktiven Server nicht mehr erreichbar ist.[14] Es gibt zwei Mechanismen, wie der Standby-Server feststellen kann, ob er übernehmen muss: • Push Heartbeats: Der aktive Server sendet regelmäßig ein Signal an den StandbyServer. Wenn der Standby-Server für eine bestimmten Zeitraum kein Signal erhält, geht 8 Abbildung 3.1: Ein Setup ohne Failover-Funktionalität: Es reicht das eine Komponente ausfällt um den Dienst für den Client unerreichbar zu machen. [14] er davon aus das der Dienst auf dem aktiven Server momentan nicht verfügbar ist, und übernimmt selbst die Rolle des aktiven Servers. • Pull Heartbeats: Der Standby-Server sendet regelmäßig Anfragen an den aktiven Server. Wenn er für einen bestimmten Zeitraum keine Antwort auf seine Anfragen erhält, übernimmt er. Heartbeats können auf verschiedenen OSI-Schichten eingesetzt werden. [14] Zum Beispiel könnte man auf IP-Ebene die Verbindung des Servers mit dem Internet prüfen und auf Anwendungsebene den Status der Software. Die große Frage ist, wie man die Standby-Server immer auf dem aktuellen Stand hält, sodass sie jederzeit einsatzbereit sind. Laut [14] gibt es drei Ansätze, dies zu gewährleisten: • Transaction log: Der aktive Server logged alle Änderungen mit. In regelmäßigen Abständen lesen die Standby-Server den Log ein und holen die Änderungen nach. • Hot standby: Änderungen am aktiven Server werden sofort auch auf dem StandbyServer vorgenommen. Alle Server sind somit immer auf dem aktuellen Stand. • Shared storage: Die Server teilen sich alle einen gemeinsamen Speicher, und sind somit automatisch immer auf dem aktuellen Stand. (siehe Abbildung 3.2) Es ist wichtig, das immer nur ein Server eines Dienstes aktiv ist. Verklemmungen oder korrupte Daten sind sonst vorprogrammiert. Gewährleistet werden kann das mit einem Token, der den aktiven Server als solchen markiert. Bevor sich ein Server aktiv schaltet, muss er im Cluster prüfen, ob nicht ein anderer schon aktiv ist.[14] 3.3 Load-Balancing-Cluster Wenn ein Webservice erfolgreich ist und somit stark gefragt, benötigt der Anbieter enorme Rechenleistung, um dem Ansturm gewachsen zu sein. Ein einzelner Server kann nur eine bestimmte Anzahl an Anfragen bearbeiten. Die logische Konsequenz scheint zu sein, den Server aufzurüsten. Doch jede Architektur hat seine Limits. Die Lösung ist die Einrichtung eines Load-Balancing-Clusters. Das Prinzip: Die einkommenden 9 Abbildung 3.2: Beispiel-Setup eines Failover-Clusters: Heartbeats stellen die Funktionsfähigkeit des Aktiven Servers fest. Beide Server greifen auf eine gemeinsamen Speicher (Shared Storage) zu. [14] Abbildung 3.3: Ein Load-Balancer verteilt die Anfragen der Clients an die Server. [14] Anfragen werden auf mehrere, identische Server verteilt, um bei großem Ansturm trotzdem verfügbar zu sein (siehe Abbildung 3.3). Wenn mehr Anfragen bearbeitet werden müssen, muss schlicht und einfach ein weiterer Klon des Servers hinzugeschalten werden.[15] Ein Load-Balancer ist eine Komponente die einkommende Anfragen an die Server im Cluster weiterleitet. Es werden verschiedene Algorithmen verwendet, um die Anfragen möglichst optimal zu verteilen. • Round-Robin Algorithmus: Alle Anfragen werden gleichmäßig auf alle Server verteilt, ungeachtet wie viele Anfragen ein Server aktuell schon bearbeitet. Es ist wichtig, dass alle Server gleich stark sind, ansonsten würde ein Teil immer überlastet sein während der andere Teil der Server nie seine ganze Leistung nutzen würde. • Weighted Round-Robin Algorithmus: Es wird die Rechenleistung der einzelnen 10 Server mit in Betracht gezogen, wenn die Anfragen verteilt werden. Der Serveradministrator schätzt die Leistung der Server, entsprechend dieser Schätzung werden die Anfragen verteilt, sodass jeder Server prozentual gleich belastet wird. • Least-Connection Algorithmus: Eine neue einkommende Verbindungsanfrage wird immer an den Server weitergeleitet, der die geringste Anzahl an momentan offenen Verbindungen hat. • Load-Base Algorithmus: Einkommende Anfragen werden an den Server mit der in diesem Moment geringsten Auslastung weitergeleitet. Manche Load-Balancer haben auch noch eine Failover-Funktionalität, d.h. sie leiten keine Anfragen an Server weiter, die nicht mehr reagieren.[15] Wenn man die Anfragen so verteilt, tritt allerdings ein Problem auf: Ein Client muss möglicherweise in einer späteren Anfrage wieder erkannt werden und dementsprechend anders behandelt werden. Normalerweise sind die folgenden drei Methoden zum Speichern dieser benutzerbezogenen Informationen in einer sogenannten Session üblich: • Der Client speichert die Session Informationen, z.B. in einem Cookie in seinem Browser. • Die Daten werden auf dem Server gespeichert, der die Anfrage bearbeitet. • Die Session Daten werden zusammen mit den anderen Nutzerdaten auf einem gemeinsamen Datenbankserver gespeichert. Die mittlere Möglichkeit funktioniert in Verbindung mit Load-Balancing nicht. Der Nutzer könnte bei der nächsten Anfrage an einen anderen Server geleitet werden, der ihn dann nicht wiedererkennt. Der Load-Balancer muss die Anfragen eines Clients also immer an den gleichen Server leiten. Das führt allerdings dazu, dass die Ausfallsicherheit für die Session dieses Clients nicht mehr gewährleistet ist, wenn der Server mit seiner Session ausfällt. Die Session-Daten können in der Konsequenz nicht auf dem Server gespeichert werden, sondern in einem eigenen, ausfallsicheren System. Das Load-Balancing Cluster greift also auf ein Hochverfügbarkeitscluster zu, in dem die Sessions gespeichert sind (engl. centralized state managment). (siehe Abbildung 3.4) Eine kostengünstigere Alternative wäre es, die Session Daten immer zwischen allen Servern zu synchronisieren, so dass jeder Server im Load-BalancingCluster immer alle Sessions kennt. (engl. asynchronous session state management) (siehe Abbildung 3.5)[15] 3.4 High Performance Computing Cluster Der wohl bekannteste Einsatz von Clustern ist die Verwendung als »Supercomputer«. Beispiele für Einsatzgebiete sind: • Wettersimulation • Strömungssimulation • Virtuelle Crashtests • Chemische Simulation 11 Abbildung 3.4: Zentralisiertes Session-Managment [14] Abbildung 3.5: Asynchrones Session-Managment [14] 12 • Kompilieren von Sourcecode [16] [17] Allen Beispielen gemeinsam ist ein enorm hoher Rechenaufwand. Ein normaler Heimcomputer würde viel zu lange an diesen Problemen rechnen. Die naheliegenste Lösung scheint zu sein, einfach eine schnelleren Prozessor zu entwickeln, um die Daten schneller verarbeiten zu können. Das ist jedoch nur auf den ersten Blick sinnvoll: Ein Prozessor verarbeitet Daten. Diese Daten müssen von irgendwo geladen und irgendwohin gespeichert werden. Wenn ein Prozessor schneller wird, müssen auch die Daten schneller herbeigeschafft werden. Die Daten können allerdings maximal mit Lichtgeschwindigkeit an den Prozessor geliefert werden. Es ist daher nicht möglich, mit immer schnelleren Prozessoren Berechnungen unendlich zu beschleunigen. Die Lösung ist, mit mehreren schwächeren Prozessoren gleichzeitig parallel an dem Problem zu arbeiten. Jeder einzelne Prozessor muss dadurch verhältnismäßig weniger Daten verarbeiten. [11, S. 4] Sei p die Anzahl der Prozessoren und π die Gesamtdauer der zu parallelisierenden Berechnung. Naiv könnte man folgende Formel über die Laufzeit der Berechnung aufstellen: T (p) = π p (3.1) Allerdings gibt es laut Amdahls Gesetz zwei Faktoren, die beim parallelisieren von Berechnungen beschränken. Zum einen können nicht alle Teile einer Berechnung parallelisiert werden. Selbst wenn der parallelisierte Teil der Berechnung gegen null konvergiert, gibt der sequentielle Teil σ somit die untere Schranke der Laufzeit an. Zum anderen müssen die Prozessoren während der Berechnung auch untereinander Informationen austauschen. Mit zunehmender Prozessorzahl nimmt der Kommunikationsaufwand zwischen den Prozessoren immer mehr Zeit in Anspruch. Ein Kommunikationsaufwand Tc abhängig von der Prozessorzahl bremst somit die Rechenzeit: T (p) = σ + π + Tc (p) p (3.2) Das Problem: Ab einer bestimmten Anzahl von Kernen wird der Kommunikationsaufwand so groß, dass die gesamte Berechnungszeit wieder zunimmt. Bei einem sequentiellen Anteil von 1ZE, einem parallelisierbaren Anteil von 10ZE und einem Kommunikationsaufwand von 0.5 ZE pro Prozessor ergibt sich beispielsweise eine optimale Prozessoranzahl von 4,5. (siehe Grafik 3.6) Aus dieser Erkenntnis muss der Schluss gezogen werden, dass sich mit dem Parallelisieren von einem Problem dieses sich nicht beliebig schnell berechnen lässt, aber das mit zunehmender Anzahl von Prozessoren zunehmend große Probleme effizient gelöst werden können. Es ist trotz allem immer noch wichtig den Kommunikationsoverhead möglichst gering zu halten. Bei der Größe eines Teilproblems spricht man von Granularität oder Körnigkeit. Um den Kommunikationsaufwand gering zu halten, gilt es eine möglichst grobe Granularität zu verwenden, d.h. möglichst große Teilprobleme in einem Stück zu berechnen, da feingranulare Programme sehr viel Zeit auf Kommunikation verwenden müssen. [11, S. 10-12] Die gerade erläuterte Theorie zur Parallelisierung von Problemen bezieht sich grundsätzlich erst einmal nicht nur auf Computer-Cluster. Moderne CPUs besitzen bis zu 8 oder mehr Prozessorkerne, die unabhängig voneinander rechnen. Auch ist es möglich, mehrere CPUs auf einem Motherboard mit gemeinsamem Speicher unterzubringen. Laut Bauke und Mertens ist jedoch ein PC mit vier Prozessoren deutlich teurer als vier PCs mit je einem Prozessor, da »Der ungebremste Zugriff auf den gemeinsamen Speicher (und andere gemeinsam genutzte 13 Abbildung 3.6: Bestimmung der optimalen Prozessoranzahl nach Amdahl Komponenten) [...] eine aufwändige Elektronik [erfordert], und der Aufwand [...] schnell mit der Anzahl der Prozessoren [steigt]. [...] Multiprozessoren kommen deshalb für massiv parallele Anwendungen nicht in Frage.« [11, S. 23] Die Konsequenz ist der Verzicht auf gemeinsamen Hauptspeicher, was dann auf die Bildung eines Computerclusters hinausläuft. [11, S. 21-23] 14 Kapitel 4 Hardware (Thorsten Blank) Cluster können aus so gut wie jedem Computer mit Netzwerkschnittstelle erstellt werden. So gibt es bereits Cluster, welche aus Spielkonsolen wie der XBOX erstellt wurden [18]. Diese Konsolen unterscheiden sich in der Hardware wenig von handelsüblichen PCs und stellen eine Performance zur Verfügung, welche für aufwändige Spiele reichen muss. Da allerdings die vom Hersteller vorinstallierte Software nicht die benötigten Funktionalitäten zur Verfügung stellt, um daraus einen Cluster zu erstellen, wird hierbei zuerst das Betriebssystem gegen eine Linux Distribution ausgetauscht. Auf der anderen Seite können Cluster auch aus sehr vielen leistungsschwachen Knotenpcs bestehen. Dieses Konzept wurde auch bei dem später näher beschriebenen, eigenen Versuch durchgeführt, für dem ein Cluster aus vier Raspberrys verwendet wird. Diese Minipcs zeichnen sich durch eine geringe Größe und kleine Stückpreise aus. Bei dem neusten, den Raspberry Zero fehlt allerdings die bei dem Vorläufern noch vorhandene Netzwerkschnittstelle Ethernet. Diese kann durch einen USB zu Ethernet Adapter nachgerüstet werden, soweit man auf den USB-Anschluss verzichten kann. Cluster müssen nicht unbedingt aus gleich aufgebauten Computern bestehen, welche einen homogenen Cluster bilden, sondern können auch aus verschieden aufgebauten Knoten bestehen. Bei den heterogenen Clustern werden Knoten mit verschiedene Hardwarekonfiguration benützt. Diese Unterschiede können von verschieden großen Festplatten bis zu komplett verschiedenen Prozessorarchitekturen reichen[19]. Hierbei fragt sich allerdings ab einen gewissen Punkt, ob dies sinnvoll ist, da bei zu großen Unterschieden, wie zum Beispiel dem Mischen von ARM und X86/X64 Prozessorarchitekturen, die Software der einzelnen Knoten diesen Unterschieden angepasst werden muss. Problematisch wird dies vor allem, wenn Software wie beispielsweise MPI.NET mit Open MPI verwendet wird, welche für eine Architektur gar nicht oder nur in verschieden Version erhältlich ist. Dies hat sich uns in unseren Eigenversuch gezeigt. Obwohl Open MPI und MPI.NET Open Source ist, war es uns nicht möglich diese Software auf unsere Raspberrys zu installieren. Auch können solche Unterschiede bei der Entwicklung von Programmen wichtig sein, da z. B. nicht mehr davon ausgegangen werden darf, dass auf jedem Knoten dasselbe Problem z. B. in derselben Zeit gelöst werden kann. Im Nachfolgendem wird zwischen X86 und X64 nicht weiter unterschieden, da X64 hauptsächlich neben weiteren Erweiterungen, in Gegensatz zu X86, auf einer 64-Bit Architektur aufbaut, aber weiterhin großteils kompatibel zu seinen Vorgänger ist[20]. 15 4.1 Prozessor Cluster können wie oben bereits erwähnt aus den verschiedensten Computern erstellt werden. Das bedeutet allerdings zugleich auch, dass aus einer Vielzahl von verschiedenen Prozessoren für die Knoten ausgewählt werden kann. So sind z. B. sechs der Top zehn Cluster in November 2015 mit Intel Xeon E5 Prozessoren ausgestattet[7], diese haben bis zu 18 Kernen und eine Taktfrequenz von bis zu 3,5 GHz. So steht beim Planen eines Clusters die Entscheidung an, ob besonderer Wert auf die Anzahl der Kerne oder die Leistung der Einzelnen gelegt wird. Die Leistung der Kerne setzen sich sowohl aus der Taktzahl, den verwendeten Befehlssatz, sowie dessen Architektur zusammen [21]. Bei Aufgaben, welche sich gut in viele kleinere skalieren lässt, ist es oft vorteilhaft auf eine höhere Parallelität zu setzen, andernfalls ist vor allem die Einzelkernleistung entscheiden. Auch gibt es bei einigen Programmen, die zum Ausführen von Software auf Clustern dienen, teilweise Probleme bei der Verwaltung von mehreren Threads, da bei dem MPI Prozess entweder mehrere Threads die MPI Aufgaben selbstständig behandeln, oder alle MPI Aufrufe von einem einzigen verwaltet werden. Im letzten Fall kann dieser Thread zum Flaschenhals werden. Aber nicht nur im Punkt Performance, sondern auch die Fehleranfälligkeit erhöht sich durch sehr viele Threads [22]. Dieses Problem könnte bei dem nächsten Standard von MPI verringert werden, indem die Skalierbarkeit erhöht wird.[22, S. 78] Von Seiten der Prozessorarchitektur herrschen zur Zeit die X86 Prozessoren im Cluster Bereich vor. Die im direkten Vergleich zu den X86 energiesparendere Lösung ARM ist allerdings bei weitem noch nicht so leistungsfähig. Auch haben die ARM-Prozessoren den Nachteil, dass sie die Netzwerkschnittstelle nicht so gut mit Daten versorgen können, wie ihre X86 Konkurrenz. Somit findet man in High-Performance Computing Bereich vor allen X86 Prozessoren. Wird hingegen auf die Rechenleistung pro Watt oder pro Preis geachtet, kann ein Wechsel zu der ARM Architektur lohnend sein, da somit die Energiekosten gesenkt werden können. Auch soll, laut AMD, zukünftig ein Mix aus X86 und ARM Prozessoren angeboten werden.[23] 4.2 Festplatten Speicher Für die Verwaltung der Daten auf den Speichern der einzelnen Knoten gibt es mehrere Möglichkeiten. Hierfür gibt es mehrere Konzepte, welche untereinander noch gemischt werden können. 4.2.1 Speicherlose Knoten Dieses Konzept findet z. B. bei den sogenannten Pegasus Clustern Anwendung. Um die Kosten der Festplatte bei den einzelnen Knoten einzusparen, können die einzelnen auch über keine eigenen Festplatten verfügen[25]. Das Betriebssystem sowie alle weiteren Daten werden hierbei über das Netzwerk in den Arbeitsspeicher der einzelnen Knoten gespeichert, allerdings kann bereits das Betriebssystem mehrere Gigabyte in Anspruch nehmen wie später in 5.1 noch erwähnt wird. Dies spielt bei Betriebssystemen mit nur kleiner Größe keine so gewichtige Rolle mehr, da der Arbeitsspeicher in aktuellen PCs meist groß genug ist. Hierzu wird auf eine der Seiten, welche den Aufbau dieses Konzepts vertreten geschrieben: »this is hardly an issue, since 128 MByte out of a total RAM of 16 GByte is not really noticeable«[25]. 16 Abbildung 4.1: Im Diagramm ist zu sehen, dass die Leistungsaufnahme von den ARM Prozessoren geringer ist als die der X86 Konkurrenz. Lediglich bei dem A15 trifft dies nicht zu. Dieser ist allerdings auch auf hohe Performance ausgelegt. Je kleiner der Wert umso geringer ist der Stromverbrauch. [24] 4.2.2 Knoten mit jeweils eigenem und geteiltem Speicher Damit jeder Knoten auf den selben Speicherbestand zurückgreift, kann unter Linux mit Network Filesystem bzw. unter Windows mit Server Message Block ein Ordner zwischen den Knoten geteilt werden oder die einzelnen Knoten wie bei 4.3 mit den Cluster-Speicher direkt über die üblichen Anschlüssen verbunden werden. Hierbei ist auf der Festplatte der Knoten jeweils das eigene Betriebssystem installiert. Neben diesem können noch weitere Daten wie zum Beispiel zur Auslagerung aus dem RAM lokal gespeichert werden. Somit ist es für den Administrator leichter den Cluster zu verwalten, da alle Knoten auf die selben Daten zurückgreifen. Wird nun eine Änderung an den Daten durchgeführt, ist diese für jedem Knoten im Cluster verfügbar. Nachteilig ist allerdings, dass wenn dieser Speicher ausfällt, alle Knoten im Cluster nicht mehr weiterarbeiten können. Somit sollte möglichst sichergestellt werden, dass dieser Cluster-Speicher nicht ausfällt. Dies kann z. B. durch ein Redundant Array of Inexpensive Disks sichergestellt werden. Bei den HA-Cluster findet man meist diesen Aufbau, damit bei einem Ausfall eines Knoten, ein anderer an den selben Daten weiterarbeiten kann [26]. Ein Nachteil falls der Speicher über das Netzwerk geteilt wird, ist, dass schon alleine für die Datenverwaltung die Netzwerkverbindung belastet wird. Auch ist die Zugriffszeit auf Festplatten, die direkt mit den Knoten verbunden sind, besser. Des Weiteren kann es zu Problemen führen, wenn mehrere Knoten gleichzeitig an ein und der selben Datei lesend bzw. schreibend zugreifen, da es sonst unter Umständen zu Speicherinkonsistenz führen könnte. Um dies zu vermeiden, müssen wie bei Multithreading die Zugriffe geregelt werden. Dies kann bei einen HA-Cluster nicht auftreten, da normalerweise je ein Knoten aktiv ist und ein anderer erst dessen Aufgaben übernimmt, wenn dieser ausfällt [26]. 17 Abbildung 4.2: Im Diagramm ist zu sehen, dass die Performance von den ARM Prozessoren geringer ist als die der X86 Konkurrenz. Je kleiner der Wert umso besser ist die Performance[24] 4.2.3 Knoten mit eigenem Speicher Wenn es nicht nötig ist, dass jeder Knoten auf den gleichen Speicher zugreift kann jeder Knoten seinen eigenen Speicher besitzen, ohne dass dieser über das Netzwerk geteilt wird. In vielen Clustern müssen allerdings Daten synchron gehalten werden, oder Änderungen an allen Knoten gemacht werden, dies ist bei dieser Art der Speicherverwaltung allerdings nachteilig, da Änderungen an allen Knoten einzeln gemacht werden müssen. Bei dem versuchsweise aufgebauten Raspberry Cluster wurde z. B. auf einen Knoten alle Konfigurationen gemacht und dessen SD-Karte anschließend geklont. Damit das auszuführende Programm auf allen Knoten verfügbar ist, verteilt ein Bash-Script dieses vor dem Ausführen auf alle anderen Knoten. Diese auch als »shared-nothing« bekannte Architektur eignet sich besonders, wenn viele Lesezugriffe nötig sind. Somit findet man diesen Aufbau häufig bei "Data Warehouses". Ein weiterer Vorteil ist, dass ein so aufgebauter Cluster leicht erweitert werden kann, da neue Knoten nur über die Netzwerkschnittelle mit den Cluster verbunden werden müssen[27]. 4.3 Netzwerk Die »Grundvoraussetzung dafür, dass verschiedene Einzel-PCs gemeinsam ein Problem lösen können, ist das Netzwerk, das sie verbindet und über das die PCs ihre gemeinsame Arbeit koordinieren«[28, S. 53]. Dies ist besonders wichtig wenn die Anwendung, welche auf den Cluster läuft, einen hohen Kommunikationsaufwand zwischen den einzelnen Knoten erfordert. 18 Abbildung 4.3: HA-Cluster mit zwei Knoten, von denen einer ausgefallen ist und beide auf den selben Speicher zugreifen.[26] Reicht das gewählte Netzwerk nicht aus um die Übertragungszeiten klein zu halten, kann die volle Leistung des Clusters nicht ausgenutzt werden, da die einzelnen Knoten länger auf die Übertragung von Daten der anderen warten müssen. Um diesen Zeitverlust möglichst gering zuhalten, kann sowohl die Netzwerk Topologie als auch die verwendete Technologie den Bedürfnissen des Clusters entsprechend gewählt werden. Ein weiterer Punkt der bei der Wahl des Netzwerkaufbaus betrachtet werden muss sind die Aufwendungen, da nicht »selten die Kosten der Netzwerktechnik pro Knoten genauso hoch wie die der gesamten restlichen Hardware eines Knotens«[28, S. 54] sind. Wie in Abb. 4.4 erkennbar ist, ist der Aufruf von Daten aus dem Hauptspeicher im Vergleich zur Übertragung durch die Netzwerke in allen Punkten effektiver. Aus diesen Grund kann die Leistung des Cluster verbessert werden, indem möglichst wenig Kommunikation zwischen den einzelnen Knoten verursacht wird. Abhängig davon, ob besonders viele kleine Datenpakete oder zumeist größere übertragen werden sollen, liegt der Fokus auf die Größe der 19 Abbildung 4.4: Eigenschaften der Netzwerktypen sowie die des Hauptspeichers [29] Bandbreite bzw. auf eine geringe Latenzzeit. »Diese Verzögerungen« durch die Latenzzeit »fallen dann ins Gewicht, wenn die parallelen Anwendungen auf den verschiedenen Knoten in ständigem Kontakt miteinander sind - beispielsweise, weil sie permanent Statusinformationen austauschen müssen«[30]. Teilen sich die einzelnen Knoten die Bandbreite, wie bei Ethernet, »steht jedem Kommunikationskanal nur noch ein Bruchteil der Bandbreite zur Verfügung« [30]. Um diesen Nachteil auszugleichen, kann man in den einzelnen Knoten mehrere Netzwerkkarten verbauen. Bei Ethernet erzeugt vor allem der »zweimalige Weg durch die Netzwerkstacks der Betriebssysteme«[30] siehe Abb.4.5 eine höhere Latenzzeit. Dies wird bei SCI und Myrine umgangen, indem der TCP/IP-Stack umgangen wird. Abbildung 4.5: Rot: Nachricht mit SCI oder Myrine, Blau: Ethernet [30] Zu der Technologie QsNet bzw. QsNet² ist zu erwähnen, dass trotz der Ankündigung und Vorstellung der nächsten Version QsNet³ mit 25Gbit/s, was eine Verdreifachung der Bandbrei20 te in Vergleich zu der Vorversion darstellt, sich die Herstellerfirma Quadrics aus dem Geschäft zurückgezogen hat. Dieser Schritt erfolgte, nachdem ein Teil des Kernteams die Firma verlassen hatte, um selbst eine neue Firma zu gründen[31]. Bei der hauptsächlich für HPC entwickelten Netzwerktechnologie QsNet zeigen sich auch, die oben bereits erwähnten hohen Kosten pro Knoten, welche hierbei zwischen 1700 und 3300 US Dollar liegen. 21 Kapitel 5 Implementation 5.1 Betriebssysteme (Johannes Krafft) »Jeder Cluster Node ist ein eigenständiger Rechner welcher, in irgend einer Weise, ein Betriebs[s]ystem braucht.«[32] 5.1.1 Windows HPC Seit 2006 gibt es den »Windows Compute Cluster Server 2003«. Microsoft hat dafür ein eigenes MPI Protokoll names Microsoft Messaging Passing Interface definiert. [32] Ein Microsoft Compute Cluster besteht aus einem »Head Node« und einem oder mehr »Compute Nodes«. Der »Head Node« dient mittels eines User Interfaces als Zugriffspunkt auf das Cluster. Zur Steuerung kann man zwischen einem GUI-Tool namens »Compute Cluster Job Manager« oder einem Kommandozeilen-Interface wählen. [33] Geyer kritisiert, das die Nodes einen überdurchschnittlich großen Arbeitsspeicherverbrauch haben und das auf jedem »Compute Node« unnötigerweise ein Windows Desktop läuft. [32] 5.1.2 Linux Eine Linux Distribution erfüllt laut Geyer »alle Anforderungen die an Cluster Betriebs[s]ysteme gestellt werden:« [32] Der Kernel ist von vornherein Netzwerkfähig, hat ein gutes Sicherheitskonzept implementiert und produziert weniger Overhead als die Konkurrenz von Microsoft. Durch den geringeren Ressourcenverbrauch ist die notwendige Hardware für die Nodes außerdem preisgünstiger. [32] Es besteht unter Linux natürlich immer die Möglichkeit sich selbst ein für das Rechnen im Cluster optimiertes Betriebssystem zu konfigurieren. Auch für diesen Zweck gibt es jedoch schon vorgefertigte Distributionen. Als Beispiel genannt werden kann die »Rocks Cluster Distibution« basierend auf CentOS. Die Distribution wirbt für sich mit einer besonders einfachen Installation (»From Zero to Cluster in Just Three CDs«[34]) und vielen Erweiterungsmöglichkeiten.[34] 22 5.2 5.2.1 Message Passing Interface (Bodo Brand) Einführung Wenn man einen Cluster-Computer betreiben möchte, braucht man zu der entsprechenden Hardware auch Software, die ermöglicht, auf dem Cluster-Computer ein Programm auszuführen. Wie in dem Buch »Cluster Computing, Praktische Einführung in das Hochleistungsrechnen auf Linux-Clustern«[11] beschrieben, kommunizieren die einzelnen Knoten untereinander mit Nachrichtenaustausch. Dazu braucht der Programmierer Schnittstellen, um Daten zu senden und zu empfangen. Solche Schnittstellen wurden in dem Standard message-passing library interface specification oder kurz MPI festgelegt [35, S. 33]. Durch den Standard wurden die Syntax und Semantik für die Programmiersprachen C, C++ und FORTRAN bestimmt [11]. Die Implementation dieses Standards kann jedoch variieren. So stellen manche Supercomputerhersteller eigene MPI Implementationen bereit, die auf die Hardware optimiert sind [11]. 5.2.2 Programmiergrundlagen mit MPICH2 Die Implementation MPICH2 wird bei dem aktuell schnellsten Supercomputer der Welt eingesetzt [36] (Rangliste November 2015). Diese Implementation ist von Argonne National Laboratory entwickelt worden und unterstützt in der Version 2 auch Infiniband, eine Hochgeschwindigkeitsübertragungstechnik, neben TCP/IP-Netzen [11, S. 120]. Um das Programmieren eines MPI Programms zu erläutern, wird im folgenden »Hello World« in C demonstriert. Wie man in 5.1 sehen kann, wird zunächst die MPI Bibliothek mit #include <mpi.h> eingebunden. Diese beinhaltet alle Befehle, die im MPI Standard festgelegt sind und alle mit einem »MPI_« beginnen [22, S. 60]. Nach dem Start des Programms wird zuerst die MPI-Umgebung initialisiert. Dazu wird folgende Schnittstelle verwendet: i n t MPI_Init ( i n t ∗ argc , c h a r ∗∗ argv ) Keine MPI-Funktion außer MPI_Initalized darf vor MPI_Init aufgerufen werden [11, S. 384]. Durch den Befehl wird ein Kommunikator zwischen allen Prozessen, die entstanden sind, initialisiert, der im Code als MPI_COMM_WORLD erkannt werden kann. Zudem werden alle weiteren internen Variablen erstellt, die global verfügbar sind [37]. Die Argumente dieser Schnittstelle sind dabei nach dem MPI-2 Standard nicht mehr nötig und werden mit NULLPointern aufgefüllt. Der Kommunikator ist ein wichtiges Konzept von MPI und erlaubt die Kommunikation zwischen allen Prozessen, die der Kommunikator umfasst. So steht standardmäßig der Kommunikator MPI_COMM_WORLD zur Verfügung, der alle Prozesse umfasst, dieser kann jedoch aufgeteilt werden in Kommunikatoren, die weniger Prozesse umfassen [38]. Jeder Prozess bekommt durch den Kommunikator einen einzigartigen Rang (engl. rank), der im nächsten Schritt gelesen wird. Dazu benötigen wir die nächste Schnittstelle: i n t MPI_Comm_rank(MPI_Comm comm, i n t ∗ rank ) Der Rang, den jeder Prozess bekommt, ist eine Zahl zwischen Null und der Anzahl der Prozesse in dem angegeben Kommunikator. Da der Rang einzigartig ist, werden somit bei 4 Prozessen die Zahlen von Null bis Drei vergeben. Jeder Prozess hat nach diesem Schritt somit eine andere Zahl in der Variablen world_rank stehen. Im nächsten Schritt wird ausgelesen, wie der Hostname des Knotens heißt, auf dem der Code gerade ausgeführt wird. Dazu wird die folgende Schnittstelle verwendet: 23 Abbildung 5.1: Hello World Beispiel mit MPI unter C [37] i n t MPI_Get_processor_name ( c h a r ∗ name , i n t ∗ name_length ) Nun schreiben alle Prozesse in die Standardausgabe ihren Hostnamen, ihren Rang und die Anzahl der Prozesse, die beim Starten entstanden sind. Ganz am Schluss ist noch folgende Schnittstelle wichtig: i n t MPI_Finalize ( ) Diese Funktion gibt alle benutzten Systemressourcen wieder frei und es dürfen keine MPIFunktionen mehr aufgerufen werden [11]. 5.2.3 MPI Implementationen Vergleich Eine beliebte weitere kostenlose Alternative zu MPICH2 ist OpenMPI. OpenMPI bietet einige Features, wie z.B. eine Programmierschnittstelle für Java, die den aktuellsten MPI Standard unterstützt. Ältere Implementationen wie LAM/MPI, LA/MPI und FT-MPI sind in dieses Projekt mit eingeflossen [39]. Im Vergleich dazu wird die hochqualitative Implementierung von MPICH als Basis für neue MPI Implementation gewählt [40]. Aus MPICH wurde z.B. die kostenpflichtige Intel MPI Library erschaffen, welche mit höherer Performance im Vergleich zu OpenMPI wirbt [41]. Außerdem ist aus MPICH auch MVAPICH entstanden [40]. 24 Kapitel 6 Anwendungsbeispiel (Bodo Brand) 6.1 Wahl der Hardwarearchitektur Wie man in Abbildung 6.1 sehen kann, besteht unser experimenteller Cluster aus vier Raspberry Pis 2 Model B, welche über ein Switch verbunden sind. Abbildung 6.1: Versuchsaufbau für einen experimentellen Cluster 6.2 Wahl der MPI Implementierung Da die Funktionalitäten bei beiden Implementationen (OpenMPI und MPICH2) für unser Projekt keinen Unterschied machen, war unser Hauptmerkmal die einfache Installation der Implementation. Nach mehreren fehlgeschlagenen Versuchen, OpenMPI auf dem Raspberry PI zu kompilieren, entschieden wir uns schließlich MPICH2 zu nehmen, welches via Packagemanager ohne Probleme installiert werden konnte. 25 6.3 Installation und Konfiguration Um parallele Anwendungen auf allen 4 Raspberry Pis gleichzeitig laufen zu lassen, haben wir auf einem Raspberry Pi MPICH2 installiert und anschließend das Image auf die anderen Raspberries geklont. Damit die einzelnen Knotenpunkte des Clusters untereinander kommunizieren können, muss der Host, der den MPI Prozess startet, eine Secure Shell Verbindung zu den anderen Knotenpunkten aufbauen können, ohne dass eine Passworteingabe erforderlich ist. Dazu wird mit dem Befehl ssh-keygen -t rsa -b 2048 ein öffentlicher und privater Schlüssel erstellt, welcher auf dem RSA Kryptographieverfahren beruht. Anschließend wird an jeden Raspberry Pi mit dem Befehl ssh-copy-id pi@piXX der öffentliche Schlüssel übertragen. In unserem Testcluster kann nun der Raspberry Pi 01 auf die Raspberry Pis 02-04 über SSH zugreifen, ohne ein Passwort einzugeben (vgl. Abbildung 6.1). Über ein Hostfile kann nun jeder Hostname oder jede IP-Adresse eingetragen werden, welche dann beim Start des Programms mit angegeben werden. 6.4 6.4.1 Anwendungsfall Hashcracker Einführung Ein typisches Anwendungsgebiet von hoher Rechenleistung und Parallelität ist das Knacken von Passwörtern. Da Passwörter oft als Hash in einer Datenbank gespeichert werden [42], liegt es nahe, ein Programm zu entwerfen, welches alle möglichen Kombinationen über ein begrenztes Alphabet durchtestet und schaut, welches Wort den entsprechenden Hashwert ergibt. Dabei verzichten wir darauf, die Möglichkeit zu geben, einen Salt und/oder Pepper an das Passwort anzuhängen, um die Komplexität des Programms zu vermindern. 6.4.2 Umsetzung Um den Hashcracker umzusetzen, haben wir uns zunächst überlegt, wie man den Prozess parallelisieren kann. Die Idee, die wir zunächst dabei verwendet haben, ist ein Zusammenspiel zwischen dem Rang, den jeder Prozess bekommt und der Anzahl der Prozesse insgesamt. Dazu ist in 6.2 der entsprechend optimierte Pseudocode zu sehen. Durch diesen Ansatz über- Abbildung 6.2: Parallelisierungsansatz MPI Hashcracker springt jeder Prozess die Aufgaben der anderen Prozesse. Jedoch ist dieser Ansatz nicht sehr 26 effizient, da einige Operationen wie z.B. Subtraktion und Inkrementieren wegen dem Überspringungsprozess so oft ausgeführt werden, dass man dies deutlich an der Geschwindigkeit merkt. Um die Performance lindernden Operationen aus der Schleife herauszunehmen, benötigt man einen anderen Ansatz. Die Idee beinhaltet dabei eine Funktion, die die folgende Schnittstelle aufweist: i n t g e n e r a t e ( l o n g s t a r t _ i n d e x , l o n g end_index ) Man gibt dieser Funktion einen start_index , ab der wievielten Buchstabenkombination angefangen werden soll und einen end_index , ab der wievielten Buchstabenkombination aufgehört werden soll. Somit würden mit dem Alphabet abc und dem Aufruf »generate(1,5)« die Kombinationen: a,b,c,aa,ba durchgetestet werden und mit dem Aufruf »generate(6,8)« die Kombinationen: ca, ab und bb. Hierbei wird zunächst anhand dem start_index die Wortlänge und der Offset zum ersten Wort der Wortlänge berechnet. Dazu kommen die folgenden Formeln zum Einsatz: Wortlänge = (int)(log(start_index*(anzahl_buchstaben-1))/log(anzahl_buchstaben)) Offset = start_index-((pow(anzahl_buchstaben,Wortlänge-anzahl_buchstaben) /(anzahl_buchstaben-1))-1 Bei einem start_index von 6 ist die Wortlänge 2 mit einem Offset von 2 zu dem ersten Wort der Wortlänge. Wenn i die Position des Buchstabens vom Wort ist, kann man nun mit der Formel ((Offset/pow(Wortlänge,i)))%Wortlänge das Anfangswort generieren. Ab diesem Startwort werden nun end_index - start_index viele weitere Kombinationen durchgetestet und diese geben dann zurück, ob das gesuchte Passwort dabei war oder nicht. Nun könnte man theoretisch alle Aufgaben auf alle Prozessoren aufteilen wie in Abbildung 6.3. Die Anzahl Abbildung 6.3: 2. Parallelisierungsansatz MPI Hashcracker der Aufgaben ist in Abbildung 6.3 die Anzahl aller Kombinationsmöglichkeiten bis zu einer bestimmten maximalen Wortgröße, die das Passwort haben darf. Dieser Ansatz hat jedoch zwei Probleme. Das erste Problem ist, dass je nachdem wie viele Aufgaben, also wie viele Kombinationen es insgesamt gibt, sich diese nicht fair auf eine bestimmte Anzahl Prozesse aufteilen lassen. Bei diesem Ansatz könnten am Schluss durch Rundungsfehler Kombinationen weggelassen werden. Das zweite Problem ist, dass durch die Tatsache, dass es bei größeren Wortgrößen wesentlich mehr Kombinationen gibt, die meisten Prozesse an den größten Wortgrößen arbeiten werden und extrem wenige Prozesse an den kleinen Wortgrößen. Das heißt, wenn ich einen Hashcracker mit der maximalen Wortgröße 8 laufen lasse, dann sind 7 von 8 Prozessen mit der Wortgröße 8 beschäftigt und nur einer mit der Wortgröße 1 bis 7. Das heißt, es findet ein Passwort relativ spät, wenn die Wortgröße kleiner als 8 ist. Aus unserer Sicht logisch wäre es, erst die kleinen Passwörter gemeinsam durchzuprobieren und dann progressiv 27 sich in der Wortlänge zu steigern, da man dann den Fortschritt besser einschätzen kann und schon nach kurzem weiß, ob das Passwort bei den kleineren Wortlängen dabei ist oder es sich eventuell gar nicht mehr lohnt weiterzusuchen, da bereits eine bestimmte Wortlänge erreicht ist, die einen zu großen zeitlichen Aufwand benötigen würde. Um beide Probleme zu lösen, haben wir schließlich eine passende Lösung entwickelt, welche man in Abbildung 6.4 sehen kann. Die Variable Alphabet ist dabei die Anzahl der Buchstaben im vorgegebenen Alphabet, von Abbildung 6.4: Finaler Parallelisierungsansatz MPI Hashcracker dem alle Kombinationen durchgetestet werden sollen. Wie man in Abbildung 6.4 sehen kann, wird zunächst die Anzahl aller Kombinationen berechnet und in anzahl_aufgaben gespeichert. Daraufhin wird eine sinnvolle Paketgröße festgelegt. Wenn es genug Prozesse gibt, dass alle Kombinationen aufgeteilt werden können, ohne dass einer zu viele bekommen würde, dann wird die entsprechende Paketgröße mit len_dictionary/world_size berechnet, andernfalls ist eine maximale Paketgröße gesetzt, welche bevorzugt genommen wird, wenn die Pakete zu groß werden würden. Die maximale Paketgröße kann von System zu System variieren und umso größer man diese wählt, umso länger braucht ein Prozess das Paket abzuarbeiten. Das if in Zeile 10 von Abbildung 6.4 sorgt dafür, dass, wenn der letzte Prozess über die maximale Aufgabenanzahl geht, der end_index entsprechend angepasst wird, um eine Punktlandung auf die maximale Aufgabenanzahl zu schaffen. Wenn ein Prozess die Antwort gefunden hat, ruft er am Schluss MPI_Abort(MPI_COMM_WORLD, 0) auf, um alle anderen Prozesse anzuhalten. 28 Kapitel 7 Geschwindigkeit (Bodo Brand) Um die Geschwindigkeit des Hashcrackers zu testen, ließen wir alle Passwörter über dem Alphabet a-z bis zur Länge 5 durchtesten und haben dann die Anzahl Passwörter pro Sekunde berechnet aus alle Kombinationen/gebrauchte Zeit . Es gibt 12.356.630 mögliche Kombinationen und diese werden in Pakete geteilt und an die einzelnen Prozesse verteilt. Da die Zeit erst gestoppt wird, wenn der letzte Prozess fertig ist, ist es wichtig die Paketgröße so zu wählen, dass die Aufgaben fair verteilt werden. Wenn beispielsweise die Paketgröße 1.000.000 wäre und 8 Prozesse die Aufgabe bearbeiten sollen, dann müssen vier Prozesse 1.000.000 Kombinationen mehr machen als drei der anderen Prozesse. Der achte Prozess müsste 356.630 mehr Kombinationen durchtesten. Das würde das Ergebnis verfälschen. Somit haben wir die Paketgröße auf 50.000 festgelegt, damit der Mehraufwand einiger Prozesse keine Rolle mehr spielt. Zudem ist die Anzahl Prozesse ein entscheidendes Kriterium für die Geschwindigkeit, da die CPU optimal ausgelastet werden sollte, um die höchste Geschwindigkeit zu erreichen. Deshalb wurden die Tests auf einer Zweierpotenz an Prozessen durchgeführt, damit die Prozesse sich optimal auf die verschiedenen Raspberry Pis verteilen können. Wenn beispielsweise acht Prozesse auf vier Raspberries ausführen möchte, dann werden automatisch zwei Prozesse pro Raspberry ausgeführt. Eine Faustregel für die Festlegung der Anzahl Prozesse pro Host ist, dass man einen Prozess pro CPU Kern ausführt, jedoch gibt es auch »hyperthreaded cores«, welche mehr als einen Prozess pro Kern gleichzeitig abfertigen können [43]. So wird, wie in Abbildung 7.1: Geschwindigkeitsvergleich Abbildung 7.1 zu sehen, bei einem Mac Book Pro Mid 2014 ein höherer Durchsatz an Passwörtern pro Sekunde gemessen, wenn man vier Prozesse statt zwei Prozesse benutzt, obwohl der Prozessor zwei physikalische Kerne hat. Die MPICH2 FAQ Seite[44] empfiehlt, nicht mehr 29 Prozesse zu nehmen als CPU Kerne, da es sonst zu hohen Performanceverlusten kommen kann. Dieses Verhalten kann man hauptsächlich an allen vier Raspberry Pis und dem Intel Core i7 feststellen. Einflüsse, die nicht beachtet wurden, sind die Betriebssystemauslastung, RAM-Geschindigkeit und weitere Einflüsse, die hier einen Unterschied machen können. 30 Kapitel 8 Zusammenfassung und Ausblick (Bodo Brand) 8.1 Erreichte Ergebnisse Durch unseren Versuchsaufbau konnten wir zeigen, wie man in der Praxis einen Cluster Computer umsetzen kann. Auch wenn ein Raspberry Pi 2 nicht unbedingt für einen Cluster geeignet ist und uns viele Probleme bereitet hat, konnten wir dennoch eine MPI Software entwickeln, welche die Probleme der parallelen Programmierung aufzeigt. Problemstellungen zu parallelisieren, wie z.B. das Cracken eines Hashcodes, zeigt auch wie komplex ein Problem werden kann, dass für einen einzelnen Rechner wesentlich einfacher zu entwickeln gewesen wäre. 8.2 Ausblick Die Anzahl der Cluster Computer ist groß und wird schätzungsweise noch lange als Mittel benutzt, um hohe Performance und hohe Ausfallsicherheit zu erreichen. Jedoch kann sich das auch schnell ändern, so ist die Forschung in Quantencomputern gerade im vollem Gange, welche in Zukunft höhere Rechenleistung versprechen als aktuelle Supercomputer und somit selber zu Supercomputern werden. Wenn auch diese Aussage momentan noch mit Vorsicht zu genießen ist, da viele Problemstellungen nur schwierig umzusetzen sind, damit das Konzept vom Quantencomputer ausgenutzt werden kann. Da Passwörter heutzutage eher mit GPU geknackt werden, ist der Hashcracker auf den Raspberry Pis nicht unbedingt sinnvoll. Dennoch zeigt es die Arbeitsweise eines Cluster Computers und bringt mit 16 Cores bereits eine unerwartet hohe Rechenleistung mit. So können Privatpersonen sich ein Cluster bauen, welches mit einem Minimum an Preis eine hohe Rechenleistung bietet. Mit immer neueren Generationen von Raspberry Pis werden diese sogar noch leistungsstärker oder noch billiger, wie man am Raspberry Pi Zero sehen kann. 31 Literatur [1] (). Zwei neue hochleistungsrechner bringen rheinland-pfalz im wissenschaftlichen rechnen an die forschungsspitze, Adresse: https : / / www . uni - mainz . de / presse / 52192 . php (besucht am 10. 06. 2016). [2] (). Cluster noun - definition, pictures, pronunciation and usage notes | oxford advanced learner’s dictionary at OxfordLearnersDictionaries.com, Adresse: http : / / www . oxfordlearnersdictionaries . com / definition / english / cluster _ 1 ? q = cluster (besucht am 26. 05. 2016). [3] (). What is computer cluster? - definition from techopedia, Techopedia.com, Adresse: https://www.techopedia.com/definition/6581/computer- cluster (besucht am 21. 05. 2016). [4] (). What is the difference between cloud, grid and cluster? - stack overflow, Adresse: http : / / stackoverflow . com / questions / 9723040 / what - is - the - difference between-cloud-grid-and-cluster (besucht am 28. 05. 2016). [5] D. Christl, M. Riedel und M. Zelend. (). Kommunikationssysteme / rechnernetze, Adresse: http://marcus.zelend.de/studium/clustertools/clustertools.pdf (besucht am 04. 06. 2016). [6] C. Meyer. (). What is the difference between a supercomputer and a computer cluster? - quora, Adresse: https://www.quora.com/What- is- the- difference- between- asupercomputer-and-a-computer-cluster (besucht am 26. 05. 2016). [7] (). List statistics | TOP500 supercomputer sites, Adresse: http://www.top500.org/ statistics/list/ (besucht am 26. 05. 2016). [8] (). What is the different between a cluster and MPP supercomputer architecture - stack overflow, Adresse: http://stackoverflow.com/questions/5570936/what- is- thedifferent - between - a - cluster - and - mpp - supercomputer - architecture (besucht am 27. 05. 2016). [9] R. Büst. (2010). Was ist grid computing? : Clouduser, Adresse: https://clouduser. de/grundlagen/was-ist-grid-computing-156 (besucht am 28. 05. 2016). [10] D. Fey, D. Bender und B. Klauer, Hrsg., Grid-Computing: Eine Basistechnologie für Computational Science, Ser. eXamen.presLink hinter Ïn: In diesem Buch, Zeitschriftenoder Konferenzband befindet sich der Aufsatz!, Berlin: Springer, 2010, 523 S., isbn: 978-3-540-79746-3 978-3-540-79747-0. 32 [11] H. Bauke und S. Mertens, Cluster Computing: Praktische Einführung in das Hochleistungsrechnen auf Linux-Clustern. Berlin; New York: Springer, 2006, OCLC: 63137601, isbn: 978-3-540-29928-8. Adresse: http://public.eblib.com/choice/publicfullrecord. aspx?p=323280 (besucht am 26. 05. 2016). [12] M. Armbrust, A. Fox, R. Griffith, A. D. Joseph, R. H. Katz, A. Konwinski, G. Lee, D. A. Patterson, A. Rabkin, I. Stoica und M. Zaharia, »Above the clouds: A berkeley view of cloud computing«, EECS Department, University of California, Berkeley, UCB/EECS2009-28, Feb. 2009. Adresse: http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/ EECS-2009-28.html. [13] (). Cluster computing -hweidner.de, Adresse: http://www.hweidner.de/docs/Cluster_ Computing/ (besucht am 07. 06. 2016). [14] (). Failover cluster, Microsoft Developer Network, Adresse: https://msdn.microsoft. com/de-de/library/ff650328.aspx (besucht am 04. 06. 2016). [15] (). Load-balanced cluster, Microsoft developer network, Adresse: https://msdn.microsoft. com/de-de/library/ff648960.aspx (besucht am 04. 06. 2016). [16] (). What is supercomputer? webopedia definition, Adresse: http://www.webopedia. com/TERM/S/supercomputer.html (besucht am 06. 06. 2016). [17] (). HITACHI SR2201 massively parallel processor, Adresse: http://www.hitachi.co. jp/Prod/comp/hpc/eng/sr1.html (besucht am 06. 06. 2016). [18] G. B.J, C. B und F. P. J. (). Building a large low-cost computer cluster with unmodified xboxes, Adresse: http://www.bgfax.com/school/xbox/Xbox_ICPADS2004.pdf (besucht am 07. 06. 2016). [19] h. online heise. (). Der heterogene supercomputer, heise online, Adresse: http://www. heise.de/newsticker/meldung/Der- heterogene- Supercomputer- 83095.html (besucht am 11. 06. 2016). [20] (). Was ist x64 und x86? wo ist der unterschied?, Adresse: http://www.softwareok. de/?seite=faq-System-Allgemein&faq=13 (besucht am 11. 06. 2016). [21] (). Server und HPC-cluster schon mit neuer haswell-plattform | virtua, Adresse: http: //www.virtual-reality-magazin.de/server-und-hpc-cluster-schon-mit-neuerhaswell-plattform (besucht am 08. 06. 2016). [22] J. Schüle, Paralleles Rechnen: Performancebetrachtungen zu Gleichungslösern. Oldenbourg Verlag, 1. Jan. 2010, 237 S., isbn: 978-3-486-71158-5. [23] F. Riemenschneider. (). AMDs server-prozessoren zukünftig auch mit ARM, elektroniknet.de, Adresse: http://www.elektroniknet.de/halbleiter/prozessoren/artikel/ 92437/ (besucht am 09. 06. 2016). [24] (). Page 2 - the final ISA showdown: Is ARM, x86, or MIPS intrinsically more power efficient? | ExtremeTech, Adresse: http://www.extremetech.com/extreme/188396the - final - isa - showdown - is - arm - x86 - or - mips - intrinsically - more - power efficient/2 (besucht am 09. 06. 2016). [25] (). How to build a diskless cluster?, Adresse: http://web.mst.edu/~vojtat/pegasus/ administration.htm (besucht am 05. 06. 2016). 33 [26] (). Schrittweise anleitung für failovercluster: Konfigurieren eines dateiserver-failoverclusters mit zwei knoten, Adresse: https : / / technet . microsoft . com / de - de / library / cc731844(v=ws.10).aspx (besucht am 08. 06. 2016). [27] (). Architectures for clustering: Shared nothing and shared disk, Adresse: http://www. mullinsconsulting.com/db2arch-sd-sn.html (besucht am 09. 06. 2016). [28] L. L. Chowdhry. (2005). Cluster computing - CodeProject, Adresse: http : / / www . codeproject.com/Articles/11709/Cluster-Computing (besucht am 21. 05. 2016). [29] G. Bengel, C. Baun, M. Kunze und K.-U. Stucky, Masterkurs Parallele und Verteilte Systeme: Grundlagen und Programmierung von Multicore-Prozessoren, Multiprozessoren, Cluster, Grid und Cloud. Springer-Verlag, 20. Mai 2015, 504 S., isbn: 978-3-83482151-5. [30] D. O. Diedrich. (). Preiswerte hochleistungsrechner mit clustern, c’t, Adresse: http : //www.heise.de/ct/artikel/Einigkeit- macht- stark- 287954.html (besucht am 05. 06. 2016). [31] Marvyn. (6. Juli 2009). Insidetrack: Former employees confirm quadrics officially out of business last week, insideHPC, Adresse: http://insidehpc.com/2009/07/insidetrackfromer-employees-confirm-quadrics-officially-out-of-business-last-week/ (besucht am 05. 06. 2016). [32] R. Geyer, »Linux cluster in theorie und praxis«, TU Dresden, 19. Okt. 2009, Adresse: https://tu- dresden.de/die_tu_dresden/zentrale_einrichtungen/zih/lehre/ ws0910/lctp_stuff/K3_Betriebssysteme.pdf (besucht am 04. 06. 2016). [33] (). Introduction to microsoft windows compute cluster server 2003, Adresse: https : //technet.microsoft.com/en-us/library/cc720163(v=ws.10).aspx (besucht am 04. 06. 2016). [34] (). Www.rocksclusters.org | rocks website, Adresse: http://www.rocksclusters.org/ wordpress/ (besucht am 07. 06. 2016). [35] (2015). Mpi: A message-passing interface standard version 3.1, Adresse: http://www. mpi-forum.org/docs/mpi-3.1/mpi31-report.pdf (besucht am 16. 05. 2016). [36] (). Tianhe-2 (MilkyWay-2) - TH-IVB-FEP cluster, intel xeon e5-2692 12c 2.200ghz, TH express-2, intel xeon phi 31s1p | TOP500 supercomputer sites, Adresse: http://www. top500.org/system/177999 (besucht am 26. 05. 2016). [37] (). MPI hello world · MPI tutorial, Adresse: http://mpitutorial.com/tutorials/mpihello-world/ (besucht am 30. 05. 2016). [38] nptelhrd. (). Mod-09 lec-40 MPI programming, Adresse: https://www.youtube.com/ watch?v=mzfVimVbguQ (besucht am 10. 06. 2016). [39] (). Differences between LAM MPI and OpenMPI - stack overflow, Adresse: http:// stackoverflow . com / questions / 8770005 / differences - between - lam - mpi - and openmpi (besucht am 05. 06. 2016). [40] (). Mpi - MPICH vs OpenMPI - stack overflow, Adresse: http://stackoverflow.com/ questions/2427399/mpich-vs-openmpi (besucht am 05. 06. 2016). [41] (). Intel® MPI library | intel® software, Adresse: https://software.intel.com/enus/intel-mpi-library (besucht am 10. 06. 2016). 34 [42] (). Security - best way to store password in database - stack overflow, Adresse: http: / / stackoverflow . com / questions / 1054022 / best - way - to - store - password - in database (besucht am 03. 06. 2016). [43] (). MPICH2 examples on biowulf, Adresse: https : / / hpc . nih . gov / docs / mpich2 _ examples.html (besucht am 11. 06. 2016). [44] (). Frequently asked questions - mpich, Adresse: https://wiki.mpich.org/mpich/ index.php/Frequently_Asked_Questions (besucht am 11. 06. 2016). 35