Biblical Series I: Introduction to the Idea of God
Inhaltsverzeichnis:
Da Supercomputer immer leistungsfähiger werden, werden sie dank der erhöhten Anzahl an integrierten Komponenten auch anfälliger für Fehler. Einige Forscher auf der jüngsten SC12-Konferenz letzte Woche in Salt Lake City, Utah, boten mögliche Lösungen für dieses wachsende Problem an.
Heutige High-Performance-Computing (HPC) -Systeme können 100.000 Knoten oder mehr haben - mit jedem Knoten aus mehreren Komponenten von Speicher, Prozessoren, Bussen und anderen Schaltungen. Statistisch gesehen werden all diese Komponenten an einem Punkt versagen und Operationen anhalten, wenn sie dies tun, sagte David Fiala, ein Doktorand an der North Carolina State University, während eines Vortrags bei SC12.
Das Problem ist nicht natürlich eine neue. Als der Lawrence Livermore National Laboratory 600-Knoten-ASCI-Supercomputer (Accelerated Strategic Computing Initiative) im Jahr 2001 online ging, hatte er eine mittlere Ausfallzeit (MTBF) von nur fünf Stunden, teilweise aufgrund von Komponentenausfällen. Spätere Tuning-Bemühungen hätten die MTBF von ASCI White auf 55 Stunden verbessert, sagte Fiala.
Aber da die Anzahl der Supercomputer-Knoten wächst, wird auch das Problem zunehmen. "Dazu muss etwas getan werden. Es wird schlimmer werden, wenn wir nach Exascale gehen", sagte Fiala und bezog sich darauf, dass Supercomputer des nächsten Jahrzehnts die zehnfache Rechenleistung haben sollen, die die heutigen Modelle haben.
Heutige Techniken für den Umgang mit Systemausfall kann nicht sehr gut skalieren, sagte Fiala. Er zitierte Checkpointing, bei dem ein laufendes Programm vorübergehend angehalten und sein Zustand auf der Festplatte gespeichert wird. Sollte das Programm dann abstürzen, kann das System den Job vom letzten Checkpoint aus neu starten.
NCSUDavid Fiala Das Problem beim Checkpointing ist laut Fiala, dass mit steigender Anzahl der Knoten der Systemaufwand steigt Um das Checkpointing zu tun, wächst auch das Wachstum und wächst exponentiell. Auf einem 100.000-Knoten-Supercomputer beispielsweise werden nur etwa 35 Prozent der Aktivität in die Durchführung von Arbeiten einbezogen. Der Rest wird von Checkpointing übernommen und - sollte ein System ausfallen - Wiederherstellungen, Fiala geschätzt.
Wegen der ganzen zusätzlichen Hardware, die für exascale-Systeme benötigt wird, die aus einer Million oder mehr Komponenten aufgebaut werden können, wird Systemzuverlässigkeit haben um zu der gleichen MTBF beizutragen, die die heutigen Supercomputer genießen, sagte Fiala.
Alt, guter Rat: Daten sichern
Fiala präsentierte eine Technologie, die er und seine Kollegen entwickelt haben, um die Zuverlässigkeit zu verbessern. Die Technologie adressiert das Problem der stillen Datenkorruption, wenn Systeme unbemerkte Fehler beim Schreiben von Daten auf die Festplatte machen.
Im Grunde besteht der Ansatz der Forscher darin, mehrere Kopien oder "Klone" eines Programms gleichzeitig auszuführen und dann die Antworten zu vergleichen. Die Software namens RedMPI wird in Verbindung mit der Message Passing Interface (MPI) ausgeführt, einer Bibliothek zum Teilen von laufenden Anwendungen auf mehrere Server, so dass die verschiedenen Teile des Programms parallel ausgeführt werden können.
RedMPI fängt alle MPI ab und kopiert sie Nachricht, dass eine Anwendung Kopien der Nachricht an den Klon (oder die Klone) des Programms sendet und sendet. Wenn verschiedene Klone unterschiedliche Antworten berechnen, können die Zahlen im laufenden Betrieb neu berechnet werden, wodurch Zeit und Ressourcen beim erneuten Ausführen des gesamten Programms eingespart werden.
"Die Implementierung von Redundanz ist nicht teuer. Die Anzahl der Kernzählungen kann hoch sein das ist notwendig, aber es vermeidet die Notwendigkeit, mit Checkpoint-Neustarts neu zu schreiben ", sagte Fiala. "Die Alternative ist natürlich, Jobs einfach neu zu starten, bis Sie denken, dass Sie die richtige Antwort haben."
Fiala empfiehlt, für jedes Programm zwei Sicherungskopien auszuführen, um eine dreifache Redundanz zu erreichen. Obwohl das Ausführen mehrerer Kopien eines Programms anfänglich mehr Ressourcen beanspruchen würde, könnte es im Laufe der Zeit effizienter sein, da Programme nicht erneut ausgeführt werden müssen, um die Antworten zu prüfen. Darüber hinaus ist ein Prüfpunkt möglicherweise nicht erforderlich, wenn mehrere Kopien ausgeführt werden, wodurch auch Systemressourcen gespart werden.
UCSCEthan Miller"Ich denke, die Idee, Redundanz zu machen, ist eigentlich eine großartige Idee. [Für] sehr große Berechnungen, die Hunderttausende von Knoten beinhalten, gibt es sicherlich eine Chance, dass sich Fehler einschleichen", sagte Ethan Miller, a Informatikprofessor an der Universität von Kalifornien Santa Cruz, der die Präsentation besuchte. Aber er sagte, dass der Ansatz angesichts des Ausmaßes des Netzwerkverkehrs, der durch diese Redundanz erzeugt werden könnte, nicht geeignet sein könnte. Er schlug vor, alle Anwendungen auf dem gleichen Satz von Knoten laufen zu lassen, was den Internode-Verkehr minimieren könnte.
In einer anderen Präsentation präsentierte Ana Gainaru, eine Doktorandin von der Universität von Illinois in Urbana-Champaign, eine Technik zur Analyse von Log Dateien zur Vorhersage von Systemausfällen.
Die Arbeit kombiniert Signalanalyse mit Data Mining. Die Signalanalyse wird verwendet, um das normale Verhalten zu charakterisieren. Wenn ein Fehler auftritt, kann er leicht entdeckt werden. Data Mining sucht nach Korrelationen zwischen einzelnen gemeldeten Fehlern. Andere Forscher haben gezeigt, dass mehrere Fehler manchmal miteinander korrelieren, da ein Versagen mit einer Technologie die Leistung in anderen beeinträchtigen kann, so Gainaru. Wenn zum Beispiel eine Netzwerkkarte ausfällt, wird sie andere Systemprozesse, die auf Netzwerkkommunikation angewiesen sind, bald humpeln.
Die Forscher fanden heraus, dass 70 Prozent der korrelierten Fehler ein Zeitfenster von mehr als 10 Sekunden bieten. Mit anderen Worten, wenn das erste Anzeichen eines Fehlers entdeckt wurde, kann das System bis zu 10 Sekunden Zeit haben, um seine Arbeit zu speichern, oder das Werk auf einen anderen Knoten verschieben, bevor ein kritischerer Fehler auftritt. "Fehlervorhersage kann mit anderen Fehlertoleranztechniken zusammengeführt werden", sagte Gainaru.
Joab Jackson berichtet über Unternehmenssoftware und allgemeine Technologie, die aktuelle Nachrichten für den IDG-Nachrichtendienst enthält. Folge Joab auf Twitter unter @Joab_Jackson. Joabs E-Mail-Adresse ist [email protected]
Conficker am härtesten in Asien, Lateinamerika
Asien und Lateinamerika sind vom Conficker-Wurm am stärksten betroffen, sagen Sicherheitsexperten.
Die Feststelltaste, die Num-Taste oder die Rollensperre. Aktivieren Sie die Feststelltaste, die Num-Taste und die Rollensperre in Windows
Aktivieren Sie die Feststelltaste. In Windows 10/8/7 können Sie festlegen, dass beim Drücken der Tasten Feststelltaste, Num-Taste oder Rollen-Taste ein Warnton zu hören ist.
Wie lange dauert es, bis ich das Steam-Library-Backlog überbrückt habe? Wenn Sie diese Frage haben, erfahren Sie auf der Wie lange zu schlagen Rechner Website, wie viele Stunden Sie benötigen, um Ihre Steam Library fertig zu stellen. Gut für Spieler auf Steam, die mit einem Überhang an Spielen feststecken, die sie vielleicht niemals spielen können.
Wie lange dauert es, bis ich den Rückstand meiner Steam-Bibliothek überwunden habe? Wenn Sie diese Frage haben, wird Ihnen auf der Rechner-Website