Strato Server lahmt alle 5 Stunden um XX:55 h

  • Da hier glaube ich einige Dedis bei Strato betreiben:

    Ich habe das Phänomen, dass alle 5 Stunden zur 55. Minute einer Stunde der Zugriff unterirdisch lahmt. Server selbst überprüft, keine Crons, Systemd Timer oder besondere Prozesse zu der Zeit. Server Vitals vollkommen normal, nur Latenz geht von zweistelligen Millisekunden in zweistellige Sekunden (für ca. 1 Minute).

    Fährt Strato da irgendwas auf ihren Switches oder sonstwie im Netzwerk? Kann das jmd. von Euch auch beobachten?

  • Leider nein Chris. Ich habe nun 4 Root (C6-53) und 2 vServer (v20), keine derartigen Probleme. Probleme hatte ich nur mit den neuen vServern, also den SSD-Teilen, die alle 30 Minuten in die Knie gingen für 30 bis 60 Sekunden. War wohl ein Problem mit dem HPE-Storage und alle 30 Min lief die Session-Bereinigung. Die 10 Jahre alten vServer schnurren.

    Vor einigen Tagen erst ein anderes, dass die DNS-Server plötzlich verflucht lange brauchten, um eine Antwort zu geben. Oft lief ein Curl-Abruf mit 10 Sek Timeout ins nichts. DNS gewechselt und schnurrt wieder.

    Wirklich eingrenzen konnte ich das aber nicht, das war rund um die Uhr mit dem DNS, aber eben nicht immer. Jetzt geht es nicht, eine Minute später wieder normal, die nächsten 20 auch, dann wieder nicht.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Inzwischen festgestellt, dass es tatäschlich jede Stunde passiert und nicht nur alle fünf Stunden. Immer genau um XX:55:30 bis ca. XX:55:35.

    Keinerlei besonderen Crons oder Timer, die da laufen, nichts auffälliges bei Netzwerk, etc. Nur die Latenz-/Zugriffszeiten sind für ca. 5 Sekunden total unterirdisch. Backups werden auf dem Server nicht gemacht. Andere Server mit gleichem Setup bei anderen Anbietern zeigen das Phänomen nicht. Ich werd noch wahnsinning.

  • dass das interne Netzwerk wegen z. B. Backup Übertragungen ausgelastet ist

    Du meinst das interne bei Strato? Wenn ja, dann eigentlich nein, das sind a) verschiedene Netzwerke und b) die vServer und Root-Server stehen in verschiedenen Rechenzentren.

    Zugriffszeiten auf was bzw. von wo aus auf was?

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • So, gerade wieder beobachtet, es ist der upstream hinter dem nginx proxy. Der meldet mir zwar eine zugriffszeit von 10ms, scheint aber vorher den zugriff für 10 bis 20 sek. komplett zu blockieren, wodurch es im nginx zu 20sek statt 20ms führt. Problem erkannt, Lösung wird dabei sehr viel schwieriger werden bei dem Biest. Es liegt aber damit nicht an Strato, sondern hier an einer Überlastung durch den Garbage Collector, der alles blockt.

  • Garbage Collector

    ok, nginx ist eher Gebiet Alex, aber weil Du GC sagst, das war hier eben auch das Problem mit der Session-Bereinigung. Auf anderen Servern mit 10000 Sessions ging das in weniger als einer Sekunde und hier dauerte das mit einer Handvoll Sessions 5-10 Sekunden und in der Zeit ging fast nix mehr, obwohl die Vitalwerte vom Server was ganz anderes sagten.

    Wenn ein Mensch nicht um dich kämpft, hat er nur gewartet, dass du gehst. ;(

  • Der nginx ist es nicht. Sondern der prozess vom upstream, von dem nginx zieht. Der erlaubt in diesem einem Fall kein paralleles arbeiten, was dazu führt, dass ein prozess (nen mem garbage collector) alles blockiert. Das Problem scheint in der Software übrigens seit ca. 20 bis 25 Jahren zu bestehen :O