Server Reboots: Fehlersuche

chris21

So, habe da bei einem Berliner Anbieter (der auch von anderen hier genutzt wird) nen Server laufen, der seit heute mehrfach eigenständig rebootet.

Last ist nicht beachtenswert, Temperaturen von CPU & Platte sind ok, keine besonderen Einträge im Kernel log.

Einziger Unterschied zum letzten Jahr (wo es nur reboots gab, die ich ausgelöst habe): es läuft ein konstanter leichter Test mit vll. 20 req/s. Aber das ergibt eine Load von 0.0x und RAM ziemlich idle, Platte bzw. io auch kein Problem.

Andere Server anderer Anbieter, auf denen das gleiche Setup und der gleiche Test läuft, haben keinerlei Probleme.

Wo soll ich jetzt weitersuchen?

Synonym

Berliner Anbieter? Strato? Welcher Server genau? Was ist das für ein "Test"? Was macht der genau? Probleme auch ohne den Test?

Zitat von chris21

Last ist nicht beachtenswert, Temperaturen von CPU & Platte sind ok, keine besonderen Einträge im Kernel log.

Hört sich für mich nach "ich kann nix finden, habe null Ahnung warum, mein Server ist am schlafen und fällt dennoch aus" an. Kenne ich somit also recht gut.

chris21

Jupp, genau der Anbieter. Ist ein C4-61 (gibt es nicht mehr). Und der Server ist genau der, auf den Du zB zugreifst. PS: Da ist ein automatischer Failover vorgesetzt, der innerhalb max. 60 sek auf nen anderen Server geht, also nicht irgendein Totalausfall, aber nervig ist es schon.

chris21

Zitat

Hört sich für mich nach "ich kann nix finden, habe null Ahnung warum, mein Server ist am schlafen und fällt dennoch aus" an. Kenne ich somit also recht gut.

Sehr gut beschrieben, genau deshalb bin ich inzw. am fragen, weil mir auch die Antworten ausgehen.

Ich hatte ja schon gedacht, da ist heute jmd. dreimal über den Powerknopf gestolpert

PS: Der Server ist einfach ein Gateway mit Reverse-Proxy, also da kommt nicht viel Rechenarbeit zusammen. Die Requests sind solche, wie Du auch dahin schickst. Das kann es also auch nicht groß sein. Überlaufende Logs würde ich auch nicht als Problem sehen. 150MB als Logfile ist nun nicht gerade groß. File Descriptoren sind auch genug vorhanden.

Synonym

Ok, aber ein Root. Diese ständigen Probleme mit Reboots hatte ich nur bei vServern der neuen Generation mit SSD. Die alten laufen auch alle fehlerfrei.

Die Frage wäre daher schon, was ist, wenn der Test nicht läuft und, was der Test eben genau tut.

Ansonsten würde ich da pauschal sagen: Support. Ich kenne das Spiel leider zu gut, dass man sich Tage dämlich sucht, nix findet und dann erst den Support anruft und sich dann herausstellt, es ist ein Problem im Rechenzentrum oder am Switch oder oder oder. Ich hatte erst einen Root, der durch einen Hardwareschaden ausgefallen ist. Aber auch 5 Roots, die weg waren, immer wieder, von jetzt auf gleich. Bei den 5 war das Problem ein anderer Nutzer, der im gleichen Cluster war.

Aber, es ist ein Root und Failover gibt es auch. Du wirst als erste Hilfe den Hinweis bekommen, einen Hardwaretest zu machen. Den kannst Du im Kundenbereich auslösen. In der Zeit ist der Server aber offline und das, je nach Test, bis zu 24 Stunden. Wird da ein Fehler festgestellt, dann geht das direkt ins Rechenzentrum und ein Tausch wird veranlasst. Ist beim Test nichts erkannt worden, dann wieder -> Support.

Ok, der auf den ich zugreife. Das erklärt meine Beobachtungen. Dachte schon die ganze Zeit meiner ist in die Knie gegangen und kann nicht liefern

chris21

Naja, ich schicke da gerade >1 Mille Req für heute drauf, Du schickst ja eher ein paar hunderte bis tausende pro Tag. Der Server hat auch keine Last - ausgelegt ist das System für ganze andere Requestzahlen. Die Reboots kommen auch nicht regelmäßig, während die Minimallast gerade regelmäßig draufläuft. D.h. es kann auch nicht an irgendwelchen Schwellen liegen.

PS: Das System hat heute für Dich für praktisch 3 minuten nicht liefern können, der Server war für insgesamt 9 minuten offline, aber 6 Minuten wurden durch ein Ersatzsystem abgedeckt. Soviel Ausfall dürfest Du da nicht bemerkt haben - ob bekommst Du da sofort ne SMS?

Synonym

Würde da gar nicht lange rum machen. FB-Suport anschreiben. https://beispiel.rocks/www.facebook.com/stratohilft/ Sind bis 18 Uhr da. Tel-Support und eben parallel dazu ein normales Ticket öffnen.

Ob das nun ein C4-61 ist egal. Das sind ja nur CPU-Kerne und Leistungsklassen. Ich habe hier nur C6, aber das spielt keine Rolle. Wenn Du Deinen Test ausschließen kannst, dann stoße einen kleinen Hardwaretest an, ca. 1 Stunde und mache gleichzeitig ein Ticket auf.

Synonym

Nee, keine aber Email, wenn ein Timeout rein kommt

chris21

Solange Dein DNS-Resolver nicht länger cached als per TTL vorgegeben, sollte es nicht zu viele davon geben

Ich lasse jetzt nochmal den Test zuende laufen und falls es mit den Reboots weiter so läuft, kommt irgendwann nachts nen Hardwaretest. Dann gibt es aber wieder eine Minute Ausfall :o

Synonym

Nee, kein Thema hier, also auf mich musste keine Rücksicht nehmen. Ich Cache ja selbst, wie Du weißt. Ich bekomme die Mails nur, wenn zufällig ein User in einer Region + Zoomstufe unterwegs ist, wo ich noch keinen Cache habe. Dann eben eine Mail pro Kachel. Ich aktualisierte ja noch nicht, sondern nutzte immer nur das, was da ist, egal wie alt