Dass Server und Dienste fehlerfrei laufen ist kein Standard sondern sind regelmässige laufende Prozesse der IT-Administration. Die kleinste Störung nur eines einzelnen Benutzer kann inzwischen durch die stark vernetzte Welt, sich in den Sozialen Medien schnell verbreiten. Der nachfolgende Vertrauensverlust und Business Impact ist enorm.
Regelmässig müssen folgende Dinge durchgeführt werden:
- Festplattenspeicher Platz überprüfen
- Speicherauslastung überprüfen
- CPU Auslastung überprüfen
- Logfiles und Fehlerevent lesen
- Langzeitüberwachung der jeweiligen Zustände
- Installation von Betriebssystem Update für Linux / Windows
- Installation und Pflege der einzelnen Anwendungen
- Angriffe aus dem Internet überprüfen
- Firewallregeln testen und aktualisieren
All diese Aufgaben sind in der Regel lästige Aufgaben die kein IT-Administrator gerne macht, aber sie sind sehr wichtig, da ein Ausfall eines Dokumenten Management, Ausfall eines zentralen Mailserver, Ausfall eines Webservers auf Grund einer vollen Datenbank oder Festplatte einen Business Impact nach sich zieht.
Dh. die Kunden bekommen es heute sehr schnell mit wenn die eigene Infrastruktur nicht richtig läuft. Die Verbreitung von IT-Störungen durch die Sozialen Medien verbreiten sich in Windeseile und der Impact erhöht sich damit exponentiell. Erst kürzlich hat ein Ausfall von Geldautomaten in Österreich sehr große Kreise in den Netzen gezogen und das Vertrauen der betroffen Bank gegenüber den Kunden sich stark reduziert.
Hier noch eine Anmerkung zum Krisenmanagement meinerseits. Ich halte es immer noch für falsch, Informationen über einen Ausfall und deren Ursache tot zu schweigen und die Sache auszusitzen. Das Vertrauen der Kunden ist sowieso schon weg wenn der Business Impact eingetreten ist, es gilt im Nachgang das Vertrauen der Kunden zurück zu gewinnen und das macht man nicht indem man alles verschweigt und das Problem aussitzt. Es hilft auch nicht Mitarbeiter zum Schweigen zu verdonnern.
Für Arbeiten die man nicht gerne macht, gibt es inzwischen oft den Ansatz einer automatischen Software Lösung. Für Performance und Kapazitätsüberwachung als Langzeitmonitor kann „Cacti“ als OpenSource Lösung eingesetzt werden. Hierbei können Daten über mehrere Monate gesammelt werden, die dann grafisch angezeigt werden können. Daten können dann exportiert werden und für andere Tools ausgewertet werden (z.B. Excel).
Eine weitere Funktion wäre für Dienstleister von SaaS/PaaS/IaaS die Nachweispflicht der SLA und deren Verfügbarkeiten von Hardware, Netzen, Software Dienste.
Inzwischen habe ich mehrfach Cacti in verschiedene Konzerne installiert. Der Einsatz für KMU´s ist ebenfalls möglich und auch nötig. Ein Aufbau, Betrieb mit persönlichen Zugang als Hosted Lösung ist ebenfalls möglich. Die Wartung , Pflege und Datensicherung würde ich für Sie übernehmen im Rahmen eines Servicevertrags. Sie nutzen einfach die Software ohne sich mit der Implementation beschäftigen zu müssen.
Kontaktieren Sie mich unter : http://unixweb.de/kontakt