Anwendungen, IT-Systeme und Infrastrukturen durchlaufen alle einen ähnlichen Lebenszyklus: von der Planung (Day 0) über die Implementierung (Day 1) bis hin zum Betrieb (Day 2).
Dieser Blogpost beleuchtet, wie sich die Phasen durch den Einsatz von Cloud-Technologien verändern und wie IT-Teams den resultierenden Herausforderungen im Bereich „Day 2 Operations“ begegnen können.
Day 0, Day 1, Day 2 – Der klassische Lebenszyklus von IT-Systemen
Day 0: In dieser Phase werden die Planung, Vorbereitung und die ersten Schritte für die Implementierung eines neuen Systems oder einer neuen Infrastruktur unternommen. Zu den Aktivitäten an Day 0 gehören in der Regel:
- Planung:
Definieren der Anforderungen, Ziele und Umfang des Projekts. Identifizieren der Ressourcen, die benötigt werden, und Erstellen eines Implementierungsplans. - Evaluierung:
Bewertung der verfügbaren Optionen, Technologien oder Lösungen, die den Anforderungen entsprechen. Auswahl der am besten geeigneten Lösung für die Implementierung. - Design:
Erstellen eines detaillierten Designs für das neue System oder die Infrastruktur. Dies beinhaltet die Festlegung der Architektur, Konfiguration und Integration von Komponenten sowie die Definition der erforderlichen Ressourcen. - Beschaffung:
Anschaffung der erforderlichen Hardware, Software oder Dienstleistungen für die Implementierung - ein Relikt aus der traditionellen IT, das für Cloud-Setups praktisch wegfällt.
Day 1: In dieser Phase findet die Implementierung oder Bereitstellung des Systems statt. Sie umfasst typischerweise:
- Installation / Deployment:
Installation der Hardwarekomponenten (fällt weg im Cloud-Setup) und Installation/Deployment der Softwareanwendungen gemäß dem vorherigen Design und der Planung. - Konfiguration:
Konfiguration der Systeme und Anwendungen gemäß den spezifischen Anforderungen des Unternehmens. Dies beinhaltet das Einrichten von Netzwerkverbindungen, Benutzereinstellungen, Sicherheitsrichtlinien usw. - Integration:
Integration des neuen Systems in die vorhandene IT-Infrastruktur oder andere Anwendungen, um die reibungslose Kommunikation und Zusammenarbeit sicherzustellen. - Tests:
Durchführung von Tests und Überprüfungen, um sicherzustellen, dass das neue System ordnungsgemäß funktioniert und den Anforderungen entspricht. Dies beinhaltet die Überprüfung der Funktionen, die Performance-Tests und die Fehlerbehebung.
Day 2: Im Bereich Day 2 Operations geht es darum, sicherzustellen, dass die Systeme reibungslos laufen, Leistungsziele erreicht werden und die Anforderungen der Benutzer erfüllt werden. Er umfasst die Überwachung, Wartung, Fehlerbehebung, Aktualisierungen, Skalierung und Optimierung.
Zu den Aufgaben im Rahmen von Day 2 Operations gehören hauptsächlich:
- Überwachung und Analyse:
Die fortlaufende Überwachung der Systemleistung, des Ressourcenverbrauchs, der Auslastung und anderer relevanter Metriken, um potenzielle Probleme frühzeitig zu erkennen und zu analysieren. - Fehlerbehebung und Wartung:
Identifizieren und Beheben von Fehlern, Störungen oder Sicherheitslücken, die im Betrieb auftreten können. Regelmäßige Wartungsarbeiten wie das Einspielen von Patches, Updates oder Konfigurationsänderungen. - Skalierung und Kapazitätsplanung:
Überwachung des Ressourcenbedarfs und Skalierung der Infrastruktur, um sicherzustellen, dass sie mit steigenden Benutzeranforderungen Schritt halten kann. - Sicherheit und Compliance:
Gewährleistung der Sicherheit der Systeme und der Einhaltung von gesetzlichen Vorschriften sowie Unternehmensrichtlinien in Bezug auf Datenschutz und Sicherheit. - Optimierung und Verbesserung:
Identifizierung von Engpässen oder Bereichen, in denen Verbesserungen vorgenommen werden können, um die Leistung, Effizienz oder Benutzererfahrung zu optimieren.
Durch das agile Projektmanagement im Rahmen der DevOps-Strategie bilden Day 0, Day 1 und Day 2 einen Feedback-Loop. Die erhobenen Daten und Erfahrungen aus Day 2 werden genutzt, um Schlüsse für Day 0 der nächsten Iteration des Feedback-Loops zu ziehen.
Day 2 Operations: Aufgaben vor der Cloud
Im Pre-Cloud-Zeitalter war der Betrieb von IT oft manuell und zeitaufwendig. Zu den Day-2-Operations-Aufgaben gehörten:
- Hardware- und Netzwerkverwaltung: Die IT-Teams mussten physische Server und Netzwerkgeräte im Rechenzentrum verwalten. Dazu gehörte die Überwachung von Hardware- und Netzwerkfehlern, die Wartung von Hardwarekomponenten und die Konfiguration von Netzwerkeinstellungen.
- Betriebssystem- und Anwendungsverwaltung: Betriebssystem und Anwendungen mussten von den IT-Teams auf jedem Server manuell installiert und konfiguriert werden. Regelmäßige Updates und Patches mussten durchgeführt werden, um sicherzustellen, dass das System sicher und stabil bleibt.
- Überwachung und Fehlerbehebung: Das System musste von den IT-Teams kontinuierlich überwacht werden, um Probleme frühzeitig zu erkennen. Wenn es zu Fehlern kam, mussten diese manuell untersucht und behoben werden.
- Backup und Wiederherstellung: Die IT-Teams mussten durch regelmäßige Backups sicherstellen, dass die Systeme im Notfall wiederhergestellt werden können.
Day 2 Operations in der Cloud: Das hat sich verändert
Mit dem Aufkommen der Cloud-Technologie haben sich die Day-2-Operations-Aufgaben erheblich verändert. Die Cloud automatisiert viele zeitaufwendige Aufgaben, die zuvor manuell durchgeführt wurden. Dadurch können IT-Teams sich auf strategische Aufgaben konzentrieren und den Wert für das Unternehmen steigern, anstatt sich mit manuellen Aufgaben zu beschäftigen. Die wichtigsten Änderungen sind folgende:
- Hardware- und Netzwerkverwaltung: In der Cloud müssen sich IT-Teams nicht mehr um physische Server und Netzwerkgeräte kümmern. Cloud-Provider wie AWS, Azure und Google Cloud bieten virtuelle Server und Netzwerke, die automatisch skaliert, verwaltet und konfiguriert werden können.
- Betriebssystem- und Anwendungsverwaltung: In der Cloud müssen IT-Teams keine Betriebssysteme und Anwendungen mehr manuell installieren oder konfigurieren. Cloud-Provider bieten vorgefertigte Images, die mit einem Klick bereitgestellt werden können. Außerdem bieten sie automatische Updates und Patches, um sicherzustellen, dass das System sicher und stabil bleibt.
- Überwachung und Fehlerbehebung: Cloud-Provider bieten Tools und Dienste zur Überwachung von Anwendungen und Systemen in Echtzeit. Dadurch können IT-Teams Probleme schnell erkennen und beheben, bevor sie zu größeren Ausfällen führen.
- Backup und Wiederherstellung: Cloud-Provider bieten automatische Backups und Wiederherstellungsdienste, die es IT-Teams ermöglichen, schnell auf Ausfälle zu reagieren und Daten wiederherzustellen.

Herausforderung Day 2 Operations im Cloud Native Setup
Ein Cloud-natives Setup bringt viele Vorteile mit sich, zum Beispiel erhöhte Geschwindigkeit in der Softwareentwicklung und das volle Ausschöpfen des Cloud-Potenzials für den Betrieb von Applikationen. Die Komplexität für Entwickler reduziert sich, wird allerdings auf die Systemarchitektur verlagert.
Die Microservices-Architektur bringt Herausforderungen für die Wartung und den Support mit sich, denn verteilte Architektur erschwert die Wartung und den Überblick über das System. Die betriebene Software wird ebenfalls hochfrequenter aktualisiert. Den Überblick über diese Veränderungen und deren Effekte auf den Betrieb zu behalten wird dadurch erschwert.
Die Masse an Tools für Entwicklung, Bereitstellung, Monitoring und Support von und für Software ist enorm. Das Aneignen von Expertise und Überblick kostet Zeit, zumal diese Tools oft voneinander entkoppelt arbeiten.
Eine weitere Herausforderung ist einfach der Shift, den DevOps mit sich bringt, also die Veränderung von zentralisierten IT-Teams hin zu dezentralisierten Entwicklerteams, die mit DevOps- und SecOps-Teams zusammenarbeiten, um ihre Software zu betreiben, getreu dem Prinzip „you built it, you run it“.
Man kann deswegen zu Recht behaupten, dass Cloud Native einen Shift der Komplexität von Day 1 Richtung Day 2 mit sich bringt, welcher durch DevOps immer mehr auf den Schultern der Entwickler lastet. Zudem macht der aktuelle Fachkräftemangel es schwer, hauseigene Expertenteams zu bilden.
DevOps hat nach wie vor eine Berechtigung. Im Cloud-Native-Kontext muss seine Implementierung aber überdacht werden, da die Entwickler durch die Komplexität der Day 2 Operations immer weniger dazu kommen, Software weiterzuentwickeln. Es ist wichtig, eine Ops-Strategie zu entwickeln, die Dev und Ops nicht erneut in die Abschottung voneinander treibt.
Lösungsansätze für Day 2 Operations im Cloud-Native-Kontext
Im Cloud-Native-Kontext müssen Arbeits- und Teamstrukturen überdacht werden, um die Entwickler zu entlasten. Es haben sich zwei Instrumente herauskristallisiert, die die Arbeitslasten für die Teams wieder in ein Gleichgewicht bringen sollen. Die beiden Lösungsansätze schließen sich nicht aus. Im Gegenteil: Sie werden häufig kombiniert.
SRE (Site Reliability Engineer)
- SRE ist eine Rolle innerhalb eines DevOps-Teams. Diese Rolle hat die Aufgabe, Bottlenecks zu verhindern, indem sie Ops und Dev bei einem Mehraufwand, der den Arbeitsablauf behindern könnte, unterstützen.
IDP (Internal Developer Platform)
- Eine IDP ist eine Sammlung von Tools, Services und Prozessen, die Softwareentwickler-Teams in ihrer Arbeit unterstützen, diese beschleunigen und dabei die zugrundeliegende Infrastruktur abstrahiert.
- Das Platform-Engineering-Team ist verantwortlich für die Verwaltung der IDP und stellt den Entwicklern zentralisierte Expertise zur IDP-Nutzung bereit.
- Die IDP bildet somit eine Schnittstelle für Entwickler und das Platform-Team, um geteilte Verantwortung und Kommunikation zwischen Devs und Ops zu gewährleisten.
Was dabei häufig unterschätzt wird: In einem DevOps-Setup, bei dem Entwicklern Tools für die Entwicklung, Bereitstellung und Überwachung an die Hand gegeben werden, benötigt man weiterhin Teams, die diese Plattform-Tools warten. Dazu gehören Updates, die Fehler in der Funktion oder Sicherheitslücken schließen, aber auch Anpassungen und Erweiterungen der Plattform.
Fazit & Verstärkung durch Managed Cloud Services
Die gestiegene Komplexität im Bereich Day 2 Operations rückt zu Recht immer mehr in den Fokus von Unternehmen, die Cloud-Technologien einsetzen. Nicht alle können oder möchten den Knoten alleine lösen. Immer mehr IT-Verantwortliche entscheiden sich für Managed Cloud Services von Anbietern wie Claranet für den Betrieb Ihrer IT-Infrastruktur und Anwendungen. Durch die Zusammenarbeit mit erfahrenen Partnern werden Entwickler entlastet, die Einführung neuer Arbeitsweisen wird beschleunigt und das volle Potenzial der Cloud entfaltet.
Wie genau das in der Praxis aussieht, ist so individuell wie die Anforderungen unserer Kunden. Je nachdem, an welcher Stelle Unternehmen auf der Reise in die Cloud stehen, reicht unsere Unterstützung von der Planung und Umsetzung von Migrations-Projekten bis zur kompletten oder teilweisen Übernahme des IT-Betriebs.
Unsere Managed Container Services und Managed Kubernetes Services erfreuen sich dabei immer größerer Beliebtheit. Unternehmen können jeweils zwischen verschiedenen Optionen wählen, um den Umfang der von Claranet übernommenen Aufgaben ihrem Bedarf entsprechend zu gestalten.
Die folgenden Beispiele aus der Praxis zeigen, wie IT-Teams im Cloud-Native-Kontext besonders von der Tool- und Methoden-Kompetenz unserer Experten profitieren:
- Wir geben den Entwicklern Tools an die Hand, die sie beim zügigen und sicheren Deployment unterstützen. Viele unserer Kunden nutzen im Rahmen von Kubernetes Clustern eine Plattform, die ArgoCD, Git Repositories, Prometheus und Grafana integriert. Ein solches Setup erlaubt es ihnen, mithilfe einer Git-Plattform ihrer Wahl über ArgoCD ihre Deployments zu kontrollieren. Die Kombination aus Prometheus und Grafana ermöglicht es, während des Betriebs Metriken von Applikationen einzusehen, um darauf basierend Anpassungen vorzunehmen. Falls die neu ausgerollte Version einer Applikation Bugs beinhaltet, ist fürs Zurückrollen nicht mehr als ein `git revert` Kommando nötig.
- Bei Cloud-Migrationsprojekten übernehmen wir häufig das Setup und Management des Cloud Netzwerks . und beraten wo nötig bei der Entwicklung Cloud-nativer Anwendungen, um den Wechsel in die Cloud zu erleichtern. Unsere Rolle ähnelt dabei der eines SRE im Unternehmen unserer Kunden. Wir unterstützen beim Ausrollen, überwachen den Betrieb und helfen, wo wir helfen können.
Möchten Sie mehr darüber erfahren , wie wir Sie beim Betrieb Ihrer Cloud-Systeme unterstützen können? Wir freuen uns darauf, von Ihnen zu hören.
Claranet Managed Container Services
Claranet Managed Kubernetes Services