Zum Hauptinhalt springen
Moderne IT-Infrastruktur

Moderne IT-Infrastruktur

Das autonome Datacenter: Wie KI und Telemetrie Effizienz und Verfügbarkeit in Cloud- und Rechenzentrums-Umgebungen steigern

Das autonome Datacenter: Wie KI und Telemetrie Effizienz und Verfügbarkeit in Cloud- und Rechenzentrums-Umgebungen steigern
logo-energyblue-3000px.png
Firma: Intel
Sprache: Deutsch
Größe: 1 Seite
Erscheinungsjahr: 2022
Besonderheit: registrierungsfrei
Aktuell,
relevant und
hier zuerst!

Wer Rechenzentren oder Cloud-Umgebungen effizient managen will, braucht einen klaren Blick auf alle relevanten Leistungsdaten. Mithilfe der Telemetrie lässt sich die notwendige Transparenz schaffen, um schnell auf Probleme reagieren und sie möglichst automatisiert beheben zu können. Dabei spielt künstliche Intelligenz eine immer größere Rolle.

Trotz aller technologischen Fortschritte kämpfen Unternehmen weiterhin mit gravierenden Störungen in Rechenzentren und Cloud-Infrastrukturen. Dem Uptime Institute zufolge haben rund 20 Prozent aller Organisationen in den vergangenen drei Jahren einen schwerwiegenden Ausfall in ihrem Data Center verzeichnen müssen. Der Anteil der Störungen, die Schäden von 100.000 US-Dollar oder mehr verursachten, ist laut den Experten in den vergangenen Jahren stark gestiegen. Betrug er 2019 noch 39 Prozent, so sind es nun über 60 Prozent.

Um Ausfälle und Leistungseinbrüche vermeiden, Fehlerursachen schnell erkennen und Probleme proaktiv beheben zu können, benötigen Unternehmen zuallererst einen Überblick über alle relevanten Vorkommnisse in ihrer IT-Infrastruktur. Die dafür notwendigen Informationen liefert die Telemetrie. Über Server-, Speicher- und Umgebungssensoren werden dabei wichtige Parameter wie CPU-Auslastung, Speicherbandbreite, I/O-Zugriffe oder Stromverbrauch ermittelt und zentral gesammelt. So lassen sich beispielsweise Fragen beantworten wie:

  • Wie hoch ist die Speicherauslastung?
  • Welche Anwendungen nutzen welche Ressourcen?
  • Gibt es im Cache Ressourcenkonflikte?
  • Ist die Last durch Hyper-Threading optimal verteilt oder wird nur ein Prozessorkern verwendet?
  • Wie hoch ist der Stromverbrauch und die Temperatur in den Servern? Müssen Server aufgrund zu hoher Temperaturen gedrosselt werden?

 

Netzwerk und Storage nicht vergessen

Auch Netzwerk- und Storage-Komponenten sollten telemetrisch überwacht werden, denn sie beeinflussen die Perfomance und Verfügbarkeit in Rechenzentren erheblich. Typische Netzwerkfehler sind beispielsweise Paketverluste oder überlastete Switches, die zu einem Paketstau und damit zu erhöhten Latenzen führen. Häufig treten diese Staus nur für Millisekunden auf (Microbursts), was ihre Entdeckung erschwert.

Im Speicherbereich sind es vor allem Fehlerrate und Lebensdauer, die überwacht werden sollten. Selbst in redundant ausgelegten Storage-Umgebungen führt der Ausfall von Laufwerken zu erheblichen Leistungseinbußen. So nimmt die Wiederherstellung eines RAID-Arrays (Rebuild) häufig viele Stunden in Anspruch. Während dieser Zeit sind die Daten nicht oder nur eingeschränkt verfügbar.

Mehr Effizienz, weniger Kosten

Mithilfe der Telemetriedaten können Betreiber aber nicht nur die Verfügbarkeit und Leistung von Rechenzentren und Cloud-Infrastrukturen steigern, sondern diese auch effizienter und kostensparender konzipieren und verwalten. Auf Grundlage der gewonnenen Erkenntnisse lassen sich beispielsweise Workloads gezielter verteilen und so die vorhandenen Ressourcen besser nutzen. IT-Verantwortliche können besonders stromhungrige oder Hitze produzierende Komponenten schneller erkennen und die Probleme durch Neukonfiguration oder Austausch der betroffenen Hardware beheben. Bottlenecks im Netzwerk werden sichtbar und können gezielt aufgelöst werden. Schließlich bildet die Telemetrie auch eine entscheidende Basis für die Berechnung der Gesamtkosten (Total Cost of Ownership, TCO) und der wichtigsten Leistungskennzahlen (Key Performance Indicators, KPI).

Der Einstieg in die Telemetrie

Viele Hardwarekomponenten sind bereits mit Sensoren ausgestattet, die Daten für ein Telemetrieprojekt liefern können. Die skalierbaren Intel Xeon Prozessoren verfügen beispielsweise über sogenannte Performance Monitoring Units (PMU), die Taktfrequenz, Cache-Nutzung, Speicherbreite und andere Leistungsindikatoren erfassen. Diese Informationen, aber auch Daten aus anderen Quellen lassen sich über den Intel Telemetry Collector (ITC) abrufen und visualisieren. Der ITC bietet einen einfachen Einstieg in die Telemetrie und zeigt typische Probleme wie unzureichende Speicherbandbreite, unausgewogene Zugriffe auf Multiprozessorspeicher (Non-Uniform Memory Access, NUMA) oder ungünstig verteilte Interrupt Requests (IRQ-Affinität) auf. Er eignet sich allerdings nur für eine begrenzte Anzahl von Servern und gibt einen ersten Einblick in die Vorgänge im Datacenter. Ausführliche Informationen zum Einstieg in die Telemetrie finden sich in einem von Intel verfassten Telemetrie-Whitepaper.

Unternehmen, die Rechenzentren oder Cloud-Umgebungen mit hunderten oder gar tausenden von Servern überwachen wollen, sollten ihre Telemetrie-Umgebung deshalb auf ein Open-Source-Monitoringsystem wie Prometheus erweitern. Ursprünglich von den Betreibern der Musikplattform SoundCloud entwickelt, wird das Projekt heute von einer unabhängigen Entwickler-Community vorangetrieben. Mit der Serverkomponente von Prometheus lassen sich Telemetriedaten aus einer großen Zahl unterschiedlichster Quellen empfangen und speichern, die dann mit Analyse-Tools wie Grafana visualisiert und ausgewertet werden können.

Mit prädiktiver KI zum autonomen Rechenzentrum

Die telemetrischen Daten entfalten dann ihr ganzes Potenzial, wenn sie mit Orchestrierungsplattformen wie Kubernetes und KI-Technologien wie Machine Learning verknüpft werden. So lassen sich Anwendungen nicht nur automatisiert bereitstellen, skalieren und verwalten, sondern auch Fehler vorausschauend vermeiden. Mit dem von Google entwickelten Tool cAdvisor lassen sich beispielsweise Zustandsinformationen containerisierter Workloads erfassen und an Kubernetes senden. Intel bietet mit dem Telemetry Aware Scheduling (TAS) eine Kubernetes-Erweiterung, die eine autonome Fehlerbehebung und eine automatische Workload-Optimierung ermöglicht. Mit der Intel Power Thermal  Aware Solution (PTAS) lässt sich darüber hinaus der Stromverbrauch jedes einzelnen Servers messen, der Intel Data Center Monitor (DCM) sammelt und analysiert diese und andere Echtzeitdaten für das gesamte Rechenzentrum.

Telemetrie und Automatisierung bereiten den Weg zu einer Vision, die schon in naher Zukunft Realität werden könnte: das autonome „selbst fahrende“ Rechenzentrum. Die großen Mengen an Daten, die von Hardwaresensoren geliefert werden, bilden die ideale Basis für maschinelles Lernen. KI-Algorithmen, die mit Telemetriedaten trainiert wurden, können Muster erkennen, Performance-Probleme oder Ausfälle vorausschauend vermeiden und Infrastrukturen selbständig optimieren. Wie dies schon heute funktioniert, zeigt beispielsweise die Intel Memory Resilience Technology. Sie basiert auf einem multidimensionalen Modell, mit dem sich Speicherfehler vorhersagen und proaktiv beheben lassen. In einem Pilotversuch, der in Zusammenarbeit mit Samsung durchgeführt wurde, konnten durch den Einsatz der KI-Technologie fast 50 Prozent nichtkorrigierbarer Speicherfehler vorausschauend verhindert werden.

Fazit

Telemetrie bildet die unverzichtbare Basis für effiziente und hochverfügbare IT-Infrastrukturen. Die von Hardwaresensoren und Softwareagenten gesammelten Daten sind die Voraussetzung dafür, Rechenzentren und Cloud-Umgebungen optimal orchestrieren und betreiben zu können. In Kombination mit Machine Learning und anderen Verfahren der künstlichen Intelligenz lässt sich mit den Telemetrie-Informationen aber noch viel mehr erreichen. Intelligente, mit ihrer Hilfe trainierte Systeme sind schon heute in der Lage, viele Aufgaben im Rechenzentrum selbständig durchzuführen. Auch für das ambitionierte Ziel, IT-Infrastrukturen weitgehend autonom betreiben zu können, werden Telemetriedaten eine ganz entscheidende Rolle spielen.

Eine ausführliche und detaillierte Anleitung, wie Unternehmen in die Telemetrie einsteigen können, findet sich in diesem Whitepaper.

Das autonome Datacenter: Wie KI und Telemetrie Effizienz und Verfügbarkeit in Cloud- und Rechenzentrums-Umgebungen steigern

Inhaltstyp: Artikel
logo-energyblue-3000px.png