Zum Hauptinhalt springen
Moderne IT-Infrastruktur

Moderne IT-Infrastruktur

Herausforderung Big Data: Große Datenmengen schnell und effizient analysieren

Herausforderung Big Data: Große Datenmengen schnell und effizient analysieren
Intel
Firma: Intel
Sprache: Deutsch
Größe: 1 Seite
Erscheinungsjahr: 2020
Besonderheit: registrierungsfrei

Im Jahr 2019 waren den Internet World Stats zufolge 4,4 Milliarden Menschen online, bis 2030 soll die Zahl auf 7,5 Milliarden steigen. Sie alle produzieren täglich große Mengen digitaler Daten, gemeinsam mit Milliarden vernetzter Dinge, Maschinen und Fahrzeuge. An Informationen herrscht also wahrlich kein Mangel. Die Analysten von IDC rechnen bis 2025 mit einem weltweiten Datenvolumen von 175 Zettabyte – einer Zahl mit 21 Nullen!

Unternehmen stellt diese Datenflut vor große Herausforderungen. Sie müssen Massen an Daten erfassen, speichern, filtern und analysieren. In-Memory-Datenbanken wie SAP S/4HANA sind hier das Mittel der Wahl. Sie sind sehr viel schneller als Festplatten- oder Flash-basierte Systeme und daher in der Lage, täglich Millionen von Transaktionen zu bewältigen. Bei Datenbankgrößen im TB-Bereich ist für die In-Memory-Verarbeitung allerdings sehr viel Arbeitsspeicher (Dynamic Random Access Memory, DRAM) nötig. Die Aufrüstung mit DRAM ist jedoch sehr teuer und stößt auch physikalisch schnell an Grenzen, denn die Zahl der DRAM-Speicherbänke pro System ist begrenzt. Erschwerend kommt hinzu, dass ein Neustart solcher Datenbanken Stunden dauern kann. Administratoren versuchen daher, die Systeme möglichst nicht herunterzufahren, wichtige Server-Patches oder Aktualisierungen des Betriebssystems werden hinausgeschoben. Werden Schwachstellen jedoch nicht geschlossen, kann das zu erheblichen Sicherheitsproblemen führen.

DRAM-Alternative Persistent Memory

Eine Lösungsmöglichkeit besteht darin, den Arbeitsspeicher durch Alternativen mit höherer Kapazität und geringeren Kosten pro GB zu ersetzen. Herkömmlicher Flash-Speicher ist dafür aber viel zu langsam. Erst die Entwicklung der 3d XPoint-Technologie von Intel und Micron Technology brachte hier den Durchbruch. Der Speicher, der von Intel unter dem Markennamen „Optane“ vertrieben wird, steht in SSD-Form als Massenspeicher und als „Persistent Memory“ (PMem) in DIMM-Form (Dual Inline Memory Module) als DRAM-Alternative zur Verfügung. Die PMem-Kapazität ist um ein Vielfaches höher als die von DRAM-Modulen. Mit bis zu 512 GB pro Modul kann daher In-Memory-Datenbanken deutlich mehr Speicher zur Verfügung gestellt werden. Während beispielsweise ein Vier-Sockel-System der ersten Generation von Intel Xeon Scalable Prozessoren mit 128 GB DRAM-Modulen maximal 6 TB RAM fassen konnte, sind es mit der zweiten Intel Xeon Scalable Generation – die einzige, die aktuell Optane Persistent Memory unterstützt – bis zu 15 TB (12 TB in Form 512 GB großer Optane-Module, plus drei TB in Form von DRAM).

Im Persistent-Modus kann PMem auch ohne Stromversorgung Daten speichern, was zusätzlich zur Datensicherheit beiträgt. PMem ist zwar nicht ganz so schnell wie DRAM, aber pro GB wesentlich preisgünstiger, was die Gesamtkosten einer Big-Data-Umgebung deutlich reduziert. Darüber hinaus verringert sich durch den PMem-Einsatz die Neustartdauer von In-Memory-Datenbanken auf wenige Minuten.

Persistent Memory in der Praxis

Wie der Einsatz von Optane Persistent Memory Big-Data-Analysen beschleunigt, zeigen die beiden folgenden Beispiele: T-Systems konnte in einem Proof-of-Concept gemeinsam mit Intel und HPE zeigen, dass große HANA-Instanzen auf einem HPE Superdome Flex Server mit Intel Optane DC Persistent Memory (DC = Data Center) fast 14 Mal schneller startete als in einer Vergleichskonfiguration ohne PMem. Die Leistungsfähigkeit des Systems war nahezu identisch mit der einer reinen DRAM-Konfiguration.

Der HPE Superdome Flex Server bietet zudem den zwei- bis vierfachen Arbeitsspeicher eines Standardservers auf einer kleineren physischen Grundfläche, wodurch die Leistungsdichte in einem Rechenzentrum verbessert wird. Der PoC testete auch typische Lifecycle-Management-Aktivitäten, wie das Upgrade einer Datenbank von SAP S/4HANA 2.0 Service Pack 3 auf Service Pack 4. Das Upgrade wurde erfolgreich abgeschlossen und profitierte von der reduzierten Offline-Zeit.

Im zweiten Fall analysierte das Beratungsunternehmen Accenture für die Siemens AG, inwieweit PMem-basierte System dazu beitragen können, Analysen in SAP HANA zu beschleunigen, die Effizienz zu steigern und die Kosten zu senken. Siemens betreibt eine der weltweit größten und komplexesten HANA-Datenbanken. Zusätzliche Kapazität wurde bislang geschaffen, indem weitere Server hinzugefügt wurden. Tests mit der zweiten Generation von Xeon Scalable Prozessoren und Optane DC Persistent Memory ergaben, dass der Einsatz von PMem eine stabile Umgebung mit bis zu 5 TB an Daten pro Knoten ermöglicht. Dank der höheren Dichte ließ sich die Komplexität der Infrastruktur deutlich reduzieren und der direkte Zugriff auf große Datenmengen verbessern. Das Laden von Datenbanken beim Start beschleunigte sich um den Faktor 15.

Fazit

In-Memory-Datenbanken sind das Mittel der Wahl, wenn es um die schnelle Analyse großer Datenmengen geht. Erreicht die Datenbankgröße allerdings mehrere TB, stoßen herkömmliche Systeme an ihre Grenzen. Eine weitere Aufrüstung mit dynamischem Arbeitsspeicher (DRAM) ist teuer oder physikalisch auch gar nicht mehr möglich. Zudem dauert ein Neustart so großer Datenbanken mehrere Stunden, was Wartungsarbeiten und Aktualisierungen massiv erschwert.

Mit dem Ersatz von DRAM durch Persistent Memory im DIMM-Format lässt sich die Kapazität deutlich steigern – bei gleichzeitig sinkenden Gesamtkosten. Zudem starten In-Memory-Datenbanken auf Systemen, die auf der zweiten Generation von Intel Xeon Scalable Prozessoren beruhen und mit Intel Optane DC Persistent Memory ausgestattet sind, um ein Vielfaches schneller als auf lediglich mit DRAM ausgestatteten Servern.

Herausforderung Big Data: Große Datenmengen schnell und effizient analysieren

Inhaltstyp: Artikel
Intel