Machine Learning und andere Methoden der künstlichen Intelligenz (KI) stellen je nach Anwendung sehr unterschiedliche Anforderungen an die IT-Umgebung. Dieser Artikel zeigt, welche Rechnerarchitektur für welche Aufgaben am besten geeignet ist, und wie sich mit der richtigen Architekturwahl die Performance und Effektivität von KI-Projekten steigern lässt.
Die Diskussion um den Einsatz künstlicher Intelligenz (KI) hat nicht zuletzt durch ChatGPT stark an Fahrt gewonnen. Selbst Publikumszeitschriften und Boulevard-Magazine berichten über die Möglichkeiten und Gefahren von KI. Auch eine aktuelle Umfrage des Digitalverbands Bitkom, nach der 92 Prozent der Menschen in Deutschland den Begriff KI kennen, zeigt, dass das Thema in der Öffentlichkeit angekommen ist. Fast drei Viertel der deutschen Unternehmen halten KI für sehr wichtig, um wettbewerbsfähig zu bleiben, jedes zweite Startup nutzt bereits ChatGPT und andere generative KI-Anwendungen, so weitere aktuelle Studien.
Generative KI-Modelle wie ChatGPT oder Dall-E, bei denen Texte oder Bilder erzeugt werden, sind jedoch nur ein kleiner Teil der Einsatzmöglichkeiten von maschinellem Lernen und anderen KI-Methoden. Künstliche Intelligenz lässt sich ebenso für automatisches Sehen (Computer Vision), Mustererkennung, Verhaltensanalysen, Empfehlungssysteme, autonomes Fahren oder die Vorbereitung von Entscheidungen einsetzen, um nur einige Gebiete zu nennen. Die Anforderungen an die IT-Infrastruktur können dabei je nach Phase und Ziel eines KI-Projekts sehr unterschiedlich sein. Die Anwendungsfelder lassen sich im Wesentlichen in vier Bereiche unterteilen:
- High-Performance Computing und Training von Machine-Learning-Algorithmen: Das Training von Machine-Learning-Algorithmen erfordert große Mengen qualitativ hochwertiger und detaillierter Daten, die in Tausenden oder gar Millionen von Lernschritten analysiert und verarbeitet werden müssen. Grafikprozessoren (Graphics Processing Unit, GPU) sind für diese Aufgabe besonders gut geeignet, da sie durch hohe Rechenleistung und Parallelverarbeitung eine sehr gute Trainingsperformance ermöglichen. GPU-Konzepte wie die CDNA-Architektur von AMD sind auf maximale Rechenleistung optimiert und eignen sich daher besonders gut für das ML-Training. Beschleunigungsfunktionen für typische Grafikaufgaben wie Rasterung, Flächenfüllung, Schattenwurf und Übergänge wurden bei CDNA bewusst entfernt, um so mehr Kapazität für numerische Berechnungen zur Verfügung zu haben. Der erste, auf dieser Architektur basierende Grafikbeschleuniger, AMD Instinct MI100, konnte die Schallmauer von 10 TFLOP/s (Billionen Floating Operations pro Sekunde) bei doppelter Genauigkeit (FP64 = 64-Bit-Gleitkommazahlen) durchbrechen, die aktuell leistungsfähigste Version MI250x liefert in den Bereichen Machine Learning und Deep Learning eine theoretische Spitzen-Performance von bis zu 383 TFLOP/s bei halber Genauigkeit (FP16).
Geschwindigkeit allein genügt jedoch nicht, um anspruchsvolle Machine-Learning-Aufgaben in kurzer Zeit durchführen zu können. Es müssen auch sehr große Datenmengen verarbeitet werden. Die Speicher-Controller und Schnittstellen der CDNA-Architektur sind deshalb gezielt auf maximale Bandbreite hin entwickelt. Theoretisch ist ein Durchsatz von bis zu 1,23 Terabyte/s möglich – 20 Prozent mehr als bei der Vorgängergeneration.
- Anwendung von Machine-Learning und anderen KI-Methoden (Inferencing): Die Anwendung der Modelle, das sogenannte Inferencing (Schlussfolgern), ist wesentlich weniger daten- und rechenintensiv als das Training. Daher genügen meist Standard-Server für diese Aufgabe. So bietet beispielsweise die vierte Generation der AMD EPYC-Prozessoren mit bis zu 96 Kernen ausreichend Leistung, um auch anspruchsvolle Inferenzmodelle anwenden zu können.'
Bei der Wahl der Serverarchitektur sollten Anwender darauf achten, dass sich die trainierten Modelle nahtlos von der auf GPUs basierenden Trainingsumgebung in die CPU-basierte Ausführungsumgebung übertragen lassen. AMD bietet hierfür das Unified Inference Frontend (UIF) an, das plattformübergreifend die gängigsten Machine Learning Frameworks TensorFlow, PyTorch oder Open Neural Network Exchange (ONNX) unterstützt. Details dazu finden sich in diesem Whitepaper.
- Mobile und industrielle KI-Anwendungen in Mobilfunknetzen, am Edge und in der Cloud: Applikationen und Geräte benötigen heute eine Rechenleistung, die nicht mehr durch bloße Skalierung bestehender Architekturen zu erreichen ist. So sind beispielsweise die Berechnungen im aktuellen Mobilfunkstandard 5G aufgrund zusätzlicher Frequenzbänder, größerer Antennenarrays und leistungsfähigerem Beamforming rund hundertmal komplexer als im Vorgängerstandard 4G. Anwender benötigen daher Prozessoren mit sehr hoher Rechendichte, wie sie beispielsweise die XDNA-Architektur von AMD bietet. Sie basiert auf FPGA-Einheiten (Field-Programmable Gate Array), auf denen sich die KI-Bausteine (AI Engines) befinden. Diese bieten eine bis zu achtmal höhere Rechendichte als herkömmliche programmierbare Schaltungen und verbrauchen zudem bis zu 40 Prozent weniger Energie. In einem Gerät lassen sich zwischen zehn und hundert AI Engines verbauen, so dass eine große Bandbreite an Anforderungen und Anwendungen abgedeckt werden kann.
Um die verschiedenen Einsatzgebiete noch zielgenauer zu adressieren, bietet AMD zwei Typen von AI Engines an: AIE und AIE-ML. Erstere hat vor allem dann Vorteile, wenn sowohl Machine-Learning- als auch Signalverarbeitungsprozesse beschleunigt werden sollen. Geht es im Wesentlichen jedoch darum, die Performance von KI-Algorithmen zu optimieren, ist AIE-ML die bessere Wahl.
- KI-Einsatz in 3D-Computerspielen und Virtual-Reality-Anwendungen: Für eine realitätsnahe, dreidimensionale Darstellung von Räumen, Texturen und Bewegungen sind komplexe Grafikberechnungen notwendig. Die Anforderungen sind umso größer, je höher die Auflösung und je schneller die Bildwiederholrate ist. Solche Anwendungen profitieren von Grafikprozessorkonzepten wie der RDNA-Architektur von AMD, die eine hohe Bandbreite mit einem intelligenten Rendering verbinden.
Die aktuelle Generation, RDNA 3, ist modular aufgebaut. Jede Einheit (Chiplet) besteht aus 58 Milliarden Transistoren, die mit einer Geschwindigkeit von bis zu 5,3 Terabyte/s miteinander kommunizieren. Durch neue Beschleunigungsfunktionen für KI und Raytracing konnte die KI-Performance um mehr als das 2,7-fache, die Raytracing-Leistung um 50 Prozent pro Recheneinheit gesteigert werden. Die Architektur unterstützt 12-Bit HDR (High-Dynamic Range), was eine kontrastreiche Darstellung mit bis zu 68 Milliarden verschiedenen Farbtönen ermöglicht, sowie eine Auflösung von 8K bei 60 Bildern pro Sekunde.
Fazit: Spezielle KI-Aufgaben erfordern spezielle Hardware
Es gibt heute eine Vielzahl von Haupt- und Grafikprozessoren, die Maschinelles Lernen und andere Einsatzgebiete der künstlichen Intelligenz unterstützen. Vor einer Investitionsentscheidung sollte daher eine Analyse der geplanten Anforderungen stehen, um ein optimales Verhältnis von Leistung, Effizienz und Kosten zu erreichen. Während beispielsweise anspruchsvolle Trainingsprojekte für ML-Algorithmen von GPUs profitieren, die auf maximale Rechenleistung optimiert sind, genügen für das Inferencing Standard-Server, sofern sie mit modernen, KI-fähigen Prozessoren ausgestattet werden. In mobilen und industriellen Anwendungen liegt der Fokus dagegen eher auf Flexibilität, Skalierbarkeit und Energieeffizienz. Spiele und andere 3D-Anwendungen wiederum profitieren von dedizierten Grafikeinheiten mit hoher Auflösung und auf das Rendering spezialisierten KI-Modulen.