Die automatisierte Erkennung und Verarbeitung visueller Informationen ist ein wichtiger Zweig der künstlichen Intelligenz. Durch leistungsfähige Algorithmen und neue Hardware-Beschleuniger konnten Forschende in den vergangenen Jahren dabei enorme Fortschritte erzielen.
Aktuell dreht sich die Diskussion um künstliche Intelligenz (KI) vor allem um große Sprachmodelle wie ChatGPT. Die Verarbeitung natürlicher Sprache ist jedoch nur ein Bereich der KI. Mindestens genauso wichtig ist die automatisierte Analyse von visuellen Informationen, die als Computer Vision bezeichnet wird.
Bei der maschinellen Bilderkennung kommen meist sogenannte gefaltete neuronale Netze (Convolutional Neural Networks, CNN) zum Einsatz. Sie analysieren jedes Pixel eines Bildes und versuchen anhand der Farbwerte, Muster zu erkennen und Objekte zu identifizieren. Damit das funktioniert, müssen die neuronalen Netze zunächst mit Hunderttausenden oder gar Millionen vorab klassifizierter Bilder trainiert werden. Nach der Lernphase überprüfen menschliche Trainer anhand neuer, nicht klassifizierter Bilder, ob das System die gewonnenen Erkenntnisse auf neue visuelle Informationen übertragen kann. Diese Übertragungsleistung wird als „Inferenz“ bezeichnet.
Erfolgskritisch für das Training und Fine-Tuning von Computer-Vision-Systemen ist das Zusammenspiel der richtigen Software-Tools mit optimierter Hardware. Plattformen wie Intel Geti bieten zusätzliche erweiterte Möglichkeiten der Zusammenarbeit und vereinfachen die Umsetzung von Computer-Vision-Projekten. Geti verwendet sogenanntes aktives Lernen, bei dem neuronale Netze interaktiv von menschlichen Lehrern trainiert werden. Experten aus den Fachabteilungen, Datenspezialisten und Software-Entwickler können gemeinsam auf die Daten zugreifen, was die Etikettierung und Klassifizierung der Trainingsdaten wesentlich beschleunigt. Die Ergebnisse lassen sich in verschiedenen Formaten exportieren und beispielsweise in OpenVINO (Open Visual Inference and Neural Network Optimization) weiter bearbeiten. Das Toolkit arbeitet mit gängigen KI-Frameworks wie TensorFlow, PyTorch oder Caffe zusammen und lässt sich sowohl lokal als auch im Browser oder Cloud-basiert nutzen. OpenVINO bietet vortrainierte Inferenzmodelle, was die Übertragung von Trainingsdaten auf neue unbekannte Bilder deutlich beschleunigt und vereinfacht. Mit der vierten Generation der skalierbaren Intel Xeon Prozessoren wurde die Leistungsfähigkeit von OpenVINO deutlich verbessert. Dank der KI-Beschleunigung durch die Intel Advanced Matrix Extensions (Intel AMX) lässt sich Bearbeitung von KI-Workloads bis zu zehn Mal schneller durchführen.
Wie KI den Raum vermisst
In den vergangenen ist die Leistungsfähigkeit von Computer-Vision-Systemen durch tiefe neuronale Netze, leistungsfähigere Algorithmen und neue Hardware-Beschleuniger immer schneller und besser geworden. So konnte beispielsweise ein Forschungsteam des IT-Herstellers Fujitsu gemeinsam mit dem österreichischen Autobahnbetreiber ASFINAG die Erkennung von PKW-Kennzeichen durch den Einsatz von OpenVINO und den Beschleunigungsfunktionen der Intel Xeon 4th Gen Prozessoren um mehrere Größenordnungen steigern.
Neben der Erkennung von Gegenständen und Personen kann Computer Vision auch zur Abschätzung von Abständen und Entfernungen der analysierten Objekte eingesetzt werden. Das ist vor allem beim autonomen Fahren und in der Robotik entscheidend, wo Position und Bewegung eines Objekts exakt gemessen und vorhergesagt werden müssen, um Kollisionen und andere Gefahrensituationen zu vermeiden. Im Bereich Augmented und Virtual Reality (AR/VR) spielt die Positionierung und Geschwindigkeit von Objekten für ein realistisches Raumerlebnis ebenfalls eine große Rolle.
Zwei von den Intel Labs entwickelte KI-Modelle haben in diesem Aufgabenbereich in jüngster Zeit wesentliche Fortschritte gebracht. Das RDE-Modell (Robust Depth Estimation) MiDaS wurde für die Tiefenbestimmung in Einzelbildern entwickelt. Dank eines größeren Trainingssets und eines aktualisierten Encoder-Backbone verbessert die aktuelle Version MiDaS 3.1 die Genauigkeit der Tiefenabschätzung um rund 30 Prozent. Das zweite Modell, VI-Depth 1.0, kombiniert die Bildanalyse mit Informationen aus Trägheitssensoren, wie sie beispielsweise in Smartphones und anderen mobilen Geräten zu finden sind. Durch diese sogenannte monokulare visuell-inertiale Tiefenschätzung (Monocular Visual-Inertial Depth Estimation) lassen sich Abstände und Größenverhältnisse in zweidimensionalen Abbildungen wesentlich genauer messen.
Wo Computer Vision zum Einsatz kommt
Die Anwendungsbereiche für das maschinelle Sehen sind vielfältig. Hier nur einige Beispiele:
- Produktion: In der Qualitätskontrolle helfen automatisierte Bilderkennungssysteme, Fehler in der Fertigung schneller und zuverlässiger zu erkennen und so den Ausschuss zu verringern. Unternehmen, die Computer Vision in ihre Produktionsprozesse eingeführt haben, konnten die Fehlererkennungsrate auf bis zu 99,9 Prozent steigern und die Endabnahme um den Faktor 5 beschleunigen.
- Gesundheitswesen: Auch in der Medizin sind Computer-Vision-Systeme längst wichtige Helfer geworden. Sie unterstützen bei der Produktion von Medikamenten und in der Diagnostik. So konnte beispielsweise das Unternehmen Ebenbuild mithilfe bildgebender Verfahren und Computer Vision einen digitalen Zwilling der Lunge entwickeln, um die Effizienz und Verträglichkeit von Beatmungstherapien zu verbessern.
- Landwirtschaft: Die intelligente visuelle Analyse von Böden und Pflanzen kann Landwirten dabei helfen, Wasser, Dünger, Pestizide und Saatgut gezielter einzusetzen, Ernteerträge vorherzusagen und Krankheiten schneller zu erkennen. Bei der Ernte selbst können visuell gesteuerte autonome Roboter helfen.
- Forschung: Auch Wissenschaftler verschiedenster Disziplinen profitieren von Computer-Vision-Systemen. Sie können beispielsweise für die Zählung von Tierpopulationen, die Identifikation von Fossilien-Lagerstätten oder die Vorhersage von Naturkatastrophen eingesetzt werden.
Fazit: Computer Vision – wie Unternehmen schneller zu besseren Ergebnissen kommen
Computer Vision ist eines der wichtigsten Anwendungsfelder für maschinelles Lernen und neuronale Netze. Bis vor kurzem war der Aufwand für das Training der Algorithmen allerdings sehr hoch. Plattformen und Toolkits wie Geti und OpenVINO, aber auch Fortschritte bei Algorithmen und Prozessoren haben die Entwicklung von Computer-Vision-Anwendungen deutlich vereinfacht. Neue Erweiterungen für Deep Learning und Inferenz wie die Intel Advance Matrix Extensions (Intel AMX) in den skalierbaren Intel Xeon Prozessoren der vierten Generation ermöglichen es beispielsweise, KI-Workloads mit hoher Performance auf einer Standard-Server-Plattform auszuführen. Beim MLPerf Inference-Test, einem Benchmark für Machine-Learning-Workloads, erhöhte sich die Leistung im Vergleich zur Vorgängergeneration um das Fünffache.
Damit bietet Intel für die Mehrheit aller KI-Anwendungsfälle die passende Hardware, wobei für die meisten gängigen Workloads die Leistung der Xeon-Plattform dank der neuen Beschleunigungsfunktionen völlig ausreichend ist. Mit den Xeon Max-Prozessoren hat Intel das Portfolio an Datacenter-CPUs außerdem deutlich erweitert. Durch bis zu 56 Leistungskerne und 64 GB an High Bandwidth Memory sind sie für datenintensive KI-Workloads, Deep Learning und High-Performance Computing prädestiniert.