Viele Unternehmen können sich das Training eigener Sprachmodelle nicht leisten, der Einsatz öffentlicher Systeme verbietet sich oft aus Datenschutz- oder Compliance-Gründen. Doch es gibt Alternativen.
Das Training großer Sprachmodelle (Large Language Models, LLM) erfordert enorm viel Rechenleistung und Datenkapazität. Die benötigten Ressourcen können meist nur von Supercomputern oder Cloud-Infrastrukturen bereitgestellt werden. Die Kosten sind immens. Laut dem Artificial Intelligence Index Report 2024 der Stanford University nutzte OpenAI für das Training von GPT-4 Rechenressourcen im Wert von 78 Millionen US-Dollar (zirka 70 Millionen Euro), das Training von Gemini Ultra kostete Google sogar mehr als 190 Millionen US-Dollar (zirka 170 Millionen Euro).
Große Sprachmodelle bieten kleinen und mittleren Unternehmen (KMU) viele Vorteile. Generative Chatbots, die auf LLMs basieren, können zum Beispiel im Kundenservice eingesetzt werden, um das Personal von Standardanfragen zu entlasten und Kunden-E-Mails schneller zu beantworten. Das Marketing profitiert von Sprachmodellen bei der Erstellung von Blog-Beiträgen, E-Mails oder Werbebroschüren, im Vertrieb helfen sie dabei, potenzielle Kunden zu identifizieren und das Verkaufsgespräch vorzubereiten. Intern lässt sich durch den LLM-Einsatz unter anderem die Kommunikation und Wissensvermittlung optimieren. KI kann Besprechungen automatisch transkribieren und zusammenfassen, im Meeting definierte Aufgaben identifizieren und diese den entsprechenden Verantwortlichen zuordnen. Das mühsame und zeitaufwendige Protokoll-Schreiben entfällt.
Für KMU kommt es allerdings nicht infrage, große Modelle mit Billionen von Parametern und Petabytes an Daten selbst zu trainieren - ganz abgesehen davon, dass für diese Aufgabe meist das nötige Personal und Know-how fehlt. Die Nutzung öffentlich verfügbarer Basismodelle wie GPT-4 hat jedoch ihre Grenzen. Sie wurden mit allgemein zugänglichen Daten trainiert, die Ergebnisse sind deshalb für Unternehmenszwecke oft nicht spezifisch genug. Die Übermittlung personenbezogener Daten oder von Geschäftsgeheimnissen an einen Cloud-Service wie ChatGPT kann darüber hinaus zu Datenschutzverletzungen, Compliance-Verstößen und Wettbewerbsnachteilen führen.
Alternativen zur Eigenentwicklung von Sprachmodellen
Für Unternehmen, die keine eigenen LLMs entwickeln können oder wollen, aber dennoch unternehmensspezifische Fragestellungen adressieren möchten, gibt es grundsätzlich folgende Möglichkeiten:
- Finetuning bestehender Basismodelle (Foundation Models): Vortrainierte Modelle werden auf kleineren, branchen- oder unternehmensspezifischen Datensätzen weiter trainiert. Dadurch kann die Qualität und Genauigkeit der Ergebnisse deutlich gesteigert werden. Außerdem entsprechen die Antworten in Stil und Terminologie besser branchenspezifischen Anforderungen oder Stilvorgaben, etwa für Anträge und Geschäftsberichte. Voraussetzung ist allerdings, dass genügend qualitativ hochwertige Trainingsdaten zur Verfügung stehen. Das dürfte vor allem in vielen kleineren Unternehmen nicht der Fall sein. Mit großen Datenbeständen steigen zudem Rechenaufwand und Speicherbedarf deutlich.
- Prompt Engineering: Als Prompt bezeichnet man das Eingabefenster, über das man einem KI-Modell Fragen oder Aufgaben stellen kann. Statt das Modell zu verändern, wird beim Prompt Engineering die Anfrage so lange angepasst, bis sie ein optimales Ergebnis liefert. Dafür sind weder zusätzliche Daten noch Rechenressourcen notwendig, was den Einstieg einfach macht. Allerdings darf man vom Prompt Engineering keine Wunder erwarten. Informationen, die im Training des Modells nicht vorhanden waren, lassen sich auch mit dem besten Prompt nicht herauskitzeln.
- Few-Shot Learning: Das Modell wird mit wenigen Beispielen nachtrainiert, was den Rechen- und Zeitaufwand erheblich reduziert. Die Qualität der Ergebnisse hängt stark von der Güte der Beispieldaten ab. Komplexere Fragestellungen lassen sich mit Few-Shot Learning nicht oder nur unzureichend adressieren.
- Retrieval-Augmented Generation (RAG): Bei RAG wird ein Basismodell wie GPT-4, Jamba oder LaMDA mit einer internen Wissensbasis verknüpft. Dabei kann es sich um strukturierte Informationen aus einer Datenbank, aber auch um unstrukturierte Daten wie E-Mails, technische Dokumente, Whitepaper oder Marketingunterlagen handeln. Das Foundation Model kombiniert die Informationen mit seiner eigenen Datenbasis und kann so Antworten liefern, die besser auf die Anforderungen des Unternehmens zugeschnitten sind. RAG verringert außerdem die Gefahr des „Halluzinierens“ – dabei erfindet ein Modell Fakten, weil die Datenlage für eine korrekte Beantwortung nicht ausreicht. Quellenangaben in den Antworten verbessern zudem die Nachvollziehbarkeit der Ergebnisse, was zu mehr Transparenz und Akzeptanz beitragen kann (siehe dazu auch „Responsible AI: Wie der verantwortungsvolle Umgang mit KI gelingen kann“). Schließlich kann RAG auch aus Datenschutz- oder Geheimhaltungsgründen die beste Wahl sein, da sensible Daten das Unternehmen nicht verlassen.
Die richtige Hardware für RAG finden
RAG stellt deutlich geringere Anforderungen an die IT-Infrastruktur als das Training oder das Finetuning von Basismodellen. Dennoch sollte man den Performance-Bedarf nicht unterschätzen. Je nach Art und Umfang der bereitgestellten Wissensbasis können durch die Suche und die Verarbeitung der Daten Latenzen entstehen, die das Nutzererlebnis und damit die Akzeptanz beeinträchtigen. Unternehmen sollten deshalb auf eine moderne, leistungsfähige Serverplattform wie die skalierbaren Intel Xeon Prozessoren setzen. Integrierte KI-Funktionen wie Intel AMX und Deep Learning Boost beschleunigen die Verarbeitung und Analyse der Daten und reduzieren so die Wartezeiten auf eine Antwort.
Für RAG-Anwendungen, die einen besonders hohen Datendurchsatz oder sehr geringe Latenzen benötigen, empfiehlt sich der Einsatz dedizierter KI-Beschleuniger wie die der Intel Gaudi Plattformen: Sie sind für die Verarbeitung von KI-Aufgaben optimiert und können mit bis zu 24 100GbE-Ports auch sehr große Datenmengen in kürzester Zeit verarbeiten.
Sensible Daten schützen
Vor allem in sensiblen Bereichen spielt die Sicherheit bei der Datenverarbeitung eine große Rolle. Unternehmen mit erhöhten Security-Anforderungen sollten daher ihre gesamte KI-Pipeline durchgängig verschlüsseln und so vor Manipulation und Ausspähung schützen. Dieses als Confidential AI bezeichnete Konzept basiert auf dem sogenannten Trusted Execution Environment (TEE), auch Enklave genannt, das Teile des Prozessors und des Arbeitsspeichers von der Umgebung abschottet. Nur speziell signierter und autorisierter Code erhält Zugriff auf die Daten, die erst innerhalb der TEE zur Verarbeitung entschlüsselt werden. Mit Befehlserweiterungen, den Intel Software Guard Extensions (Intel SGX), können Entwickler festlegen, welche Funktionen im Code vertrauliche Daten verwenden dürfen.
RAG im Einsatz
Wie Retrieval-Augmented Generation erfolgreich eingesetzt werden kann, zeigt das Beispiel des Chatbots AthleteGPT auf der Athlete365-Plattform des Internationalen Olympischen Komitees (IOC). Er beantwortete vor und während der Olympischen und der Paralympischen Spiele Fragen der Athleten. AthleteGPT half beispielsweise dabei, sich in den Sportstätten zurechtzufinden sowie Regeln und Vorgaben wie Social-Media Richtlinien oder Doping-Bestimmungen einzuhalten.
AthleteGPT kombiniert ein Open-Source-LLM von Mistral AI mit den Datenbanken des IOC und kann so per RAG sicher auf interne Dokumente zugreifen. Die Lösung basiert auf der Open Platform for Enterprise AI (OPEA) sowie Intel Xeon Prozessoren und Gaudi Beschleunigern. Das Framework ermöglicht den schnellen Aufbau einer RAG-Infrastruktur, lässt sich aber durch Komponenten und Systeme von Drittanbietern flexibel erweitern und anpassen.
AthleteGPT ist nur eines von vielen Beispielen, wie KI im Sport eingesetzt werden kann. Was künstliche Intelligenz schon heute für Athleten, Veranstalter und Fans leistet, zeigt dieser Artikel.
Fazit: KI für KMU: Es kommt auf die richtige Strategie an
Auch kleine und mittlere Unternehmen können von den Vorteilen künstlicher Intelligenz profitieren, wenn sie bei der Wahl der Infrastruktur und der Methode die richtigen Entscheidungen treffen. Vor allem RAG bietet viele Vorteile und lässt sich mit Frameworks wie OPEA relativ schnell in die eigene IT-Infrastruktur integrieren. Für die ersten Schritte können KMU die Services der Intel Tiber Developer Cloud nutzen. Sie bietet neben der notwendigen Hard- und Software auch kostenlose Online-Kurse und Toolkits, die den Einstieg erleichtern.