LLM

Was sind LLMs, so genannte Large Language Modells eigentlich? Welche Vorteile bieten sie und welche Herausforderungen müssen beachtet werden? In diesem Artikel erfahren Sie mehr.

Was sind LLMs?

Ein Large Language Model (LLM) – auf Deutsch gelegentlich großes Sprachmodell – ist ein KI-Modell zur Sprachverarbeitung, das durch extrem viele Parameter und auf sehr umfangreichen Text-Datensätzen trainiert wurde. LLMs sind spezialisiert darauf, Text zu generieren und zu verstehen. Sie gehören zur Kategorie der neuronalen Netze (meist basierend auf der Transformer-Architektur) und lernen während des Trainings statistische Zusammenhänge zwischen Wörtern und Sätzen. So können sie Texte vorhersagen: gegeben ein Anfang, schlagen sie das wahrscheinlich nächste Wort vor – und das iterativ, wodurch sie ganze Absätze formulieren können.

Eigenschaften

Das Attribut “large” (groß) bezieht sich in erster Linie auf die Modellgröße, also die Anzahl der trainierbaren Parameter, die in die Milliarden gehen kann. Außerdem ist das Trainingskorpus sehr groß (teilweise das gesamte öffentlich verfügbare Internet an Texten). Diese Größe verleiht dem Modell folgende Fähigkeiten:

Breites Weltwissen: Da unzählige Bücher, Artikel und Webseiten in den Trainingsdaten enthalten waren, haben LLMs ein enormes Allgemein- und Fachwissen aufgesogen.
Sprachvielfalt: LLMs beherrschen meist mehrere Sprachen und Dialekte, oft sogar Programmiersprachen.
Generalisierungsfähigkeit: Sie können verschiedene Aufgaben in natürlicher Sprache bearbeiten (Übersetzen, Zusammenfassen, Fragen beantworten, schreiben kreativer Texte), obwohl sie meist nicht explizit auf einzelne Aufgaben spezialisiert wurden. Ihre durch das Training erlernte Wahrscheinlichkeitsverteilung über Sprache reicht oft aus, um neue Aufgaben per Prompting zu lösen.
Kontextverarbeitung: Moderne LLMs können lange Eingabesequenzen berücksichtigen (z. B. mehrere Seiten Text), was komplexe Dialoge und mehrstufige Anfragen ermöglicht.

Allerdings benötigen LLMs enorme Rechenressourcen für Training und Betrieb, und ihre Ausgabe kann Unwahrheiten (Halluzinationen) enthalten, da sie keine echte Verifikation durchführen.

Beispiele

Bekannte LLMs sind OpenAI GPT-3/GPT-4, die in ChatGPT und anderen Anwendungen stecken, Googles PaLM und LaMDA, Meta’s LLaMA oder Anthropic’s Claude. Sie alle basieren auf ähnlichen Prinzipien, unterscheiden sich aber in Größe, Trainingsdaten und Feintuning. LLMs haben zuletzt für Aufsehen gesorgt, weil ihre Fähigkeiten beim Verfassen von Texten, dem Beantworten von Fragen und sogar beim Programmieren qualitativ neue Möglichkeiten eröffnet haben. In vielen Anwendungen werden sie inzwischen via APIs integriert – von Kundenservice-Chatbots über Textverarbeitung bis hin zu Code-Assistenten.

Zurück zur Übersicht