LLM
Was sind LLMs, so genannte Large Language Modells eigentlich? Welche Vorteile bieten sie und welche Herausforderungen müssen beachtet werden? In diesem Artikel erfahren Sie mehr.
Was sind LLMs?
Ein Large Language Model (LLM) – auf Deutsch gelegentlich großes Sprachmodell – ist ein KI-Modell zur Sprachverarbeitung, das durch extrem viele Parameter und auf sehr umfangreichen Text-Datensätzen trainiert wurde. LLMs sind spezialisiert darauf, Text zu generieren und zu verstehen. Sie gehören zur Kategorie der neuronalen Netze (meist basierend auf der Transformer-Architektur) und lernen während des Trainings statistische Zusammenhänge zwischen Wörtern und Sätzen. So können sie Texte vorhersagen: gegeben ein Anfang, schlagen sie das wahrscheinlich nächste Wort vor – und das iterativ, wodurch sie ganze Absätze formulieren können.
Eigenschaften
Das Attribut “large” (groß) bezieht sich in erster Linie auf die Modellgröße, also die Anzahl der trainierbaren Parameter, die in die Milliarden gehen kann. Außerdem ist das Trainingskorpus sehr groß (teilweise das gesamte öffentlich verfügbare Internet an Texten). Diese Größe verleiht dem Modell folgende Fähigkeiten:
Beispiele
Bekannte LLMs sind OpenAI GPT-3/GPT-4, die in ChatGPT und anderen Anwendungen stecken, Googles PaLM und LaMDA, Meta’s LLaMA oder Anthropic’s Claude. Sie alle basieren auf ähnlichen Prinzipien, unterscheiden sich aber in Größe, Trainingsdaten und Feintuning. LLMs haben zuletzt für Aufsehen gesorgt, weil ihre Fähigkeiten beim Verfassen von Texten, dem Beantworten von Fragen und sogar beim Programmieren qualitativ neue Möglichkeiten eröffnet haben. In vielen Anwendungen werden sie inzwischen via APIs integriert – von Kundenservice-Chatbots über Textverarbeitung bis hin zu Code-Assistenten.