Small Language Model

Was ist ein SLM und wozu kann es eingesetzt werden? Wie unterscheidet sich ein SLM von einem LLM? Hier finden Sie die Antworten.

Was ist ein SLM?

Ein Small Language Model (SLM) oder kleines Sprachmodell ist ein Sprach-KI-Modell, das im Vergleich zu den großen Sprachmodellen (LLMs) deutlich weniger Parameter hat und auf kleineren, spezifischeren Datensätzen trainiert wurde. SLMs sind oft auf bestimmte Domänen oder Aufgaben spezialisiert. Durch ihren kleineren Umfang benötigen sie weniger Rechenressourcen und können schneller trainiert sowie deployt werden. Allerdings ist ihr sprachliches Allgemeinwissen begrenzter als das von gigantischen Modellen.

Merkmale und Vorteile

Kleine Sprachmodelle werden gezielt mit kuratieren Datenquellen trainiert, die für eine bestimmte Anwendung relevant sind. Beispielsweise könnte ein SLM ausschließlich auf juristischen Texten trainiert werden, um als Helfer für Rechtsanwälte zu dienen. Einige Merkmale sind:

Domänenexpertise: Ein SLM „Juristensprache“ kennt viele juristische Fachbegriffe und Redewendungen, die ein allgemeines Modell eventuell nicht so präzise handhabt.
Effizienz: Weniger Parameter bedeuten weniger Speicherbedarf und oft schnellere Ausführung. SLMs lassen sich evtl. auch auf Geräten mit begrenzter Hardware (Edge-Geräte) nutzen, wo ein LLM zu groß wäre.
Trainingszeit: Durch die geringere Größe und den fokussierten Datensatz sind Trainings- und Feinabstimmungszeiten kürzer. Auch Updates (falls neue Daten dazukommen) sind schneller möglich.
Weniger Halluzinationen?: Da das Modell nur begrenztes Wissen hat, neigt es möglicherweise weniger dazu, darüber hinaus zu fabulieren. Allerdings kann es auch schlicht oft passen müssen, wenn etwas außerhalb seines Bereichs gefragt wird.

Anwendungsfälle

SLMs werden dort eingesetzt, wo Maßarbeit statt Gießkannenprinzip gefragt ist. In Unternehmen kann ein kleines Sprachmodell mit den firmeneigenen Dokumentationen trainiert werden, um Mitarbeiteranfragen zu beantworten (z. B. „Wie beantrage ich Urlaub?“ anhand der internen HR-Richtlinien). In medizinischen Anwendungen könnte ein SLM speziell auf Kardiologie-Fachliteratur trainiert sein, um Ärzten bei Fachfragen zu assistieren – es kennt dann aber nicht unbedingt andere medizinische Felder. Der generelle Trend ist, dass man ein großes vortrainiertes Basismodell nimmt und via Fine-Tuning oder Prompt Engineering ein kleineres spezialisiertes Modell ableitet, das genau das kann, was man braucht – ein SLM im weiteren Sinne.

SLM vs. LLM

Small Language Models stehen in Relation zu Large Language Models. Es gibt keine feste Grenze, was „small“ genau heißt – es ist kontextabhängig. In einer Zeit, wo Milliardenparameter-Modelle üblich sind, könnte man Modelle mit einigen hundert Millionen oder weniger schon als „small“ bezeichnen. Wichtig ist: größer ist nicht immer besser. Wenn die Aufgabe eng umrissen ist, kann ein schlankeres Modell mit Fokusdatensatz genauere Ergebnisse liefern, weil es nicht von irrelevanten allgemeinen Trainingsdaten abgelenkt wird. Zudem sind SLMs oft kosteneffizienter in Betrieb und umweltfreundlicher (geringerer Stromverbrauch). In der KI-Strategie setzen daher viele darauf, große Modelle zu trainieren und dann zu distillieren oder feintunen, um praktische SLMs für den realen Einsatz zu erhalten.

Zurück zur Übersicht