...Loading

Auf den Kontext kommt es an – und ein gutes RAG!

Stand: 26.05.2025 10:40 Uhr

Große Sprachmodelle (LLMs) übertrumpfen sich derzeit nicht nur durch bessere Leistung, sondern auch durch immer größere so genannte Kontextfenster. Doch was bedeutet das eigentlich?

Wenn es um unternehmensspezifisches Wissen geht, haben LLMs nur einen einzigen Zugang: den so genannten Kontext. Im Kontext muss alles enthalten sein, was das Modell benötigt, um eine brauchbare Antwort zu generieren – also die eigentliche Anfrage, etwaige Verhaltensregeln und natürlich das relevante Wissen. Doch der Kontext unterliegt einigen Einschränkungen:

Je größer der Kontext, desto länger dauert die Generierung einer Antwort.
Je größer der Kontext ist, desto teurer wird die Antwort. Die Kosten steigen linear mit jedem zusätzlichen Token. Und im Deutschen werden im Schnitt 1.33 Tokens pro Wort benötigt.
Es gibt eine Obergrenze für die Anzahl der Tokens, die ein Modell gleichzeitig verarbeiten kann.

Gerade der letzte Punkt stellt eine Herausforderung dar, vor allem bei großen Datenmengen. Schon einzelne umfangreiche Dokumente, wie etwa ein Anwenderhandbuch, können diese Grenze sprengen.

RAG-Systeme

Um diese Limitierung zu umgehen, kommen sogenannte RAG-Systeme (Retrieval Augmented Generation) zum Einsatz. Vereinfacht gesagt, wird das vorhandene Wissen dafür in kleine Fragmente – sogenannte Chunks – aufgeteilt und in einer speziellen Datenbank gespeichert. Wenn ein Benutzer dem Bot eine Frage oder dem Agent eine Aufgabe stellt, sucht das System zuerst in dieser Datenbank nach relevanten Wissensfragmenten. Die passenden Fragmente werden anschließend dem LLM im Kontext mitgegeben.

Im besten Fall wird dabei eine große Menge relevanter Informationen gefunden – doch auch das kann zum Problem werden: Wenn mehr Wissen gefunden wird, als in den Kontext passt, müssen wir auswählen. Dabei riskieren wir, wichtige Informationen zu verlieren. Die von RAG-Systemen getroffene Auswahl ist ein ständiger Balanceakt.

Neue Modelle

In den letzten ein, zwei Monaten sind neue LLMs auf den Markt gekommen, die deutlich größere Mengen an Tokens verarbeiten können. Teils bis zu 10 Millionen.

Ist das Kontextproblem damit gelöst? Können wir auf RAG-Systeme verzichten?

Leider nein. Abgesehen von höheren Kosten und längeren Antwortzeiten zeigt sich in der Praxis ein weiteres Problem: Je größer der Kontext, desto schwerer fällt es den Modellen Zusammenhänge herzustellen. Einzelne Informationen werden zwar zuverlässig gefunden (die berühmte Nadel im Heuhaufen), doch logische oder zeitliche Verknüpfungen bereiten weiterhin Schwierigkeiten.

Und bis diese Probleme gelöst sind, gilt also weiterhin:
Auf den Kontext – und ein gutes RAG-System – kommt es an.

Autor:

Ein lächelnder Mann, der einen schwarzen Kapuzenpulli mit der Aufschrift „VIER“ trägt, steht vor einem Büro.

Steffen Eichenberg

Head of Software Engineering

VIER

Zum Blog

...Loading