Retrieval Augmented Generation

Was ist RAG und wie kann es eingesetzt werden? Welche Vorteile bietet es? In diesem Artikel erfahren Sie mehr zum Thema.

Was ist RAG?

Retrieval-Augmented Generation (RAG) ist ein KI-Ansatz, der generative Modelle mit einer externen Wissensdatenbank kombiniert, um fundiertere Antworten zu liefern. Dabei wird, vereinfacht gesagt, vor der Generierung einer Antwort zunächst relevantes Wissen abgerufen (retrieve), das als zusätzlicher Kontext dient. Diese Infos können aus Unternehmensdokumenten, Wissensdatenbanken oder dem Web stammen. Anschließend generiert das Modell (etwa ein LLM) die Ausgabe, wobei es die abgerufenen Fakten mit einbezieht. Das Ziel von RAG ist, die Stärken von Suchmethoden (Aktualität, Faktentreue) mit den Stärken von generativer KI (Sprachgewandtheit, Kontextverständnis) zu verbinden.

Funktionsweise

Das RAG-Framework besteht typischerweise aus zwei Komponenten:

  • Retriever: Ein Such- oder Abrufmodul (z. B. eine semantische Suche, Vektordatenbank), das anhand der Benutzereingabe relevante Dokumente oder Textausschnitte aus einer festgelegten Wissensbasis findet. Beispiel: Die Nutzerfrage „Was sind die Kernfunktionen von Guardrails in LLMs?“ veranlasst den Retriever, in einer Sammlung von KI-Fachartikeln die Abschnitte zu suchen, in denen Guardrails für LLMs beschrieben werden.

  • Generator: Das generative Modell (meist ein Sprachmodell), das nun sowohl die ursprüngliche Frage als auch die vom Retriever geholten Zusatzinformationen erhält. Es „groundet“ seine Antwort in diesen Informationen – das heißt, es stützt die Formulierung direkt auf die Quellen. So kann es etwa eine konkrete Passage zitieren oder fachlich korrekte Details einbauen.

Durch die Aufteilung kann das System auch aktuelle oder organisationsspezifische Daten nutzen, die nicht in den ursprünglich mit dem LLM gelernten Daten enthalten waren. Das LLM muss nicht neu trainiert werden; es wird “on the fly” mit aktuellem Wissen versorgt.

Vorteile

  • Aktualität: LLMs haben oft einen Wissensstichtag (z. B. Kenntnis bis 2021). Mit RAG kann man z.  B. aktuelle Gesetzesänderungen oder Nachrichten als Kontext geben, sodass das Modell dazu Auskunft geben kann.

  • Faktentreue: Da das Modell konkrete Quellen heranzieht, sinkt die Gefahr von Halluzinationen. Es weiß, woher die Information kommt, und kann sogar Zitate daraus generieren.

  • Domänenwissen: Firmen können ihre internen Dokumentationen oder Handbücher als Wissensbasis anbinden. Das generative Modell beantwortet Mitarbeiterfragen dann mit Verweis auf diese gesicherten Informationen – eine Art intelligenter unternehmensinterner Assistent.

Herausforderungen

RAG-Systeme sind komplexer, da sie eine zuverlässige Suche voraussetzen. Der Retriever muss relevant und präzise sein; wenn er falsche oder irrelevante Abschnitte liefert, kann auch die generierte Antwort schiefgehen. Zudem muss das generative Modell lernen, den gegebenen Kontext korrekt zu verwenden und nicht zu ignorieren. Dennoch hat sich RAG als sehr effektiver Ansatz herausgestellt, um LLM-Anwendungen praxisnäher und verlässlicher zu machen – man bekommt das Beste aus beiden Welten.

Zurück zur Übersicht