Kontakt

Welche Rolle spielt VIER im Kontext der großen Sprachmodelle?

Welche Rolle spielt VIER im Kontext der großen Sprachmodelle?

Mit den Entwicklungen des letzten Jahres ist das Einsatzpotential der KI-Anwendungen im Kundenservice enorm gewachsen. Sprachmodelle sind vielfältiger nutzbar und erreichen - ohne viel detailliertes Training - deutlich bessere Ergebnisse als zuvor. Zudem macht mehr Alignment den Einsatz generativer Sprachmodelle im Live-Setting überhaupt erst möglich.

Um weiterhin optimale, kundengerechte Lösungen zu bieten, braucht es neue Anwendungen, die auf LLMs basieren, da die natürliche Kommunikation in der Interaktion Mensch-Maschine immer selbstverständlicher wird. Gleichzeitig entstehen neue Herausforderungen in der Sicherheit und Leistungsfähigkeit der Anwendungen.

Als Anbieter innovativer Softwarelösungen wählt und optimiert VIER die leistungsstärksten Modelle für bestimmte Use Cases, um sie dann sicher und stabil in Live-Kundenumgebungen einzusetzen. Hierfür arbeitet VIER seit Anfang 2023 mit eigenen KI-Teams an

  • der Entwicklung eines Modellgartens, der die besten Large Language Models für den jeweiligen Use Case beinhaltet

  • einem Gateway, das den sicheren und datenschutzkonformen Einsatz verschiedener LLMs ermöglicht

  • einer Chatlösung, die eine Verbindung zwischen Wissensaufbereitung und generativen Sprachmodellen ermöglicht.

Zudem haben wir als Unternehmen die Leistungen der LLMs in unsere Produkte VIER Cognitive Voice Gateway, VIER Copilot und VIER Interaction Analytics integriert und für unsere Kund:innen im Juni 2023 zur Verfügung gestellt.


VIER Modellgarten

Der Modellgarten ist ein Ort, an dem VIER Informationen zu LLMs speichert und bereitstellt, die für bestimmte Anwendungsfälle getestet wurden. Er gibt einen Überblick über aktuelle Entwicklungen, die für den Live-Einsatz wichtig sind, und bietet zusätzlich Einblicke in die Qualität, Reaktionszeit, Hosting und Kosten der verschiedenen Modelle.

Warum der eigene VIER Model Garden?

Es gibt viele LLM-Benchmarks und die meisten neuen Modelle werden hinsichtlich dieser Benchmarks getestet. Die Ergebnisse dieser Benchmarks werden in LLM-Ranglisten zusammengefasst, wie z.B. dem Open LLM Leaderboard oder dem LMSYS Leaderboard, das auch kommerzielle Modelle und menschliche Bewertungen integriert.



Selbstverständlich verwendet VIER diese Informationen, um mit den neuesten Entwicklungen Schritt zu halten. Allerdings gibt es mehrere Gründe, warum diese Informationen bei weitem nicht ausreichen, um eine sichere Entscheidung zu treffen, welches Modell für welchen Use Case verwendet werden kann:

  • Keiner der oben genannten Benchmarks nutzt als Bewertungsgrundlage die deutsche Sprache. Der VIER Model Garden liefert Informationen zur Qualität der Modelle in deutscher Sprache.

  • Die Benchmarks sind nicht anwendungsspezifisch. Selbst wenn ein Modell gut darin ist, Wissensfragen zu beantworten (MMLU) oder Antworten zu geben, die dem gesunden Menschenverstand entsprechen (z. B. HellaSwag, CommensenseQA) und nicht dazu neigen, oft im Internet verbreitete Unwahrheiten zu wiederholen (z. B. TruthfulQA), bedeutet das nicht automatisch, dass deutsche Texte korrekt zusammengefasst werden. Selbst spezifische Zusammenfassungs-Benchmarks sind meistens mit englischen Zeitungsdatensätze erstellt, die nicht mit den relevanten Anwendungsdaten vergleichbar sind. Der VIER Model Garden liefert Informationen zur Qualität der Modelle in spezifischen Anwendungsfällen mit kundenrelevanten Daten (z.B. Transkripten aus Telefonaten).

  • Die meisten Benchmarks behandeln die Qualität, was zweifellos das wichtigste Kriterium ist. Für verschiedene Anwendungsfälle gibt es jedoch andere wichtige Aspekte wie Reaktionszeit und Kosten. Der VIER Model Garden gibt einen Überblick über die wichtigsten Kriterien für Anwender:innen und unterstützt damit die Entscheidung für ein Modell in Bezug auf Qualität, Reaktionszeit, Hosting (Datensicherheit) und Kosten.

  • Das Huggingface Open LLM Leaderboard enthält nur Open-Source-Modelle. Der VIER Model Garden vergleicht die Qualität, Reaktionszeit und Kosten von Open-Source-Modellen mit denen kommerzieller Modelle.

  • Das Huggingface Leaderboard sowie die meisten anderen Ranglisten richten sich an Expert:innen und Entwickler:innen. Sie sind meistens schwer verständlich. Der VIER Model Garden wendet sich an potenzielle Benutzer und stellt Informationen auf eine strukturierte und verständliche Weise bereit.

  • Im Zusammenhang mit den für Kunden wichtigen Anwendungsfällen besteht der Model Garden aus mehreren Abschnitten. Im VIER Model Garden wird gezeigt, dass ein Modell in einem Anwendungsfall gut sein kann, während es in anderen Anwendungsfällen nicht performant ist.

VIER testet also relevante Modelle im Detail, um Unternehmen die besten Optionen für den jeweiligen Use Case anzubieten. Neben der Auswahl des richtigen Modells für den jeweiligen Anwendungsfall sind einige weitere Aspekte für den sicheren Einsatz von LLMs auf Enterprise Level zu beachten.


Das VIER AI Gateway und der neue Weg, Conversational AI in Unternehmen einzusetzen

Für den sicheren Einsatz von LLMs braucht es Expertise im Prompt Engineering und im systematisierten Testen verschiedener Promptformate gegeneinander, was es erst ermöglicht, leistungsfähige Anwendungen zu erschaffen. VIER hat weitreichende Erfahrungen damit, Leitplanken (“guardrails”) aufzustellen, um die Modelle in der Anwendung auf Kurs zu halten. Dabei geht es insbesondere darum, zu kontrollieren, dass Modelle sich beispielsweise bei Chatanwendungen an die Anweisungen im Prompt halten und nicht halluzinieren oder Informationen zu Themen geben, die in dem entsprechenden Use Case nicht vorgesehen sind. Dafür verfolgt VIER einen mehrstufigen Ansatz, der sowohl die Feinabstimmung des Prompts beinhaltet, als auch die Implementierung von Leitplanken über unser Flow Management, Blacklists und Gesprächsleitfäden für die Modelle, der in VIERs Projekt NEO-CAI (“New Enterprise Optimized Conversational Artificial Intelligence) vereint wird.

Um Know-How gezielt verfügbar zu machen, bietet NEO-CAI Retrieval Augmented Generation (RAG) in einer kundenspezifischen Variante. Damit kombiniert VIER die Möglichkeiten des LLMs, kohärente und gut wirkende Antworten zu geben, mit abfragebasierten Ansätzen, welche die richtigen Informationen aus bestehenden Dokumenten suchen. So wird es möglich, beispielsweise FAQs oder Fragen zu Produktbeschreibungen komplett automatisiert abzuarbeiten. Damit diese Anwendungen optimal funktionieren, ist es unter anderem wichtig, die Inhaltsdokumente in sinnvolle Teile zu schneiden (Chunking), einen guten Mechanismus für das Übersetzen dieser Dokumente in Vektoren zu finden (Embedding) und eine dazu passende Anwendung, die die Daten wieder zu der spezifischen Frage aus der Vektordatenbank holt und in der richtigen Form ins LLM zur Antwortgenerierung gibt.

Der Modellzugang erfolgt über unser AI Gateway, das neben der Authentifizierung, dem Billing und Monitoring sowie der Verwaltung der verschiedenen Modellzugänge auch detaillierte Datenschutzfeatures bietet. Dazu gehört eine optionale Anonymisierung oder Pseudonymisierung der Anfragen, die dafür sorgt, das ein Modell nie die kundenspezifischen Daten wie Namen, Kundennummern oder Adressen bekommt und die Antwort dennoch die gleiche Natürlichkeit aufweist wie in einer direkten Kommunikation mit dem ausgewählten Modell. Die Anonymisierung stellt VIER über eine interne Technologie von VIER Cognesys sicher, die gewährleistet, dass Kundendaten die VIER Systeme nicht verlassen.

VIER sorgt also dafür, dass die besten verfügbaren Modelle sicher im jeweiligen Use Case unserer Kund:innen eingesetzt werden können. Dafür bietet VIER individualisierte Chatlösungen ebenso an, wie die Integration von LLMs in unsere Produkte Cognitive Voice Gateway, Copilot und Interaction Analytics.


LLMs sicher und datenschutzkonform nutzen

Die Entwicklung von LLMs (Large Language Models) schreitet schnell voran. Wir stehen erst am Anfang einer Entwicklung, die verändern wird, wie wir Informationen nutzen und wie wir kommunizieren. VIER ist bereit, diese Herausforderung zusammen mit unseren Kunden zu meistern und die Möglichkeiten von LLMs nutzen, um die Customer Experience und gleichzeitig die Employee Experience zu verbessern.

VIER setzt dafür auf einen Mix aus verschiedenen Technologien wie dem Modellgarten, dem AI Gateway und der NEO CAI-Technologie, um Unternehmen zu helfen, sich in der komplexen Landschaft der LLMs zurechtzufinden. Diese Tools ermöglichen es Unternehmen, die besten Modelle für ihre Bedürfnisse zu finden und gleichzeitig darauf zu achten, dass ihre Anwendungen sicher und datenschutzkonform sind.

Der Weg hin zur serienmäßigen Nutzung von LLMs in Kundenanwendungen hat grade erst begonnen. Wenn Sie mehr über spezifische Anwendungsfälle, Integrationen oder Tests erfahren möchten, kontaktieren Sie uns gerne.

Autorin

Anja-Linnenbuerger VIER-Head-of-Research
Dr. Anja LinnenbürgerHead of ResearchVIER GmbH
Zurück zum Blog