Transformer

Was ist ein Transformer im Kontext des maschinellen Lernens und wie wird es angewandt? Hier erfahren Sie mehr.

Definition

Der Transformer ist eine neuronale Netzwerkarchitektur, die auf dem Konzept der Selbstaufmerksamkeit (Self-Attention) basiert und ursprünglich für die Sprachverarbeitung entwickelt wurde. Er löste in vielen Bereichen RNNs/CNNs ab und bildet die Grundlage für moderne LLMs (z. B. GPT, BERT).

Besonderheiten

  • Self-Attention: Jedes Wort in einem Satz betrachtet alle anderen Wörter kontextabhängig; das erlaubt parallele Verarbeitung statt sequenzieller.

  • Skalierbarkeit: Transformer sind sehr gut parallelisierbar, wodurch große Modelle wie GPT-4 überhaupt erst trainierbar wurden.

Anwendungen

Transformers revolutionierten maschinelle Übersetzung, Textgenerierung, Textklassifikation und finden inzwischen auch Einsatz in Computer Vision (Vision Transformers) und Multimodalen Modellen (Text-Bild-Kombinationen).

Zurück zur Übersicht