Supervised Learning

Was ist Supervised Learning und wie funktioniert es? In diesem Artikel erfahren Sie mehr.

Definition

Supervised Learning (Überwachtes Lernen) ist eine Form des maschinellen Lernens, bei der ein Modell mithilfe eines beschrifteten Datensatzes trainiert wird. Beschriftet bedeutet: Zu jeder Eingabe (z. B. einem Bild) ist die gewünschte Ausgabe (Label, z. B. "Hund") bekannt. Das Modell erhält also während des Trainings kontinuierlich Rückmeldung, was richtig wäre, und passt seine Parameter entsprechend an. Ziel ist, dass das trainierte Modell später für neue, unbekannte Eingaben die richtigen Ausgaben liefert – es hat aus den Beispielen verallgemeinert.

Funktionsweise

Beim überwachten Lernen werden dem Algorithmus Paare aus Input und Ziel-Output präsentiert. Anhand eines Fehlermasses (z. B. Differenz zwischen Modelloutput und Solloutput) werden die Modellparameter iterativ optimiert (typisch mittels Gradientenabstieg). Dieser Prozess heißt Training. Es gibt zwei Hauptaufgabentypen im überwachten Lernen:

  • Klassifikation: Das Label ist eine Kategorie. Beispiel: Eingabe sind E-Mails, Labels "Spam" oder "Nicht-Spam". Das Modell lernt, neue E-Mails in diese Klassen einzuteilen. Weitere Beispiele: Bilderkennung (mehrere Klassen), Spracherkennung (Wörter als Klassen), Diagnosesysteme (Krankheit X ja/nein).

  • Regression: Das Label ist ein kontinuierlicher Wert. Beispiel: Eingabe sind Wohnungsmerkmale, Label der Mietpreis. Das Modell lernt eine Vorhersagefunktion für Zahlenwerte. Andere Beispiele: Vorhersage von Aktienkursen, Temperaturprognose, Schätzwertberechnung.

Während des Trainings wird oft ein Teil der Daten als Validierung genutzt, um zu prüfen, ob das Modell generalisiert. Nach dem Training bewertet man die Leistung mit Testdaten, die das Modell noch nie gesehen hat.

Beispiele

Überwachtes Lernen ist die am weitesten verbreitete ML-Methode, weil viele Aufgaben natürlich als Beschriftungsproblem formuliert werden können. Einige Alltagsbeispiele:

  • Bilderkennung: Ein Netzwerk wurde mit Millionen beschrifteter Bilder (Katze, Hund, Auto, etc.) trainiert und kann nun Fotos labeln.

  • Spracherkennung: Systeme wie Google Speech wurden mit Stunden von Audiomitschnitten plus zugehörigem Text trainiert – sie lernen, Klangmuster in Buchstaben/Worte zu überführen.

  • Medizinische Diagnose: Ein ML-Modell erhält Patientenakten mit Befunden und Diagnosen und lernt, welche Befundmuster auf welche Krankheit hindeuten.

  • Quality Control: In der Industrie werden Sensor- oder Bilddaten von Produkten verwendet: Label "fehlerhaft" oder "in Ordnung". Das Modell lernt, Fehler automatisch zu erkennen.

Grenzen

Überwachtes Lernen benötigt einen umfangreichen gelabelten Datensatz. Die Beschaffung von Labels ist oft teuer oder zeitaufwändig (man denke an das manuelle Labeln von Millionen Bildern). Zudem kann das Modell nur so gut sein wie die Daten: Bias oder Inkonsistenzen in den Labels führen zu entsprechenden Fehlern im Modell. Es lernt auch nichts über Bereiche, die im Training nicht abgedeckt waren. Deshalb gewinnen Verfahren wie selbstüberwachtes oder unüberwachtes Lernen, die ohne vollständiges Labeln auskommen, an Bedeutung – doch wo immer hochqualitative gelabelte Daten vorliegen, ist überwachte Lernmethodik nach wie vor extrem leistungsfähig.
Zurück zur Übersicht