Transformer
Kategorie: KI-Grundlagen
Neuronale Netzwerk-Architektur, die seit 2017 die KI-Forschung dominiert — Basis aller großen Sprachmodelle.
Definition
Der Transformer ist eine 2017 von Google vorgestellte Netzwerk-Architektur, deren Kernmechanismus „Self-Attention“ es dem Modell erlaubt, Beziehungen zwischen beliebigen Positionen einer Eingabesequenz parallel zu erfassen. Sie ist die technische Grundlage praktisch aller modernen Sprachmodelle.
Bedeutung im Unternehmenskontext
Vor dem Transformer dominierten rekurrente Netze (RNN, LSTM), die Sequenzen Schritt für Schritt verarbeiteten und Schwierigkeiten mit langen Abhängigkeiten hatten. Transformer arbeiten parallel und skalieren extrem effizient — daher konnten Modelle wie GPT, Claude, Llama und Mistral überhaupt erst trainiert werden. Für Unternehmen relevant ist diese Architektur vor allem indirekt: Praktisch jede heute eingesetzte Sprach-KI basiert darauf. Direkten Einfluss hat die Architektur etwa beim Themen Kontextfenster (wie viel Text das Modell auf einmal verarbeiten kann), Latenz (Antwortgeschwindigkeit) und Kosten (Token-basierte Abrechnung).