Workbook 1
Die Technologie von großen Sprachmodellen
Lerne die grundlegenden technischen Konzepte hinter den derzeit führenden KI-Modellen kennen
1.1 Was sind große Sprachmodelle?
Große Sprachmodelle, auch Large Language Models (LLMs) genannt, wie ChatGPT und GPT-4 von OpenAI oder BARD von Google, sind leistungsfähige neuronale Netze. Diese Netze wurden mit riesigen Datensätzen trainiert, um natürliche Sprache in bisher unerreichter Qualität zu verstehen und zu generieren. Wie funktionieren sie und wie entwickeln sie diese Fähigkeiten? In diesem Kapitel des LLM-Workbooks wollen wir grundlegende Konzepte und Methoden wie Sprachmodellierung und Transformer verständlich machen. Wir werden uns auch mit den Schlüsseleigenschaften und der „fundamentalen“ Natur aktueller Sprachmodelle für eine Vielzahl von Anwendungen im Bereich der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) beschäftigen. Keine Sorge, wenn die oben genannten Begriffen noch nicht geläufig sind, wir werden sie alle im Laufe dieses Kapitels erklären.
Wichtigste Begriffe
-
Sprachmodellierung
„Man erkennt ein Wort an der Gesellschaft, die es führt“, Firth, J. R. 1957
Dieser Satz des Linguisten John Rupert Firth über die Bedeutung von Wörtern hat sich als wichtigster Grundsatz für den Erfolg heutiger LLMs erwiesen. Er besagt im Wesentlichen, dass die Bedeutung eines Wortes durch seinen Kontext definiert wird. Diese Erkenntnis bildet die Grundlage für die Sprachmodellierung, die die Beziehung zwischen einem Wort und seinem Kontext statistisch abbildet. Konkret wird für jedes Wort aus einer großen Textmenge berechnet, wie wahrscheinlich es in einem bestimmten Kontext vorkommt. In der Praxis bedeutet das: Sind die gelernten Wahrscheinlichkeiten genau genug, kann Text generiert werden, der oberflächlich nicht mehr von menschlichen Äußerungen zu unterscheiden ist.
„Gestern war ein schöner Tag, denn der Himmel war <>.“
Eine wahrscheinliche Vervollständigung des Satzes durch einen Menschen aufgrund seiner Wahrnehmung der Welt wäre eher „blau“ als z.B. „bewölkt“. Um die verschiedenen Bedeutungsaspekte von Wörtern aus unterschiedlichen Kontexten zu lernen, sind große Textmengen notwendig. Das Aufkommen des Internets war der Schlüssel zur Entwicklung der heutigen LLMs und ihrer Leistungsfähigkeit, da es den einfachen Zugriff auf riesige Textdatenmengen ermöglichte, was zu immer besseren Sprachmodellen geführt hat.
-
Künstliche neuronale Netze
Künstliche neuronale Netze bestehen wie ihre biologischen Vorbilder aus kleinen „Recheneinheiten“, den Neuronen. Die Hauptfunktion dieser Neuronen besteht darin, ihren Input zu verarbeiten und zu gewichten und dann einen Output zu erzeugen, wenn ein bestimmter Schwellenwert überschritten wird. Neuronen können zu ganzen „Schichten“ zusammengefasst werden, die miteinander verbunden ein Netz bilden, das mit der Anzahl solcher Schichten immer komplexer wird. Diese Netze sind nachweislich in der Lage, Aufgaben zu lösen, die für herkömmliche, rein regelbasierte Programme zu komplex sind, und sie sind sehr effektiv und effizient, wenn es darum geht, Informationen aus den Daten, auf denen sie trainiert werden, in ihren Gewichten (auch Parameter genannt) zu speichern.
-
Deep Learning
Unter Deep Learning versteht man die schrittweise Anpassung der Gewichtungen der einzelnen Neuronen eines neuronalen Netzes im Laufe der Zeit, so dass das Netz als Ganzes eine bestimmte Aufgabe immer besser erfüllen kann. Mit anderen Worten, das Netz wird „trainiert“, indem ihm viele Beispiele eines Problems und seiner Lösung gezeigt werden und die Gewichte jedes Mal so angepasst werden, dass der Output des Netzes der gewünschten Lösung immer ähnlicher wird.
-
Neuronale Sprachmodellierung
Unter neuronaler Sprachmodellierung versteht man die Verwendung neuronaler Netze zur Sprachmodellierung. Ziel der Sprachmodellierung ist es, die Wahrscheinlichkeit zu bestimmen, mit der jedes Wort in einem bestimmten Kontext auftritt. Wie kann diese Art von Verteilungsinformation erfasst werden, insbesondere wenn ein großer Kontext betrachtet werden soll? Die Schätzung dieser Information durch einfaches Auszählen des Vorkommens eines Wortes in allen möglichen Szenarien ist nicht praktikabel, da selbst ein einzelnes Wort in exponentiell vielen verschiedenen Kontexten vorkommen kann. Dennoch ist es wünschenswert, aus einer möglichst großen Textmenge zu lernen, da sie mehr Informationen liefert als eine kleine Textmenge. Vor diesem Hintergrund kamen Forscher auf die Idee, die Leistungsfähigkeit von neuronalen Netzen und Deep Learning zu nutzen. Da neuronale Netze Verteilungsinformationen sehr effizient extrahieren und speichern können, eignen sich neuronale Netze auch hervorragend für die Sprachmodellierung und sind daher heute in der natürlichen Sprachverarbeitung allgegenwärtig.
1.2 Warum werden große Sprachmodelle entwickelt?
Vor allem eignen sich LLMs für ein breites Spektrum von Anwendungen. Aktuelle Modelle, wie das ChatGPT zugrundeliegende Modell GPT-3.5, können Fragen beantworten, Gedichte oder Aufsätze verfassen, zwischen Sprachen übersetzen und sogar Code generieren, obwohl sie ausschließlich auf Text trainiert wurden. Diese Vielseitigkeit ist erstaunlich und zeigt, dass die Sprachmodellierung einen weitaus größeren Nutzen hat, als noch vor einigen Jahren angenommen wurde. Sprachmodellierung ermöglicht es nämlich, sprachliche Regularitäten wie Satz- und Wortstruktur, die Beziehung zwischen einzelnen Wörtern oder ihre Funktion im Satz abzubilden und zu lernen.
LLMs sind außerdem effizient, weil sie eine einheitliche Lösung für viele komplexe Aufgaben bieten, die in der Vergangenheit oft durch eine Reihe von Einzelmethoden gelöst werden mussten. Darüber hinaus müssen die Daten, die zum Lernen all dieser Informationen benötigt werden, nicht erst mühsam von Hand verarbeitet werden, sondern können einfach aus dem Internet oder anderen Textdatenquellen entnommen werden, wie wir im nächsten Abschnitt sehen werden. Es ist daher klar, dass LLMs das Potenzial haben, in naher Zukunft die Art und Weise zu verändern, in der Menschen in einer Vielzahl von Bereichen Inhalte erstellen oder gestalten.
1.3 Wie funktionieren große Sprachmodelle?
LLM-Trainingsmethoden
Um leistungsfähig zu sein, müssen die führenden Sprachmodelle auf großen Datenmengen trainiert werden. Heutzutage wird dafür hauptsächlich eine Technik verwendet, die als selbstüberwachtes Lernen (self-supervised learning) bezeichnet wird. Bevor wir auf diese Technik eingehen, müssen wir uns jedoch mit einem eng verwandten Grundkonzept beschäftigen, dem überwachten Lernen (supervised learning).
-
Überwachtes Lernen
Beim überwachten Lernen wird ein neuronales Netz beispielsweise mit einem Satz konfrontiert und gebeten vorherzusagen, ob der Satz eine positive oder negative Stimmung ausdrückt (Sentiment-Analyse). Um die Beziehung zwischen den Wörtern eines Satzes und der von ihnen ausgedrückten Stimmung zu lernen, werden dem neuronalen Netz viele (Tausende bis Millionen) Beispiele von Satz-Stimmungs-Paaren (auch Labels genannt) präsentiert.
Satz: „Ziemlich gut. Ich kannte keinen der Schauspieler, aber als ich es zum ersten Mal sah, musste ich lächeln. Ich werde mir bald die nächste Staffel ansehen.“
–
Stimmung: positivDie Zuordnung von Beispieleingaben zu einem Label – in diesem Fall zur Stimmung „positiv“ oder „negativ“ – wird als Annotation (oder Etikettierung) bezeichnet und erfolgt in der Regel durch Menschen. Diese Annotationsarbeit war in der Vergangenheit ein wesentlicher Engpass beim Training von Sprachmodellen, da mit zunehmender Größe der Datensätze der Arbeitsaufwand und damit die Personalkosten steigen.
-
Selbstüberwachtes Lernen
Selbstüberwachendes Lernen ermöglicht es Modellen, aus nicht annotierten Daten zu lernen. Das Hauptmerkmal des selbstüberwachenden Lernens ist, dass die Annotationen in den Daten enthalten sind. Datensätze werden wie folgt als Trainingsdaten verwendet:
Satz: „Die Sonne geht langsam auf.“
–
Eingabe in das Modell: „Die Sonne geht langsam _“
–
Zielwort, das vorhergesagt werden soll: „auf“Wie das Beispiel zeigt, reicht beim selbstüberwachenden Lernen reiner Text für die Sprachmodellierung aus, da das zu vorhersagende Output-Wort (Label) bereits im Text enthalten ist. Diese Trainingsmethode ermöglicht somit die Verwendung von „Rohdaten“ (d.h. nicht annotierten Daten), die in Form von digitalen Texten in großer Menge vorliegen und mit geringem Aufwand aus dem Internet oder digitalen Bibliotheken extrahiert werden können.
Transformer und Attention
Transformer ist eine neue Architektur neuronaler Netze, die erstmals 2017 von Vaswani et al. vorgestellt wurde. Ihre wichtigste Fähigkeit ist ihr Selbstaufmerksamkeits-Mechanismus (self-attention mechanism), mit dem sie kontextbezogene Informationen effizienter und flexibler nutzen kann als frühere Arten künstlicher neuronaler Netze. Die Aufmerksamkeit in Transformern funktioniert wie ihr Gegenstück im menschlichen Gehirn und in der Kognition. Ähnlich wie das menschliche Gehirn in der Lage ist, flexibel auf seine Umwelt zu reagieren und bestimmten Reizen mehr Bedeutung beizumessen als anderen, erlaubt der Aufmerksamkeit-Mechanismus den Transformer-Modellen, jedes Wort flexibel mit allen anderen Wörtern in Beziehung zu setzen und ihre relative Bedeutung zueinander zu gewichten. Auf diese Weise werden die Eingabedaten in etwas „transformiert“, das für die nachfolgenden Aufgaben von Nutzen ist, indem wichtige Kontextinformationen hervorgehoben und mit den relevanten Wörtern verknüpft werden.
Im folgenden Satz zum Beispiel sind einige Wörter für die Gesamtbedeutung wichtiger als andere:
„Alice überquerte hastig die Straße, da sie spät dran war.“
Hier bezieht sich das Pronomen „sie“ auf „Alice“ und nicht auf „die Straße“. Diese Art der Assoziation wird als Koreferenz-Auflösung bezeichnet. Der Aufmerksamkeits-Mechanismus ermöglicht es Transformer-Modellen, intuitiv zu erfassen, dass z.B. in Bezug auf die Bedeutung des Wortes „sie“ das Wort „Alice“ von zentraler Bedeutung ist, während das Wort „die“ eher unwichtig ist. Kurz gesagt, jedes Wort im Satz erhält eine Gewichtung, die auf den umgebenden Wörtern basiert.
Es liegt auf der Hand, dass bei großen Datenmengen ein enormer Rechenaufwand nötig ist, um diese komplexen Assoziationen zwischen Wörtern zu erlernen. Transformer profitieren hier von ihrer Parallelisierbarkeit: Sie sind so konzipiert, dass die Berechnung der Aufmerksamkeit für jedes Wort unabhängig und damit gleichzeitig durchgeführt werden kann. Dies führt zu einer erheblichen Steigerung der Verarbeitungsgeschwindigkeit beim Training.
-
BERT (Bidirectional Encoder Representations from Transformers)
Im Jahr 2018 stellten Devlin et al. mit BERT eine neue, auf Transformern basierende Architektur sowie eine neue Sprachmodellierungstechnik, die maskierte Sprachmodellierung, vor. Diese Technik wurde insbesondere entwickelt, um die Fähigkeit von Transformern zu nutzen, Informationen sowohl von den linken als auch von den rechten Nachbarn eines Wortes bei der Sprachmodellierung zu berücksichtigen. Zu diesem Zweck werden die Trainingsdaten wie folgt aufbereitet:
„Der Himmel war <MASK> und die Sonne schien.“
Das Modell muss nun aus allen anderen Wörtern schließen, wie das ursprüngliche Wort an der maskierten Position gelautet haben könnte. In jedem Satz können weitere Wörter nach dem Zufallsprinzip maskiert werden, um zu verhindern, dass das Modell nur bestimmte Satzteile berücksichtigt. Ein auf diese Weise trainiertes Modell kann für eine Vielzahl von Aufgaben eingesetzt werden, die ein tiefes Verständnis der natürlichen Sprache erfordern, wie z.B. die Ableitung der Bedeutung eines Ausdrucks aus einem vorhergehenden Satz.
Ein weiteres wichtiges Merkmal von BERT ist das Trainingsschema: Das Modell wird in zwei Phasen trainiert. Zunächst wird eine „Basis“-Version in einer so genannten Pre-Training-Phase mit Hilfe der Sprachmodellierung auf einer großen Datenmenge trainiert. Dies ist rechen- und zeitaufwendig. In einem zweiten Schritt, dem so genannten Fine-Tuning, kann das vortrainierte Modell mit relativ wenigen annotierten Daten für eine bestimmte Aufgabe angepasst werden. Dies hat den Vorteil, dass der erste, „teure“ Schritt des Pre-Trainings nur einmal durchgeführt werden muss. Die so erlernte allgemeine linguistische Information kann dann wiederverwendet werden, um für eine Vielzahl von Aufgaben die bestmögliche Leistung zu erzielen.
Wie oben beschrieben, ist BERT so konzipiert und trainiert, dass es „in beide Richtungen“ auf die linken und rechten Nachbarn der maskierten Wörter schaut. Dies macht es besonders geeignet für Aufgaben, die Informationen aus dem gesamten Kontext der Eingabedaten erfordern, wie z.B. die Sentiment-Analyse oder das Part-of-Speech (POS)-Tagging. Diese Eigenschaft unterscheidet BERT von „generativen“ Modellen wie GPT.
-
GPT (Generative Pre-trained Transformer)
Eine weitere bedeutende Variante moderner Sprachmodelle ist die Familie der GPT-Modelle, von denen ChatGPT und GPT-4 derzeit die bekanntesten sind. Wie BERT basieren auch GPT-Modelle auf Transformern, sind aber darauf trainiert, das jeweils nächste Wort in einem Satz vorherzusagen. Diese Technik, bei der die gesamte Eingabe als “linke Seite” (auch Prompt genannt) betrachtet wird und das Modell daraus das nächste Wort generiert, wird als kausale Sprachmodellierung bezeichnet. Durch diese Technik sind GPT-Modelle in der Lage, sehr kohärente und sprachlich korrekte Texte zu erzeugen, weshalb sie auch als „generative“ Sprachmodelle bezeichnet werden.
Es hat sich gezeigt, dass ein Modell, das „einfach das nächste Wort generiert“, wenn es groß genug ist (ab einer bestimmten Anzahl von Parametern, in den letzten Jahren typischerweise Milliarden), außergewöhnliche Ergebnisse liefern kann. Es kann eine breite Palette von unerwarteten und überraschenden Aufgaben ausführen, auch ohne jemals aufgabenspezifische Daten erhalten zu haben.
1.4 Was macht große Sprachmodelle so leistungsfähig?
Foundation-Modelle
Ein wesentliches Merkmal großer Sprachmodelle ist ihre Fähigkeit, Informationen zu generalisieren. Das bedeutet, dass das Wissen, das diese Modelle aus ihren Trainingsdaten extrahieren, wie z.B. Wortbedeutungen und Regelmäßigkeiten in der Satzstruktur, für alle sprachbezogenen Prozesse relevant ist. Diese generalisierten Informationen bilden die Grundlage für das Konzept der Foundation-Modelle. Dieser Begriff, der erstmals 2001 erwähnt wurde, ist motiviert durch eine Reihe von Beobachtungen über die Eigenschaften und Fähigkeiten großer neuronaler Netzwerkmodelle, die in großem Maßstab auf einer großen Menge von Daten trainiert wurden.
Die Stärke der Foundation-Modelle liegt in ihrer Fähigkeit, relevante Informationen so zu erfassen, dass sie als gemeinsame „Foundation“ (Basis) für eine Vielzahl nachgelagerter Anwendungen genutzt werden können. Dies unterscheidet sie von herkömmlichen Ansätzen.
Bei der Entwicklung eines Chatbots beispielsweise müssen herkömmliche Systeme zum Verstehen natürlicher Sprache (Natural Language Understanding, NLU) eine Reihe komplexer Methoden kombinieren, bis der Chatbot in der Lage ist, die Eingabe des Nutzers zu „verstehen“. Wenn ein Nutzer fragt: „Kannst du mir beschreiben, wie sich die Quanteninformatik im letzten Jahrzehnt entwickelt hat?“, müssen verschiedene Komponenten des Systems erkennen, dass der Nutzer nach einer Beschreibung fragt, relevante Zeitinformationen in der Eingabe identifizieren, Informationen aus Datenbanken extrahieren und eine vollständige Antwort formulieren. Diese Vorgänge müssen integriert werden und können zu einer erheblichen Komplexität führen (siehe Abbildung unten).
Heutige große Sprachmodelle hingegen sind in der Lage, all diese Informationen aus der Nutzereingabe zu erfassen und die gewünschte Antwort direkt zu generieren, indem sie ein einziges großes neuronales Netz verwenden, das zuvor mit relevanten Daten trainiert wurde. Die so extrahierte Wissensrepräsentation ist so universell, dass sie sogar für die Verarbeitung von Informationen in anderen Modalitäten wie Sprache, Audio, Bildern oder sogar Quellcode wiederverwendet werden kann. Bekannte Beispiele sind Text-zu-Code-Modelle wie OpenAI Codex und Text-zu-Bild-Modelle wie DALL-E 2 oder Stable Diffusion. Sie alle basieren auf linguistischen Informationen, die mit großen Sprachmodellen erfasst wurden.
Da große Sprachmodelle neuronale Netze sind, die generalisierte Wissensrepräsentationen in ihren Parametern speichern, ist die Größe eines solchen Modells eng mit seiner Generalisierungsfähigkeit verknüpft. Einfach ausgedrückt: Je mehr Daten zur Verfügung stehen, desto mehr Informationen müssen extrahiert werden und desto mehr Kapazität (Parameter) benötigt ein Modell, um diese zu speichern. Dieser Zusammenhang hat in den letzten Jahren zu einem rasanten Anstieg der Modellgrößen von einigen hundert Millionen auf etwa eine Billion Parameter geführt.
Homogenisierung
Die Anzahl der Modellierungstechniken, die heutzutage verwendet werden, um Generalisierung zu erreichen, hat sich erheblich verringert. Der Transformer ist aufgrund seines effizienten und leistungsfähigen Aufmerksamkeits-Mechanismus ein wesentlicher Bestandteil jeder NLP-Architektur, in der Regel Varianten von entweder BERT oder GPT. Das Training erfolgt in einer oder zwei Phasen: Zuerst wird allgemeines Wissen während des Pre-Trainings auf nicht annotierten Daten gelernt, und dann wird, falls verfügbar, ein Fine-Tuning auf annotierten Daten in viel kleinerem Maßstab durchgeführt, um das Modell für eine spezifische Anwendung vorzubereiten.
Die Homogenisierung der methodischen Ansätze hat auch die Forschung in verschiedenen Anwendungsbereichen erheblich erleichtert. Beispielsweise können LLMs sowohl für die Modellierung von Proteinsequenzen als auch für die Sprachverarbeitung oder die Bilderzeugung verwendet werden.
Emergente Fähigkeiten
Wenn ein neuronales Netz trainiert wird, gibt es normalerweise eine bestimmte Aufgabe, die das Modell erlernen soll. Wenn also Modelle für eine klassische Sprachmodellierungsaufgabe trainiert werden, wird erwartet, dass sie gut darin sind, kohärenten, sprachlich korrekten Text zu produzieren. Es hat sich gezeigt, dass LLMs, wenn sie ausreichend skaliert werden, ein überraschend breites Spektrum an zusätzlichen Aufgaben allein auf der Basis einer natürlichsprachlichen Beschreibung (Prompt) lösen können. Bei diesen Aufgaben kann es sich um maschinelle Übersetzung, Rechenoperationen, die Generierung von Code oder die Beantwortung allgemeiner Fragen handeln.
In der Regel wird die Eingabe für das vortrainierte Modell vom Nutzer in natürlicher Sprache gemacht. Auf der Grundlage dieser Eingabe generiert das Modell das wahrscheinlichste nächste Wort, hängt es an die Eingabe an und fährt fort, bis ein bestimmtes Stoppkriterium erreicht ist (z. B. ein künstliches Wort, das das Ende des Satzes anzeigt). Das einfache Bereitstellen einer Aufgabenbeschreibung als Eingabe wird als Zero-Shot-Lernen bezeichnet, während das Hinzufügen einiger Beispiele, wie eine korrekte Ausgabe aussehen könnte, als Few-Shot-Lernen bezeichnet wird.
1.5 Wie geht es weiter?
In diesem Kapitel haben wir einen Überblick über die grundlegenden Konzepte, Techniken und Eigenschaften großer Sprachmodelle gegeben. Wir haben die Idee hinter der Sprachmodellierung und der Verbreitung großer neuronaler Netzarchitekturen auf der Basis von BERT und GPT untersucht. Wir haben auch die Trainingsmethode des selbstüberwachten Lernens sowie die Transformer und ihren leistungsfähigen Aufmerksamkeits-Mechanismus vorgestellt. Schließlich haben wir die entscheidenden Eigenschaften von LLMs wie ChatGPT beschrieben, wie z.B. das generalisierte Wissen, das sie aus nicht annotierten Daten extrahieren und das ihre emergenten Fähigkeiten ermöglicht.
Mit der Integration von ChatGPT in Microsofts Bing oder BARD in die Google-Suche hat die breitere Anwendung generativer LLMs gerade erst begonnen. Die Codegenerierung aus natürlichsprachlichen Eingabeaufforderungen, ein bemerkenswertes neues Feature von GPT-3, das auch von Github’s CoPilot (trotz rechtlicher Probleme) genutzt wird, hat sich bereits als leistungsfähiges Werkzeug für Softwareentwickler erwiesen. Potenzielle und reale Anwendungsfälle werden in LLM-Workbook Kapitel 2 ausführlicher behandelt.
Die bemerkenswerte Fähigkeit von LLMs, äußerst kohärente Texte zu produzieren, wirft ethische Fragen bezüglich der Erwartungen auf, die Menschen bei der Interaktion mit einer Maschine haben können. Darüber hinaus hat sich gezeigt, dass selbst die besten LLMs Unwahrheiten (Halluzinationen) fabrizieren können. Bei den gesellschaftlichen Auswirkungen von LLMs müssen daher auch die Gefahren einer weitreichenden Desinformation und der Reproduktion von Verzerrungen in den Trainingsdaten berücksichtigt werden. Es gibt auch Umwelt- und Nachhaltigkeitsaspekte im Zusammenhang mit dem Training und der Anwendung von LLMs. Diese herausfordernden und weitgehend ungelösten Fragen werden in LLM-Workbook Kapitel 3 behandelt.