Large Language Models (LLMs) sind hochentwickelte KI-Modelle, die darauf spezialisiert sind, natürliche Sprache zu verstehen und zu generieren. LLMs sind Teil des generellen Natural Language Processings (NLP) und basieren auf tiefen neuronalen Netzwerken, insbesondere auf der Transformer-Architektur.
Der Begriff „Large Language Model“ bezieht sich auf die schiere Größe dieser Modelle: dies bezieht sich sowohl in Bezug auf die Menge an Trainingsdaten, die benötigt werden, als auch auf die Anzahl der Parameter, die LLMs enthalten. Riesige Datensätze sind notwendig, um LLMs adäquat zu trainieren, d.i. in verschiedenen Sprachen verfasste Texte und solche, die aus differenten Domänen stammen. Durch das Training mit großen Datenmengen können sie ein breites Spektrum von sprachlichen Nuancen und Kontexten verstehen und abbilden.
Die Größe eines LLM wird oft in Millionen oder sogar Milliarden von Parametern gemessen. Große Modelle wie OpenAI's GPT (Generative Pre-trained Transformer)-Reihe und Google's BERT (Bidirectional Encoder Representations from Transformers)-Modell gehören zu den bekanntesten Beispielen für LLMs, es existieren allerdings auch andere Beispiele: in jüngerer Vergangenheit spielt gerade Metas Llama 2 eine entscheidende Rolle.
Die Fähigkeit dieser Modelle, riesige Mengen an Daten zu verarbeiten, ermöglicht es ihnen, menschenähnliche Texte zu generieren, Fragen zu beantworten, Texte zu übersetzen und sogar kreative Aufgaben wie das Schreiben von Gedichten oder Geschichten zu bewältigen.. Die Entwicklung und der Betrieb dieser Modelle erfordert derzeit noch erhebliche Rechenressourcen und Fachkenntnisse im Bereich des maschinellen Lernens, weshalb noch einiges an Entwicklung zu erwarten ist.