Unstrukturierte Daten sind Daten, die keine klare vordefinierte Struktur oder Organisation aufweisen. Im Gegensatz zu strukturierten Daten, die in Tabellen oder klassischen Datenbanken organisiert sind, haben unstrukturierte Daten keine festgelegte Form und können unterschiedliche Formate und Inhalte haben. Diese Daten sind oft schwerer von trivialen Maschinen zu verarbeiten, da keine einheitlich klare Struktur für die inhaltliche Information vorliegt. Sie werden vor allem im Rahmen des Trainings von KI-Modellen zunehmend wichtiger und stellen sich immer mehr als äußerst gewinnbringend heraus, um komplexen Problemstellungen zu begegnen.
Freitext in Dokumenten, E-Mails oder Berichten ohne klare Struktur sind Beispiele für unstrukturierte Daten.
Des weiteren sind grafische oder visuelle Daten, die nicht in strukturierte Datenbanken passen und oft große Mengen an Informationen enthalten Ausprägungen von unstrukturierten Daten.
Sprachaufzeichnungen, Podcasts oder andere Audioquellen, die nicht in tabellarischer Form vorliegen, also nicht zuvor entsprechend aufbereitet wurden, können zu den unstrukturierten Daten hinzugezählt werden.
Unstrukturierte Daten können auch in Form von Kommentaren, Beiträgen und Updates in sozialen Netzwerken daherkommen, welche meistens in natürlicher Sprache verfasst sind.
Der Inhalt von E-Mails kann stark variieren und enthält oft unstrukturierte Informationen.
Informationen auf Websites können unstrukturiert sein, insbesondere wenn sie nicht in einer klaren, maschinenlesbaren Form vorliegen. Dieser Umstand macht es Crawlern besonders schwer, bestimmte Websites zu erfassen und schmälert deren Wert im Rahmen einer kohärenten SEO-Strategie.
Die Herausforderung bei unstrukturierten Daten liegt darin, Muster zu identifizieren und Informationen zu extrahieren. Fortschritte in der künstlichen Intelligenz, insbesondere im Bereich des Natural Language Processing (NLP) und der Bilderkennung, haben jedoch dazu beigetragen, die Verarbeitung und Analyse unstrukturierter Daten zu verbessern bzw. sie bauen sogar maßgeblich auf solchen Daten auf. Dies ermöglicht es, wertvolleInformationen auch aus nicht-traditionellen Datenquellen zu ziehen.