Datenverarbeitung & Datenmanagement

Einleitende Worte zu Datenmanagement & Datenverarbeitung
Was sind Daten?
Datenstrategie – wie man mit Daten verfährt
Datenmanagement & Datenverarbeitung
Datenanalyse
Automatisierte Datenverarbeitung
Daten und künstliche Intelligenz
Herausforderungen & Probleme mit Daten
Wrap-Up: Das Potenzial von Datenverarbeitung & Datenmanagement in der Wirtschaft der Zukunft

1. Einleitende Worte zu Datenmanagement & Datenverarbeitung

Wer mit offenen Augen durch die Welt geht, dem fällt recht schnell auf, dass Daten nahezu überall von wachsender Bedeutung sind. Das richtige Datenmanagement ist wichtig, um zu wissen, wie man dem Sachverhalt der adäquaten Datenverarbeitung begegnen möchte. Gerade im geschäftlichen Bereich existiert kaum eine Tätigkeit, bei der es nicht wichtig wäre, in einem gewissen Rahmen mit Daten zu verfahren. Doch was sind Daten überhaupt? Welche Datenarten schaffen wir für eine nachgelagerte Datenverarbeitung? Und was ist alles möglich, wenn wir uns nachhaltig der Datasphäre hingeben und ihr gesamtes Potenzial ausschöpfen, bzw. es sogar noch zu erweitern versuchen?

Im folgenden Artikel soll es um einen umfassenden Deep Dive gehen, an dessen Ende kaum eine Frage zum Thema Datenverarbeitung & Datenmanagement offen bleiben sollte. Dabei gehen wir gleichsam auf den Status Quo ein und werfen zusätzlich einen Blick in die Zukunft. Unsere gut belegte Expertise in Sachen Datenverarbeitung & Datenmanagement führt uns dazu, unser umfassendes Wissensrepertoire an dieser Stelle ein Stück weit Kund tun zu wollen. Zu jedem einzelnen Punkt verfügen wir allerdings auch über individuelle Expert:innen, die jederzeit für Ihre konkreten Nach- oder Anfragen zur Verfügung stehen.

1.1. Weshalb ist Datenmanagement so wichtig?

Datenmanagement ist ein zentraler Aspekt einer jeden Unternehmensstrategie. Es handelt sich beim Datenmanagement genauer gesagt um einen strategischen Einsatzpunkt, an dem Entscheidungen getroffen werden, die für die Ausrichtung des Unternehmens in Gänze bedeutsam sind. Das Hauptziel des Datenmanagements ist es dabei, sicherzustellen, dass Daten effektiv, effizient und sicher verwaltet werden, um die Bedürfnisse und Ziele der Organisation bzw. des Unternehmens nachhaltig zu unterstützen. Datenmanagement ist also so unverzichtbar, um einen Überblick zu behalten, nicht von einer Informationsflut hinfort gespült zu werden.

1.2. Korrespondierende Datenverarbeitung

Im Rahmen des Datenmanagements ist es des Weiteren unglaublich wichtig, sich damit auseinanderzusetzen, wie die jeweiligen Informationen im weiteren Verlauf genutzt werden sollen. Datenverarbeitung ist ein essenzieller Teil des gesamten Datenmanagements. Zur Datenverarbeitung bedarf es sowohl einer strategischen Ausrichtung als auch der für den Vollzug notwendigen Infrastruktur.

Im Verlaufe dieses Artikels werden wir immer wieder auf den Sachverhalt der Datenverarbeitung und des Datenmanagements zu sprechen kommen, denn bei diesen beiden Aspekten handelt es sich um das Zentrum der Datasphäre im unternehmerischen Kontext, so eine These, zu der wir uns an dieser Stelle hinreißen lassen.

Um richtig einzusteigen in eine Erläuterung der datafizierten Gegenwart, werden wir ganz vorne beginnen: nämlich bei der Frage „Wovon reden wir eigentlich, wenn wir von Daten sprechen?“ Von dort aus geht es auf eine Reise durch die gesamte Datasphäre, jenes Terrain also, auf welchem Datenmanagement und Datenverarbeitung zu operieren pflegen.

2. Was sind Daten?

Mit dieser auf den ersten Blick doch recht naiv anmutenden Frage wollen wir einsteigen. Dabei wird sehr schnell klar werden, dass die Beantwortung eine Unzahl an Anschlussfragen aufwerfen wird; die Komplexität der initialen Fragestellung wird erst im Verlauf des Textes ersichtlich werden. Steigen wir also direkt ein:

Das Wort Datum ist lateinisch und bedeutet wortwörtlich „gegeben“. Es handelt sich bei Daten also um Gegebenheiten, bzw. um deren aufgezeichnete Repräsentation. Daten unterscheiden sich maßgeblich von Fakten, durch ihre (relative) Kontextlosigkeit, also dadurch, dass sie sich lediglich anschicken, wertfrei auf einen äußeren Sachverhalt zu verweisen. Dass auch Daten niemals komplett neutral sind, das werden wir freilich weiter unten eingehender thematisieren.

2.1. Digitalisierung und Daten

Daten bilden das Fundament digitaler Operationen und entsprechender Interaktionen. Sie können von äußerst unterschiedlicher Natur sein sowie changierende Qualität aufweisen. So existieren verschiedene Datentypen (vom Bild zum Text, von der binären Struktur bis zur metrischen Skalierung) und Datenstrukturen (z.B. Listen, Tabellen, Fließtexte etc.), die aus vielfältigen Quellen stammen können (z.B. Sensoren, statistischen Analysen, Umfragen etc.) und innerhalb ebenso vielfältiger Zusammenhänge zum Tragen kommen (z.B. im Gesundheitswesen, in der Finanzbranche, im Verkehr, in der Dynamik sozialer Netzwerke, in der Werbung etc.).

2.2 Datenarten

Es kommt darauf an, wie man zu definieren gewillt ist, will man über die Arten von Daten informieren. So sprechen viele Expert:innen von sieben verschiedenen Datenarten, worunter sie Metadaten, Referenzdaten, unternehmensweite Strukturdaten, Transaktionsstrukturdaten, Inventardaten, Transaktionsdaten und Auditdaten fassen. Diese Kategorisierung ist dann sinnvoll, wenn es um die Abbildung von datengetriebenen Prozessen einer Organisation geht, wir wollen jedoch eine Ebene tiefer Ansetzen und uns damit befassen, was am Grunde der Daten selbst liegt, also ihre immanente Daseinsweise.

Ganz grob gesprochen wollen wir also zwischen drei verschiedene Typen von Daten unterscheiden:

Womit wir es zu tun haben, wenn wir derart von der Datasphäre zu schwadronieren pflegen, das soll im Folgenden erläutert werden.

2.2.1. Strukturierte Daten

Als „strukturiert“ werden solche Daten bezeichnet, die in einer klar definierten und organisierten Form vorliegen. Solche Informationen sind bereits gut formatiert und folgen einem einheitlichen Schema oder einer festgelegten Struktur, die es einfach macht, sie zu speichern, abzurufen und zu analysieren.

2.2.2. Unstrukturierte Daten

Im Gegensatz zur ersten Kategorie stehen unstrukturierte Daten, die keine festgelegte Struktur oder Hierarchie besitzen. Diese Daten sind oft nicht in einer leicht analysierbaren oder durchsuchbaren Weise organisiert, sie sind gewissermaßen „roh“, d.h. sie bedürfen der Aufbereitung, um Verwendung finden zu können.

2.2.3. Semi-strukturierte Daten

Semi-strukturierte Daten liegen im Spektrum zwischen strukturierten und unstrukturierten Daten. Im Gegensatz zu vollständig strukturierten Daten, die bereits in einer vollständig tabellarischen Form vorliegen, und unstrukturierten Daten, die nicht in kohärenter Form existieren, weisen semi-strukturierte Daten bereits eine gewisse Struktur auf, diese folgt allerdings nicht unbedingt einem fixen Schema. Diese Art von Daten ist bereits leichter zu durchsuchen und zu analysieren als unstrukturierte Daten, bietet jedoch immer noch mehr Flexibilität als vollständig strukturierte Daten.

2.3. Analoge vs. digitale Daten

Wenn wir in der IT von Daten sprechen, so meinen wir häufig vollständig digitalisierte Sachverhalte. Der wichtigste Unterschied zwischen digitalen Daten und ihren analogen Äquivalenten ist die Diskretion, d.h. digitale Daten sind individuell adressierbar, sie können, anders als analoge Informationen, einzeln angewählt werden und in Gänze aus ihrem Ursprungskontext herausgezogen werden, ohne, dass fatale Logikfehler zu Buche schlagen.

Dieser Umstand lässt digitale Daten als diskret in Erscheinung treten; Digitalwerte sind wertdiskret.

3. Datenstrategie – Wie man mit Daten verfährt

Daten sind nur so gut, wie der Nutzen, den sie haben. Es ließe sich dementsprechend behaupten, die explizite Datenstrategie sei einer der so ziemlich wichtigsten Punkte hinsichtlich der gesamten Datasphäre. Einer der wichtigsten Aspekte jedes Umgangs mit Daten, ist jener der Datenspeicherung. Die Frage nach funktionalen Datenbanken und deren Spezifikationen lässt sich genau dann klären, wenn man weiß, welchem Zweck die Informationen dienen sollen. In jedem Fall ist es essenziell, sich Gedanken über die sorgfältige Speicherung (und anschließende Auswertung) der jeweiligen (Geschäfts-) Daten zu machen. Diesem Thema wollen wir uns von daher als erstes widmen.

3.1. Datenspeicherung & Datenauswertung

Das Thema der Datenspeicherung korrespondiert mit jenem der Datenbanken. Es handelt sich dabei um eine wichtige Voraussetzung für gelingende Datenverarbeitung und adäquates Datenmanagment. Unterdessen existieren verschiedene Paradigmen der Datenspeicherung, die allesamt mit jeweils eigenen Logiken und entsprechenden Stärken und Schwächen daherkommen. Damit die richtige Wahl getroffen werden kann, lohnt sich ein kurzer Überblick, den wir im Folgenden anstellen wollen.

Ein wichtiger Aspekt von Datenbanken, den man nicht vernachlässigen sollte, ist jener der Datenauswertung. Dabei handelt es sich um ein wichtiges Teilgebiet des generellen Datenmanagements und der Datenverarbeitung. Gerade für Unternehmen ist es besonders entscheidend, ihren Fokus auf die Wahl der richtigen Infrastruktur zwecks Datenverarbeitung zu setzen.

3.1.1 Datenbanken

Ähnlich, wie es verschiedene Typen von Daten gibt (siehe oben), so existieren auch entsprechende Speicherungsweisen. Grob gesprochen resonieren die verschiedenen Datentypen mit den verschiedenen Datenbanktypen, die sich in zwei generelle Richtungen aufgleisen lassen. Auf der einen Seite stehen (klassisch) relationale Datenbanken, in denen aufbereitete Informationen zueinander ins Verhältnis gesetzt werden, auf der anderen existieren nicht-relationale Datenbanken, in denen verschiedene Datentypen parallel zueinander koexistieren und in denen bisweilen neue Muster hervortreten und so zuvor ungeahnte Potenziale geborgen werden können.

Relationale Datenbanken (SQL, NewSQL)

Für den Umgang mit strukturierten Daten (-sätzen) bietet sich der Ansatz einer relationalen Datenbank an. Datenbanken, die entlang der Structured Query Language (SQL) aufgebaut sind, stellen eine der prominentesten Varianten solcher Datenreservoirs dar. Relationale Datenbanken werden für verschiedene Zwecke in der Datenverwaltung eingesetzt und sind besonders geeignet für Anwendungen, bei denen strukturierte Daten und komplexe Abfragen erforderlich sind. So geht es etwa um die klassische Verwaltung von Kunden- oder Nutzungsdaten entlang zuvor festgelegter Parameter. Relationale Datenbanken bieten eine klare Strukturierung von Daten und ermöglichen komplexe Abfragen, Join-Operationen und Transaktionen. Durch die Verwendung von SQL (Structured Query Language) können Entwickler:innen und Datenbankadministrator:innen effizient auf Daten zugreifen, Abfragen erstellen und Daten selbstständig manipulieren, was sie zu einer vielseitigen Wahl für eine Vielzahl von Anwendungen macht. NewSQL bezieht sich auf eine neue Klasse relationaler Datenbanken, die vor allem im Angesicht von dezentral organisierten (Cloud-) Netzwerken von Bedeutung sind.

Nicht-relationale Datenbanken (NoSQL)

Nicht-relationale Datenbanken sind ein passendes Gefäß für unstrukturierte Daten. Gerade hinsichtlich der immer stärker ins Rampenlicht drängenden künstlichen Intelligenz sind sie ein wichtiger Bestandteil der gegenwärtigen Datasphäre. Nicht-relationale Datenbanken, oft als NoSQL-Datenbanken bezeichnet, bieten somit Vorteile in Szenarien, in denen eine variable Struktur von Daten vonnöten ist. Das sind solche Sachverhalte, die eine höhere Skalierbarkeit erfordern, oder aber, wenn anfänglich keine expliziten Gewichtungen der Daten vorliegen. Geht es um spezielle Anforderungen an die Datenverarbeitung, etwa grobe Datenschutzbestimmungen, bietet sich der Einsatz nicht-relationaler Datenbanken ebenfalls an.

3.1.2. Neue Paradigmen der Datenhaltung

Neben den althergebrachten Weisen der Datenspeicherung existieren auch neue Herangehensweisen hinsichtlich der Speicherung und Nutzbarmachung von Daten im digitalen Raum. Diese Architekturen resonieren bestenfalls eingehend mit dem antizipierten Zielkorridor der Unternehmung, soll heißen: Es geht darum, welchem Zweck die jeweiligen Informationen letztlich dienen sollen, welchen Umständen sie begegnen. Im Zeitalter aufkommender künstlicher Intelligenz muss so etwa mit Daten anders verfahren werden als dies in einer Ära der vorrangig menschlichen Intervention der Fall gewesen sein mag. Um Informationen menschenlesbar aufzubereiten bedarf es anderer Vollzugsweisen als dies hinsichtlich algorithmisch grundierter Aktanten der Fall ist. Im Folgenden werden wir dementsprechend fünf Arten der Datenhaltung präsentieren, die in Einklang mit den neuen Möglichkeiten, die die digitale Welt zu liefern im Stande ist, entwickelt wurden.

Data Warehouse

Ein Data Warehouse ist eine zentrale Datenbank oder ein Datenlager, das dazu dient, große Mengen strukturierter und oft auch historischer Daten aus verschiedenen Quellen zu speichern. Es wird verwendet, um Daten für Geschäftsberichterstattung, Analytik und Business Intelligence (BI) zu konsolidieren und zu organisieren. Data Warehouses sind darauf ausgerichtet, komplexe Abfragen effizient zu unterstützen und eine konsistente Datenbasis für Entscheidungsprozesse bereitzustellen.

Data Lake

Ein Data Lake ist eine große, zentralisierte Speicherumgebung, die dazu dient, eine Vielzahl von strukturierten und unstrukturierten Daten in ihrem Rohformat zu speichern. Im Gegensatz zu einem Data Warehouse ist ein Data Lake weniger strukturiert und ermöglicht die Speicherung von Daten in ihrem nativen Format. Dies erleichtert die Speicherung großer Datenmengen und bietet Flexibilität für spätere Datenverarbeitung und -analyse.

Data Mesh

Data Mesh ist ein Ansatz für die Datenarchitektur, der darauf abzielt, die Skalierung und den effizienten Umgang mit Daten in verteilten und dezentralisierten Umgebungen zu verbessern. Der Fokus liegt auf der Selbstbedienung der Teams, die die Daten produzieren, besitzen und konsumieren. Im Data-Mesh-Modell wird die Datenarchitektur als dezentrales Ökosystem betrachtet, das aus miteinander verbundenen Domänen-Datenplattformen besteht.

Data Fabric

Data Fabric ist ein Konzept im Datenmanagement, das darauf abzielt, Daten nahtlos über verschiedene Plattformen und Systeme hinweg zu integrieren, organisieren, sichern und verfügbar zu machen. Es handelt sich um eine Art Gewebe, das den Fluss von Daten in einer Organisation erleichtert. Data Fabric umfasst oft Funktionen wie Datenintegration, -organisation, -zugriff, -sicherheit und -analyse, um eine flexible und skalierbare Dateninfrastruktur zu schaffen.

Dataverse

Der Begriff Dataverse kann je nach Kontext unterschiedliche Bedeutungen haben. Oft wird der Begriff verwendet, um eine Datenbank oder einen Datenspeicher zu beschreiben, der verschiedene Datentypen und -entitäten unterstützt. Das Microsoft Dataverse ist beispielsweise ein Service von Microsoft Power Platform, der die Speicherung und Verwaltung von Daten für Anwendungen ermöglicht. Der Begriff kann jedoch auch allgemeiner für eine umfassende Datenumgebung stehen, die einen universellen Zugriff orchestriert.

3.1.3. Cloud-Computing & Edge-Computing (Fog-Computing)

Ein Thema, das im Zusammenhang mit der notwendigen Speicherung der (unternehmenswichtigen) Daten ebenfalls zu beachten ist, ist jenes des Zugriffs auf die Speicherung bzw. der Weg, auf dem die Informationen in die jeweiligen Strukturen gelangen und auch wieder aus ihnen herausgeholt werden können. Mit dem Paradigma des nicht mehr ganz jungen Cloud-Computing wird gleichzeitig eine Speicherungs- wie auch eine Distributionslogik anvisiert, die einiges zu ändern im Stande war – und die darüber hinaus weiterhin gewaltige Unterschiede zu machen pflegt. Cloud-Lösungen bieten mehrere Vorteile: so bieten sie etwa die notwendige Voraussetzung für eine maximale Skalierbarkeit der unternehmensspezifischen Aktivität, stellen aufgrund ihrer modularen Vertriebsstruktur eine kostengünstige Alternative zu sogenannten On-Premise Lösungen dar und schaffen durch ihre weitgehend dezentrale Ausgestaltung eine wesentlich einfachere Zugänglichkeit über die Grenzen der respektiv verwendeten Hardware hinweg.

Neben der Logik der Cloud existiert auch der Ansatz des Edge-Computings, oder auch des Fog-Computings, was die Metaphorik der Cloud übernimmt und die Vollzugslogik entsprechend einzupassen gedenkt. Entgegen der Cloud-Logik, die vor allem eine globale Speicher- und Distributionsstruktur in Aussicht stellt, sind Fog-Netzwerke lokale und temporäre Phänomene. Ihr Vorteil liegt vor allem in einem latenzarmen Vollzug, was gerade in einer Welt, in der eine Vielzahl an Dingen mit kommunikativen Qualitäten ausgestattet daher kommen (Internet of Things) eine wichtige Voraussetzung für funktionierende Synchronisation darstellt. Ob man nun von Edge-Computing, oder von Fog-Computing sprechen mag, das hängt vom jeweiligen Blickwinkel ab. Die Begriffe verhalten sich grob gesprochen synonym zueinander.

Termin buchen

Let’s get in touch!

Haben Sie Fragen rund um das Thema Datenstrategie? Wir beraten Sie gerne bei einem unverbindlichen Erstgespräch. Für einen Termin Ihrer Wahl, nutzen Sie einfach ganz bequem unser Buchungstool.

Termin buchen

4. Datenmanagement & Datenverarbeitung

Wie wir bis hierher zu zeigen versucht haben, sind Daten immer nur so gut, wie die Vollzugslogiken, denen sie unterworfen werden. Im folgenden Abschnitt wollen wir uns somit der zentralen Bedeutung solcher Aktivitäten nähern, die unter dem Begriff des Datenmanagements firmieren.

Datenmanagement bezieht sich hierbei auf die Planung, Ausführung und Kontrolle aller Aktivitäten im Zusammenhang mit der Erfassung, Organisation, Speicherung, Verarbeitung, Verteilung, Verwendung und Pflege von Daten in einer Organisation oder eines Unternehmens. Das Hauptziel des Datenmanagements ist es, sicherzustellen, dass Daten effektiv, effizient und sicher verwaltet werden, um die Bedürfnisse und Ziele der Organisation zu unterstützen.

Datenverarbeitung bezieht sich, wie zu Beginn dieses Artikels bereits angeklungen, auf den Prozess der Erfassung, Organisation, Speicherung, Manipulation und Bereitstellung von Daten in verschiedenen Formen und Formaten. Dieses Verfahren kann manuell oder automatisiert erfolgen und ist entscheidend für die Generierung von Informationen, die zur Unterstützung von Entscheidungen und zur Erfüllung von Aufgaben verwendet werden. Datenmanagement und Datenverarbeitung sind zwei eng miteinander verbundene Konzepte, die im Kontext der effizienten Nutzung und Handhabung von Daten in Unternehmen stehen. Effektives Datenmanagement ist die Grundlage für erfolgreiche Datenverarbeitung. Ein wohl strukturiertes Datenmanagement stellt sicher, dass Daten in hoher Qualität vorliegen, leicht zugänglich sind und den vielfältigen Bedürfnissen der Benutzer:innen entsprechen. Dies wiederum erleichtert eine effiziente Datenverarbeitung, die darauf angewiesen ist, dass Daten gut organisiert und aufbereitet vorliegen.

Um genauer auf die Dimension des Datenmanagements einzugehen, werden wir uns nun verschiedenen Aspekten widmen, die in dessen Vollzug als besonders relevant gelten können. Indirekt wird so auch wieder der Aspekt der Datenverarbeitung behandelt werden.

4.1. Data Governance

Ein wichtiger Aspekt des Datenmanagements ist jener der Data Governance. Dabei handelt es sich um einen systematischen Ansatz, hinsichtlich der expliziten Nutzung von Daten in einem Unternehmen. Es ist ein explizit steuerndes Unterfangen, das die generelle Richtung vorzugeben im Stande ist, in die man sich mittels der Analyse von Daten zu bewegen geneigt ist. Da Datensätze viele verschiedene Möglichkeiten der Analyse bieten, ist die systematische Data Governance besonders kriegsentscheidend hinsichtlich der effizienten Nutzung von Informationen.

4.2. Datenkonsolidierung (Datenqualifizierung)

Damit die Daten eines Unternehmens richtig genutzt werden können, bedarf es zunächst einer entsprechenden Zusammenführung und ggf. einer kohärenten Bereinigung der essenziellen Informationen. Mit der Datenkonsolidierung verfolgt ein Unternehmen genau dieses Ziel. Im Rahmen dieser Fusion spielt auch der Sachverhalt der Datenqualifizierung eine entscheidende Rolle: Insbesondere wenn es um die Verwaltung und Optimierung von Daten in Unternehmensumgebungen geht existiert eine wesentliche Schnittmenge zwischen Datenkonsolidierung und Datenqualifizierung. Dabei liegt der Fokus der Qualifizierung auf der adäquaten Bewertung und Verbesserung der Güte von Datensätzen. Das Ziel besteht darin, sicherzustellen, dass Daten genau, konsistent, aktuell und relevant für die beabsichtigte Verwendung sind.

4.3. Datenmigration

Ebenso wichtig, wie die richtige Aufbereitung der Daten, ist die Verfahrensweise mit ihnen im Falle eines Umzugs. Genau diesen Aspekt beschreibt die Datenmigration: Es geht hier um den sach- und fachgerechten Umgang mit Daten(-sätzen) im Falle einer wie auch immer gearteten Veränderung, sei diese nun der Notwendigkeit der Einführung eines neuen Formats geschuldet, oder aber aufgrund einer gänzlich neuen Infrastruktur vonnöten. Letztlich sollte die Migrierbarkeit von Daten bereits von Anfang an mitgedacht werden, um Probleme gänzlich zu vermeiden. Gutes Datenmanagement zeichnet sich dadurch aus, dass es möglichst viele Eventualitäten mitdenkt.

4.4. Data Mining

Data Mining ist eine emphatisch prozessuale Auseinandersetzung mit der Dimension der Datennutzung. Muster zu erkennen und dementsprechend zu wissen, welchem Zweck die Daten bestenfalls zugeführt werden können, ist eine der wichtigsten Funktionen dieses (analytischen) Prozesses.

Da wir uns mit dem Thema des Data Minings bereits in Richtung der Datenanalyse begeben haben, wird es im folgenden Abschnitt nun entsprechend konsekutiv weitergehen. Wir wollen das Thema der analytischen Betrachtung von Daten vertiefen und die Bedeutung von Business Intelligence und der sach- und fachgerechten Datenintegration ebenfalls anschneiden.

Ihr Datenmanagement braucht ein Make-Over? Wir sind für Sie da!

Unsere Expert:innen beraten Sie kompetent hinsichtlich aller datengetriebenen Prozesse.

Jetzt kontaktieren

5. Datenanalyse

Datenanalyse bezieht sich auf den Prozess des Untersuchens, Bereinigens, Transformierens und Modellierens von Daten, um nützliche Informationen, Schlussfolgerungen und Erkenntnisse zu gewinnen. Ziel der Datenanalyse ist es, auf Grundlage der vorliegenden Daten Muster, Trends und Zusammenhänge zu identifizieren, um informierte Entscheidungen zu treffen zu können oder Einblicke in komplexe Phänomene zu gewinnen. Es handelt sich dabei zwar genau genommen um einen wichtigen Teilaspekt des generellen Datenmanagements, allerdings ergibt es Sinn, sich dem Sachverhalt der kohärenten Analyse genauer zu widmen, da es in diesem Rahmen auch um die Bedeutung von Business Intelligence und Forecasting gehen soll. Aus diesem Grund soll dem Thema der Datenanalyse ein eigenes Unterkapitel gewidmet werden.

Wie weiter oben bereits beschrieben, existieren Schnittmengen zwischen dem Data Mining und der akribischen Datenanalyse, jedoch geht letztere in Gänze noch über das Mining hinaus. Im Rahmen einer klassisch deskriptiven Datenanalyse geht es in erster Linie um die belastbare Identifikation eines jeweiligen Ist-Zustandes. Erst danach wird es möglich sinnvoll über Anschlusshandlungen, wie sie prädiktive Spielarten (wie etwa das Data Mining) in den Fokus nehmen, nachzudenken.

Neben den klassischen Typen der Datenanalyse (deskriptiv und prädiktiv) spielt ab und an auch die explorative Datenanalyse (EDA) eine wichtige Rolle: EDA umfasst Visualisierungen, Hypothesentests und statistische Analysen, um unbekannt Muster in Datensätzen zu entdecken und diese genauer zu verstehen.

5.1. Business Intelligence

Einer der weit verbreitetsten und integralsten Bestandteile einer ausgeklügelten Datenstrategie und in besonderem Maße ein solcher der entsprechenden Analyse, ist in der Business Intelligence (BI) zu finden. Der Prozess der Datenvisualisierung mithilfe von Business Intelligence kann in mehreren Schritten beschrieben werden: Zunächst findet eine Datenextraktion und die entsprechende -integration auf der anderen Seite statt. Dieser Unterprozess ist besonders relevant, da die zu analysierenden Daten, erst einmal an zentraler Stelle aggregiert werden müssen, bevor es überhaupt möglich ist, sie einer analytischen Logik zu unterwerfen. Anschließend geht es im Rahmen der Datenmodellierung darum, durch die Organisation der Daten in einem geeigneten Modell, inhärente Beziehungen zu betonen, Kontext zu schaffen und Anschlussmöglichkeiten zu generieren. Der dritte Schritt in dieser Reihe, nämlich jener der Datenvisualisierung ist entscheidend: Die jeweils ausgewählten Daten werden in anschaulicher Form visualisiert. Dies kann Balken- und Kreisdiagramme, Heatmaps, Trendlinien, geografische Karten und viele weitere Visualisierungsformen umfassen. Je nachdem, welchem Zweck die zu analysierenden Daten letztlich dienen sollen, kann eine adäquate Visualisierung dabei helfen, Schlussfolgerungen möglichst effizient zu ziehen; bestenfalls genügt ein gut informierter Blick.

Um dem Thema der Business Intelligence beispielhaft mehr Kontur zu verleihen, wollen wir uns im Folgenden zwei Beispielfälle ansehen. Auf der einen Seite stehen die Anwendungen der Microsoft Power Platform, auf der anderen haben wir vergleichbare Produkte anderer Firmen.

5.1.1. Power BI & Power Automate (Microsoft Power Platform)

Eine der interessantesten Umgebungen in Sachen Business Intelligence, ist die Microsoft Power Platform, die vor allem mit ihren Produkten Power BI und Power Automate glänzen kann. Power BI dient vor allem dazu, Daten zu visualisieren, zu analysieren und sie in aussagekräftige Berichte und Dashboards umzuwandeln. Die Plattform richtet sich an Unternehmen und Fachleute, die ihre Daten effektiv nutzen möchten, um fundierte Entscheidungen zu treffen. Power BI ist für eine breite Palette von Branchen und Anwendungsfällen geeignet, von Finanzanalysen und Vertriebsberichten bis hin zu operativen Dashboards und Geschäftsberichten. Es hat sich über die Jahre hinweg zu einer der beliebtesten Business Intelligence-Lösungen entwickelt, die von einer Vielzahl von Unternehmen weltweit genutzt wird.

5.1.2. Tableau (und andere)

Dass es am Markt verschiedene Anbieter gibt, die ihre jeweils eigenen Business-Intelligence-Lösungen feilbieten, das gehört zur Wahrheit ebenso dazu, wie die Tatsache, dass Microsoft mit Power BI einer der wichtigsten Player in diesem Bereich ist. Um auch auf Konkurrenzprodukte einzugehen, soll im Folgenden nun exemplarisch auf Tableau eingegangen werden.

Grundsätzlich ist auch Tableau eine leistungsstarke BI- und Datenvisualisierungsplattform, die entwickelt wurde, um Daten in aussagekräftige und interaktive Berichte und Dashboards umzuwandeln. Dabei bleibt festzustellen, dass Tableau über eine größere Auswahl an Daten-Visualisierungs-Möglichkeiten verfügt, was im Umkehrschluss allerdings auch eine steilere Lernkurve zur Folge hat. Ergo: Tableau ist weit weniger nutzerfreundlich als die Konkurrenz von Microsoft. Zudem kommen auf geneigte Nutzer:innen höhere Kosten zu. Im Gegensatz zu Power BI, das als Basisversion bereits in Office365 enthalten ist, fallen bei Tableau entsprechende Mehrkosten an.

Wir helfen Ihnen kompetent Sachen Business Intelligence!

Jetzt kontaktieren

5.2. Big Data Analytics

Was beim Thema der Datenanalyse auch nicht unbeachtet lassen werden sollte, ist das Thema Big Data. Wer mit großen Datenmengen verfährt, braucht eine Strategie, die geeignet ist, die schiere Masse an Informationen auch zu verarbeiten, die sekündlich geliefert wird.

Big Data Analytics bezieht sich generell auf eine Vielzahl an Prozessen der Erfassung, Speicherung, Verarbeitung und Analyse großer Mengen von strukturierten und unstrukturierten Daten, um wertvolle Erkenntnisse, Muster und Trends zu extrahieren. Es umfasst fortschrittliche Technologien und Analysemethoden, die für traditionelle Datenverarbeitungssysteme oft zu umfangreich oder zu komplex wären. Dementsprechend bedarf es einiger Rechenkapazitäten, um sich dem Thema Big Data Analytics zu nähern. Es kann eine entscheidende Rolle hinsichtlich des generellen Erfolgs spielen, wenn das Geschäftsmodell auf entsprechenden Datenbeständen aufbaut.

6. Automatisierte Datenverarbeitung

Mit der zunehmenden Menge an zu verarbeitenden Daten wird auch der Ruf nach entsprechenden Ordnungsmechanismen laut. Algorithmen helfen dabei, den Überblick über den regelrechten Datenwust zu behalten und mitunter (semi-) autonom erste Vorauswahlen zu treffen. Als informierte Nutzer:innen müssen wir uns auf die Zusammenarbeit mit algorithmisch grundierten Agencies einstellen. So verhindern wir nachhaltig, auf die Rolle als ohnmächtige Zuschauer reduziert zu werden, sondern behalten das Heft des Handelns in der Hand. Dabei geht die Handhabe über die Analyse, wie sie im vorangegangenen Abschnitt thematisiert wurde, hinaus. Sie bezieht sich auch und gerade auf neue Paradigmen der Speicherung und des generellen Umgangs in datengetriebenen Milieus. Dabei spielen Themen, wie etwa der Datenschutz eine ebenso wichtige Rolle wie die Vermeidung situativer Kurzschlüsse. Zu diesem Zweck existiert das emphatisch interdisziplinäre Forschungsfeld der Data Science.

6.1. Big Data & Data Science

Data Science ist ein interdisziplinäres Forschungsfeld, das fortschrittliche Techniken aus Statistik, Informatik und maschinellem Lernen nutzt, um aus großen und komplexen Datenmengen wertvolle Erkenntnisse zu gewinnen. Ziel ist es, Daten zu analysieren, Muster zu identifizieren, Vorhersagen zu treffen und Entscheidungsgrundlagen für verschiedene Branchen zu schaffen. Data Science spielt eine entscheidende Rolle bei der Bewältigung der Herausforderungen der Informationsüberflutung und ermöglicht es, Daten in eine strategische Ressource zu verwandeln. Dieser Umstand ist besonders mit Hinblick auf Big Data besonders relevant: Wenn immer größere Datenmengen zur Verfügung stehen, die mitunter sekündlich aktualisiert werden, dann ist es unerlässlich, sich der Erforschung einer effizienten Nutzung zu widmen. Ein solches Unterfangen kann sich sowohl entlang klassisch-kanonischer Wege entfalten, es kann allerdings auch eine spekulativ-explorative Form annehmen; je nach Innovationsgrad bzw. Geschäftsmodell bietet sich gar ein entsprechender Mix in Sachen R&D (Research & Development) an.

Ein eng mit dem Thema der Big Data & Data Science verwandtes Gebiet, ist jenes der künstlichen Intelligenz (KI). Besonders hinsichtlich der entsprechenden Lernprozesse kommen Erkenntnisse der Wissenschaft besonders zum Tragen. Im Folgenden wollen wir uns deshalb der konkreten Ausgestaltung solcher Prozeduren nähern.

6.1.1. Machine Learning

Womit der gegenwärtige Stand der KI vor allem in Verbindung gebracht wird, das ist das Machine Learning. Die Annäherung von maschinellen Trainingsprozessen an sozial-mentale Modelle der Konditionierung steht bei alledem im Vordergrund: Statt expliziter Programmierung werden entsprechende Computer-Systeme mit verschiedenen Daten trainiert, um anschließend auf deren Basis Muster zu erkennen, Vorhersagen zu treffen und Probleme zu lösen.

6.1.2. Deep Learning

Beim sogenannten Deep Learning handelt es sich um eine spezifische Unterart des Machine Learnings. Dabei baut Deep Learning auf dem Feedback aus künstlichen neuronalen Netzen (KNNs) auf, die es ermöglichen, signifikante Muster und entsprechende Merkmale immer genauer zu erkennen. Da es sich beim Deep Learning um einen iterativen und hochgradig flexiblen Prozess handelt, kommen Abweichungen zustande, die der immer genaueren Analyse geschuldet sind. Dabei ist es jedoch wichtig, einen solchen Mechanismus mit Vorsicht zu behandeln und die initialen Daten eingehend zu prüfen, um schwerwiegende Fehler in der späteren Analyse zu vermeiden.

6.1.3. Federated Learning

Wie das Deep Learning, so ist auch das Federated Learning ein spezieller Prozess, der im Umfeld des Machine Learnings verortet werden kann und muss. Anstatt den Trainings- oder Lernprozess auf einem zentralen Server stattfinden zu lassen, wird dieser im Zusammenhang des Federated Learnings ausgelagert und wird mittels dezentral arrangierten (End-) Geräten und/oder Rechenressourcen ausgeführt. Federated Learning kommt so vor allem dann zum Einsatz, wenn Datenschutzbedenken mit von der Partie sind, es also vorrangig sicher zugehen muss.

6.1.4. Swarm Learning

Eine weitere Spielart des maschinellen Lernens besteht im sogenannten Swarm Learning. Wie der Name es bereits anklingen lässt, handelt es sich dabei um einen Lernprozess, der massiv vom Konzept des (tierischen) Schwarmverhaltens in der Natur beeinflusst ist. Es geht in diesem Zusammenhang vor allem um das kollaborative Trainieren eines Modells von verschiedenen individuell anwählbaren Agenten. Swarm Learning besitzt einiges an Ähnlichkeiten mit dem Federated Learning, anders als bei diesem verbleiben die einzelnen trainierenden Aktanten im Zusammenhang des Swarm Learnings jedoch als Individuen, die lediglich zum expliziten Zweck des Trainings kooperieren.

Wie wir in diesem Abschnitt zu zeigen versucht haben, existieren verschiedene Varianten des Machine Learnings, die jeweils eigenen, differierenden Logiken folgen, um dem Ziel des datengetriebenen Anlernens eines speziellen Modells zugute kommt, das im Rahmen der KI genutzt werden soll.

6.2. Distributed Computing

Distributed Computing ist ein Rechenparadigma, das durch seine emphatische Dezentralität auf die Funktionsweise von KI und Big Data Analysen einzahlt. Es ist besonders im Zusammenhang mit dem Internet of Things, Ubiquitous Computing und/oder Industrie 4.0 besonders wertvoll und liefert die Möglichkeit der flexiblen und bedarfsgerechten Reaktion auf auftretende Problematiken. Distributed Computing ermöglicht die Parallelverarbeitung von Aufgaben auf verschiedenen Computern. Dies verbessert die Gesamtleistung, da mehrere Teile einer Aufgabe gleichzeitig bearbeitet werden können. Gerade in Zeiten, in denen die Menge an Daten, mit denen verfahren werden muss, kontinuierlich wächst, ist die Anwendung eines entsprechenden Paradigmas geradezu geboten.

7. Daten und künstliche Intelligenz

Vom Thema der großen Datenmengen (Big Data) und der entsprechenden Nutzung hinsichtlich der Schärfung bestimmter Datenmodelle, kommen wir nun zum Star der sprichwörtlichen Show: Es geht natürlich – wie könnte es anders sein – um künstliche Intelligenz (KI). Der Zusammenhang zwischen Datasphäre und KI ist denkbar einfach: Wenn ein technisches System selbstständig Schlüsse aus Umweltdaten ziehen soll, bedarf es eines initial gewachsenen Verständnisses, welches ebenfalls auf einer Menge beispielhafter Daten besteht. Je größer der Datenbestand, der für ein solches Training verwendet wird, ist, desto adäquater geriert sich letztlich auch die Reaktion des Systems, oder aber dessen Vorhersage. Heuristisch unterscheiden wir zwischen zwei Arten künstlicher Intelligenz: nämlich zwischen schwacher und starker KI. Nach einem ersten Abschnitt, in dem wir uns diesen beiden exemplarischen Sachverhalten nähern wollen, werden wir anschließend auf verschiedene KI-Tools und deren ideale Verwendung zu sprechen kommen.

7.1. Schwache KI

First things first: alle derzeit existenten Versuche in Sachen KI sind letztlich im Bereich der schwachen KI zu verorten. Was bedeutet das nun, schwache KI? Das Adjektiv schwach bezieht sich nicht etwa auf die Fähigkeiten in einem speziellen Bereich, es geht viel eher um die Tatsache, dass solche Mechanismen hochspezialisiert sind und keineswegs als Allrounder in Frage kommen. Schwache KI kann tatsächlich ziemlich schlagkräftig daherkommen! Schwache KI ist voll und ganz darauf ausgerichtet, gezielte und begrenzte Funktionen zu erfüllen. Sie fungiert mehr als Tool, denn als autonomes Wesen mit eigenen Beweggründen.

7.2. Starke KI

Das, was häufig als starke KI bezeichnet wird, ist verbunden mit einem hochgradig spekulativen Unterfangen, das einem technischen System dieselben (oder sogar höher ausgeprägte) kognitive Fähigkeiten zuspräche, wie einem Menschen. Starke KI zeichnet sich vor allem dadurch aus, dass sie keinerlei Hilfestellung eines sozialen Wesens benötigt, um tätig zu werden. Sie ist deshalb vor allem ein Aspekt, der in (dystopischer) Science Fiction verhandelt wird und dort stellvertreten für eine sich immer stärker technokratisch ausgekleidete Umwelt steht. So fern die Vision von starker KI auch liegen mag, so real sind die Anstrengungen, die die großen Tech-Firmen wie Google, Amazon und Meta in deren tatsächliche Realisierung stecken.

Was uns im Folgenden eher beschäftigen soll, ist die Utilisierung von schwacher KI in Form von hilfreichen Tools, die Arbeitsroutinen nachhaltig zu ändern im Stande sind.

7.3. KI-Tools und Anwendungsbereiche

In jüngerer Vergangenheit wurde durch die Einführung nunmehr einschlägig bekannter generativer KI Tools einiges durcheinander gewirbelt. Die generativen Softwarebeispiele aus dem Hause OpenAI, Google und anderen, kleineren Playern werden wir ebenso vorstellen, wie die ebenso verbreiteten, wenngleich weniger effektheischenden Beispiele prädiktiver KI. Die Anwendungsbereiche für KI sind so divers wie weitgehend unbestimmt: vom Marketing, über das Projektmanagement bis hin zur Softwareentwicklung existieren verschiedene Werkzeuge, die ihren respektiven Anwender:innen ein Mehr an Komfort und prozessorientierter Sicherheit versprechen. Dabei laden viele dieser Tools (gerade jene, die mit generativer KI ausgestattet daherkommen) zum Experimentieren ein, was den Arbeitsalltag aufzulockern vermag.

7.3.1. Generative KI

Generative KI-Tools bauen vor allem auf dem Frameworks wie GPT (General Pretrained Transformer), dem NLP (Natural Language Processing) und damit verbunden auf LLMs (Large Language Models) auf. Sie sind also allesamt auf das eingehende Verständnis gesprochener Sprache trainiert, was einen generellen Trend aufzeigt: Um KI-Tools zu bedienen bedarf es keiner speziellen Programmierkenntnisse. Es genügt das eigene Vorhaben klar ausdrücken zu können, um eine generativen KI zu initiieren.

ChatGPT (OpenAI)

Eines der wohl bekanntesten Tools, das KI verwendet, ist ChatGPT, welches von OpenAI entwickelt wurde. Dabei handelt es sich um einen Textgenerator, der mit einem abgeschlossenen Datensatz hantiert. Es baut auf den Fortschritten der vorherigen GPT-Modelle auf und ist dafür bekannt, relativ lange und zusammenhängende Texte zu generieren. Es ist jedoch wichtig zu beachten, dass ChatGPT kein vollständig bewusstes oder verständnisvolles Modell ist; es generiert Antworten basierend auf statistischen Mustern und partikularen Kontextinformationen, die jedoch explizit nicht tagesaktuell sind.

Midjourney (Midjourney Institute, SF)

Midjourney ist eine generative KI, die Bilder aus Textbeschreibungen erstellen kann. Es ist ein proprietäres Programm, das vom gleichnamigen Forschungsinstitut aus San Francisco, Kalifornien, USA, entwickelt wurde. Midjourney ist ein eindrucksvolles Tool, das für eine Vielzahl von Anwendungen verwendet werden kann. Es kann für die Erstellung von Kunst, Illustrationen, Grafiken und sogar für wissenschaftliche Zwecke herangezogen werden.

Copilot (GitHub x OpenAI)

Copilot ist ein von GitHub und OpenAI gemeinsam entwickeltes KI-Tool, das als eine Erweiterung für verschiedene integrierte Entwicklungsumgebungen (IDEs) fungiert. Es wurde entwickelt, um Entwickler:innen beim Schreiben von Code zu helfen, indem es Vorschläge für Codezeilen und -blöcke automatisch generiert. GitHub Copilot basiert auf der GPT-3.5-Architektur von OpenAI und nutzt maschinelles Lernen, um kontextbezogene und syntaktisch korrekte Codevorschläge zu machen.

Gemini (Google/DeepMind)

Gemini ist ein generatives KI-Tools, das von Googles Tochterunternehmen DeepMind entwicklt wurde und auf den zuvor bereits von Google herausgebrachten Sprachmodellen LaMDA und PaLM 2 aufbaut. Gemini wurde am 6. Dezember 2023 veröffentlicht und wird gemeinhin als Googles Antwort auf OpenAIs GPT-Framework verstanden. Im Gegensatz zur Konkurrenz, ist es Googles Alternative möglich, auf tagesaktuelle Daten zuzugreifen und in derselben Anwendung verschiedene Outputs zu generieren: von Bildern, über Text bis hin zu musikalischen Versatzstücken ist alles dabei. Die multimodale Funktionsweise von Gemini hilft Nutzer:innen dabei, nach initialem Input den jeweils möglichst passgenauesten Output zu generieren.

7.3.2. Prädiktive KI

Neben den KI-Tools, die sich autonom, geradezu quasi-magisch, in den Schaffensprozess einschalten, gibt es auch solche Werkzeuge, die sich der Nutzung von Daten in einer nicht minder intelligenten, wenngleich auch dezenter zu Buche schlagenden Art und Weise nähern. Die Rede ist von prädiktiver KI, also solchen Systemen, die Datenströme kleinteilig analysieren, um Muster und Trends zu entdecken und so einer informierten Vorhersage (prediction) in Gänze zuträglich sind. Softwaretools, die diese Funktion erfüllen, gibt es viele, häufig werden sie allerdings nicht als zum Feld der generellen KI zugehörig klassifiziert.

Azure Machine Learning (Microsoft)

Eines der ersten Beispiele für prädiktive KI findet sich in Microsofts Azure Machine Learning. Dabei handelt es sich um eine umfassende Plattform, die den gesamten Prozess des maschinellen Lernens abbildet, von der Datenaufbereitung über das Trainieren von Modellen, bis hin zur Verwaltung respektiver Vorhersageergebnisse samt entsprechender Kontextualisierung. Azure Machine Learning ermöglicht es Unternehmen die Entwicklung von Modellen zur Vorhersage zukünftiger Ereignisse oder zur Klassifikation von Daten voranzutreiben. Dies kann beispielsweise zur Prognose von Verkaufszahlen, zur Erkennung von Betrug in Finanztransaktionen oder zur Klassifikation von Bildern in medizinischen Anwendungen genutzt werden.

DataRobot

DataRobot ist eine Plattform für automatisiertes maschinelles Lernen (AutoML), die Unternehmen dabei unterstützt, Modelle für maschinelles Lernen schnell und effizient zu erstellen. Die Plattform ermöglicht es Benutzern, auch ohne umfangreiche Kenntnisse im Bereich des maschinellen Lernens komplexe Modelle zu entwickeln, sie sukzessive zu trainieren und diese konsequenter Weise bereitzustellen, um belastbare Vorhersagen zu erstellen.

Im Gegensatz zu Azure Machine Learning legt DataRobot einen starken Schwerpunkt auf die Automatisierung des gesamten maschinellen Lernprozesses. Es ermöglicht es Benutzern, entsprechende Modelle automatisiert zu erstellen, zu trainieren und zu evaluieren. Das Ganze funktioniert auch ohne umfangreiche Kenntnisse im Bereich der Data Science.

scikit-learn

scikit-learn ist eine Open-Source-Bibliothek für maschinelles Lernen in der Programmiersprache Python. Diese Bibliothek bietet einfache und effiziente Werkzeuge für Datenanalyse und maschinelles Lernen und ist ein wesentlicher Bestandteil des Python-Ökosystems im Bereich künstliche Intelligenz (KI) und Data Science. Neben einem breiten Angebot an Algorithmen zur Klassifikation, Regression, Clustering und Dimensionsreduktion von essenziellen Daten, bietet scikit-learn vor allem ein benutzerfreundliches API an, das die Anwendung von maschinellem Lernen ungemein erleichtert. Alles in allem ist scikit-learn eine beliebte Wahl für Datenwissenschaftler:innen, Forscher:innen und Entwickler:innen, die maschinelles Lernen in Zusammenhang mit Python nutzen möchten.

Termin buchen

Let’s get in touch!

Haben Sie Fragen rund um das Thema Künstliche Intelligenz? Wir beraten Sie gerne bei einem unverbindlichen Erstgespräch. Für einen Termin Ihrer Wahl, nutzen Sie einfach ganz bequem unser Buchungstool.

Termin buchen

8. Herausforderungen & Probleme im Zusammenhang mit Daten

Nachdem wir uns bis hierher vor allem mit Anwendungsfällen und Chancen, die der Umgang mit Daten bereit hält beschäftigt haben, wollen wir uns nun natürlich noch mit den Problematiken und situativen Herausforderungen beschäftigen, die sich rund um das Themengebiet der Datenverarbeitung und des Datenmanagements arrangieren. Dieser Abschnitt ist besonders deshalb wichtig, weil der sorgsame Umgang mit geschäftswichtigen Daten wichtig ist, um sich einerseits auf die auf ihrer Basis getroffenen Entscheidungen verlassen zu können und auf der anderen Seite, um gesellschaftliches Vertrauen nicht zu verspielen.

8.1. Datenschutz

Eine der augenscheinlichsten Herausforderungen, die in datengetriebenen Prozessen anders zu Buche schlägt, ist jene des Datenschutzes! Gerade in Deutschland und Europa sind solche Policies, die den Umgang mit Daten entsprechend rahmen besonders rigide und die rechte auf persönliche Privatsphäre hängen extrem hoch. Es ist also besonders wichtig, sich einen vollumfänglichen Überblick über die entsprechenden Richtlinien zu verschaffen und deren Anforderungen in konsekutive Maßnahmen zu gießen.

8.1.1. Gesetzliche Datenschutzrichtlinien

Im europäischen Raum werden die wichtigen Richtlinien hinsichtlich des Datenschutzes auf EU-Ebene getroffen und müssen schließlich in nationales Recht übersetzt werden. Den entsprechenden Gesetzen gilt es dann Folge zu leisten. So geht etwa die DSGVO auf ein solches Prozedere zurück. In jüngerer Vergangenheit hat vor allem die EU NIS 2-Direktive für Aufsehen gesorgt. Sie ist die zweite Version der NIS-Richtlinie und baut auf der ersten Richtlinie von 2016 auf. NIS 2 wurde am 16. Dezember 2020 von der Europäischen Kommission vorgeschlagen und ist Teil der umfassenderen Bemühungen der EU, die digitale Sicherheit zu verbessern. Am 27.12.2022 wurde die Richtlinie im EU-Amtsblatt veröffentlicht und trat am 16.01.2023 in Kraft. Die EU NIS 2-Richtlinie ist Teil der breiteren Bemühungen der Europäischen Union, die digitale Sicherheit zu stärken und die Resilienz gegenüber Cyberbedrohungen zu erhöhen. Sie soll sicherstellen, dass wesentliche Dienstleister und digitale Dienstleister angemessene Maßnahmen ergreifen, um die Sicherheit ihrer Netzwerke und Informationssysteme zu gewährleisten. Dabei spielen sowohl Datenschutzbedenken eine gewichtige Rolle als auch die Antizipation des Ernstfalls eines etwaigen Cyberangriffs auf die kritische Infrastruktur.

Da sich technische Möglichkeiten stetig weiterentwickeln, gilt es auch sicherheitstechnisch stets auf der Höhe der Zeit zu bleiben. Je wertvoller Daten als Ressource für wirtschaftlichen Erfolg werden, desto wichtiger wird auch deren eingehender Schutz.

8.1.2. Rechte von (Privat-) Personen und Pflichten von Unternehmen

Ein Aspekt, den es im Rahmen der Allgegenwart von Daten im öffentlichen Raum vornehmlich zu beachten gilt, sind die Rechte auf Privatsphäre der Subjekte, auf die die Daten zu verweisen pflegen und der emphatische Schutz selbiger. Dabei korrelieren die Rechte von (Privat-) Personen in dieser Hinsicht mit den Pflichten von Unternehmen und/oder Organisationen, deren Geschäftsmodell maßgeblich auf der Nutzung jeweils relevanter Daten aufbaut. Zu den Rechten, die Personen zugebilligt werden, gehören etwa das Recht auf Information, das Recht auf Berichtigung, das Recht auf Löschung (Vergessenwerden) oder auch das klassische Widerspruchsrecht. Neben diesen generellen Beispielen existieren teilweise noch spezifische Rechte, die mitunter separat und individuell geregelt sind.

Analog zu diesen Rechten gibt es auch jeweils korrespondierende Pflichten von Unternehmen, allen voran die Sorgfalts- und die Transparenzpflicht, die sich jeweils auf den rechtmäßigen Vollzug und das entsprechend korrekte Prozessieren mit den verwalteten Daten beziehen. Im Zweifel müssen Unternehmen somit dazu in der Lage sein, die jeweiligen Logiken, nach denen die Informationen verarbeitet werden, offen zu legen. Unternehmen sind darüber hinaus verpflichtet sicherzustellen, dass die personenbezogenen Daten, die sie verarbeiten, genau und aktuell sind. Es besteht die Verantwortung, falsche oder veraltete Daten zu korrigieren. Ein wichtiger Grundsatz für das Sammeln von Daten ist außerdem die Zweckbindung, d.h. die klare Zurechenbarkeit von Erhebung und Verwendung eines jeweiligen Datensatzes muss gewährleistet sein.

Was passieren kann, wenn Daten sorglos behandelt werden, oder die Pflege von Datenbanken vernachlässigt wird, ist die Entstehung bzw. das Aufkommen von sogenannten schmutzigen Daten, oder Dirty Data. Was es damit auf sich hat, das werden wir im folgenden Abschnitt zu klären versuchen.

8.2. Dirty Data & Data Bias

Daten bieten die vorgebliche Möglichkeit objektive Schlüsse zu ziehen. Doch ist dieser Sachverhalt kein Selbstläufer. Wie fragil der Zusammenhang zwischen analoger Realität und repräsentativer Datasphäre daherkommt, das lässt sich sehr gut am Umstand der Dirty Data bzw. am Data Bias ablesen. Beide Begrifflichkeiten kreisen um denselben Kern: nämlich um die Tatsache, dass es keine objektiven Daten gibt! Jede Information trägt Spuren ihres jeweiligen Erhebungskontextes in und mit sich und ist dementsprechend manipulierbar bzw. kann einer fehlgeleiteten Interpretation anheimfallen. Wo es bei Dirty Data eher um eine unbeabsichtigte Verzerrung im Datenmaterial geht, die verschiedene Gründe haben kann, da stehen beim Thema des Data Bias die dem Datenmaterial eingeschriebenen Vor- und (unbewusste) Werturteile im Fokus, die zu Übersteuerung durch (positive) Rückkopplung führen können und so dazu beitragen, bestehende Ungerechtigkeiten zu zementieren. Diese Gefahr besteht vor allem dann, wenn KI- oder ML-Systeme auf Grundlage solch kompromittierter Daten (-Sätze) trainiert werden. Man spricht in diesem speziellen Fall auch von einem Algorithmic Bias. Das Thema der verschiedenen Biases zahlt also stärker auf die Verwendung von Daten ein, wohingegen mit Dirty Data die inhärenten Qualitäten von Daten (-Sätzen) thematisiert werden. Letztlich sehen sich beide Konzepte jedoch ähnlich gelagert, denn die beiden problematischen Konstellationen verweisen gleichermaßen auf die Notwendigkeit Vorsicht walten zu lassen, wenn es um eine Apologie des Primaten der Datasphäre geht.

8.3 Datendiskriminierung

Eine potenzielle Gefahr, die aus den Problemen hervorgeht, die im vorangegangenen Abschnitt in aller Kürze beleuchtet wurden, ist jene der Datendiskriminierung. Dieser Begriff und das mit ihm verbundene Konzept bezieht sich auf Situationen, in denen Daten oder datenbasierte Systeme dazu neigen, diskriminierende oder ungleiche Auswirkungen auf bestimmte Gruppen von Personen oder Individuen zu haben. Diese Diskriminierung kann verschiedene Formen annehmen und tritt vornehmlich in den Bereichen Datenanalyse, maschinelles Lernen, künstliche Intelligenz (KI) und in der automatisierten Entscheidungsfindung auf.

9. Wrap-Up: Das Potenzial von Daten in der Wirtschaft der Zukunft

Nachdem wir uns in den vergangenen Abschnitten mit einem Blick auf die Vergangenheit und die Gegenwart von Daten beschäftigt haben, ist es nunmehr an der Zeit, einen Ausblick zu wagen und natürlich das bisher Geäußerte mit einzubeziehen.

Was die Zukunft einer datengetriebenen Wirtschaft anbelangt, lässt sich festhalten, dass der gegenwärtige Trend der Beschleunigung sich allem Anschein nach weiterhin exponentiell weiterentwickeln wird. Es wird also noch wichtiger werden, sich mit Speicherstrukturen und entsprechenden Verwertungsmechanismen auseinanderzusetzen, auf dass geschäftswichtige Daten von solchen getrennt werden können, die lediglich als Beiwerk auftauchen. Die Einrichtung regelmäßiger Routinen zum Zweck der Datenkonsolidierung ist also bereits heute dringend geboten, wird in Zukunft allerdings unabdingbar sein. Damit man Herr einer drohenden Datenflut zu bleiben vermag, ist es außerdem ratsam, sich in regelmäßigen Abständen mit dem Abgleich der eigenen Zielsetzungen und den zu diesem Zweck auserkorenen Maßnahmen zu befassen.

Die Zukunft der datengetriebenen Wirtschaft verspricht ganz generell eine Fortsetzung des Wachstums und der technologischen Innovation. Die kontinuierliche (Weiter-) Entwicklung datenbasierter Technologien und die entsprechend korrespondierender Analysemethoden werden in egal welcher Branche eine zentrale Rolle spielen.

Eine weitere Komponente, die immer stärker betont werden wird, sind kommunikative Qualitäten von „Dingen“: Das Internet of Things (IoT) sorgt dafür, dass neue technologische Standards und Protokolle Einzug erhalten, die es sukzessive möglich machen, Daten effizient an Ort und Stelle zu nutzen. Edge Computing gesellt sich zur bereits existierenden Cloud-Logik und sorgt dafür, dass latenzarme Kommunikation stattfinden kann, die die vollwertige Einbindung von „Dingen“ in den Prozess der Wertschöpfung garantiert. Alles in allem lässt sich festhalten, dass die Bedeutung, die Datenverwaltung und entsprechendem Datenmanagement zukommt, weiter wachsen wird. Der Fortschritt in Sachen Hardwarekapazitäten und der korrespondierenden Prozessebene legt den Fokus ebenfalls auf die Datasphäre mit all ihren Spezifikationen und idiosynkratischen Verfahrensweisen, die einen immer effizienteren Vollzug in Aussicht stellen. Wer auch in Zukunft sicher und vor allem erfolgreich wirtschaften will, der ist besonders gut beraten, sich mit der Bedeutung von Daten und der Abschätzung von etwaigen Potenzialen auseinanderzusetzen. Egal, ob (digitale) Daten nun der Kern des Unternehmens sind, oder lediglich im Hintergrund verarbeitet werden: der Traffic wird stärker werden – und wir können es kaum erwarten!

Erstklassige Beratung zum Datenmanagement gesucht? Wir kennen uns aus!

Jetzt kontaktieren

Datenverarbeitung & Datenmanagement

Einleitende Worte zu Datenmanagement & Datenverarbeitung

Was sind Daten?

Datenstrategie – wie man mit Daten verfährt

Datenmanagement & Datenverarbeitung

Datenanalyse

Automatisierte Datenverarbeitung

Daten und künstliche Intelligenz

Herausforderungen & Probleme mit Daten

Wrap-Up: Das Potenzial von Datenverarbeitung & Datenmanagement in der Wirtschaft der Zukunft

1. Einleitende Worte zu Datenmanagement & Datenverarbeitung

1.1. Weshalb ist Datenmanagement so wichtig?

1.2. Korrespondierende Datenverarbeitung

2. Was sind Daten?

2.1. Digitalisierung und Daten

2.2 Datenarten

2.2.1. Strukturierte Daten

2.2.2. Unstrukturierte Daten

2.2.3. Semi-strukturierte Daten

2.3. Analoge vs. digitale Daten

3. Datenstrategie – Wie man mit Daten verfährt

3.1. Datenspeicherung & Datenauswertung

3.1.1 Datenbanken

Relationale Datenbanken (SQL, NewSQL)

Nicht-relationale Datenbanken (NoSQL)

3.1.2. Neue Paradigmen der Datenhaltung

Data Warehouse

Data Lake

Data Mesh

Data Fabric

Dataverse

3.1.3. Cloud-Computing & Edge-Computing (Fog-Computing)

4. Datenmanagement & Datenverarbeitung

4.1. Data Governance

4.2. Datenkonsolidierung (Datenqualifizierung)

4.3. Datenmigration

4.4. Data Mining

5. Datenanalyse

5.1. Business Intelligence

5.1.1. Power BI & Power Automate (Microsoft Power Platform)

5.1.2. Tableau (und andere)

5.2. Big Data Analytics

6. Automatisierte Datenverarbeitung

6.1. Big Data & Data Science

6.1.1. Machine Learning

6.1.2. Deep Learning

6.1.3. Federated Learning

6.1.4. Swarm Learning

6.2. Distributed Computing

7. Daten und künstliche Intelligenz

7.1. Schwache KI

7.2. Starke KI

7.3. KI-Tools und Anwendungsbereiche

7.3.1. Generative KI

ChatGPT (OpenAI)

Midjourney (Midjourney Institute, SF)

Copilot (GitHub x OpenAI)

Gemini (Google/DeepMind)

7.3.2. Prädiktive KI

Azure Machine Learning (Microsoft)

DataRobot

scikit-learn

8. Herausforderungen & Probleme im Zusammenhang mit Daten

8.1. Datenschutz

8.1.1. Gesetzliche Datenschutzrichtlinien

8.1.2. Rechte von (Privat-) Personen und Pflichten von Unternehmen

8.2. Dirty Data & Data Bias

8.3 Datendiskriminierung

9. Wrap-Up: Das Potenzial von Daten in der Wirtschaft der Zukunft

‍