Home > Herausforderungen > ETL-Prozess
Daten gehören heute zu den wichtigsten und wertvollsten Ressourcen eines Unternehmens. Nicht nur die Menge der Daten, die jeden Moment erzeugt werden, wächst kontinuierlich, auch die Quellen, die die Daten erzeugen, nehmen zu. Alle modernen Informationssysteme im Unternehmen, jede Interaktion mit einer Internetpräsenz, alle Sensoren in Produkten und der Produktion – um nur einige Beispiele zu nennen – liefern einen kontinuierlichen Datenfluss. Um diese Daten unterschiedlicher Quellen sinnvoll und gewinnbringend organisieren und verarbeiten zu können, hilft der ETL-Prozess.
Ziel des ETL-Prozesses ist es, relevante Daten aus verschiedenen Quellsystemen mit unterschiedlicher Struktur oder mit Redundanzen in einer zentralen Datenbank oder einem Data Warehouse bereitzustellen.
Die Abkürzung ETL steht dabei für "Extract, Transform, Load" und beschreibt die Teilschritte, in die ein ETL-Prozess eingeteilt ist:
T - Transform: Aufbereitung der Daten für den Import in das Zielsystem
L - Load: Integration der Daten in das Zielsystem
Der ETL-Prozess sorgt dafür, dass Daten, die an unterschiedlicher Stelle und mit unterschiedlichem Kontext erzeugt werden, den Nutzern an zentraler Stelle in einheitlicher Form und Qualität zur Verfügung stehen. Im ETL-Prozess wird die Datenqualität, Redundanzfreiheit und kontextbezogene Referenzierung durch unterschiedliche Stufen sichergestellt. Dabei erhöht sich der Informationsgehalt der Daten über die Summe seiner Teile hinaus. Die Integration von Daten eines Ereignisses aus verschiedenen Quellen / Sichten kann Rückschlüsse ermöglichen, die jedes Datenstück für sich nicht darstellt.
einheitliche Datenbasis auf allen Unternehmensebenen |
Analysen auf Basis umfassenderer Informationen |
schneller Datenzugriff in definierter Qualität |
entscheidungsrelevante Informationen in Echtzeit |
Der ETL-Prozess trägt relevante Informationen im Unternehmen aus allen Unternehmensbereichen zusammen und stellt sie in einer einheitlichen Datenbasis zur Verfügung. Analysen, die auf dieser gemeinsamen Datenbasis ausgeführt werden, liefern analyseübergreifend konsistenter Informationen, gegenüber den gleichen Auswertungen die jeweils nur auf den isolierten Daten einzelner Unternehmensbereiche ausgeführt worden wären. Auf Basis der zusammengetragenen Informationen können nicht nur Auswertungen erzeugt werden, die entscheidungsrelevante Informationen für das Management liefern. Die Breite und Tiefe der enthaltenen Daten ermöglichen es auch Fachabteilungen, eigene Auswertungen zu spezifischen Fragestellung zu erstellen.
Für Analysen im Bereich Data Science wird ein Anteil von 70 % - 80 % der Arbeitsleistung für die Vorbereitung der Datenbasis aufgewendet. Im Rahmen der Erstellung einer Auswertung ist die Aufbereitung der Rohdaten in eine relevante und qualitativ hochwertige Datenbasis die aufwändigste Tätigkeit. ETL-Prozesse automatisieren einen Großteil dieser vorbereitenden Aufgaben datenintensiver Tätigkeiten. Unabhängig von wo Daten in das Zielsystem übernommen werden, der ETL-Prozess stellt jederzeit sicher, dass die neuen Daten konsistent und fehlerbereinigt in die bestehende Datenlandschaft integriert werden. Diese definierte Qualität und Relevanz in den Daten beschleunigen den Datenzugriff gegenüber alternativen Ansätzen deutlich.
Bei der Integration neuer Daten in die bestehende Datenbasis werden zeitgleich betriebliche Kennzahlen, Grafiken und Reports aktualisiert. Damit ist sichergestellt, dass entscheidungsrelevante Informationen die aktuelle Lage des Unternehmens widerspiegeln.
Der Einsatz eines ETL-Prozesses als integrativer Bestandteil des Datenmanagements ist immer dann sinnvoll, wenn Daten aus verschiedenen Quellsystemen mit unterschiedlicher Struktur oder redundante Daten für Analysen auf einer einheitlichen Datenbasis verwendet werden sollen. Insbesondere Anwendungen im Bereich Big Data und Business Intelligence profitieren von dem strukturierten Vorgehen und dem definierten Output eines ETL-Prozesses.
Der ETL-Prozess wird ausgeführt, damit die Daten im Zielsystem kontinuierlich aktualisiert werden. Die Häufigkeit der Ausführung hängt dabei unter anderem von der benötigten Durchlaufzeit für eine Ausführung ab. Die Anzahl angebundener Quellsysteme, die verarbeitete Datenmenge, der Transformationsaufwand sowie die zur Verfügung stehende Rechenleistung sind entscheidende Faktoren für die Ausführungshäufigkeit und Durchlaufzeit. Die Ausführung des ETL-Prozesses kann zeit- oder ereignisgesteuert ausgelöst werden.
Schritt 1: Extraction Als erster Schritt des ETL-Prozesses werden relevante Rohdaten aus den Quellsystemen selektiert. Unter Anwendung von Filtern wird nur eine Teilmenge der Rohdaten der verschiedenen Quelldatenbanken für die Transformation und Übertragung verwendet. |
|
Schritt 2: Transformation Nach der Extraktion der Rohdaten folgt deren Transformation in unterschiedlichen Schritten, die abhängig vom konkreten Einzelfall kombiniert werden müssen:
|
|
Schritt 3: Load Im letzten Schritt erfolgt die Datenintegration in das Zielsystem, die zentrale Datenbank oder das Data Warehouse. Die geprüften und transformierten Daten werden im Zielsystem dauerhaft gespeichert. Neben den Daten selbst werden auch die vorgenommenen Änderungen geloggt, sodass der ursprüngliche Datensatz der Rohdaten wiederherstellbar wäre. |
Wie bereits erwähnt, ermöglicht ein ETL-Prozess die Gewinnung von Informationen, die über den Informationsgehalt der einzelnen Datenbestandteile hinausgehen. Durch die Verknüpfung von Daten lassen sich übergeordnete Zusammenhänge aufdecken und gewinnbringende Erkenntnisse für Sie und Ihre Kunden erzielen:
Energiebranche: Erfassung der Verbrauchsdaten und Aufbereitung nach Eigenschaften der Prosumenten
Handel und Produzenten: Analyse von Markttrends und Kaufverhalten für die Gestaltung erfolgreicher Marketing und CRM-Maßnahmen
Medizin: Analyse von Diagnose- und Behandlungspraktiken nach Best Practices je Krankheitsbild / Symptomatik
Die Möglichkeiten, unternehmenseigene und -fremde Daten gewinnbringend einzusetzen, nehmen kontinuierlich zu. Richtig eingesetzt, können Ihnen ETL-Prozesse einen umfassenden Zugang zu Ihrer Datenbasis ermöglichen und als Innovationstreiber dienen oder sprunghafte Wettbewerbsvorteile sichern.
Mit dem Natuvion Data Conversion Server™ (DCS) werden nicht nur die ETL-Funktionalitäten angeboten, sondern auch die Durchführung einer vorherigen Datenanalyse und die anschließende Datenvalidierung. Der Natuvion DCS ist damit eine Analyze, Extract, Transform, Load, Validate (A-ETL-V) Plattform.
Die Abkürzung ETL hängt direkt mit der auf die Daten angewendeten Prozessschritte zusammen, genauso bei der Abkürzung ELT.
Während bei ETL die Daten außerhalb des Zielsystems transformiert und abschließend in ein einheitliches Datenschema geladen werden, werden die Informationen beim ELT als Rohdaten im Zielsystem bereitgestellt. Die Transformation erfolgt beim ELT erst im Zielsystem.
ELT ist insbesondere im Big Data-Umfeld beliebt. Denn durch den Zugriff auf die Rohdaten stehen den Data Scientists alle Möglichkeiten der Analyse offen, die durch die vorgelagerte Transformation beim ETL eingeschränkt sein könnten. Allerdings müssen immer erst noch Transformationen auf den Rohdaten ausgeführt werden, bevor die aufbereiteten Daten zur Verfügung stehen.
Beim ETL-Prozess hingegen dauert es durch die zwischengelagerte Transformation länger von der Extraktion der Daten bis zu deren Bereitstellung im Zielsystem. Dafür stehen die Daten direkt in definierter Weise zur Verfügung.
Sie möchten mehr über den ETL-Prozess erfahren? Füllen Sie einfach das Kontaktformular aus und wir setzen uns schnellstmöglich mit Ihnen in Verbindung.