Der ETL-Prozess trägt relevante Informationen im Unternehmen aus allen Unternehmensbereichen zusammen und stellt sie in einer einheitlichen Datenbasis zur Verfügung. Analysen, die auf dieser gemeinsamen Datenbasis ausgeführt werden, liefern analyseübergreifend konsistenter Informationen, gegenüber den gleichen Auswertungen die jeweils nur auf den isolierten Daten einzelner Unternehmensbereiche ausgeführt worden wären. Auf Basis der zusammengetragenen Informationen können nicht nur Auswertungen erzeugt werden, die entscheidungsrelevante Informationen für das Management liefern. Die Breite und Tiefe der enthaltenen Daten ermöglichen es auch Fachabteilungen, eigene Auswertungen zu spezifischen Fragestellung zu erstellen.
Für Analysen im Bereich Data Science wird ein Anteil von 70 % - 80 % der Arbeitsleistung für die Vorbereitung der Datenbasis aufgewendet. Im Rahmen der Erstellung einer Auswertung ist die Aufbereitung der Rohdaten in eine relevante und qualitativ hochwertige Datenbasis die aufwändigste Tätigkeit. ETL-Prozesse automatisieren einen Großteil dieser vorbereitenden Aufgaben datenintensiver Tätigkeiten. Unabhängig von wo Daten in das Zielsystem übernommen werden, der ETL-Prozess stellt jederzeit sicher, dass die neuen Daten konsistent und fehlerbereinigt in die bestehende Datenlandschaft integriert werden. Diese definierte Qualität und Relevanz in den Daten beschleunigen den Datenzugriff gegenüber alternativen Ansätzen deutlich.
Bei der Integration neuer Daten in die bestehende Datenbasis werden zeitgleich betriebliche Kennzahlen, Grafiken und Reports aktualisiert. Damit ist sichergestellt, dass entscheidungsrelevante Informationen die aktuelle Lage des Unternehmens widerspiegeln.
Einsatzbereiche von ETL
Wann der ETL-Prozess sinnvoll ist
Der Einsatz eines ETL-Prozesses als integrativer Bestandteil des Datenmanagements ist immer dann sinnvoll, wenn Daten aus verschiedenen Quellsystemen mit unterschiedlicher Struktur oder redundante Daten für Analysen auf einer einheitlichen Datenbasis verwendet werden sollen. Insbesondere Anwendungen im Bereich Big Data und Business Intelligence profitieren von dem strukturierten Vorgehen und dem definierten Output eines ETL-Prozesses.
Die drei Schritte des ETL-Prozesses
Der ETL-Prozess wird ausgeführt, damit die Daten im Zielsystem kontinuierlich aktualisiert werden. Die Häufigkeit der Ausführung hängt dabei unter anderem von der benötigten Durchlaufzeit für eine Ausführung ab. Die Anzahl angebundener Quellsysteme, die verarbeitete Datenmenge, der Transformationsaufwand sowie die zur Verfügung stehende Rechenleistung sind entscheidende Faktoren für die Ausführungshäufigkeit und Durchlaufzeit. Die Ausführung des ETL-Prozesses kann zeit- oder ereignisgesteuert ausgelöst werden.
-
Schritt: Extraction
Als erster Schritt des ETL-Prozesses werden relevante Rohdaten aus den Quellsystemen selektiert. Unter Anwendung von Filtern wird nur eine Teilmenge der Rohdaten der verschiedenen Quelldatenbanken für die Transformation und Übertragung verwendet.
-
Schritt: Transformation
Nach der Extraktion der Rohdaten folgt deren Transformation in unterschiedlichen Schritten, die abhängig vom konkreten Einzelfall kombiniert werden müssen:
-
Umgang mit fehlerhaften Datensätzen festlegen
-
Kodierung und Formatierung auf das Zielsystem anpassen
-
Duplikate identifizieren und behandeln
-
Daten gruppieren und aggregieren
-
Datenschemata an die des Zielsystems angleichen
-
Schritt: Load
Im letzten Schritt erfolgt die Datenintegration in das Zielsystem, die zentrale Datenbank oder das Data Warehouse. Die geprüften und transformierten Daten werden im Zielsystem dauerhaft gespeichert. Neben den Daten selbst werden auch die vorgenommenen Änderungen geloggt, sodass der ursprüngliche Datensatz der Rohdaten wiederherstellbar wäre.
3 Anwendungsmöglichkeiten eines ETL-Tools
Wie bereits erwähnt, ermöglicht ein ETL-Prozess die Gewinnung von Informationen, die über den Informationsgehalt der einzelnen Datenbestandteile hinausgehen. Durch die Verknüpfung von Daten lassen sich übergeordnete Zusammenhänge aufdecken und gewinnbringende Erkenntnisse für Sie und Ihre Kunden erzielen:
-
Energiebranche: Erfassung der Verbrauchsdaten und Aufbereitung nach Eigenschaften der Prosumenten
-
Handel und Produzenten: Analyse von Markttrends und Kaufverhalten für die Gestaltung erfolgreicher Marketing und CRM-Maßnahmen
-
Medizin: Analyse von Diagnose- und Behandlungspraktiken nach Best Practices je Krankheitsbild / Symptomatik
Die Möglichkeiten, unternehmenseigene und -fremde Daten gewinnbringend einzusetzen, nehmen kontinuierlich zu. Richtig eingesetzt, können Ihnen ETL-Prozesse einen umfassenden Zugang zu Ihrer Datenbasis ermöglichen und als Innovationstreiber dienen oder sprunghafte Wettbewerbsvorteile sichern.
Mit der Data Conversion Suite (DCS) werden nicht nur die ETL-Funktionalitäten angeboten, sondern auch die Durchführung einer vorherigen Datenanalyse und die anschließende Datenvalidierung. Die Natuvion DCS ist damit eine Analyze, Extract, Transform, Load, Validate (A-ETL-V) Plattform.
Die Unterschiede zwischen ETL und ELT
Die Abkürzung ETL hängt direkt mit der auf die Daten angewendeten Prozessschritte zusammen, genauso bei der Abkürzung ELT.
Während bei ETL die Daten außerhalb des Zielsystems transformiert und abschließend in ein einheitliches Datenschema geladen werden, werden die Informationen beim ELT als Rohdaten im Zielsystem bereitgestellt. Die Transformation erfolgt beim ELT erst im Zielsystem.
ELT ist insbesondere im Big Data-Umfeld beliebt. Denn durch den Zugriff auf die Rohdaten stehen den Data Scientists alle Möglichkeiten der Analyse offen, die durch die vorgelagerte Transformation beim ETL eingeschränkt sein könnten. Allerdings müssen immer erst noch Transformationen auf den Rohdaten ausgeführt werden, bevor die aufbereiteten Daten zur Verfügung stehen.
Beim ETL-Prozess hingegen dauert es durch die zwischengelagerte Transformation länger von der Extraktion der Daten bis zu deren Bereitstellung im Zielsystem. Dafür stehen die Daten direkt in definierter Weise zur Verfügung.