Skip to the main content.

Kunden & Partner

3 Min. Lesezeit

ETL-Prozess: Extract, Transform, Load

Transformation Migration Carve-out / Carve-in
ETL-Prozess: Extract, Transform, Load

Daten gehören heute zu den wichtigsten und wertvollsten Ressourcen eines Unternehmens. Nicht nur die Menge der Daten, die jeden Moment erzeugt werden, wächst kontinuierlich, auch die Quellen, die die Daten erzeugen, nehmen zu. Alle modernen Informationssysteme im Unternehmen, jede Interaktion mit einer Internetpräsenz, alle Sensoren in Produkten und der Produktion – um nur einige Beispiele zu nennen – liefern einen kontinuierlichen Datenfluss. Um diese Daten unterschiedlicher Quellen sinnvoll und gewinnbringend organisieren und verarbeiten zu können, hilft der ETL-Prozess.

 

Was ist der ETL-Prozess?

Definition

Ziel des ETL-Prozesses ist es, relevante Daten aus verschiedenen Quellsystemen mit unterschiedlicher Struktur oder mit Redundanzen in einer zentralen Datenbank oder einem Data Warehouse bereitzustellen.

Die Abkürzung ETL steht dabei für "Extract, Transform, Load" und beschreibt die Teilschritte, in die ein ETL-Prozess eingeteilt ist:

  • E - Extract: Identifikation und Export relevanter Rohdaten aus den Quellsystemen
  • T - Transform: Aufbereitung der Daten für den Import in das Zielsystem

  • L - Load: Integration der Daten in das Zielsystem

Der ETL-Prozess sorgt dafür, dass Daten, die an unterschiedlicher Stelle und mit unterschiedlichem Kontext erzeugt werden, den Nutzern an zentraler Stelle in einheitlicher Form und Qualität zur Verfügung stehen. Im ETL-Prozess wird die Datenqualität, Redundanzfreiheit und kontextbezogene Referenzierung durch unterschiedliche Stufen sichergestellt. Dabei erhöht sich der Informationsgehalt der Daten über die Summe seiner Teile hinaus. Die Integration von Daten eines Ereignisses aus verschiedenen Quellen / Sichten kann Rückschlüsse ermöglichen, die jedes Datenstück für sich nicht darstellt.

Vorteile des ETL-Prozesses

Icon_Challenges_SAP Business_ByDesign_Datenmigration

einheitliche Datenbasis auf allen Unternehmensebenen

Icon_Challenges_SAP Business_ByDesign_Analyse

Analysen auf Basis umfassenderer Informationen

Icon_Challenges_Datenstillegung_Datenzugriff

schneller Datenzugriff in definierter Qualität

Icon_RPA_Analyse_und_Planung

entscheidungsrelevante Informationen in Echtzeit

Der ETL-Prozess trägt relevante Informationen im Unternehmen aus allen Unternehmensbereichen zusammen und stellt sie in einer einheitlichen Datenbasis zur Verfügung. Analysen, die auf dieser gemeinsamen Datenbasis ausgeführt werden, liefern analyseübergreifend konsistenter Informationen, gegenüber den gleichen Auswertungen die jeweils nur auf den isolierten Daten einzelner Unternehmensbereiche ausgeführt worden wären. Auf Basis der zusammengetragenen Informationen können nicht nur Auswertungen erzeugt werden, die entscheidungsrelevante Informationen für das Management liefern. Die Breite und Tiefe der enthaltenen Daten ermöglichen es auch Fachabteilungen, eigene Auswertungen zu spezifischen Fragestellung zu erstellen.

Für Analysen im Bereich Data Science wird ein Anteil von 70 % - 80 % der Arbeitsleistung für die Vorbereitung der Datenbasis aufgewendet. Im Rahmen der Erstellung einer Auswertung ist die Aufbereitung der Rohdaten in eine relevante und qualitativ hochwertige Datenbasis die aufwändigste Tätigkeit. ETL-Prozesse automatisieren einen Großteil dieser vorbereitenden Aufgaben datenintensiver Tätigkeiten. Unabhängig von wo Daten in das Zielsystem übernommen werden, der ETL-Prozess stellt jederzeit sicher, dass die neuen Daten konsistent und fehlerbereinigt in die bestehende Datenlandschaft integriert werden. Diese definierte Qualität und Relevanz in den Daten beschleunigen den Datenzugriff gegenüber alternativen Ansätzen deutlich.

Bei der Integration neuer Daten in die bestehende Datenbasis werden zeitgleich betriebliche Kennzahlen, Grafiken und Reports aktualisiert. Damit ist sichergestellt, dass entscheidungsrelevante Informationen die aktuelle Lage des Unternehmens widerspiegeln.

Einsatzbereiche von ETL

Wann der ETL-Prozess sinnvoll ist

Der Einsatz eines ETL-Prozesses als integrativer Bestandteil des Datenmanagements ist immer dann sinnvoll, wenn Daten aus verschiedenen Quellsystemen mit unterschiedlicher Struktur oder redundante Daten für Analysen auf einer einheitlichen Datenbasis verwendet werden sollen. Insbesondere Anwendungen im Bereich Big Data und Business Intelligence profitieren von dem strukturierten Vorgehen und dem definierten Output eines ETL-Prozesses.

Die drei Schritte des ETL-Prozesses

Der ETL-Prozess wird ausgeführt, damit die Daten im Zielsystem kontinuierlich aktualisiert werden. Die Häufigkeit der Ausführung hängt dabei unter anderem von der benötigten Durchlaufzeit für eine Ausführung ab. Die Anzahl angebundener Quellsysteme, die verarbeitete Datenmenge, der Transformationsaufwand sowie die zur Verfügung stehende Rechenleistung sind entscheidende Faktoren für die Ausführungshäufigkeit und Durchlaufzeit. Die Ausführung des ETL-Prozesses kann zeit- oder ereignisgesteuert ausgelöst werden.

  1. Schritt: Extraction

    Als erster Schritt des ETL-Prozesses werden relevante Rohdaten aus den Quellsystemen selektiert. Unter Anwendung von Filtern wird nur eine Teilmenge der Rohdaten der verschiedenen Quelldatenbanken für die Transformation und Übertragung verwendet.

  2. Schritt: Transformation

    Nach der Extraktion der Rohdaten folgt deren Transformation in unterschiedlichen Schritten, die abhängig vom konkreten Einzelfall kombiniert werden müssen:

    • Umgang mit fehlerhaften Datensätzen festlegen

    • Kodierung und Formatierung auf das Zielsystem anpassen

    • Duplikate identifizieren und behandeln

    • Daten gruppieren und aggregieren

    • Datenschemata an die des Zielsystems angleichen

  3. Schritt: Load

    Im letzten Schritt erfolgt die Datenintegration in das Zielsystem, die zentrale Datenbank oder das Data Warehouse. Die geprüften und transformierten Daten werden im Zielsystem dauerhaft gespeichert. Neben den Daten selbst werden auch die vorgenommenen Änderungen geloggt, sodass der ursprüngliche Datensatz der Rohdaten wiederherstellbar wäre.

3 Anwendungsmöglichkeiten eines ETL-Tools

Wie bereits erwähnt, ermöglicht ein ETL-Prozess die Gewinnung von Informationen, die über den Informationsgehalt der einzelnen Datenbestandteile hinausgehen. Durch die Verknüpfung von Daten lassen sich übergeordnete Zusammenhänge aufdecken und gewinnbringende Erkenntnisse für Sie und Ihre Kunden erzielen:

  1. Energiebranche: Erfassung der Verbrauchsdaten und Aufbereitung nach Eigenschaften der Prosumenten

  2. Handel und Produzenten: Analyse von Markttrends und Kaufverhalten für die Gestaltung erfolgreicher Marketing und CRM-Maßnahmen

  3. Medizin: Analyse von Diagnose- und Behandlungspraktiken nach Best Practices je Krankheitsbild / Symptomatik

Die Möglichkeiten, unternehmenseigene und -fremde Daten gewinnbringend einzusetzen, nehmen kontinuierlich zu. Richtig eingesetzt, können Ihnen ETL-Prozesse einen umfassenden Zugang zu Ihrer Datenbasis ermöglichen und als Innovationstreiber dienen oder sprunghafte Wettbewerbsvorteile sichern.

Mit der Data Conversion Suite (DCS) werden nicht nur die ETL-Funktionalitäten angeboten, sondern auch die Durchführung einer vorherigen Datenanalyse und die anschließende Datenvalidierung. Die Natuvion DCS ist damit eine Analyze, Extract, Transform, Load, Validate (A-ETL-V) Plattform.

Die Unterschiede zwischen ETL und ELT

Die Abkürzung ETL hängt direkt mit der auf die Daten angewendeten Prozessschritte zusammen, genauso bei der Abkürzung ELT.

Während bei ETL die Daten außerhalb des Zielsystems transformiert und abschließend in ein einheitliches Datenschema geladen werden, werden die Informationen beim ELT als Rohdaten im Zielsystem bereitgestellt. Die Transformation erfolgt beim ELT erst im Zielsystem.

ELT ist insbesondere im Big Data-Umfeld beliebt. Denn durch den Zugriff auf die Rohdaten stehen den Data Scientists alle Möglichkeiten der Analyse offen, die durch die vorgelagerte Transformation beim ETL eingeschränkt sein könnten. Allerdings müssen immer erst noch Transformationen auf den Rohdaten ausgeführt werden, bevor die aufbereiteten Daten zur Verfügung stehen.

Beim ETL-Prozess hingegen dauert es durch die zwischengelagerte Transformation länger von der Extraktion der Daten bis zu deren Bereitstellung im Zielsystem. Dafür stehen die Daten direkt in definierter Weise zur Verfügung.

 

Datentransformation neu gedacht: KI-gestützte Natuvion Data Conversion Suite jetzt stärker integriert

Datentransformation neu gedacht: KI-gestützte Natuvion Data Conversion Suite jetzt stärker integriert

Walldorf, 15. April 2024 – Natuvion, der Spezialist für Datentransformation, wartet mit einer Branchenneuheit auf, indem er die einzelnen Lösungen...

Weiterlesen
ESGetting Hot in Here!

ESGetting Hot in Here!

Es wird immer heißer. Und zwar nicht nur in den Ozeanen, die jedes Jahr Rekorde ihrer Oberflächentemperaturen aufweisen, sondern auch den Unternehmen...

Weiterlesen
24h Lieferantenwechsel: Alle Änderungen & Neuerungen kompakt zusammengefasst

24h Lieferantenwechsel: Alle Änderungen & Neuerungen kompakt zusammengefasst

Mit der Veröffentlichung der Festlegung zum beschleunigten Lieferantenwechsel in 24h (LFW24) am 21.03.2024 (BK6-22-024) stellt die Bundesnetzagentur...

Weiterlesen