DE
      person-erkleart-aufmerksam-1200x550px

      ETL-Prozess
      Extract, Transform, Load

      Home > Herausforderungen > ETL-Prozess

      Daten gehören heute zu den wichtigsten und wertvollsten Ressourcen eines Unternehmens. Nicht nur die Menge der Daten, die jeden Moment erzeugt werden, wächst kontinuierlich, auch die Quellen, die die Daten erzeugen, nehmen zu. Alle modernen Informationssysteme im Unternehmen, jede Interaktion mit einer Internetpräsenz, alle Sensoren in Produkten und der Produktion – um nur einige Beispiele zu nennen – liefern einen kontinuierlichen Datenfluss. Um diese Daten unterschiedlicher Quellen sinnvoll und gewinnbringend organisieren und verarbeiten zu können, hilft der ETL-Prozess.

      Was ist der ETL-Prozess?

      Definition

      Ziel des ETL-Prozesses ist es, relevante Daten aus verschiedenen Quellsystemen mit unterschiedlicher Struktur oder mit Redundanzen in einer zentralen Datenbank oder einem Data Warehouse bereitzustellen.

      Die Abkürzung ETL steht dabei für "Extract, Transform, Load" und beschreibt die Teilschritte, in die ein ETL-Prozess eingeteilt ist:

       

      • E - Extract: Identifikation und Export relevanter Rohdaten aus den Quellsystemen
      • T - Transform: Aufbereitung der Daten für den Import in das Zielsystem

      • L - Load: Integration der Daten in das Zielsystem


      Der
      ETL-Prozess sorgt dafür, dass Daten, die an unterschiedlicher Stelle und mit unterschiedlichem Kontext erzeugt werden, den Nutzern an zentraler Stelle in einheitlicher Form und Qualität zur Verfügung stehen. Im ETL-Prozess wird die Datenqualität, Redundanzfreiheit und kontextbezogene Referenzierung durch unterschiedliche Stufen sichergestellt. Dabei erhöht sich der Informationsgehalt der Daten über die Summe seiner Teile hinaus. Die Integration von Daten eines Ereignisses aus verschiedenen Quellen / Sichten kann Rückschlüsse ermöglichen, die jedes Datenstück für sich nicht darstellt.

      Vorteile des ETL-Prozesses

      Auf einen Blick

      Daten Analyse-1 Datenzugriff entscheidungsrelevante Informationen

      einheitliche Datenbasis auf allen Unternehmensebenen 

      Analysen auf Basis umfassenderer Informationen

      schneller Datenzugriff in definierter Qualität

      entscheidungsrelevante Informationen in Echtzeit

       

      Der ETL-Prozess trägt relevante Informationen im Unternehmen aus allen Unternehmensbereichen zusammen und stellt sie in einer einheitlichen Datenbasis zur Verfügung. Analysen, die auf dieser gemeinsamen Datenbasis ausgeführt werden, liefern analyseübergreifend konsistenter Informationen, gegenüber den gleichen Auswertungen die jeweils nur auf den isolierten Daten einzelner Unternehmensbereiche ausgeführt worden wären. Auf Basis der zusammengetragenen Informationen können nicht nur Auswertungen erzeugt werden, die entscheidungsrelevante Informationen für das Management liefern. Die Breite und Tiefe der enthaltenen Daten ermöglichen es auch Fachabteilungen, eigene Auswertungen zu spezifischen Fragestellung zu erstellen.

      Für Analysen im Bereich Data Science wird ein Anteil von 70 % - 80 % der Arbeitsleistung für die Vorbereitung der Datenbasis aufgewendet. Im Rahmen der Erstellung einer Auswertung ist die Aufbereitung der Rohdaten in eine relevante und qualitativ hochwertige Datenbasis die aufwändigste Tätigkeit. ETL-Prozesse automatisieren einen Großteil dieser vorbereitenden Aufgaben datenintensiver Tätigkeiten. Unabhängig von wo Daten in das Zielsystem übernommen werden, der ETL-Prozess stellt jederzeit sicher, dass die neuen Daten konsistent und fehlerbereinigt in die bestehende Datenlandschaft integriert werden. Diese definierte Qualität und Relevanz in den Daten beschleunigen den Datenzugriff gegenüber alternativen Ansätzen deutlich.

      Bei der Integration neuer Daten in die bestehende Datenbasis werden zeitgleich betriebliche Kennzahlen, Grafiken und Reports aktualisiert. Damit ist sichergestellt, dass entscheidungsrelevante Informationen die aktuelle Lage des Unternehmens widerspiegeln.

      Einsatzbereiche von ETL

      Wann der ETL-Prozess sinnvoll ist

      Der Einsatz eines ETL-Prozesses als integrativer Bestandteil des Datenmanagements ist immer dann sinnvoll, wenn Daten aus verschiedenen Quellsystemen mit unterschiedlicher Struktur oder redundante Daten für Analysen auf einer einheitlichen Datenbasis verwendet werden sollen. Insbesondere Anwendungen im Bereich Big Data und Business Intelligence profitieren von dem strukturierten Vorgehen und dem definierten Output eines ETL-Prozesses.

      Die drei Schritte des ETL-Prozesses

      Der ETL-Prozess wird ausgeführt, damit die Daten im Zielsystem kontinuierlich aktualisiert werden. Die Häufigkeit der Ausführung hängt dabei unter anderem von der benötigten Durchlaufzeit für eine Ausführung ab. Die Anzahl angebundener Quellsysteme, die verarbeitete Datenmenge, der Transformationsaufwand sowie die zur Verfügung stehende Rechenleistung sind entscheidende Faktoren für die Ausführungshäufigkeit und Durchlaufzeit. Die Ausführung des ETL-Prozesses kann zeit- oder ereignisgesteuert ausgelöst werden.

       

      Extraction

      Schritt 1: Extraction

      Als erster Schritt des ETL-Prozesses werden relevante Rohdaten aus den Quellsystemen selektiert. Unter Anwendung von Filtern wird nur eine Teilmenge der Rohdaten der verschiedenen Quelldatenbanken für die Transformation und Übertragung verwendet.

      Transformation

      Schritt 2: Transformation

      Nach der Extraktion der Rohdaten folgt deren Transformation in unterschiedlichen Schritten, die abhängig vom konkreten Einzelfall kombiniert werden müssen:

      • Umgang mit fehlerhaften Datensätzen festlegen
      • Kodierung und Formatierung auf das Zielsystem anpassen
      • Duplikate identifizieren und behandeln
      • Daten gruppieren und aggregieren
      • Datenschemata an die des Zielsystems angleichen

      Load

      Schritt 3: Load

      Im letzten Schritt erfolgt die Datenintegration in das Zielsystem, die zentrale Datenbank oder das Data Warehouse. Die geprüften und transformierten Daten werden im Zielsystem dauerhaft gespeichert. Neben den Daten selbst werden auch die vorgenommenen Änderungen geloggt, sodass der ursprüngliche Datensatz der Rohdaten wiederherstellbar wäre.

       

      3 Anwendungsmöglichkeiten eines ETL-Tools

      Wie bereits erwähnt, ermöglicht ein ETL-Prozess die Gewinnung von Informationen, die über den Informationsgehalt der einzelnen Datenbestandteile hinausgehen. Durch die Verknüpfung von Daten lassen sich übergeordnete Zusammenhänge aufdecken und gewinnbringende Erkenntnisse für Sie und Ihre Kunden erzielen:

      1. Energiebranche: Erfassung der Verbrauchsdaten und Aufbereitung nach Eigenschaften der Prosumenten

      2. Handel und Produzenten: Analyse von Markttrends und Kaufverhalten für die Gestaltung erfolgreicher Marketing und CRM-Maßnahmen

      3. Medizin: Analyse von Diagnose- und Behandlungspraktiken nach Best Practices je Krankheitsbild / Symptomatik

      Die Möglichkeiten, unternehmenseigene und -fremde Daten gewinnbringend einzusetzen, nehmen kontinuierlich zu. Richtig eingesetzt, können Ihnen ETL-Prozesse einen umfassenden Zugang zu Ihrer Datenbasis ermöglichen und als Innovationstreiber dienen oder sprunghafte Wettbewerbsvorteile sichern.

      Mit dem Natuvion Data Conversion Server™ (DCS) werden nicht nur die ETL-Funktionalitäten angeboten, sondern auch die Durchführung einer vorherigen Datenanalyse und die anschließende Datenvalidierung. Der Natuvion DCS ist damit eine Analyze, Extract, Transform, Load, Validate (A-ETL-V) Plattform.

      Die Unterschiede zwischen ETL und ELT

      Die Abkürzung ETL hängt direkt mit der auf die Daten angewendeten Prozessschritte zusammen, genauso bei der Abkürzung ELT.

      Während bei ETL die Daten außerhalb des Zielsystems transformiert und abschließend in ein einheitliches Datenschema geladen werden, werden die Informationen beim ELT als Rohdaten im Zielsystem bereitgestellt. Die Transformation erfolgt beim ELT erst im Zielsystem.

      ELT ist insbesondere im Big Data-Umfeld beliebt. Denn durch den Zugriff auf die Rohdaten stehen den Data Scientists alle Möglichkeiten der Analyse offen, die durch die vorgelagerte Transformation beim ETL eingeschränkt sein könnten. Allerdings müssen immer erst noch Transformationen auf den Rohdaten ausgeführt werden, bevor die aufbereiteten Daten zur Verfügung stehen.

      Beim ETL-Prozess hingegen dauert es durch die zwischengelagerte Transformation länger von der Extraktion der Daten bis zu deren Bereitstellung im Zielsystem. Dafür stehen die Daten direkt in definierter Weise zur Verfügung.

      Kontakt

      Sie möchten mehr über den ETL-Prozess erfahren? Füllen Sie einfach das Kontaktformular aus und wir setzen uns schnellstmöglich mit Ihnen in Verbindung.