Was ist der Unterschied zwischen ETL und Data Warehouse?

Das Hauptunterschied zwischen ETL und Data Warehouse ist das der ETL ist der Prozess des Extrahierens, Umwandelns und Ladens der Daten, um sie in einem Data Warehouse zu speichern, während das Data Warehouse ein zentraler Ort ist, an dem konsolidierte Daten aus mehreren Datenquellen gespeichert werden.

Ein Data Warehouse ist ein System, das Daten analysiert, Berichte erstellt und visualisiert, um Geschäftsentscheidungen zu treffen. Es ist themenorientiert, integriert, zeitvariant und nichtflüchtig. Es gibt jedoch mehrere Schritte, bevor Sie die Daten in einem Data Warehouse speichern. Dieser Prozess wird als ETL bezeichnet. Dazu werden Daten extrahiert, transformiert und schließlich in ein Data Warehouse geladen. Der Unterschied zwischen ETL und Data Warehouse ergibt sich daher aus diesen Grundkonzepten.

Wichtige Bereiche

1. Was ist ETL?
      - Definition, Funktionalität
2. Was ist ein Data Warehouse?
     - Definition, Funktionalität
3. Was ist der Unterschied zwischen ETL und Data Warehouse?
     - Vergleich der wichtigsten Unterschiede

Schlüsselbegriffe

Data Warehouse, ETL

Was ist ETL?

ETL steht für Extrahieren, transformieren und laden. In diesem Prozess werden die Daten zunächst aus mehreren Datenquellen extrahiert. Dann wird es umgewandelt und in das Data Warehouse geladen. ETL bezeichnet diesen gesamten Prozess. IBM Data Stage, Informatica und Microsoft Integration Services sind einige ETL-Tools auf Unternehmensebene. Lassen Sie uns nun jeden Schritt von ETL genauer betrachten.

Extraktion

Die Extraktion ist der erste Schritt. Dabei werden Daten aus verschiedenen Datenquellen wie Datenbanken extrahiert. Bei der Extraktion ist zu beachten, dass die Leistung und die Antwortzeit der ursprünglichen Datenquelle nicht beeinträchtigt werden sollten. Daher gibt es verschiedene Datenextraktionsstrategien.

Volle Extraktion - Dazu werden alle Daten aus allen Datenquellen extrahiert. Die Hauptanwendung dieser Strategie besteht darin, das Data Warehouse in der Anfangsphase zu laden oder es zu laden, wenn die geänderten Daten nur schwer zu identifizieren sind.

Teilextraktion (mit Updatebenachrichtigung) - Diese Strategie ist einfacher und schneller als die vollständige Extraktion. Dabei werden nur die geänderten Daten extrahiert.

Teilextraktion (ohne Update-Benachrichtigung) - Dabei werden die Daten anhand bestimmter Schlüsselmerkmale extrahiert. Wenn beispielsweise bis gestern bereits extrahierte Daten vorhanden sind, können die heutigen Daten extrahiert und die Änderungen darin identifiziert werden.

Transformation

Die extrahierten Daten sind Rohdaten und daher nicht sehr nützlich. Daher erfolgt im nächsten Schritt eine Datentransformation. Dabei werden die Daten bereinigt, zugeordnet und konvertiert. Die grundlegenden Transformationsaufgaben lauten wie folgt:

Auswahl - Auswahl der erforderlichen Daten

Kartierung - Suchen Sie die Daten in verschiedenen Suchdateien und passen Sie die Daten an, die umgewandelt werden müssen

Datenbereinigung -Reinigen Sie die Daten, um sie zu standardisieren

Verdichtung - Daten aggregieren und konsolidieren

Die wichtigsten Datentransformationsaufgaben sind wie folgt.

Standardisieren - Da die Daten aus verschiedenen Quellen stammen, müssen sie standardisiert werden

Zeichensatzkonvertierung und Codierungsbehandlung - Konvertieren der Daten in eine definierte Kodierung

Werte berechnen - Berechnung und Ableitung neuer Spalten aus den vorhandenen Spalten.

Verschüttete und verschmelzen Felder - Ein Feld in mehrere Felder aufteilen oder mehrere Felder in einem Feld zusammenfassen, je nach den Anforderungen.

Umrechnung von Maßeinheiten - Einbeziehen von Datenzeitkonvertierungen usw.

Verdichtung - Daten aggregieren und konsolidieren.

Duplizierung löschen - Löschen der doppelten Daten aus mehreren Quellen.

Wird geladen

Hierbei werden die vorbereiteten Daten abgerufen und im Data Warehouse gespeichert. Es gibt verschiedene Ladetechniken.

Erstes Laden - Erstmaliges Laden des Data Warehouse.

Inkrementelle Last - Anwenden von laufenden Änderungen in regelmäßigen Abständen.

Vollständige Aktualisierung - Löschen Sie den Inhalt einer oder mehrerer Tabellen vollständig und laden Sie neue Daten.

Was ist ein Data Warehouse?

Data Warehouse ist ein System, das den Business Intelligence-Prozess unterstützt. Es wandelt die Daten in aussagekräftige Informationen zur Analyse des Geschäfts um. Daher ist es eine wertvolle Ressource für das Management einer Organisation, um Entscheidungen zu treffen.

Darüber hinaus verfügt eine Organisation über verschiedene Datenbanken wie MySQL und MSSQL. Alle diese Daten werden extrahiert, transformiert und in das Data Warehouse geladen. Dann werden die Daten integriert und verarbeitet. Schließlich verwenden die Datenanalysten, Datenwissenschaftler und Manager diese Daten, um geschäftliche Erkenntnisse zu gewinnen.

Darüber hinaus sind Daten in einem Data Warehouse in Data Marts unterteilt. Jeder von ihnen enthält Daten für bestimmte Benutzer. Sie verbessern die Sicherheit und Datenintegrität. Normalerweise befindet sich ein Data Warehouse an einem anderen Ort als die normalen Betriebsdatenbanken.

Unterschied zwischen ETL und Data Warehouse

Definition

ETL ist der Prozess des Extrahierens, Umwandelns und Ladens von Daten in einer Data Warehousing-Umgebung. Im Gegensatz dazu ist ein Data Warehouse ein Verbund-Repository für alle Daten, die von den verschiedenen Betriebssystemen eines Unternehmens erfasst werden. Dies ist also der grundlegende Unterschied zwischen ETL und Data Warehouse.

Verwendungszweck

ETL ist ein Prozess, der zum Ändern der Daten verwendet wird, bevor sie im Data Warehouse gespeichert werden. Ein Data Warehouse wird verwendet, um Geschäftsentscheidungen zu treffen. Darüber hinaus verbessert es die Datenqualität und -konsistenz und verbessert die Business Intelligence. Daher gibt es einen Unterschied zwischen ETL und Data Warehouse, basierend auf der individuellen Nutzung.

Fazit

Der grundlegende Unterschied zwischen ETL und Data Warehouse besteht im Allgemeinen darin, dass es sich bei ETL um das Extrahieren, Umwandeln und Laden der Daten handelt, um sie in einem Data Warehouse zu speichern, während ein Data Warehouse ein zentraler Ort ist, an dem konsolidierte Daten aus mehreren gespeichert werden Datenquellen.

Referenz:

1. “3 - ETL-Lernprogramm | Extraktion transformieren und laden “, Vikram Takkar, 8. September 2015, hier erhältlich.
2. „Was ist Data Warehouse? - Definition von WhatIs.com. ”SearchDataManagement, Verfügbar hier.

Bildhöflichkeit:

1. “KrisangelChap2-ETL” von Kkristangel - Eigene Arbeit (CC BY-SA 4.0) über Commons Wikimedia
2. "Data Warehouse-Übersicht" Von Hhultgren - Eigene Arbeit (Public Domain) über Commons Wikimedia