main Image

Orchestrierung von Pipelines mit Airflow

   Infrastructure

   Deployment

Gruppe C

Gruppe C

01/29/2022

Nachdem unsere Delta Lake Pipeline, sowie TFX Pipeline fertiggestellt wurden, gilt es, diese nun automatisiert durchzuführen. Umgesetzt wurde die Orchestrierung mit Apache Airflow, da Pipelines auch über eine grafische Benutzeroberfläche eingesehen und überwacht werden können. Die TFX Pipeline kann problemlos von Airflow gelesen werden und muss daher nicht manuell konfiguriert werden.

TFX Pipeline

Die Datenpipeline im Delta Lake hingegen musste neu erstellt werden. Dies gestaltete sich nach erstmaligem Einarbeiten jedoch als relativ intuitiv. Alle Arbeitsschritte einer Komponente werden in einer Funktion angegeben, die mit einem Wrapper versehen werden, welche eine Komponente deklariert.

Nachdem die Komponenten definiert sind, muss eine Reihenfolge der Ausführung festgelegt werden. Dies erfolgt über den Bitweisen Shift Operator in Python (>>, <<).

Der letzte Knoten unserer Deltalake Pipeline ist die Zusammenführung aller neuen Metainformationen der einzelnen Tabellen, die anschließend auf unserer dedizierten Metadaten Tabelle geschrieben werden.

Deltalake Pipeline Tree
Deltalake Pipeline Graph
Deltalake Pipeline Gantt