
Orchestrierung von Pipelines mit Airflow
Infrastructure
Deployment

Gruppe C
01/29/2022
Nachdem unsere Delta Lake Pipeline, sowie TFX Pipeline fertiggestellt wurden, gilt es, diese nun automatisiert durchzuführen. Umgesetzt wurde die Orchestrierung mit Apache Airflow, da Pipelines auch über eine grafische Benutzeroberfläche eingesehen und überwacht werden können. Die TFX Pipeline kann problemlos von Airflow gelesen werden und muss daher nicht manuell konfiguriert werden.

Die Datenpipeline im Delta Lake hingegen musste neu erstellt werden. Dies gestaltete sich nach erstmaligem Einarbeiten jedoch als relativ intuitiv. Alle Arbeitsschritte einer Komponente werden in einer Funktion angegeben, die mit einem Wrapper versehen werden, welche eine Komponente deklariert.
Nachdem die Komponenten definiert sind, muss eine Reihenfolge der Ausführung festgelegt werden. Dies erfolgt über den Bitweisen Shift Operator in Python (>>, <<).
Der letzte Knoten unserer Deltalake Pipeline ist die Zusammenführung aller neuen Metainformationen der einzelnen Tabellen, die anschließend auf unserer dedizierten Metadaten Tabelle geschrieben werden.


