main Image

Aussichten

   Fazit

Gruppe C

Gruppe C

02/05/2022

Aufgrund des Umfangs des Themengebietes "MLOps" konnten nicht alle Aspekte eines Data Lakes/ einer Machine Learning Plattform entwickelt werden. Jedoch wurde eine Basis geschaffen, auf der weitere Verbesserungen und Anpassungen vorgenommen werden können. Die eingesetzten Technologien in diesem System sind mit Modularität im Hinterkopf konzipiert worden (Stichwort: Komponenten) und ermöglichen uns den sukzessiven Ausbau unserer ML Plattform.

Kurzfristige Ideen

Es folgt eine Aufführung von Konzepten und Ideen, die wir in einer weiteren Iteration umsetzen würden:

1. Erweiterte Augmentierung der Ticketmaster und User Daten:

Ein zentraler Aspekt unserer Data Pipeline war die Zusammenführung von Daten aus unterschiedlichen Quellen (Bsp: Ticketmaster und Spotify Daten). Mit dieser Datenverarbeitung konnten wir zusätzliche Informationen aus unserem Basis Datensatz herausholen, welche wiederum die Basis für unsere Modellierung darstellt. Dieser Ansatz sollte in späteren Releases ausgearbeitet und erweitert werden. Unser derzeitiges Modell verwendet lediglich zwei Features (Spotify Follower und Spotify Popularity). Dies ist jedoch zu wenig, um aussagekräftige Klassifizierungen zu betreiben. Im nächsten Schritt würden wir eine 2. Anfrage auf die Spotify-API vornehmen, um weitere Informationen über Künstler und User-Präferenzen zu extrahieren, wie beispielsweise Informationen über das Tempo der Musik, Audio Eigenschaften, wie 'valence', 'liveliness', 'instrumentalness', etc.. Diese scheinen deutlich bessere Prädikatoren für eine Genre-Klassifizierung zu sein, als unsere zwei jetzigen Features.

2. Data Exploration

Bis auf die Default-Statistiken des StatisticsGen, ist in unserer Pipeline noch keine tiefgründige Auseinandersetzung mit den Daten vorgenommen worden. Nach Erhalt von aussagekräftigeren Daten, sollten diese nun genauer betrachtet und ausgewertet werden. Hierzu gehört beispielsweise die Standardisierung, und Untersuchung des Datensatzes auf Korrelationen unter Features und Labels.

3. Optimierung des Model Trainers:

Nachdem die neue Datenqualität sichergestellt wird, sollte der Algorithmus angepasst werden. Unsere erste Implementierung ist ein "Proof of Concept" zur erfolgreichen Durchführung einer TFX-Pipeline und ist folglich noch keine große Optimierung unterlaufen. Im selben Zuge sollte auch der Validator angepasst werden. Um diesen zu setzen muss eine Anforderungsanalyse gemacht werden und Erwartungen an die Qualität des Modells gestellt werden.

Langfristige Ideen

1. Erweiterung der Streaming-Anbieter:

Immer mehr Streaming-Anbieter stellen APIs zur Verfügung. Diese sollten wir uns längerfristig zu Nutzen machen und unser Konzept auf diese Anbieter ausweiten. Unser Technologie-Stack ermöglicht es uns, verschiedene Umsetzungen des Use Cases mit unterschiedlichen Anbietern, separat voneinander zu verwalten. Zum Beispiel würde für jeden Use Case eine eigene Pipeline erstellt werden. So könnten noch Streaming-Anbieter wie Tidal, Apple Music oder Amazon integriert werden und deren User als Zielgruppe gewonnen werden.

2. Dieses Projekt zur allumfassende Plattform für user-relevante API-Informationen erweitern:

User können über die Seite nicht nur eine Playlist mit passenden Konzertvorschlägen erhalten, sondern nutzen diese Seite als Plattform für Auswertungen anderweitiger API-Abfragen. Man könnte sich hierfür ein Beispiel an Socialblade nehmen, welches sich als Plattform für API-gewonnene Informationen von Social Media Plattformen etabliert hat.