Ce projet implémente un pipeline ETL complet pour analyser les résultats du contrôle sanitaire des eaux distribuées en France. L'objectif est d'extraire des volumes importants de données publiques, de les transformer et de les rendre exploitables pour de l'analyse décisionnelle
02. Architecture
Orchestration Docker : Déploiement d'un écosystème de 4 conteneurs (Spark, MinIO, Postgres, Metabase) via Docker Compose
Build System : Utilisation de SBT pour générer un JAR incluant toutes les dépendances
Processing (Scala/Spark) : Utilisation de Scala pour le nettoyage, le filtrage et l'agrégation statistique des prélèvements
Loading (PostgreSQL) : Chargement des données transformées et structurées dans une base relationnelle PostgreSQL
Data Visualization : Connexion de Metabase à PostgreSQL pour la création de tableaux de bord de suivi sanitaire
03. Fonctionnalités
ETL perfomant : Exploitation de la puissance de Scala pour traiter des jeux de données nationaux
Storage S3-like : Utilisation de MinIO comme zone de dépôt pour découpler l'ingestion du traitement
Conteneurisation : Gestion simplifiée des dépendances et du déploiement via Docker