Data Engineer avec 6 ans d’expérience, spécialisé dans la conception, l’optimisation et l’industrialisation de pipelines de données sur Google Cloud Platform. Expertise en ETL/ELT (Airflow, Dataflow, Cloud Run Jobs), stockage et modélisation (BigQuery, DBT) .
Objectif : Automatiser, fiabiliser et optimiser les flux de données pour des analyses performantes et une efficacité accrue.
Contexte: Data Engineer.
Réalisations clés:
Développement de workflows avec Apache Airflow (via Cloud Composer) pour automatiser les pipelines de collecte, transformation et chargement des données (ELT).
Modélisation des données dans BigQuery avec DBT selon les bonnes pratiques du data modeling.
Optimisation des performances et des coûts BigQuery (partitionnement, clustering, requêtes SQL efficaces).
Collaboration étroite avec les équipes métier pour cadrer les besoins et adapter les solutions techniques.
Mise en place de bonnes pratiques de versioning et de déploiement continu (CI/CD) pour fiabiliser les livraisons.
Stack: GCP (BigQuery, Cloud Storage, Cloud Run), Airflow, DBT, Python, SQL, Docker, GitLab, CI/CD
Contexte : Data Engineer SNCF G&C - Equipe Data Plateform
Réalisations clés :
Ingestion de données dans le Data Lake à l’aide de pipelines Azure Data Factory (ADF).
Traitement des données avec Databricks et PySpark.
Création de rapports Power BI connectés à des jeux de données optimisés.
Surveillance et fiabilisation des flux de bout en bout.
Stack : Azure (ADF, Databricks), PySpark, Python, Power BI
Contexte : Data Engineer - Dans le retail
Réalisations clés :
Développement de pipelines de contrôle qualité dans Dataiku DSS, avec automatisation des règles de validation et détection d’anomalies.
Sur GCP, ingestion et orchestration des traitements des données post-migration via airflow,
BigQuery pour les contrôles à grande échelle.
Construction de dashboards Looker de suivi des écarts et des taux de conformité.
Documentation des processus et mise en place d’un monitoring régulier des flux de validation.
Stack : GCP (BigQuery, Cloud Storage, Cloud Functions), Dataiku DSS, Python
Contexte : Data Engineer SNCF G&C - Equipe Data Marketing
Réalisations clés :
Ingestion de données externes via API pour enrichissement des datasets clients.
Développement d’analyses géospatiales et marketing.
Automatisation de l’ingestion avec ADF et visualisation via Power BI.
Industrialisation des traitements avec Databricks et PySpark.
Stack : Azure (ADF, Databricks), PySpark, Python, API, Power BI
Orchestration de workflows: Airflow, Cloud Run Jobs, Azure Data Factory
Ingestion et transformation des données: BigQuery, DBT, Dataflow, Databricks
Intégration de données: ETL/ELT, Python, Bash
Optimisation des performances: Partitioning, Clustering, Materialized Views
Data Quality & Monitoring: Soda Core, Dataform
CI/CD & DevOps: GitLab, Docker