Profil professionnel
Vue d'ensemble
Expérience
Formation
Compétences
Langues
Chronologie
Generic
Michaël Rabe

Michaël Rabe

Data Engineer

Profil professionnel

Data Engineer avec 6 ans d’expérience, spécialisé dans la conception, l’optimisation et l’industrialisation de pipelines de données sur Google Cloud Platform. Expertise en ETL/ELT (Airflow, Dataflow, Cloud Run Jobs), stockage et modélisation (BigQuery, DBT) .


Objectif : Automatiser, fiabiliser et optimiser les flux de données pour des analyses performantes et une efficacité accrue.

Vue d'ensemble

5
5
years of professional experience
2
2
years of post-secondary education

Expérience

Data Engineer

JEMS
02.2024 - Actuel

Contexte: Data Engineer.

Réalisations clés:

Développement de workflows avec Apache Airflow (via Cloud Composer) pour automatiser les pipelines de collecte, transformation et chargement des données (ELT).

Modélisation des données dans BigQuery avec DBT selon les bonnes pratiques du data modeling.

Optimisation des performances et des coûts BigQuery (partitionnement, clustering, requêtes SQL efficaces).

Collaboration étroite avec les équipes métier pour cadrer les besoins et adapter les solutions techniques.

Mise en place de bonnes pratiques de versioning et de déploiement continu (CI/CD) pour fiabiliser les livraisons.


Stack: GCP (BigQuery, Cloud Storage, Cloud Run), Airflow, DBT, Python, SQL, Docker, GitLab, CI/CD

Data Engineer

AVISIA
10.2022 - 02.2024

Contexte : Data Engineer SNCF G&C - Equipe Data Plateform
Réalisations clés :
Ingestion de données dans le Data Lake à l’aide de pipelines Azure Data Factory (ADF).
Traitement des données avec Databricks et PySpark.
Création de rapports Power BI connectés à des jeux de données optimisés.
Surveillance et fiabilisation des flux de bout en bout.

Stack : Azure (ADF, Databricks), PySpark, Python, Power BI


Contexte : Data Engineer - Dans le retail
Réalisations clés :
Développement de pipelines de contrôle qualité dans Dataiku DSS, avec automatisation des règles de validation et détection d’anomalies.
Sur GCP, ingestion et orchestration des traitements des données post-migration via airflow,
BigQuery pour les contrôles à grande échelle.
Construction de dashboards Looker de suivi des écarts et des taux de conformité.
Documentation des processus et mise en place d’un monitoring régulier des flux de validation.

Stack : GCP (BigQuery, Cloud Storage, Cloud Functions), Dataiku DSS, Python


Contexte : Data Engineer SNCF G&C - Equipe Data Marketing
Réalisations clés :
Ingestion de données externes via API pour enrichissement des datasets clients.
Développement d’analyses géospatiales et marketing.
Automatisation de l’ingestion avec ADF et visualisation via Power BI.
Industrialisation des traitements avec Databricks et PySpark.

Stack : Azure (ADF, Databricks), PySpark, Python, API, Power BI


Consultant Data

Epsilon France
01.2019 - 09.2022
  • Contexte : Data Engineer (Analytics Engineer) - Secteur Energie
    Réalisations clés :
    Développement PySpark pour la préparation des données clients.
    Score d’appétence utilisé dans les campagnes marketing.
    Analyses avancées pour identifier les critères les plus discriminants.
    Mise en place de tableaux de bord connectés à Power BI pour le suivi des performances.
    Optimisation des algorithmes de ciblage pour réduire les coûts d’envoi et améliorer les taux de conversion.

    Stack : Hive, PySpark, Python, Power BI, python


  • Contexte: Data Scientist - Banque
    Réalisations clés :
    Backtesting et suivi de performance des modèles prédictifs.
    Traitement et historisation des données dans BigQuery et Cloud Storage.
    Développement de scripts statistiques en R et Python pour l’analyse de sensibilité.
    Documentation technique des modèles, rédaction des rapports d’analyses et support aux équipes risques.

    Stack: Python, R, Sparklyr


  • Contexte : Projet d’analyse comportementale des clients dans le cadre du programme de fidélité d’un acteur majeur du retail.
    Réalisations clés :
    Études sur l’évolution des comportements d’achat et l’attractivité des offres de fidélité.
    Construction de profils clients (encartés vs non encartés) pour alimenter les stratégies CRM.
    Mise en place d’une segmentation comportementale basée sur des indicateurs transactionnels.
    Migration et valorisation des données dans BigQuery pour faciliter les analyses à grande échelle.
    Automatisation des traitements via des workflows Python et exposition des résultats dans des dashboards analytiques.

    Stack : R, SAS, Python, SQL


  • Contexte : Data Analyst– Retail

    Analyses comportementales clients, segmentation, valorisation des données de fidélité. Mise en place de règles de data quality, automatisation des contrôles.

    Stack: Python, SAS, SQL Server

Formation

Master 2 - Statistiques - économétrie - Data

Université de Rennes 1
Rennes
09.2017 - 09.2018

Licence 3 - Mathématiques et informatique appliqués

Université de Rennes 1
Rennes
09.2014 - 09.2015

Compétences

  • Orchestration de workflows: Airflow, Cloud Run Jobs, Azure Data Factory

  • Ingestion et transformation des données: BigQuery, DBT, Dataflow, Databricks

  • Intégration de données: ETL/ELT, Python, Bash

  • Optimisation des performances: Partitioning, Clustering, Materialized Views

  • Data Quality & Monitoring: Soda Core, Dataform

  • CI/CD & DevOps: GitLab, Docker

Langues

Français
Langue maternelle
Anglais
Opérationnel

Chronologie

Data Engineer

JEMS
02.2024 - Actuel

Data Engineer

AVISIA
10.2022 - 02.2024

Consultant Data

Epsilon France
01.2019 - 09.2022

Master 2 - Statistiques - économétrie - Data

Université de Rennes 1
09.2017 - 09.2018

Licence 3 - Mathématiques et informatique appliqués

Université de Rennes 1
09.2014 - 09.2015
Michaël RabeData Engineer