

Consultant Senior Big Data / DataOps avec plus de 12 ans d'expérience dans la conception, l'exploitation et l'optimisation de plateformes Big Data critiques.
Expertise avancée sur les environnements Cloudera (CDH, HDP, CDP), DevOps (Ansible, CI/CD) et architectures data distribuées (Kafka, Spark, NiFi).
Interventions sur des plateformes à très forte volumétrie (jusqu'à 3,6 PB) dans des contextes exigeants (Banque, Telecom, Secteur public).
Contexte
Plateforme Big Data stratégique OneDLG (~3,6 PB) opérée au sein de l'équipe SOCLE, basée sur Cloudera CDP Private Cloud (Base & Data Services) avec un cluster Kubernetes (OpenShift).
Objectifs
Assurer le MCO et la disponibilité de la plateforme
Industrialiser les processus DevOps
Améliorer la performance et la scalabilité
Garantir la sécurité et la conformité
Réalisations
🔧 MCO & Support
Gestion du MCO CDP (Base & PVC)
Support niveau 4 (incidents critiques)
Mise en place des procédures d'exploitation
⚙️ DevOps & Automation
Automatisation via Ansible / AWX / Jenkins
Standardisation CI/CD
Industrialisation des opérations
🚀 Upgrade & Modernisation
Upgrade Cloudera Manager / CDP
Migration RedHat 7.9 → 8.10
Upgrade LDAP (SLAPD → LTB + IDM)
Patch management & firmware
📈 Performance & Scalabilité
Tuning YARN, Hive, Spark
Optimisation ressources cluster
Gestion capacité & scalabilité
🔐 Sécurité & HA
Mise en place HA (CM, PostgreSQL, Schema Registry)
Gestion certificats TLS/SSL
Sécurisation Kerberos / Ranger
📊 Monitoring & Observabilité
Prometheus / Grafana / Alertmanager
fsimage exporter (HDFS)
Monitoring petits fichiers
💾 Data Management
Gestion quotas HDFS
Purge & optimisation stockage
Audit Ranger
💡 Data Engineering
Développement d'une application Spark
Analyse des fsimage HDFS
Alimentation d'une table de métadonnées (versions, volumétrie)
Optimisation stockage (détection small files)
🔄 Streaming & Ingestion
Mise en place Kafka & NiFi
Pipelines batch & temps réel
💾 Backup & PRA
Backup fsimage, PostgreSQL, CML, CDE
Contribution PRA / DR
Environnement technique
CDP 7.1.7 / 7.1.9, CDP PVC 1.4 / 1.5
Kubernetes / OpenShift
Ansible, AWX, Jenkins, GitLab
Kafka, NiFi, Spark Scala
Prometheus, Grafana
RedHat 7 / 8
Contexte
Modernisation et sécurisation des plateformes Big Data, avec automatisation des opérations et accompagnement des équipes Data dans un environnement bancaire critique.
Réalisations
MCO des plateformes HDP → CDP
Upgrade HDP (2.6 → 3.x) et gestion des évolutions
Mise en place de la sécurité (Kerberos, TLS/SSL, Ranger, Knox, ACL)
Tuning des performances (YARN, Hive, Tez, Spark)
Automatisation via Ansible et scripting Python
Support niveau 3 et gestion des incidents critiques
Monitoring des traitements (Hive, Big SQL, Dataiku, DataStage)
Mise en place de la haute disponibilité (HDP, OS, outils IBM)
Cloud & Data Integration
Migration des métadonnées vers IBM Watson (WKC)
Développement de scripts PowerShell (Kerberos pour DataStage / DSX)
Collaboration avec l'éditeur IBM
Environnement
CDP 7.1, HDP 2.6, IIS 11.x
Ansible, GitLab
Kafka, HBase, Hive, Spark
Dataiku, DataStage, Big SQL
RedHat, LDAP, Active Directory
Contexte
Migration d'une plateforme Big Data On-Premise vers le Cloud Azure, avec des enjeux de performance, scalabilité et continuité de service.
Réalisations
Déploiement de l'infrastructure sur Azure et implémentation des clusters Cloudera CDH
Migration des données et applications entre clusters distants
Mise en place de la haute disponibilité (HDFS, YARN, Hive, Oozie, Hue)
Sécurisation des clusters (Kerberos, TLS/SSL, ACL, Sentry)
Tuning des performances (YARN, Spark, Hive)
Automatisation via Ansible / Ansible Tower
Upgrade des versions CDH (5.11 → 6.2)
Gestion des incidents N3 et support expert
Évaluation du stockage Cloud (ADLS Gen2)
Administration Linux et orchestration via Control-M
Environnement
Azure, CDH, Hadoop, Spark, Hive, Ansible, Control-M, RedHat, LDAP
Contexte
Mise en place d'une plateforme Big Data Cloudera pour des usages BI et Telecom, avec des enjeux de performance, scalabilité et traitement de flux critiques.
Réalisations
Déploiement et administration d'un cluster Hadoop (CDH)
Tuning des performances (YARN, Spark, Hive, HBase)
Mise en place du monitoring (Cloudera Manager, Kibana) et gestion des ressources (CGroup, pools YARN)
Développement d'une application de monitoring (collecte métriques, KPI, dashboards Kibana)
Développement de pipelines ETL en Spark/Scala (ingestion, transformation, stockage Hive/Parquet)
Traitement de flux télécom et détection de fraude (SimBox)
Environnement
CDH 5.7.4, Hadoop, Spark, Hive, Kafka, HBase, ELK, Scala, Linux
Data & Big Data
Data Platform & Intégration