Professionnel doté de 17 années d'expérience dans le domaine Java/JEE, combinées à une solide formation dans le domaine de Data Science et une forte aptitude à acquérir de nouvelles connaissances. Capable à la fois de travailler en équipe et de fonctionner de manière autonome.
➢ Valider la qualité du jeu de données (données manquantes, dupliquées) / Décrire les informations contenues dans le jeu de données / Sélectionner les informations qui semblent pertinentes.
➢ Déterminer des ordres de grandeurs des indicateurs statistiques classiques pour les différentes zones géographiques et pays du monde.
➢ Automatiser les opérations de nettoyage
➢ Description et analyse univariée des différentes variables importantes avec les visualisations associées
➢ Analyse multivariée et les résultats statistiques associés
➢ Préparation des données d’entrainement, de validation et de test pour les modèles de classification
➢ Entrainements et réglage de leurs hyperparamétres / Sélection du meilleur modèle
➢ Analyse exploratoire / Feature engineering
➢ Entranement de plusieurs modèles de prédictions pour émissions de CO2 et consommation totale d’énergie
➢ Identification du modèle final pour chaque tache
➢ Nettoyage et analyse exploratoire
➢ Élaboration du modèle de segmentation des clients
➢ Détermination de la fréquence à laquelle la segmentation doit être mise à jour pour rester pertinente, afin de pouvoir effectuer un devis de contrat de maintenance.
➢ Prétraitement des données texte et image / Extraction de features
➢ Réduction en 2 dimensions , afin de projeter les produits sur un graphique 2D, sous la forme de points dont la couleur correspondra à la catégorie réelle.
➢ Analyse du graphique afin d’en déduire ou pas, à l’aide de descriptions ou des images, la faisabilité de regrouper automatiquement des produits de même catégorie
➢ Calcul d'une mesure de similarité entre les catégories réelles et les catégories issues d’une segmentation en cluster
➢ Construire un modèle de scoring qui donnera une prédiction sur la probabilité de faillite d'un client de façon automatique
➢ Construire un dashboard interactif à destination des gestionnaires de la relation client permettant d'interpréter les prédictions faites par le modèle, et d’améliorer la connaissance client des chargés de
relation client
➢ Mettre en production le modèle de scoring de prédiction à l’aide d’une API, ainsi que le dashboard interactif qui appelle l’API pour les prédictions
➢ Mise en place d'une architecture Big Data (EMR, S3, IAM)
➢ Développement des scripts en PySpark pour le traitement de diffusion des poids du modèle Tensorflow sur les clusters et réduction de dimension type PCA
Langages : Python / Java / JavaScript
Librairies : Pandas / Numpy / Matplotlib /Seaborn
Machine Learning : Scikit-learn
Deep learning : TensorFlow/Keras
Cloud : AWS (IAM, EMR, EC2, S3)
Outils de Big Data : Hadoop / Spark
Dashboard : Tableau / Streamlit
BDD : Oracle / MangoDB
OS : Linux / Windows
Environnements : Anaconda (Jupyter, Spyder) / IntelliJ / Eclipse
CI/CD : GitHub / GitLab / MLFlow / Jenkins
Tests Unitaires : PyTest(Evidently) / JUnit
➢ Clients : Cerner France - Accor Service - SNCF - OFII - GENERALI - PSA - ACOSS - ASIP Santé
➢ Sécteurs d'activités : Transport - Assurance - Tourisme - Santé - Immigration - Automobile - Import/Export