Summary
Overview
Work History
Education
Skills
Certification
Languages
Affiliations
Accomplishments
Timeline
Generic

LI SHI

Lille

Summary

  • Architecture /Team leader technique/Senior Data
    Engineer
  • Multi-Cloud

Overview

8
8
years of professional experience
1
1
Certification

Work History

Architecture Dataplatform

KIABI
Lille
02.2024 - Current
Contexte

La société est confrontée à d'importantes divergences techniques. Un logiciel a été imposé comme principal outil de la Dataplatform, ce qui a suscité le mécontentement de tous. Dans ce contexte, le nouveau CTO a décidé de recueillir les avis de chacun et de concevoir une nouvelle Dataplatform, puis de la comparer à l'outil déjà sélectionné pour prendre une décision finale.

Missions
  • Utiliser une approche de "développement guidé par les cas d'utilisation" pour définir le processus de conception et organiser toutes les réunions.
  • En tant que responsable principal, après avoir collecté les cas d'utilisation, les analyser, en faire un résumé et proposer une première version de la solution, suivie d'une discussion interne avec l'équipe d'experts.
  • Modifier la solution, créer une preuve de concept (PoC), organiser une réunion pour faire une démonstration et recueillir les retours.

Senoir Data Engineer

KIABI
lille
03.2023 - Current
Missions
  • Examen des procédures : En collaboration avec l'équipe Data Gouvernance, j'ai examiné systématiquement les procédures de traitement des données sensibles, corrigeant les éventuelles lacunes.
  • Points techniques forts : J'ai supervisé le redéveloppement du processus d'anonymisation dans le secteur DATA, en utilisant des technologies comme PySpark, Dataproc, Cloud Build et CI/CD.
  • Résolution des problèmes : J'ai coordonné la collecte des problèmes des autres systèmes, proposant des solutions techniques.
  • Optimisation des processus : J'ai organisé les données, amélioré les procédures de transfert, et ajouté des documents explicatifs pour compléter le dispositif.
  • Test transversal : Le projet a abouti à un test transversal impliquant toutes les équipes concernées.

Formateur/Jury De Titre Professionnel

Ecole-it
Lille
01.2023 - Current
  • Dispenser des cours aux étudiants ingénieurs sur des sujets tels que le Big Data avancé, la gestion de projet et la Business Intelligence (BI).
  • Analyser les besoins pédagogiques et préparer les supports de cours adaptés au niveau des étudiants.
  • Concevoir des travaux pratiques et un projet final pour évaluer les compétences des étudiants.
  • Participer en tant que membre du jury pour évaluer les résultats des mémoires.

Architecture GCP

LVMH-RIMOWA
12.2022 - 03.2023
  • Missions
  • Projet: intègres les informations de client en temp réel
  • Créer, mettre à jour et fusionner les données des utilisateurs dans le cloud sql selon les exigences du secteur
  • Utiliser le cloud run pour récupérer des données externes et créer des tables bigquery
  • Développer Bigquery script avec Dataform
  • Modification et affinement des structures de données et des structures techniques

Team leader technique

BPI FRANCE
02.2022 - 11.2022
  • Refactorer tous les projets non standard et restandardiser le processus de développement.
  • Créer un pipeline CI/CD pour générer automatiquement des Glue Jobs avec Terraform.
  • Intégrer Redshift avec Glue pour optimiser les flux de travail de l'entreposage et de la transformation des données.
  • Créer un pipeline Airflow qui intègre à la fois Redshift et Glue, en rationalisant les processus ETL (Extract, Transform, Load) à travers l'infrastructure.
  • Partager les meilleures pratiques avec l'équipe concernant l'intégration de PySpark, Glue, et Redshift.
  • Renforcer la gestion de projet en mettant l'accent sur la documentation et la qualité du code, assurant une collaboration fluide entre Glue, Redshift et d'autres pipelines de données.
  • Améliorer la compréhension des nouvelles technologies par l'équipe, y compris Glue, Airflow, Redshift, et DevSecOps.

Machine Learning Engineer

PERNOD RICARD
09.2021 - 01.2022
  • Missions
  • Projet: Matrix - Optimiser les budgets d'investissement
  • Préparation des modèles d'entrée, méthodologie de recherche
  • Re factoring et automatiser le code
  • Mettre en place des bonnes pratiques (git, azure data factory, Azure Devops, ML pipeline)

Responsable d'application / Data Engineer

ONEY BANQUE
06.2020 - 09.2021
  • Missions
  • Projet: Moteur de Calcule (Bale 3) pour Oney Banque
  • Construire un algorithme pour définir le statut de contrat de crédit
  • Développement et test (unitaire, test d'intégration, test performance) avec DBconnect et databricks
  • Détermination de la spécification technique
  • Obtenir des données, exécuter des databricks et envoyer des notifications avec ADF
  • Assurer la stabilité du produit et ajouter de nouvelles fonctionnalités selon les besoins

Machine Learning Engineer

BEDROCK STREAMING
12.2020 - 02.2021

Projet : DataRiver - M6 Salto

  • Transporter les données du programme d'application mobile (M6 play, Salto) dans un système unifié.
  • Intégrer Redshift pour stocker et interroger efficacement les données de ces applications, permettant des analyses en temps réel.
  • Effectuer l'analyse et les tests en temps réel, en utilisant Redshift pour des requêtes et des analyses plus rapides à grande échelle.
  • Optimiser l'architecture de l'ETL en intégrant Redshift avec d'autres outils de traitement des données comme Glue et Airflow, garantissant une ingestion, une transformation et un entreposage de données fluide.

Team Leader technique pour LVMH

EPSILON-FRANCE
06.2019 - 12.2020
  • Missions
  • Construction du data warehouse (modélisation, développement, mise en production)
  • Développer des spécifiques techniques selon les besoins du client
  • Former les équipes sur le nouveau technologie innovation
  • L'utilisation des données de la ville (INSEE) pour créer un système de Score qui aidera à diffuser de meilleures publicités
  • Optimiser l'architecture de l'ETL

Data Engineer

INEAT GROUP
07.2018 - 06.2019

Projet : Flash alimentation

  • Analyse des tickets de caisse en temps réel en utilisant EMR, Spark, et Redshift pour le stockage et l'interrogation des données à grande échelle.
  • Implémentation de solutions de streaming pour traiter et analyser les données en temps réel, avec intégration de Redshift pour les requêtes rapides.
  • Mise en place d'une infrastructure CI/CD avec Jenkins, incluant l'automatisation des processus de chargement des données dans Redshift.
  • Assistance aux Data Scientists dans la construction de systèmes de recommandation, en utilisant Redshift pour faciliter l'accès aux données et optimiser les modèles d'apprentissage automatique.

Data Engineer

INEAT GROUP
11.2017 - 06.2018
  • Missions
  • Projet: Younity (réseau social interne)
  • Récupère les donnes (1,5T) par API en format json
  • Nettoyé les donnes en utilisant jq, Data viz sur tibco
  • Environnement technique: shell-bash, impala, Teradata, Tibco
  • Projet: Impact de KOSIKAZA sur LMFR
  • Etude de l'impact de l'inscription des clients à Kosikaza (simulation de design) sur Leroy Merlin
  • Modèle prédictif de comportement client

Machine Learning Specialist

AUCHAN RETAIL DATA
03.2017 - 09.2017
  • Missions
  • Développement de Lakeshore
  • Conception d'un Modèle de prévision de Ventes promotionnel pour améliorer la entabilité des stocks (régression linéaire par partition)
  • Industrialisation de model Machine Learning
  • Définition des futurs cas d'usage et intégration de cette solution dans le socle commun pays

Machine Learning Specialist

HACKATHON BIG DATA
01.2017 - 04.2017
  • Missions
  • Réflexion et développement autour du sujet suivant
  • Quel est l'impact du webtracking sur le Business
  • Utilisation d'une plateforme Big Data (IBM Bluemix)
  • Réalisation d'un modèle de Machine Learning (Logistique ridge)

Education

Master 2 Econométrie Appliquée -

Université de Lille 1

Master 1 Econométrie Statistique Appliquée -

Université d'Orléans

Licence Mathématique Appliquée aux Sciences -

Université d'Orléans

Skills

  • Python
  • Scala
  • Bash
  • SQL
  • Machine Learning
  • Tibco
  • Databricks
  • Terraform
  • AWS
  • AZURE
  • GCP
  • PostgreSQL
  • Hbase
  • Mongo DB
  • Redshift
  • Bigquery
  • Spark
  • RGPD
  • ETL

Certification

  • Databricks Certified Associate Developer for Apache Spark 2.4 (Voir la certification)
  • AWS Certified Machine Learning - Specialty
  • AWS Certified Data Analytics - Specialty
  • AWS Certified Solutions Architect – Professional https://www.credly.com/badges/5b9bf7be- c040-4a3e-868f-25aa13760884? source=linked_in_profile
  • AWS Certified Solutions Architect – Associate (Voir la certification)
  • GCP Professional Cloud Architect (Voir la certification)
  • GCP Professional Data Engineer (Voir la certification)
  • Professional Machine Learning Engineer (Voir la certification)

Languages

Chinese (Mandarin)
First Language
French
Advanced (C1)
C1
English
Upper Intermediate (B2)
B2

Affiliations

  • Boxing
  • ping-pong

Accomplishments

  • HACKATHON BIG DATA - 1er rang

Timeline

Architecture Dataplatform

KIABI
02.2024 - Current

Senoir Data Engineer

KIABI
03.2023 - Current

Formateur/Jury De Titre Professionnel

Ecole-it
01.2023 - Current

Architecture GCP

LVMH-RIMOWA
12.2022 - 03.2023

Team leader technique

BPI FRANCE
02.2022 - 11.2022

Machine Learning Engineer

PERNOD RICARD
09.2021 - 01.2022

Machine Learning Engineer

BEDROCK STREAMING
12.2020 - 02.2021

Responsable d'application / Data Engineer

ONEY BANQUE
06.2020 - 09.2021

Team Leader technique pour LVMH

EPSILON-FRANCE
06.2019 - 12.2020

Data Engineer

INEAT GROUP
07.2018 - 06.2019

Data Engineer

INEAT GROUP
11.2017 - 06.2018

Machine Learning Specialist

AUCHAN RETAIL DATA
03.2017 - 09.2017

Machine Learning Specialist

HACKATHON BIG DATA
01.2017 - 04.2017

Master 2 Econométrie Appliquée -

Université de Lille 1

Master 1 Econométrie Statistique Appliquée -

Université d'Orléans

Licence Mathématique Appliquée aux Sciences -

Université d'Orléans
LI SHI