Reproductibilité et bonnes pratiques pour les projets de data science

Enjeu de la reproductibilité illustrée Image empruntée à https://img.devrant.com

Ce cours part du constat que les formations académiques dans ce domaine adoptent souvent une orientation essentiellement technique, visant une compréhension fine des modèles manipulés, mais ne discutent que rarement des problèmes pratiques qui forment le quotidien du data scientist dans un contexte professionnel. Ce cours vise à combler ce manque en proposant des pistes de solution à diverses questions que peuvent se poser les data scientists lorsqu’ils transitionnent du contexte de la formation initiale à des projets réels :

  • comment travailler de manière collaborative sur un projet ?
  • comment partager du code et s’assurer que celui-ci va tourner sans erreur sur un autre environnement d’exécution ?
  • comment passer d’un environnement de développement — par exemple, des notebooks — à un environnement de production — comme un serveur de production ou bien un cluster ?
  • comment déployer un modèle de data science, et rendre celui-ci accessible à des utilisateurs afin de le valoriser ?
  • comment automatiser les différentes étapes de son projet afin de simplifier sa maintenance ?
Lino Galiana
Lino Galiana
Data Scientist

I am data scientist in French national statistical institute, Insee. I study how emerging data or new computational methods help to renew the production of statistical knowledge.