Reproductibilité et bonnes pratiques pour les projets de data science
Ce cours part du constat que les formations académiques dans ce domaine adoptent souvent une orientation essentiellement technique, visant une compréhension fine des modèles manipulés, mais ne discutent que rarement des problèmes pratiques qui forment le quotidien du data scientist dans un contexte professionnel. Ce cours vise à combler ce manque en proposant des pistes de solution à diverses questions que peuvent se poser les data scientists lorsqu’ils transitionnent du contexte de la formation initiale à des projets réels :
- comment travailler de manière collaborative sur un projet ?
- comment partager du code et s’assurer que celui-ci va tourner sans erreur sur un autre environnement d’exécution ?
- comment passer d’un environnement de développement — par exemple, des notebooks — à un environnement de production — comme un serveur de production ou bien un cluster ?
- comment déployer un modèle de data science, et rendre celui-ci accessible à des utilisateurs afin de le valoriser ?
- comment automatiser les différentes étapes de son projet afin de simplifier sa maintenance ?