Python pour la data science

Le contenu du cours est disponible sur le site web https://pythonds.linogaliana.fr/. Le code source est disponible sur

Il s’agit d’un cours de 2e année de l’ENSAE dont le programme est disponible ici L’objectif du cours est de faire découvrir les principes éléments de l’écosystème de la data science avec Python (pandas, scikit, nltk…) mais aussi d’initier aux enjeux nouveaux de la data science (prototypisation facilitée, simplicité à récupérer et structurer des sources hétérogènes, visualisation express, etc.) Le cours propose les chapitres suivants:

  1. Manipuler des données
  2. Visualiser
  3. Modéliser (machine learning et économétrie)
  4. Traitement automatisé du langage
  5. Utiliser Git et Github
  6. Présentation de l’état de l’art en data-science

Plusieurs méthodes sont possibles pour disposer du cours au format notebook plutôt que sous forme de site web. Chaque page du site web propose un ensemble de badge qui permet d’ouvrir le cours dans son environnement de développement préféré :

Download
nbviewer
Onyxia
Binder
Open In Colab
githubdev

Lino Galiana
Lino Galiana
Data Scientist

I am data scientist in French national statistical institute, Insee. I study how emerging data or new computational methods help to renew the production of statistical knowledge.