Devenez data-scientist

Faites des analyses poussées avec Python et la librairie Pandas. Connectez, manipulez et explorez des sets de données internes ou ouverts pour répondre à des questions concrètes liées à votre activité.

A propos de ce cours

Découvrez la boite à outil du parfait data scientist : le langage Python, la librairie Pandas et l'interface iPython Notebook.

Connectez vous à des APIs Web et à des plateformes BigData pour traiter des données non structurées et volumineuses.

Vous répondrez à des questions aussi diverses que :

  • Quels sont les sujets les plus discutés sur Twitter par l'Elysée et son gouvernement ?
  • Quels films sont les plus clivants entre les hommes et les femmes ?
  • Quelles sont les routes du trafic aérien américain ayant le plus de retard ?

A qui ce cours est-il destiné ?

  • Niveau intermédiaire
  • Business Analyst
  • Consultant
  • Marketing
  • Entrepreneurs Tech

Formule tout compris

  • 13 cours vidéos & leur quiz
  • 4 heures d'explication
  • 103 objectifs à accomplir
  • Des réponses à vos questions par les profs du Wagon

Ce que vous allez apprendre

  • Fondamentaux du langage Python
  • Librairies Numpy / Pandas
  • Visualisation de données avec Matplotlib
  • Connexion à des APIs Web
  • Parsing de fichiers CSV & JSON
  • Traitement BigData avec Google BigQuery
  • Cartes interactives (d3js, leaflet.js) avec Folium
Forum devenez data scientist

Bien plus qu'un cours en ligne, une communauté tech

Pose tes questions à des professionnels qui te répondront chaque semaine: Sébastien (ex-Google et CTO du Wagon), Martin (data-scientist chez Airbnb), Boris (CEO-fondateur du Wagon).

Bien mieux que StackOverflow ou que n'importe quel cours de code en ligne, on te donnera des explications simples, des morceaux de code et des liens vers les dernières ressources pour rester à la page.

Rejoins une communauté tech d'une grande qualité pour apprendre dix fois plus vite.

Profs pédagogues et sympas, interface agréable. Que du plaisir en plus d'être hyper efficace ! Tout est expliqué de A à Z, contrairement à Codecademy ou à des tutos youtube.
11291089?v=4
J'apprécie le style clair et direct des vidéos. Je suis très impressionnée par le progrès que j'ai fait en quelques jours par rapport à ce que j'ai appris ailleurs pendant plusieurs semaines.
12845838?v=4
Cours extrêmement bien faits, rythme soutenu idéal pour les fast learner. De loin le meilleur tuto pour apprendre les rudiments du code tout seul.
12750559?v=3
Impressionné par la qualité des contenus. Ce qui semblait rébarbatif auparavant est un vrai plaisir à apprendre maintenant. Bravo ! Beau boulot .
13500365?v=4

Le Programme

1 Introduction à la Data Science

Découvrez les tendances et les enjeux du métier de Data Scientists.

  • Data is eating the world

    00:35
  • L’histoire de Maury

    01:44
  • Le cas Uber

    03:30
  • Machine Learning

    04:06
  • L’expérience de Banko & Brill

    04:48
  • Le métier de Data Scientist

    05:58
  • Exploration et Production

    07:20
  • La boite à outil du Data Scientist

    08:42
  • Plan du cours

    11:00

2 Installation des outils

Installez la boite à outil du Data Scientist moderne : iPython, Pandas et d’autres librairies Python indispensables.

  • Le repo Github DataKit

    00:08
  • Installation sur Windows

    01:18
  • Installation sur Mac

    01:50
  • Vérification de l’installation

    04:30

3 Rappel des concepts clés de Python

Découvrez les fonctionnalités clés de l’environnement de travail iPython Notebook ainsi que les principaux objets
du langage Python.

  • Lancement de iPython Notebook

    00:20
  • Présentation des fonctionnalités de iPython Notebook

    00:57
  • Rappel des concepts clés de Python

    01:30
  • Les méthodes Print et Type

    01:44
  • Les types primitifs

    02:15
  • Les listes

    03:06
  • Les dictionnaires

    05:10
  • Les variables et les fonctions

    06:25
  • Les opérateurs logiques

    07:42

4 Introduction à Numpy

Découvrez la librairie Numpy (pour Numerical Python). Numpy étend les objets de Python en apportant de nouveaux
objets comme le ndarray.

  • Installation de Numpy

    00:26
  • Importez Numpy dans votre environnement iPython

    01:00
  • L’objet Ndarray

    01:30
  • Indexing

    06:03
  • Les types primitifs

    02:15
  • Challenge #1

    08:19
  • Sélection booléenne

    08:45
  • Les fonctions universelles

    10:28
  • Challenge #2

    11:30

5 Introduction à Pandas

Découvrez la librairie Pandas, créée en 2008 par Wes McKinney, ancien étudiant du MIT. Pandas s’est rapidement imposé comme une librairie standard dans la communauté Python.

  • Présentation de Pandas

    00:00
  • Les Séries

    00:45
  • Les DataFrames

    05:38
  • Re-indexing

    10:15
  • Valeurs manquantes

    11:12
  • Supprimer des éléments

    12:05
  • Sélectionner et filtrer

    14:00
  • Alignement de données

    16:19
  • Applications de fonctions

    18:43
  • Challenge #2

    21:36
  • Trier avec Pandas

    22:30
  • Méthodes statistiques

    23:52
  • Gestion des données manquantes

    24:55

6 GroupBy et Aggrégation

Grouper et appliquer une réduction de fonction est une composante clé de toute analyse de donnée. Dans cette vidéo nous abordons le Grouping avec Pandas
à travers l’analyse d’un set de données issu de la réserve parlementaire.

  • La mécanique du GroupBy

    00:30
  • Lire un CSV

    02:00
  • Challenge #1

    05:15
  • Challenge #2

    09:23
  • Aggrégation

    12:24
  • Challenge #3

    15:15

7 Analyser des données d'API Web

Python permet de s’interfacer avec de nombreuses API Web. Dans cette partie vous verrez comment Python et Pandas permettent de récupérer
des données brutes issues de Twitter et de les transformer en DataFrame exploitables.

  • Introduction aux API Web

    00:30
  • HTML vs JSON

    01:35
  • Challenge #1 - Connexion à Twitter

    04:08
  • Charger et inspecter des données

    09:27
  • Séries temporelles avec Pandas

    12:15
  • Dates et DataFrames

    16:00
  • Le Resampling

    20:22
  • Analyse temporelle des tweets

    23:11
  • Challenge #2

    26:08
  • Analyse des mentions et des hashtags

    26:26
  • Focus Expressions régulières

    27:04
  • Challenge #3

    36:40

8 Data Wrangling avec Pandas

Une grande partie du métier de Data Scientist consiste à nettoyer, arranger des données afin de les exploiter. Découvrez les joies du
Data Wrangling à travers l’analyse du set de données MovieLens.

  • Fusionner deux DataFrames

    00:45
  • Left, Inner et Right

    03:05
  • Reshaping

    05:34
  • Stack & Unstack

    09:14
  • Pivot

    10:29
  • Gérer les doublons

    11:34
  • Remplacer des valeurs avec Map

    12:48
  • Challenge #1 - Analyse de la base MovieLens

    13:27

9 Introduction à la visualisation de données

La visualisation de données est une partie essentielle du processus de découverte et d’exploration de données. Je vous propose dans cette vidéo un bref aperçu des enjeux et des technologies qui font évoluer cette discipline.

  • Aires et longueur

    00:15
  • Junk Charts

    01:18
  • Jacques Bertin, Semiology of Graphics

    01:45
  • La carte du Dr Snow

    02:25
  • Le Web et la visualisation

    04:00
  • Matplotlib

    04:49
  • D3.js

    05:30
  • New York Times Graphics

    06:09

10 Visualiser des données avec Matplotlib

Matplotlib permet de réaliser des graphes en 2D avec le langage Python. Dans cette vidéo vous verrez comment créer les principaux graphes

  • Ipython et Matplotlib

    00:25
  • Graphes de ligne

    01:00
  • Graphes d’aires

    03:00
  • Challenge 1

    03:40
  • Graphes en bâtons

    03:50
  • Challenge 2

    06:23
  • Histogrammes

    06:30
  • Nuages de points

    07:25
  • Matrice de nuages de points

    08:40
  • Challenge 3

    09:39

11 Visualiser des données géographiques avec Folium

La visualisation de données géographiques est une composante clé de toute analyse. Dans cette vidéo vous apprendrez à créer des cartes interactives au sein de iPython en utilisant la librairie Folium.

  • Installer Folium

    00:45
  • Intégrez une carte au sein de iPython

    01:00
  • Votre première carte

    02:00
  • Ajoutez des marqueurs

    02:51
  • Ajouter des repères à partir d’un DataFrame

    04:05
  • Tracer des zones à partir de fichiers GeoJSON

    06:48
  • Lier un DataFrame et un fichier GeoJSON

    09:35
  • Exporter une carte

    11:30

12 Analyse Big Data avec Google BigQuery et Pandas

Dans cette partie, vous allez voir comment Pandas et BigQuery s’intègrent pour traiter 10 ans d’historique du trafic aérien américain.

  • Installation de BigQuery

    00:40
  • Vos premières requêtes

    03:05
  • Importez le dataset flights US

    04:00
  • Challenge 1 - Analyse temporelle

    05:20
  • Challenge 2 - Cartographie des aéroports US

    10:25
  • Challenge 3 - Analyse du retard moyen

    12:56

13 Conclusion

Bravo ! Vous êtes arrivé à la fin du programme. Découvrez d’autres ressources Python et d’autres cours sur le Wagon Ondemand.

  • Conclusion

    00:00
Devenez data-scientist
149 € accès à vie
  • 13 cours vidéos & leur quiz
  • 4 heures d'explication
  • 103 objectifs à accomplir
  • Des réponses à vos questions par les profs du Wagon
Déjà un compte GitHub ? Connectez-vous
ou regarder la première vidéo gratuitement.

Merci !

Paiement en cours