Introduction au traitement des données avec R et Pandas
Cette journée vise à fournir une connaissance minimale dans le calcul de données massives et du calcul statistique en utilisant le logiciel R et la bibliothèque Pandas. Cette journée est co-organisée par LyonCalcul, le Laboratoire de Biométrie et Biologie Evolutive et le Laboratoire de Mécanique des Fluides et d’Acoustique. Elle reçoit le soutien de la Fédération Lyonnaise de Modélisation et Sciences Numériques.
- Thème: Introduction au traitement des données avec R et Pandas
- Date: 22 Mars 2018
- Lieu : Salle René Michel, Batiment OMEGA, Université Claude Bernard Lyon 1
- Intervenants : Aurélie Siberchicot (R) et Frédéric Alizard (Pandas)
Programme
- Matin : Introduction au calcul avec R, cours et Atelier, 9h-12h
- Après midi : Introduction à la bibliothèque Pandas, cours et Atelier, 14h-16h
Pré-requis
Cet atelier est un niveau moyen et ne demande qu’une connaissance minimale de la programmation en python et des tableaux Numpy.
Inscriptions
Les inscriptions pour cet atelier sont gratuites mais obligatoires.
Le nombre de participants est limité à 40 personnes.
Pour vous inscrire, suivez ce lien :
https://sondages.ec-lyon.fr/index.php/141586?lang=fr
Matériel
Pour suivre les ateliers proposés durant cette journée, il est conseillé de venir avec un ordinateur personnel.
Pour les personnels de l’université Claude Bernard Lyon 1 : il n’est pas nécessaire d’installer des logiciels sur votre ordinateur, un serveur Jupyter Notebook sera déployé pour cette journée. Il est par contre nécessaire d’avoir une connection wifi et un navigateur à jour.
Pour les personnels extérieur : il est conseillé d’installer la bibliothèque Pandas (pip install Pandas) et R, ainsi qu’un éditeur ou environnement (Jupyter).
Résumés
R
R est à la fois logiciel (libre et gratuit) et langage, orienté vers l’analyse statistique de données. Dans un premier temps, l’écosystème de R sera présenté ainsi que les éléments de base de sa syntaxe, dans le but de réaliser des analyses statistiques et en représenter graphiquement les résultats dans R. Dans un deuxième temps, les programmeurs plus familiers avec R pourront suivre les pistes proposées pour sérieusement améliorer leurs codes et faire interagir R avec d’autres langages/outils afin de compléter leur offre logicielle.
- Présentation (.html)
- Notebook R
- Pour le personnel UCBL, serveur jupyter
Pandas
Le traitement des données modifie actuellement de nombreux secteurs d’activités. Dans ce cadre, l’utilisation d’outils libres offre une alternative intéressante aux logiciels payant. Dans ce cours, nous nous intéresserons ainsi à l’utilisation de la librairie Pandas sous Python. En particulier, la lecture de certains formats, le regroupement de données et quelques traitements statistiques simples seront illustrés, en s’appuyant sur des données météorologiques issues de Météo France.
- Présentation (.pdf)
- Notebook Jupyter (version diffusée pendant le cours, commentaires à l’oral)
- Jeu de données
- Classe exemple de traitement pour limesurvey
- Exemple d’utilisation de la classe
- Template latex
- Exemple de données
Accès
- GPS: 45.78049,4.87149
- Itinéraire en tram:
- Prendre le tram T1, direction IUT Feyssine ou le T4 direction La Doua - Gaston Berger
- Descendre à l’arrêt Gaston Berger