Introduction au traitement des données avec R et Pandas

Cette journée vise à fournir une connaissance minimale dans le calcul de données massives et du calcul statistique en utilisant le logiciel R et la bibliothèque Pandas. Cette journée est co-organisée par LyonCalcul, le Laboratoire de Biométrie et Biologie Evolutive et le Laboratoire de Mécanique des Fluides et d’Acoustique. Elle reçoit le soutien de la Fédération Lyonnaise de Modélisation et Sciences Numériques.

Programme

Pré-requis

Cet atelier est un niveau moyen et ne demande qu’une connaissance minimale de la programmation en python et des tableaux Numpy.

Inscriptions

Les inscriptions pour cet atelier sont gratuites mais obligatoires.

Le nombre de participants est limité à 40 personnes.

Pour vous inscrire, suivez ce lien :

https://sondages.ec-lyon.fr/index.php/141586?lang=fr

Matériel

Pour suivre les ateliers proposés durant cette journée, il est conseillé de venir avec un ordinateur personnel.

Pour les personnels de l’université Claude Bernard Lyon 1 : il n’est pas nécessaire d’installer des logiciels sur votre ordinateur, un serveur Jupyter Notebook sera déployé pour cette journée. Il est par contre nécessaire d’avoir une connection wifi et un navigateur à jour.

Pour les personnels extérieur : il est conseillé d’installer la bibliothèque Pandas (pip install Pandas) et R, ainsi qu’un éditeur ou environnement (Jupyter).

Résumés

R

R est à la fois logiciel (libre et gratuit) et langage, orienté vers l’analyse statistique de données. Dans un premier temps, l’écosystème de R sera présenté ainsi que les éléments de base de sa syntaxe, dans le but de réaliser des analyses statistiques et en représenter graphiquement les résultats dans R. Dans un deuxième temps, les programmeurs plus familiers avec R pourront suivre les pistes proposées pour sérieusement améliorer leurs codes et faire interagir R avec d’autres langages/outils afin de compléter leur offre logicielle.

Pandas

Le traitement des données modifie actuellement de nombreux secteurs d’activités. Dans ce cadre, l’utilisation d’outils libres offre une alternative intéressante aux logiciels payant. Dans ce cours, nous nous intéresserons ainsi à l’utilisation de la librairie Pandas sous Python. En particulier, la lecture de certains formats, le regroupement de données et quelques traitements statistiques simples seront illustrés, en s’appuyant sur des données météorologiques issues de Météo France.

Accès

Voir la carte