PowerBI avancé
Approfondissement de l’utilisation de l’outil Power BI pour l’analyse et la visualisation de données.
Introduction
La semaine dernière, vous avez pu prendre en main Power BI avec un jeu de données d’exemple pour réaliser vos premières visualisations. Il est temps de mettre à profit votre apprentissage pour réaliser de nouvelles analyses et visualisations !
Jeu de données
Le jeu de données de cette semaine s’intéresse aux informations de grimpeurs et de leurs résultats en compétition. Ce jeu de données a été publié sur Kaggle, à partir de résultats publics de la Fédération Internationale d’Escalade Sportive (IFSC) collectés via leur API officielle. Téléchargez le jeu de données utilisé dans ce TD et composé de deux fichiers : athlete_information et athlete_results.
La table athlete_information.csv
Cette table contient les informations de chaque athlète.
Elle contient 10 colonnes :
athlete_id: Identifiant unique de chaque athlète.first_name: Prénom de l’athlète.last_name: Nom de l’athlète.age: Âge de l’athlète au moment de la collecte (octobre 2024).gender: Genre de l’athlète.country: Pays représenté par l’athlète.height: Taille de l’athlète (si disponible).arm_span: Envergure de l’athlète (si disponible).paraclimbing_sport_class: Catégorie de handicap pour les athlètes de para-escalade (valeur nulle sinon).birthday: Date de naissance de l’athlète.
Cette table contient 16230 enregistrements.
La table athlete_results.csv
Cette table contient les résultats de chaque athlète aux différentes compétitions.
Elle contient 9 colonnes :
athlete_id: Identifiant unique de l’athlète.rank: Classement de l’athlète dans la compétition.discipline: Discipline d’escalade (ex. : bloc, difficulté).season: Année de la compétition.date: Date de la compétition.location: Lieu de l’événement.event_id: Identifiant unique de chaque événement.d_cat: Numéro de division pour un événement (le couple event_id + d_cat correspond à une compétition).
Cette table contient 135438 enregistrements
#Enoncé
Préparez les données
1 - Importez les deux fichiers du jeu de données dans Power BI, puis vérifiez que la relation entre les tables est correcte. Modifiez-la si nécessaire.
##Créez des visualisations simples 2 - Créez une visualisation montrant la moyenne d’âge des athlètes en fonction de leur genre.
3 - Trouvez l’identifiant (athlete_id) d’Adam Ondra. À partir de cet identifiant, représentez l’évolution de sa moyenne de classement (rank) au fil des saisons.
4 - Recherchez où et quand s’est déroulée la compétition portant l’identifiant event_id = 1375. Identifiez les gagnantes en bloc (boulder). Expliquez pourquoi plusieurs athlètes peuvent apparaître comme gagnantes.
##Utilisez vos visualisations pour aller plus loin 5 - Réalisez un histogramme de la taille des athlètes, en distinguant les genres. Repérez d’éventuelles erreurs dans les données, corrigez-les dans les fichiers sources, puis rafraîchissez les données dans Power BI.
6 - Créez une mesure DAX calculant le classement moyen de chaque athlète, ainsi qu’une mesure comptant le nombre total de compétitions auxquelles chaque athlète a participé.
7 - Visualisez le classement moyen en fonction du nombre de compétitions pour chaque athlète. Analysez le résultat : observe-t-on une tendance particulière ? Que peut-on en déduire ?
Intégrer du R dans Python (optionnel)
Si Rstudio est installé sur votre machine, vous pouvez utiliser Power BI pour afficher des scripts R.
8 - Utilisez R pour faire un graphe en violon permettant de visualiser la taille des athlètes en fonction de leur genre.