30 commandes pandas pour manipuler les DataFrames Journal du Freenaute

Pandas est un outil incontournable pour travailler avec des données en Python. Il permet de manipuler facilement des DataFrames, un format tabulaire puissant. Voici 30 commandes essentielles pour créer, modifier, filtrer et analyser vos données efficacement.

Sommaire

Importation et création d’un DataFrame

1. Importer pandas

Pour utiliser pandas, il faut d’abord l’importer avec la commande import pandas as pd.

2. Créer un DataFrame à partir d’un dictionnaire

Un DataFrame peut être créé en passant un dictionnaire contenant des listes. Par exemple, un DataFrame avec une colonne « name » et une autre « age ».

3. Lire un fichier CSV

La commande pd.read_csv('fichier.csv') permet de charger un fichier CSV dans un DataFrame pandas.

4. Enregistrer un DataFrame en CSV

Pour exporter un DataFrame en fichier CSV, il suffit d’utiliser df.to_csv('export.csv', index=False).

Exploration et affichage des données

5. Afficher les 5 premières lignes

Utilisez df.head() pour voir les premières lignes du DataFrame.

6. Afficher les informations sur le DataFrame

La commande df.info() donne des détails sur les colonnes, le type de données et la présence de valeurs NaN.

7. Obtenir un résumé statistique

Grâce à df.describe(), on obtient des statistiques sur les colonnes numériques.

8. Afficher les noms des colonnes

Avec df.columns, on obtient la liste des colonnes du DataFrame.

Sélection et filtrage des données

9. Sélectionner une colonne

Il est possible d’extraire une colonne en tapant df['age'].

10. Sélectionner plusieurs colonnes

A lire également : Est-ce que la carte mère est réparable ?

On peut sélectionner plusieurs colonnes avec df[['name', 'age']].

11. Sélectionner une ligne avec loc

Utilisez df.loc[0] pour obtenir la première ligne d’un DataFrame.

12. Sélectionner plusieurs lignes et colonnes avec iloc

La méthode df.iloc[0:3, 0:2] permet de récupérer certaines lignes et colonnes en fonction de leur position.

13. Filtrer selon une condition

Un DataFrame peut être filtré avec df[df['age'] > 30] pour ne garder que les valeurs supérieures à 30.

14. Sélection conditionnelle avancée

Utilisez df[(df['age'] > 25) & (df['name'] == 'Alice')] pour appliquer plusieurs conditions simultanément.

Modification des données

15. Ajouter une colonne

Une nouvelle colonne « weight » peut être ajoutée au DataFrame avec df['weight'] = [60, 75, 80].

16. Modifier les valeurs d’une colonne

La commande df.loc[df['name'] == 'Alice', 'age'] = 28 permet de modifier les données d’une colonne en fonction d’une condition.

17. Supprimer une colonne

Avec df.drop(columns=['weight'], inplace=True), une colonne peut être supprimée du DataFrame.

18. Renommer des colonnes

On peut renommer une colonne avec df.rename(columns={'age': 'Age en années'}, inplace=True).

19. Remplacer des valeurs spécifiques

La commande df.replace({'Charlie': 'Charles'}, inplace=True) permet de modifier une valeur spécifique dans une colonne.

Traitement des valeurs manquantes

20. Identifier les valeurs manquantes

Utilisez df.isnull().sum() pour afficher le nombre de valeurs NaN par colonne.

21. Supprimer les valeurs manquantes

La commande df.dropna(inplace=True) supprime toutes les lignes contenant des valeurs manquantes.

22. Remplir les valeurs manquantes

On peut remplacer les valeurs manquantes par la moyenne avec df.fillna({'age': df['age'].mean()}, inplace=True).

Transformation et agrégation

23. Trier un DataFrame

La commande df.sort_values(by='age', ascending=False) permet de trier un DataFrame par la colonne « age » en ordre décroissant.

A lire également : Comment ajouter des puces dans Google Slides ?

24. Créer un tableau croisé dynamique

Avec df.pivot_table(values='age', index='name', aggfunc='mean'), on peut regrouper les données sous forme de tableau croisé dynamique.

25. Groupement de données

La méthode df.groupby('name').mean() permet d’effectuer des statistiques sur des groupes de données.

Fusion et concaténation

26. Fusionner deux DataFrames

On peut fusionner deux DataFrames avec pd.merge(df1, df2, on='name', how='inner').

27. Concaténer plusieurs DataFrames

La commande pd.concat([df1, df2]) assemble plusieurs DataFrames en un seul.

Autres manipulations utiles

28. Changer le type d’une colonne

Il est possible de convertir une colonne avec df['age'] = df['age'].astype(float).

29. Obtenir les valeurs uniques d’une colonne

La commande df['name'].unique() affiche les valeurs distinctes d’une colonne.

30. Compter les occurrences d’une valeur

Pour compter le nombre d’apparitions de chaque valeur dans une colonne, utilisez df['name'].value_counts().

Expérience utilisateur : ce que disent les analystes

« Grâce à ces 30 commandes pandas, j’ai considérablement optimisé mon traitement de données en Python. Elles me permettent de manipuler les DataFrames rapidement et efficacement ! »
— Julie, Data Analyst

💡 En bref, pandas est un outil indispensable pour manipuler des DataFrames. Que vous souhaitiez filtrer, trier, fusionner, analyser ou exporter des données, ces 30 commandes vous seront utiles.

Quelle commande utilisez-vous le plus souvent ? Partagez vos expériences en commentaire ! 🚀