Pandas est un outil incontournable pour travailler avec des données en Python. Il permet de manipuler facilement des DataFrames, un format tabulaire puissant. Voici 30 commandes essentielles pour créer, modifier, filtrer et analyser vos données efficacement.
Importation et création d’un DataFrame
1. Importer pandas
Pour utiliser pandas, il faut d’abord l’importer avec la commande import pandas as pd
.
2. Créer un DataFrame à partir d’un dictionnaire
Un DataFrame peut être créé en passant un dictionnaire contenant des listes. Par exemple, un DataFrame avec une colonne « name » et une autre « age ».
3. Lire un fichier CSV
La commande pd.read_csv('fichier.csv')
permet de charger un fichier CSV dans un DataFrame pandas.
4. Enregistrer un DataFrame en CSV
Pour exporter un DataFrame en fichier CSV, il suffit d’utiliser df.to_csv('export.csv', index=False)
.
Exploration et affichage des données
5. Afficher les 5 premières lignes
Utilisez df.head()
pour voir les premières lignes du DataFrame.
6. Afficher les informations sur le DataFrame
La commande df.info()
donne des détails sur les colonnes, le type de données et la présence de valeurs NaN.
7. Obtenir un résumé statistique
Grâce à df.describe()
, on obtient des statistiques sur les colonnes numériques.
8. Afficher les noms des colonnes
Avec df.columns
, on obtient la liste des colonnes du DataFrame.
Sélection et filtrage des données
9. Sélectionner une colonne
Il est possible d’extraire une colonne en tapant df['age']
.
10. Sélectionner plusieurs colonnes
On peut sélectionner plusieurs colonnes avec df[['name', 'age']]
.
11. Sélectionner une ligne avec loc
Utilisez df.loc[0]
pour obtenir la première ligne d’un DataFrame.
12. Sélectionner plusieurs lignes et colonnes avec iloc
La méthode df.iloc[0:3, 0:2]
permet de récupérer certaines lignes et colonnes en fonction de leur position.
13. Filtrer selon une condition
Un DataFrame peut être filtré avec df[df['age'] > 30]
pour ne garder que les valeurs supérieures à 30.
14. Sélection conditionnelle avancée
Utilisez df[(df['age'] > 25) & (df['name'] == 'Alice')]
pour appliquer plusieurs conditions simultanément.
Modification des données
15. Ajouter une colonne
Une nouvelle colonne « weight » peut être ajoutée au DataFrame avec df['weight'] = [60, 75, 80]
.
16. Modifier les valeurs d’une colonne
La commande df.loc[df['name'] == 'Alice', 'age'] = 28
permet de modifier les données d’une colonne en fonction d’une condition.
17. Supprimer une colonne
Avec df.drop(columns=['weight'], inplace=True)
, une colonne peut être supprimée du DataFrame.
18. Renommer des colonnes
On peut renommer une colonne avec df.rename(columns={'age': 'Age en années'}, inplace=True)
.
19. Remplacer des valeurs spécifiques
La commande df.replace({'Charlie': 'Charles'}, inplace=True)
permet de modifier une valeur spécifique dans une colonne.
Traitement des valeurs manquantes
20. Identifier les valeurs manquantes
Utilisez df.isnull().sum()
pour afficher le nombre de valeurs NaN par colonne.
21. Supprimer les valeurs manquantes
La commande df.dropna(inplace=True)
supprime toutes les lignes contenant des valeurs manquantes.
22. Remplir les valeurs manquantes
On peut remplacer les valeurs manquantes par la moyenne avec df.fillna({'age': df['age'].mean()}, inplace=True)
.
Transformation et agrégation
23. Trier un DataFrame
La commande df.sort_values(by='age', ascending=False)
permet de trier un DataFrame par la colonne « age » en ordre décroissant.
24. Créer un tableau croisé dynamique
Avec df.pivot_table(values='age', index='name', aggfunc='mean')
, on peut regrouper les données sous forme de tableau croisé dynamique.
25. Groupement de données
La méthode df.groupby('name').mean()
permet d’effectuer des statistiques sur des groupes de données.
Fusion et concaténation
26. Fusionner deux DataFrames
On peut fusionner deux DataFrames avec pd.merge(df1, df2, on='name', how='inner')
.
27. Concaténer plusieurs DataFrames
La commande pd.concat([df1, df2])
assemble plusieurs DataFrames en un seul.
Autres manipulations utiles
28. Changer le type d’une colonne
Il est possible de convertir une colonne avec df['age'] = df['age'].astype(float)
.
29. Obtenir les valeurs uniques d’une colonne
La commande df['name'].unique()
affiche les valeurs distinctes d’une colonne.
30. Compter les occurrences d’une valeur
Pour compter le nombre d’apparitions de chaque valeur dans une colonne, utilisez df['name'].value_counts()
.
Expérience utilisateur : ce que disent les analystes
« Grâce à ces 30 commandes pandas, j’ai considérablement optimisé mon traitement de données en Python. Elles me permettent de manipuler les DataFrames rapidement et efficacement ! »
— Julie, Data Analyst
💡 En bref, pandas est un outil indispensable pour manipuler des DataFrames. Que vous souhaitiez filtrer, trier, fusionner, analyser ou exporter des données, ces 30 commandes vous seront utiles.
Quelle commande utilisez-vous le plus souvent ? Partagez vos expériences en commentaire ! 🚀