En los últimos años, Python se ha convertido en uno de los lenguajes más utilizados para el análisis y procesamiento de datos. De esta manera, no es extraño que se haya popularizado su uso en áreas como data science, big data y machine learning.
Al respecto, dentro de todos los temas que podemos encontrar en el amplio espectro de términos relacionados con este lenguaje de programación, la librería Pandas, una de las más usadas para estos fines, es tan solo uno de ellos.
A continuación te hablaremos un poco más al respecto, te mostraremos cómo instalarlo y te enseñaremos algunas operaciones básicas. ¡Vamos!
¿Qué es Pandas en Python?
Pandas es una librería en Python que se especializa en el manejo, análisis y procesamiento de datos. Para ello, se basa en las estructuras de datos o arrays de la librería NumPy (por lo que representa una dependencia al momento de instalar Pandas), siendo tres las estructuras que tenemos disponibles en esta librería: Series, DataFrame y Panel.
Estructuras en Pandas de Python
1. Series
Estructura unidimensional (como los arrays de cualquier lenguaje de programación).
2. DataFrame
Estructura bidimensional (como las tablas que comúnmente conocemos).
3. Panel
Estructura tridimensional (como un cubo de datos).
¿Cómo instalar Pandas?
Utiliza el comando py -m pip --version para saber si tienes instalado el manejador de paquetes PIP. Emplea el comando py -m pip install numpy para instalar NumPy y, finalmente, usa py -m pip install pandas para instalar Pandas.
Para importar la librería Pandas en tus proyectos Python, es imprescindible que te asegures de que la tienes instalada. Para ello, sigue los siguientes pasos con los comandos correspondientes.
Paso |
Descripción |
Comando |
0 |
(Opcional) Solo es para asegurar la instalación de Python y, de paso, conocer la versión instalada. Si estás seguro de tener Python, no es necesario este paso. |
py --version |
1 |
PIP es el manejador de paquetes más popular para Python. En este paso te aseguras de tenerlo instalado y conoces la versión instalada. |
py -m pip --version |
2 |
(Opcional) Actualiza la versión de PIP por si acaso. |
py -m pip install --upgrade pip |
3 |
Usa PIP para instalar NumPy, la librería en la que se basa Pandas para las estructuras de datos. |
py -m pip install numpy |
4 |
Instala Pandas con PIP. Bien podrías ejecutar este comando desde el inicio, pero más vale asegurarte de tener los demás paquetes instalados para no encontrarte con algún error. |
py -m pip install pandas |
5 |
(Opcional) Instala Matplotlib, una librería que usa Pandas en la función plot() para crear gráficas a partir de los datos que se están tratando. |
py -m pip install matplotlib |
¿Cómo usar Pandas en mi proyecto Python?
Una vez que tienes instalada la librería Pandas, puedes importarla en un proyecto Python para empezar a utilizarla. Para eso utilizamos una línea de import como cualquier otra.
Ejemplo de uso de Pandas en Python
Guarda este código en un archivo llamado «hello-pandas.py» para ejecutarlo en línea de comandos con el comando py.
import pandas as pds = pd.Series([1, 2, 3, 4])
print(s)
Dando como resultado:
C:\>py hello-pandas.py
0 1
1 2
2 3
3 4
dtype: int64
Operaciones básicas en Pandas
Las operaciones binarias básicas(+,-,*,/,%) pueden aplicarse directamente a las estructuras Serie de la librería Pandas. Estos operadores devuelven una nueva estructura Serie que tiene como elementos los resultantes de aplicar dicha operación en cada uno de los elementos de la Serie original.
Ejemplos de operaciones en Pandas con elementos numéricos
>>> import pandas as pd
>>> s = pd.Series([2, 4, 6, 8])
>>> s+1
0 3
1 5
2 7
3 9
dtype: int64
>>> s-1
0 1
1 3
2 5
3 7
dtype: int64
>>> s*2
0 4
1 8
2 12
3 16
dtype: int64
>>> s/2
0 1.0
1 2.0
2 3.0
3 4.0
dtype: float64
>>> s%2
0 0
1 0
2 0
3 0
dtype: int64
Ejemplos de operaciones en Pandas con elementos de tipo cadena
Solo aplica la multiplicación. Las demás operaciones no están permitidas en los elementos de tipo cadena:
>>> import pandas as pd
>>> s = pd.Series(['2', '4', '6', '8'])
>>> s*2
0 22
1 44
2 66
3 88
dtype: object
Ejemplos de funciones en Pandas
A continuación, listamos algunas de las funciones más importantes, de las más usadas y sobre todo las más potentes incluidas en Pandas. Cabe destacar que definiremos estas funciones para usarlas en la estructura Serie. También pueden utilizarse en cualquiera en los DataFrame y los Panel, teniendo en cuenta que estas dos últimas estructuras no son más que estructuras compuestas que usan varias estructuras Serie para formarse. Por ejemplo, cada columna de un DataFrame está representada por una Serie.
Nota: los ejemplos de las funciones se colocarán dentro del intérprete de Python para evitar usar la función print() para imprimir el resultado de cada función. Sin embargo, pueden usarse del mismo modo dentro del código de cualquier archivo de un proyecto Python.
De igual manera, se omite la sentencia import de la librería Pandas ya que es suficiente con realizar una sola vez antes de ejecutar cualquier función de la librería.
1. Función count()
Regresa el número total de elementos que no son ni nulos ni NaN.
>>> import pandas as pd
>>> s = pd.Series([1, 2, 3, 4])
>>> s.count()
4
2. Función sum()
Regresa la suma de todos los elementos. Si son numéricos hace una suma aritmética; si son cadenas, regresa la concatenación.
>>> s = pd.Series([1, 2, 3, 4])
>>> s.sum()10
>>> s2 = pd.Series(['1', '2', '3', '4'])
>>> s2.sum()
'1234'
3. Función min()
Regresa el elemento menor.
>>> s.min()
1
>>> s2.min()
'1'
4. Función max()
Regresa el elemento mayor.
>>> s.max()
4
>>> s2.max()
'4'
5. Función std()
Regresa la desviación estándar de los elementos cuando son elementos numéricos.
>>> s.std()
1.2909944487358056
6. Función describe()
Regresa una estructura Serie que contiene elementos que describen a la serie original.
Contiene, en ese orden, la siguiente información:
-
La cantidad total de elementos
-
La suma
-
La media
-
La desviación estándar
-
El mínimo
-
Los cuartiles
-
El máximo
>>> s.describe()
count 4.000000
mean 2.500000
std 1.290994
min 1.000000
25% 1.750000
50% 2.500000
75% 3.250000
max 4.000000
dtype: float64
7. Función cumsum()
Regresa la suma acumulada de los elementos.
>>> s.cumsum()
0 1
1 3
2 6
3 10
dtype: int64
8. Función apply(f)
Regresa una estructura Serie que contiene los elementos resultantes de ejecutar una función a cada uno de los elementos de la serie original. La función puede ser, o bien una función definida y creada por nosotros mismos o una función importada de alguna librería.
>>> import pandas as pd
>>> from math import factorial
>>> s = pd.Series([1, 2, 3, 4])
>>> s.apply(factorial)
0 1
1 2
2 6
3 24
dtype: int64
Ya sabes qué es la biblioteca Pandas en Python y los primeros pasos para usarla. Aprende más en nuestra publicación de cómo hacer un diccionario Python.