Qué es Pandas en Python y cómo instalarlo

Escrito por: Maria Coppola

INTRODUCCIÓN A PYTHON

Guía gratuita para comenzar a descubrir el lenguaje de programación Python

Descarga aquí
Pandas en Python

Actualizado:

Publicado:

En los últimos años, Python se ha convertido en uno de los lenguajes más utilizados para el análisis y procesamiento de datos. De esta manera, no es extraño que se haya popularizado su uso en áreas como data science, big data y machine learning. 

Al respecto, dentro de todos los temas que podemos encontrar en el amplio espectro de términos relacionados con este lenguaje de programación, la librería Pandas, una de las más usadas para estos fines, es tan solo uno de ellos. 

A continuación te hablaremos un poco más al respecto, te mostraremos cómo instalarlo y te enseñaremos algunas operaciones básicas. ¡Vamos!

    << [Guía gratuita] >> Introducción al lenguaje de programación Python  

Estructuras en Pandas de Python

1. Series

Estructura unidimensional (como los arrays de cualquier lenguaje de programación).

Pandas Python: series

2. DataFrame

Estructura bidimensional (como las tablas que comúnmente conocemos).

Pandas Python: DataFrame

3. Panel

Estructura tridimensional (como un cubo de datos).

Pandas Python: panel

Para importar la librería Pandas en tus proyectos Python, es imprescindible que te asegures de que la tienes instalada. Para ello, sigue los siguientes pasos con los comandos correspondientes.

Paso

Descripción

Comando

0

(Opcional) Solo es para asegurar la instalación de Python y, de paso, conocer la versión instalada. Si estás seguro de tener Python, no es necesario este paso.

py --version

1

PIP es el manejador de paquetes más popular para Python. En este paso te aseguras de tenerlo instalado y conoces la versión instalada.

py -m pip --version

2

(Opcional) Actualiza la versión de PIP por si acaso.

py -m pip install --upgrade pip

3

Usa PIP para instalar NumPy, la librería en la que se basa Pandas para las estructuras de datos.

py -m pip install numpy

4

Instala Pandas con PIP. Bien podrías ejecutar este comando desde el inicio, pero más vale asegurarte de tener los demás paquetes instalados para no encontrarte con algún error.

py -m pip install pandas

5

(Opcional) Instala Matplotlib, una librería que usa Pandas en la función plot() para crear gráficas a partir de los datos que se están tratando.

py -m pip install matplotlib

¿Cómo usar Pandas en mi proyecto Python?

Una vez que tienes instalada la librería Pandas, puedes importarla en un proyecto Python para empezar a utilizarla. Para eso utilizamos una línea de import como cualquier otra.

Ejemplo de uso de Pandas en Python

Guarda este código en un archivo llamado «hello-pandas.py» para ejecutarlo en línea de comandos con el comando py.

import pandas as pds = pd.Series([1, 2, 3, 4])

print(s)

Dando como resultado:

C:\>py hello-pandas.py

0 1

1 2

2 3

3 4

dtype: int64

Operaciones básicas en Pandas

Las operaciones binarias básicas(+,-,*,/,%) pueden aplicarse directamente a las estructuras Serie de la librería Pandas. Estos operadores devuelven una nueva estructura Serie que tiene como elementos los resultantes de aplicar dicha operación en cada uno de los elementos de la Serie original.

Ejemplos de operaciones en Pandas con elementos numéricos

>>> import pandas as pd

>>> s = pd.Series([2, 4, 6, 8])

>>> s+1

0 3

1 5

2 7

3 9

dtype: int64

>>> s-1

0 1

1 3

2 5

3 7

dtype: int64

>>> s*2

0 4

1 8

2 12

3 16

dtype: int64

>>> s/2

0 1.0

1 2.0

2 3.0

3 4.0

dtype: float64

>>> s%2

0 0

1 0

2 0

3 0

dtype: int64

Ejemplos de operaciones en Pandas con elementos de tipo cadena

Solo aplica la multiplicación. Las demás operaciones no están permitidas en los elementos de tipo cadena:

>>> import pandas as pd

>>> s = pd.Series(['2', '4', '6', '8'])

>>> s*2

0 22

1 44

2 66

3 88

dtype: object

Ejemplos de funciones en Pandas

A continuación, listamos algunas de las funciones más importantes, de las más usadas y sobre todo las más potentes incluidas en Pandas. Cabe destacar que definiremos estas funciones para usarlas en la estructura Serie. También pueden utilizarse en cualquiera en los DataFrame y los Panel, teniendo en cuenta que estas dos últimas estructuras no son más que estructuras compuestas que usan varias estructuras Serie para formarse. Por ejemplo, cada columna de un DataFrame está representada por una Serie.

Nota: los ejemplos de las funciones se colocarán dentro del intérprete de Python para evitar usar la función print() para imprimir el resultado de cada función. Sin embargo, pueden usarse del mismo modo dentro del código de cualquier archivo de un proyecto Python.

De igual manera, se omite la sentencia import de la librería Pandas ya que es suficiente con realizar una sola vez antes de ejecutar cualquier función de la librería.

1. Función count()

Regresa el número total de elementos que no son ni nulos ni NaN.

>>> import pandas as pd

>>> s = pd.Series([1, 2, 3, 4])

>>> s.count()

4

2. Función sum()

Regresa la suma de todos los elementos. Si son numéricos hace una suma aritmética; si son cadenas, regresa la concatenación.

>>> s = pd.Series([1, 2, 3, 4])

>>> s.sum()10

>>> s2 = pd.Series(['1', '2', '3', '4'])

>>> s2.sum()

'1234'

3. Función min()

Regresa el elemento menor.

>>> s.min()

1

>>> s2.min()

'1'

4. Función max()

Regresa el elemento mayor.

>>> s.max()

4

>>> s2.max()

'4'

5. Función std()

Regresa la desviación estándar de los elementos cuando son elementos numéricos.

>>> s.std()

1.2909944487358056

6. Función describe()

Regresa una estructura Serie que contiene elementos que describen a la serie original.

Contiene, en ese orden, la siguiente información:

  1. La cantidad total de elementos

  2. La suma

  3. La media

  4. La desviación estándar

  5. El mínimo

  6. Los cuartiles

  7. El máximo

>>> s.describe()

count 4.000000

mean 2.500000

std 1.290994

min 1.000000

25% 1.750000

50% 2.500000

75% 3.250000

max 4.000000

dtype: float64

7. Función cumsum()

Regresa la suma acumulada de los elementos.

>>> s.cumsum()

0 1

1 3

2 6

3 10

dtype: int64

8. Función apply(f)

Regresa una estructura Serie que contiene los elementos resultantes de ejecutar una función a cada uno de los elementos de la serie original. La función puede ser, o bien una función definida y creada por nosotros mismos o una función importada de alguna librería.

>>> import pandas as pd

>>> from math import factorial

>>> s = pd.Series([1, 2, 3, 4])

>>> s.apply(factorial)

0 1

1 2

2 6

3 24

dtype: int64

Ya sabes qué es la biblioteca Pandas en Python y los primeros pasos para usarla. Aprende más en nuestra publicación de cómo hacer un diccionario Python.

Introducción a Python
Temas: Python

Artículos relacionados

Guía gratuita para comenzar a descubrir el lenguaje de programación Python