CORE Code School

Guia básica de Pandas

10 minutos

🤔 ¿Qué es Pandas?

Pandas es una biblioteca de programación en Python que se usa para el análisis de datos y manipulación de datos en forma tabular. Esta herramienta se ha vuelto muy popular en la comunidad de científicos de datos, analistas y desarrolladores debido a su amplia gama de funciones y su capacidad para trabajar con datos en formato de tabla de manera eficiente.

Ademas, proporciona estructuras de datos flexibles como DataFrames, que son similares a una tabla de Excel, de esta forma permite la manipulación y análisis de datos de manera sencilla.

Algunas de las principales características de pandas incluyen la capacidad de manejar datos faltantes, realizar operaciones de agregación, filtrado y ordenamiento, así como realizar cálculos y transformaciones complejas en los datos. Tambien, pandas se integra fácilmente con otras bibliotecas populares de Python, como NumPy y matplotlib, lo que lo convierte en una herramienta versátil y poderosa para el análisis de datos.

📖 Historia

Fue creado por Wes McKinney en 2008 por la necesidad de manejar datos de manera eficiente en Python. McKinney, un analista cuantitativo, se encontraba con dificultades al trabajar con datos en este lenguaje debido a la falta de herramientas especializadas en el manejo de datos tabulares. En respuesta a esta problematica, McKinney comenzó a desarrollar Pandas como un proyecto de código abierto mientras trabajaba en una empresa de gestión de inversiones, con el objetivo de crear una herramienta poderosa y flexible para el análisis de datos.

El desarrollo inicial de Pandas se basó en la inspiración de otras herramientas y lenguajes, como R y hojas de cálculo de Excel, así como en el concepto de DataFrames en el lenguaje de programación estadística llamado R.

Pandas se lanzó por primera vez en 2008 y ha evolucionado rápidamente desde entonces. Ha ganado popularidad en la comunidad de análisis de datos y se ha convertido en una herramienta esencial en el campo de la ciencia de datos.

🧐 ¿Por qué Pandas?

  1. Estructuras de datos flexibles: Ofrece Series y DataFrames, que son como arreglos y hojas de cálculo, respectivamente.
  2. Manipulación de datos sencilla: Tiene funciones para realizar tareas comunes en análisis de datos, como filtrar, agrupar y limpiar datos.
  3. Integración con otras bibliotecas: Pandas se integra con otras bibliotecas populares de Python, como NumPy y Matplotlib.
  4. Amplia comunidad y documentación: Pandas tiene una gran comunidad de usuarios y desarrolladores, lo que significa que hay muchos recursos en línea para obtener ayuda y aprender.

🛠️ Instalación

Antes de empezar, necesitarás instalar Pandas en tu ordenador. Puedes hacerlo usando pip, el gestor de paquetes de Python. Abre una ventana de terminal y escribe el siguiente comando:

bash
pip install pandas

📚 Importación

Para empezar a utilizar Pandas, deberás importarla en tu script o cuaderno de Jupyter. La convención común es importar Pandas como pd, lo que hace que sea más fácil escribir el código. Para hacerlo escribimos lo siguiente en una celda de codigo:

python
import pandas as pd

📚 Creación de un DataFrame

El DataFrame es la estructura de datos fundamental de Pandas. Es una tabla con filas y columnas, como una hoja de cálculo de Excel. Puedes crear un DataFrame a partir de un archivo CSV o Excel, o desde cero en Python. Para crear un DataFrame desde cero.

python
import pandas as pd

data = {
  'nombre': ['Juan', 'Maria', 'Pedro', 'Ana'],
  'edad': [25, 30, 21, 28],
  'ciudad': ['Buenos Aires', 'Cordoba', 'Rosario', 'La Plata']
}

df = pd.DataFrame(data)

Este código creará un DataFrame con tres columnas: nombre, edad y ciudad. Las filas son las cuatro personas definidas en el diccionario de datos. Puedes imprimir el DataFrame de la siguiente manera:

python
print(df)

📋 Manipulación de un DataFrame

Una vez que tienes un DataFrame, puedes empezar a manipularlo y analizarlo. Pandas tiene muchas funciones útiles para hacerlo, alguna de las mas comunes:

⬆️ Seleccionar columnas

Para seleccionar una columna específica del DataFrame, puedes utilizar el nombre de la columna dentro de corchetes y como argumento del DataFrame:

python
print(df['nombre'])

➡️ Seleccionar filas

Para seleccionar filas específicas del DataFrame, puedes utilizar la función iloc, que indexa el DataFrame por posición. Por ejemplo, para tomar la primera fila del DataFrame:

python
print(df.iloc[0])

Cambiar el nombre de una columna

Para cambiar el nombre a una columna puedes usar este código. Tienes dos formas diferentes de hacerlo con el parametro inplace o sin el.

python
# Cambiar el nombre y reasignar el dataframe
df.rename({'nombre_columna': 'nuevo_nombre'}, axis=1)

# También puedes actualizar el propio dataframe con inplace=True
df.rename({'nombre_columna': 'nuevo_nombre'}, axis=1, inplace=True)

🔍 Filtrar filas

Podemos tambien filtrar filas en función de un criterio específico, puedes utilizar la función loc. Por ejemplo, para seleccionar todas las filas donde la edad es mayor que 25:

python
print(df.loc[df['edad'] > 25])

📊 Agrupar y resumir datos

Pandas permite agrupar y resumir los datos de un DataFrame en función de una o varias columnas. Ejemplo, para agrupar el DataFrame por la columna "ciudad" y obtener la media de la edad para cada ciudad, podemos hacer lo siguiente:

python
print(df.groupby('ciudad')['edad'].mean())

Esto agrupa el DataFrame por la columna "ciudad" y aplica la función de agregación mean() a la columna "edad".

📝 Resumen y Fuentes

En este blog hemos visto cómo empezar a trabajar con Pandas. Hemos aprendido cómo importar la biblioteca, crear un DataFrame, manipularlo y analizarlo. Pandas es una herramienta muy útil y poderosa para trabajar con grandes conjuntos de datos en Python.

¿Quieres aprender más? Conoce nuestro curso intensivo de Big Data & Machine Learning

Bootcamp Big Data y Machine Learning