2. Entrando en Materia
Entrando en materia
Después de conocer gran parte de las ventajas de trabajar con Python y sus propiedades en cuanto a análisis y visualización de datos se refiere, haremos el desarrollo de un ejercicio con una muestra de 100.000 registros con información de pacientes con alguna afinidad hacia la diabetes, para lo cual, utilizaremos diferentes herramientas que a lo largo de esta entrada iremos describiendo.
Para el ejercicio utilizaremos Google Colab, la cual es una herramienta fácil e intuitiva de manejar, no necesitamos realizar instalación alguna, solo efectuar la búsqueda en el explorador y tener una cuenta Gmail. Cabe resaltar que todas las ejecuciones, también son compatibles con otros motores como Visual estudio code, Jupiter entre muchas. Las diferentes ventajas de Google Colab, es que no requiere configuración, el uso de las CPU no tiene costo y permite compartir contenido fácilmente.
Resaltando que Python es muy versátil, utilizaremos archivos que contienen funciones específicas llamadas librerías, que actúan como un complemento, y evitan la escritura de código complejo.
Lo primero que realizaremos es ejecutar la librería pandas, la cual ofrece una completa serie de características en cuanto a manipulación de datos, desde cargar, procesar, limpiar y analizar datos de diferentes fuentes. Para ello la importaremos en nuestro cuaderno con la línea “import pandas as pd”, de la siguiente forma:
Es de aclarar que algunas librerías requieren la instalación de forma previa, como es el caso de las que necesitaremos para nuestro análisis, estas se tratan de “pandas-profiling” y “pygwalker”. Ahora bien, pandas profiling nos permite realizar un análisis exploratorio de los datos, pandas como tal tiene una función que es df.describe, sin embargo, profiling facilita la descripción de los datos de forma mas detalladas, así mismo análisis básico estadístico como la media, moda, mediana, desviación estándar, curtosis y asimetría. Otro punto relevante es la corrección de variables de la data set, para ello realizaremos la instalación utilizando “pip install pandas-profiling” de la siguiente forma:
Posteriormente procederemos a instalar la librería “pygwalker”, la cual no sirve para visualizar datos como se podría realizar en otros software como Tableu y Powerbi, pero en este caso en la intefaz de Python, sin ninigun código se pueden elaborar graficos en diferentes combinaciones entre variables del data set, al visualizar los datos de la forma en que elijamos, tenemos la facilidad de descubrir patrones o hallazgos (insight), sin necesidad de complicarnos con un código extenso y complejo. La instalación se realiza con la línea “pip install pygwalker” de la siguiente forma:
Teniendo instaladas estas herramientas procederemos a cargar el data set disponible en kaggle, “diabetes_prediction_dataset”, asi mismo conocer el tamaño del data set, con las siguientes líneas:
- df_diabread_csvetes = pd.('https://uniminuto-data.s3.amazonaws.com/diabetes_prediction_dataset.csv')
Y para conocer el tamaño del data set:
- print(f'Tamaño del dataset: {len(df_diabetes)}')
Aplicándolo quedaría de la siguiente forma:
Sin embargo, previamente debemos llamar la función “from ydata_profiling import ProfileReport” de pandas, esto para crear el perfil de datos, de la siguiente manera:
Ahora aplicamos sobre este data set las funciones de pandas profiling y pygwalker, con las siguientes líneas:
Con esto ya podemos aprovechar los beneficios del análisis de información que esta librería nos ofrece, de igual manera ejecutamos la línea gwalker = pyg.walk(df_diabetes), para utilizar la interfaz de pygwalker, respecto a la visualización de datos, importando previamente la aplicación por medio de la linea: “import pygwalker as pyg”.