Consejos para la exploración visual de los datos

0
286

Extracto de Blog CDmon

Por Jordi Rosell

En el análisis de datos es muy importante visualizar los datos que hemos recopilado antes de poder llegar a conclusiones.

Una tabla con datos tendrá unas columnas con distintas variables con textos y números. Cada una de las filas de la tabla representa un dato específico que se ha recopilado.

¿Como podemos visualizar las columnas con números?

Si queremos visualizar la distribución de datos de una variable numérica podemos usar un histograma. En eje X tendremos distintos rangos de valores de la variable y en el eje Y tendremos el número de ocurrencias o la frecuencia de las ocurrencias (un porcentaje sobre el total).

Un diagrama de caja facilita la representación visual de 5 valores en estadística descriptiva:

  • La mediana parte los datos por la mitad con una línea en el medio. El 50% de los datos en un lado y el otro 50% en otro.
  • La caja visualiza la variabilidad de los datos indicando dónde quedan el 25% (Q1) y el 75% (Q3) de los datos.
  • La caja (IQR) sería el cuerpo del diagrama y los “bigotes” serían las manos que intentan llegar al resto de los datos. Si los datos quedan por debajo (Q1 – 1.5×IQR) o por encima (Q3 + 1.5×IQR) de los “bigotes”, se visualizan con puntos que identifican datos atípicos que parecen inusualmente lejos del resto de datos.

Cuando queremos ver la evolución temporal de una variable numérica podemos mostrar un gráfico de líneas con las fechas en el eje X y los valores de la variable en el eje Y.

Un valor numérico se puede visualizar con una intensidad de color. Un ejemplo de ellos son las visualizaciones de mapas geográficos.

Si queremos relacionar 2 columnas numéricas, podemos usar un diagrama de dispersión. En el eje X y en el eje Y tendremos los datos de una columna o de otra.

Los gráficos de burbuja nos permiten mostrar tres dimensiones de datos en un gráfico de dos dimensiones. El gráfico de burbuja es una variación del gráfico de dispersión en donde los puntos son reemplazados por burbujas. Las burbujas se grafican de acuerdo a los valores de X y de Y mientras que su tamaño será proporcional al tercer valor.

En la práctica es importante clarificar y preguntar sobre la naturaleza de los datos

¿Como podemos visualizar las columnas con categorizaciones?

Para poder visualizar categorizaciones es necesario preparar los datos con tablas de frecuencias o con tablas de contingencia.

Un gráfico circular o un gráfico de anillos no es aconsejable si tienes que comparar los datos. Es complicado diferenciar cuando hay diferencias pequeñas y muchas categor……


Autor CDmon
Lee la nota completa en Blog CDmon

Dejar respuesta