La visualización interactiva de datos como herramienta de análisis

1 junio, 2017

En la sociedad actual, cada día se generan datos por un volumen de 2,5 x 10¹⁸ bytes, aproximadamente. Estos datos son de naturaleza compleja y pueden combinar diferentes aspectos al mismo tiempo, entre otros: ser multidimensionales, ir ligados a restricciones espacio-temporales, longitudinales (que evolucionan en el tiempo), multimodales (combinando diferentes fuentes y orígenes), así como provenir de la ejecución de múltiples procesos paralelos y/o modelos. Visualizar datos incluye gestionar toda esta complejidad para convertirlos en información, es decir, obtener respuestas a las preguntas u objetivos de la visualización. El análisis visual no substituye a la estadística clásica o la construcción de modelos de minería de datos, sino que aporta una perspectiva diferente basada en las capacidades del sistema visual humano. La visualización de datos como herramienta de análisis pretende luchar contra el “síndrome de las cajas negras”, ya presentado en este blog con anterioridad.

Así, el objetivo de una visualización de datos es mostrar la naturaleza de los mismos, facilitando su comprensión y posterior exploración. Se trata, entonces, de realizar un análisis visual preliminar para detectar los aspectos clave presentes en los datos: distribuciones de cada variable, valores extremos, relaciones entre variables, tendencias, patrones, outliers, etc. Para ello es necesario poder disponer de un entorno gráfico que permita visualizar datos usando diferentes proyecciones, combinando herramientas estadísticas con modelos generados a partir de los datos, desde descriptores estadísticos hasta el resultado de un algoritmo de clasificación no supervisado, por ejemplo, variando los parámetros del mismo.

En este sentido, la evolución de la visualización de datos no se ha centrado solamente en la capacidad de generar gráficos complejos con mayor resolución en un breve lapso de tiempo, sino que ha ido incorporando elementos interactivos en la propia visualización, en forma de operaciones básicas (selección, filtrado, etc.). De acuerdo al trabajo de (Keim et al., 2008), el análisis visual de datos se fundamenta en un mantra que es una versión modificada del propuesto por (Shneiderman, 1996):

“Analyse First –

Show the Important –

Zoom, Filter and Analyse Further –

Details on Demand”

Así, el proceso de análisis visual consiste en un ciclo continuo que se inicia en los datos y sus posibles transformaciones, y que se bifurca en dos aproximaciones complementarias, la visualización y la construcción de modelos, entre las cuales existe un diálogo con el objetivo de extraer conocimiento que pueda ser usado para iterar el proceso de análisis visual con un mayor nivel de detalle y/o complejidad, tal y como muestra la figura 1. La capacidad de interacción debe permitir al usuario de la visualización realizar, al menos, las operaciones básicas definidas por Ben Shneiderman (vista general, zoom, filtro y selección).

Figura 1. Proceso de análisis visual. Fuente: Keim et al. (2008).

Desde una perspectiva de análisis visual, las dos primeras etapas definidas en la figura 1 son la transformación (o adaptación) de los datos y su visualización, incluyendo en ésta la interacción. Por lo tanto, una vez establecido el objetivo del análisis visual de los datos, se trata de seleccionar un tipo de visualización interactiva que permita realizar dicha exploración preliminar.

En la actualidad, para lograr dicho cometido se cuenta con un nuevo aliado, el cual elimina la necesidad de crear aplicaciones específicas y proporciona una interfaz visual coherente. Se trata de los navegadores web, que visualizan páginas que contienen código fuente que construye (mediante el render) la visualización cuando la página es accedida y cargada. De forma resumida, una página web es una combinación de CSS (hojas de estilo que determinan el aspecto de los elementos de la página), contenido HTML propiamente dicho y código JavaScript que permite manipular el DOM (del inglés Document Object Model, es decir, la estructura de la propia página web vista como un documento estructurado jerárquicamente), generando nuevos contenidos que se incrustan dinámicamente, incluyendo código HTML y gráficos vectoriales (SVG, o Scalable Vector Graphics). El gráfico (o mejor dicho, la forma de construirlo) es parte de la página, y es visualizado cuando el navegador ejecuta las órdenes necesarias para mostrar el contenido de la página.

De esta manera, generar una visualización de datos interactiva puede verse como la creación de una página web construida dinámicamente que visualiza dichos datos de acuerdo a una configuración preestablecida. En este sentido, D3 (o también D3.js) es una librería JavaScript que permite manipular datos en diferentes formatos (tablas, CSV o JSON, entre otros) y generar gráficos vectoriales de forma dinámica que pueden ser incrustados en la página web para su manipulación, incluyendo elementos de interactividad, tanto por lo que respecta a la interfaz del usuario como al uso de transiciones que aportan dinamismo a la visualización (Murray, 2013).

Dada su flexibilidad, D3 puede utilizarse para crear cualquier tipo de visualización interactiva, generando los elementos gráficos a partir de los datos que alimentan la visualización, desde gráficos de barras hasta complejas visualizaciones combinando diferentes elementos gráficos. Uno de los aspectos más interesantes de D3 es la incorporación de la interacción como parte de la propia visualización, de forma que ésta deviene la interfaz de acceso a los datos, permitiendo su manipulación de acuerdo a las operaciones básicas definidas por (Shneiderman, 1996).

Este ejemplo, basado en el trabajo de Jason Davies, permite comprobar como se puede usar el análisis visual para detectar relaciones entre variables, en este caso categóricas. El gráfico interactivo permite reproducir la tabla de contingencia entre las diferentes variables del conjunto de datos, siendo posible detectar asociaciones a simple vista, cruzando, por ejemplo, la variable sexo con la variable supervivencia, mediante el desplazamiento vertical de las mismas. Los valores de cada variable categórica, mostrados horizontalmente, pueden ser también ordenados. Aunque el análisis visual no proporciona el nivel de detalle que aporta un análisis estadístico clásico (en este caso, el coeficiente chi-cuadrado o la V de Cramér), permite constatar rápidamente qué combinaciones de variables merecen ser exploradas.

Julià Minguillón es profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC. Sus ámbitos de conocimiento son el aprendizaje virtual (e-learning) y los recursos educativos abiertos. Es investigador del grupo LAIKA (Learning Analytics for Innovation and Knowledge Application in Higher Education) y fue responsable del área de Investigación Aplicada del eLearn Center.

Referencias

Keim, D., Andrienko, G., Fekete, J. D., Görg, C., Kohlhammer, J., & Melançon, G. (2008). Visual analytics: Definition, process, and challenges. In Information visualization (pp. 154-175). Springer Berlin Heidelberg.

Shneiderman, B. (1996, September). The eyes have it: A task by data type taxonomy for information visualizations. In Visual Languages, 1996. Proceedings., IEEE Symposium on (pp. 336-343). IEEE.

Murray, S. (2013). Interactive data visualization for theWeb. O’ReillyMedia, Inc.

(Visited 169 times, 1 visits today)

Autor / Autora

profesoruoc

Comentarios

Deja un comentario