La calidad del dato en la era de los Big Data

En la época que vivimos (ya sabéis la era de los Big Data), me encuentro a veces en conversaciones dónde se comenta que ya no es necesaria la calidad del dato. Es probable que algunos de vosotros ya estéis levantando las manos al cielo o simplemente mirando con cara de incredulidad. Otros moverán la cabeza afirmativamente. La realidad, como siempre, más compleja.

 

El beso, de Gustav Klimt. Fuente: Wikipedia. Licencia: Dominio público.

El beso, de Gustav Klimt. Fuente: Wikipedia. Licencia: Dominio público.

Supongamos que hemos desplegado una estrategia y una práctica de Inteligencia de Negocio de éxito (pues sí, como las meigas, haberlas haylas, aunque menos de las que se cuentan): o sea, disponemos de información de calidad, confiable, en el momento adecuado, en el formato correcto y para la persona que lo necesita. Ello nos permite comprender qué ha sucedido en nuestra organización: qué productos/servicios se han vendido, qué margen se ha conseguido, quién ha comprado, cuando ha comprado, dónde ha comprado e, incluso, porqué ha comprado. Ello nos permite tomar decisiones gracias a que podemos apalancarnos sobre algo en lo que podemos creer y que el conjunto de la organización acepta como cierto. Y al revés: si los datos no son de calidad, es bastante probable que se tomen decisiones no válidas que no produzcan los resultados esperados.

Sin embargo, siempre, repito, siempre trabajamos con un cierto grado de incertidumbre. Es imposible tener toda la información interna y la externa que nos afecta en una visión de 360 grados y con un 100 por 100 de calidad. No existe y, si existiera, sería carísimo. Y lo mismo, pero multiplicado, ocurre en los proyectos y servicios basados en Big Data (los que mueven grandes volúmenes a gran velocidad y de una gran variedad y fuentes). Probablemente, la “solución” es llegar a un acuerdo empresarial honrado sobre qué nivel de calidad sobre qué tipo de datos estamos dispuestos a aceptar.

Comentaba hace unos días eso mismo con un amigo que justo ha pasado de trabajar en la academia al sector de medios, en una de las principales empresas de contenidos en streaming. Me decía más o menos que le sorprendía la baja calidad de los conjuntos de datos y la necesidad de pasar más o menos el 80% de su tiempo encontrando y corrigiendo errores, en los datos o en la forma de cargarlos, transformarlos y calcularlos.

Sumado a eso, uno de los sistemas analíticos que tienen y en los que ejecuta las consultas tarda toda una noche en poder hacer los cálculos. Lo que limita considerablemente el valor que puede generar y a la velocidad con la que lo puede compartir. Hoy mismo tenía problemas en los metadatos de su aplicación y ¡no podía acceder al último capítulo de una de sus series estrellas (True Detective)!

Esto me recuerda a alguna batallita de mi época de consultoría tecnológica en la que una empresa se inventaba de forma sistemática los datos para un informe de dirección (al no tener los datos a tiempo) y, a posteriori, siguiendo una doctrina muy de 1984 (la novela) reescribían el dato en el data warehouse no fuera que se descubriera el pastel.

Estos errores incluyen valores incorrectos, datos incompletos, datos que se han combinado por error o datos repetidos. Incluso datos que no llegan o llegan tarde. Un error menor en un conjunto de datos “manejable” es susceptible de ser corregido por el analista o científico del dato de turno. Sin embargo, en un contexto de Big Data, esto es mucho más complicado.

O sea: ¿Van a sobrevivir vuestras iniciativas de data lakes sin un mínimo de calidad y gobernanza de datos? ¿Estamos condenados a repetir nuestros errores del pasado? ¿Podemos llegar a un acuerdo sobre qué quiere decir calidad del dato aquí y ahora en cada contexto empresarial? ¿Cómo vamos a enseñar a nuestros algoritmos de reconocimiento a identificar los patrones de Klimt si trabajamos en un entorno sin calidad?

Josep Curto es colaborador docente del Máster en Inteligencia de Negocio y Big Data (MIB) de la UOC. Es además Director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data.

CC BY-NC-SA 4.0 La calidad del dato en la era de los Big Data por Colaborador UOC está licenciado bajo una Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.

Comentar

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Leer entrada anterior
Nostalgia y crowdfunding (VII) – Made in Japan

Si estamos hablando de videojuegos con unas décadas a sus espaldas y capaces de convocar a decenas de miles de...

Cerrar