Machine Learning: la maldición de las cajas negras

Las tecnologías para analizar datos y mejorar la toma de decisiones han evolucionado considerablemente en los últimos años. Hace unos meses preparé una breve visión retrospectiva de cómo ha cambiado el panorama. En definitiva, hemos evolucionado desde la inteligencia de negocio hasta el big data en apenas unas décadas. En la actualidad estamos iniciando una nueva etapa fundamentada en desarrollar capacidades cognitivas en nuestra organización, y como comenta McKinsey, vivimos en la era de la analitica. Esto no es nuevo para nuestros lectores. Es decir, cualquier proceso de negocio de nuestra organización y nuestras decisiones se apoyarán en algoritmos de machine learning (ML), para potenciar, mejorar y acelerar nuestras capacidades de comprender a nuestros clientes, empleados, proveedores y productos. Esta visión es un reto para las organizaciones que se encuentran en diferentes estados de madurez como organizaciones orientadas al dato desde las que están empezando el viaje hasta las que ya se encuentran avanzadas tras implementar de forma con éxito sistemas de inteligencia de negocio, analítica de datos o, incluso, big data. Cualquier tipo de responsable, sea cual sea su departamento o su nivel jerárquico, necesita conocer y entender el concepto. Aquí tenemos una interesante explicación por parte de Pedro Domingos, autor de The Master Algorithm, y otra buena introducción por parte de Andreseen Horowitz. Pongamos en que nos convertimos a este nuevo dogma y creemos que nuestra organización debe en una máquina automática fundamentada en algoritmos. A medida que vayamos introduciendo algoritmos más y más sofisticados en nuestra organización, se generan nuevos retos que es necesario abordar más pronto que tarde que recuerdan a una caja negra (no...

Data Governance

El trabajo con datos bajo diferentes nombres (business intelligence, big data, data science, data analytics, data governance y más) es una nueva función dentro de la empresa, que apareció en la segunda mitad del siglo XX, pero que se ha consolidado en este siglo y que ya no desaparecerá. Hablamos de la gestión del dato, como lo hacemos de la gestión de los recursos humanos, las finanzas o el marketing. Tiene sus reglas de admisión, sus programas de formación, sus especialidades, sus métodos, sus costumbres y sus gremios. Es ya una profesión, con muchas especialidades. Algunos de estos expertos, se dedican al gobierno de los sistemas de datos, es decir, la organización, los procedimientos y la administración y documentación de los sistemas de datos dentro de organizaciones normalmente grandes. GRÁFICA: La Rueda de la Gestión de Datos. DAMA Internacional es la sociedad que agrupa a la comunidad de practicantes de la gestión de datos, define los estándares de la profesión y proporciona certificados de aptitud, si pasas (y pagas) un examen. Fue fundada en Los Angeles a finales de los 1980. DAMA gestiona un manual de buenas prácticas, el DMBoK o Data Management Body of Knowledge, del que se puede descargar una versión corta gratuitamente aquí. Las siglas recuerdan al estándar de gestión de proyectos, el PMBoK, bastante más popular y al que hemos dedicado en este blog unas cuantas entradas. Según el DMBoK, “la gestión de datos consiste en el desarrollo, la ejecución y la supervisión de planes, políticas, programas y prácticas para controlar, proteger, servir y aumentar el valor de los activos de datos e información” que...

¿Cómo las empresas se inician en Big Data?

En mis últimas conversaciones siempre hay un tema recurrente respecto Big Data: ¿cómo empezar? Este es un tema del que hemos hablado en el pasado y quizá tenga sentido recordar lo que ya he comentado. Se trata de “qué necesidades existen en la organización, qué es lo que no funciona, lo que sí funciona y lo que realmente apremia a negocio, qué sistemas de información para la toma de decisiones existen en la organización, para qué se usan, a quién dan servicio, qué límites tienen, qué perfiles existen, qué enfoque estratégico tiene la organización para con las tecnologías de información (TI), qué datos existen en la organización, etc.”. Pero es muy fácil listar aspectos a tener en cuenta y complicado poner en marcha los mecanismos para iniciar dichas estrategias. Según Davenport, en su ya clásico Competing on Analytics, las organizaciones siguen dos caminos: Incrementan su conocimiento en Analytics y en herramientas de análisis de datos. Incrementan su conocimiento en la gestión de la información, que incluye el gobierno del dato. Esta claro que desde la academia nos gusta ilustrar senderos claros a seguir, pero el comportamiento de una organización no es lineal. Es interesante ver lo que sucede y lo que están haciendo las organizaciones para acelerar su evolución hacia el Big Data (en una primera fase) y hacia la transformación como organización orientada al dato (en segunda instancia). Revisemos algunos de los movimientos observados en el mercado: Conseguir talento: la organización se focaliza a conseguir talento en una o ambas áreas (frecuentemente con foco en una de ellas). Este crecimiento, a veces, es interno, de forma natural, con...

Organizaciones orientadas al dato: nuevo libro de Josep Curto

Me encanta presentar Organizaciones orientadas al dato, el nuevo libro de Josep Curto. Conozco a Josep Curto desde hace tiempo. Fue uno de los primeros estudiantes de nuestro Máster de Business Intelligence y Big Data, luego profesor y pronto nos dará clase a todos. Josep compagina la tarea docente, en la UOC y en otras escuelas, con su trabajo como fino analista y consultor en Delfos Research para empresas y fabricantes, además de su ingente obra como autor, bloguero y conferenciante por todo el mundo. Sus libros técnicos, como Introducción al Business Intelligence o ¿Cómo crear un datawarehouse?, están en un género de manual de uso de interés didáctico y de difusión que ya quisieran los manuales de fabricante o de implantador. Se muestra el uso empresarial, la lógica que hay detrás de las herramientas y los trucos de uso para principiantes. ¡Bingo! Como muchos expertos, Josep ha ido evolucionando desde una visión técnica de este campo a un enfoque más estratégico y de negocio y a una escritura más divulgativa sin perder el rigor tecnológico cuando toca. Recientemente ha enfocado parte de su producción a materiales de contenido empresarial, relacionados con la utilización y el contexto de la inteligencia de negocio en las organizaciones. El pasado año se publicó Customer Analytics (2015), escrito con Nuria Braulio, y que trata sobre las tecnologías y las utilidades del análisis de la información de clientes para tomar decisiones de producto, precio, canal y comunicación, tanto en entornos físicos como virtuales. Como dicen Davenport y Patil (2012) en su artículo histórico, “es la gente lo que hace que funcionen realmente los big data; … y la gente es cara y difícil...

¿Cómo son los científicos de datos? (y II)

En la primera parte de esta entrada, presentábamos las características y habilidades “duras” de un científico de datos: ¿qué hacen? ¿en qué clases de empresan trabajan? ¿qué tecnologías utilizan? Según Davenport y Patil, el científico de datos es una mezcla de hacker, científico, asesor de confianza y experto de negocio.  Los científicos de datos comparten también ciertos rasgos de la personalidad, del carácter. Gràfica: Gert Altman, Dominio Público, en Pixbay. Son críticos y curiosos. (Curiosos de curiosidad; a veces también son raros, pero no es necesario). Hacen preguntas, no se conforman con las respuestas, exploran bajo la superficie de las cosas y buscan todo el rato lo que los datos esconden. De todas las preguntas, hay una que consideran la más importante: ¿por qué? También por esto a veces pierden de vista el contexto organizativo, el problema de negocio que se trata de resolver y el grupo de trabajo en el que están integrados… No es gente muy social siempre. Les gusta el análisis y el detalle. Intelectualmente, la ciencia de los datos es un ejercicio de descomposición de un problema en piezas más pequeñas y el diablo está en los detalles. Son pacientes y perseverantes; piensan primero y actúan después. También por esto a veces les paraliza el análisis, son perfeccionistas, los datos nunca les parecen los suficientes o de suficiente calidad, el árbol no les deja ver el bosque… Pueden crear modelos y establecer predicciones. El talento analítico consiste también en clasificar y simplificar el volumen de datos, establecer patrones y elaborar pronósticos. También por ésto a veces son autosuficientes, encuentran sólo aquello que van a buscar y...

¿Cómo son los científicos de datos? (I)

Nuestro colega (y sin embargo amigo) Josep Curto lo decía hace algunos posts: “Big Data trata de dominar el dato para generar valor”. Inteligencia de negocio y Big Data tienen que ver con las tecnologías de almacenamiento y tratamiento de los datos, con técnicas y herramientas de análisis (lo que ya se llama la Ciencia de los Datos, ¿o es sólo estadística?), con un contexto organizativo que usa la información para tomar decisiones (empresas orientadas al dato) y con varias clases de profesionales: los ingenieros o tecnólogos de sistemas de datos, los científicos y analistas de datos, y los directivos y usuarios que trabajan necesariamente con datos. ¿Cómo son los profesionales orientados a los datos? Gráfica: Mushonz, CC BY-SA 4.0 Entre todos éstos, el mayor interés está ahora en los “científicos de datos”, los más buscados, los más difíciles de encontrar y los que más ganan. Los científicos de datos manejan el ciclo de gestión de los datos: entienden y ayudan a definir el problema y las necesidades de datos para resolverlo; buscan los datos y los preparan para su procesamiento; hacen el análisis mediante modelos y algoritmos y crean o mejoran los algoritmos existentes; presentan los datos de forma atractiva, comprensible y que permita tomar decisiones; y, finalmente, los almacenan y archivan de forma que permita su re-utilización. Los científicos de datos tienen que conocer e interactuar con los ingenieros informáticos que gestionan los almacenes de datos y el resto de las tecnologías de datos disponibles en la empresa. Los ingenieros proporcionan o ayudan al científico en el acceso a grandes conjuntos de datos y, cuando el científico...