Plataformas y ecosistemas en BI, BA, Big Data y Data Science

No es la primera vez que hablamos sobre ecosistemas y plataformas, de hecho el interés viene de lejos. Últimas noticias de las anteriores semanas nos hacen volver a poner la atención en este punto. De hecho un par. Por un lado, la reciente compra de Fast Forward Labs por parte de Cloudera para reforzar su línea de Data Science (fundamentada en otra adquisición – Sense Platform – en 2016). Por otro, la disponibilidad de un nuevo backend para MongoDB llamado Stitch, que buscar facilitar la integración de la base de datos en desarrollos y aplicaciones. Como ya sabemos, en los últimos años las tecnologías para capturar, almacenar, procesar, analizar y visualizar datos tiene un marcado acento open source. Existen múltiples componentes alrededor de Apache Hadoop, Apache Spark, Apache Flink o MongoDB, por nombrar algunas. Aunque existen tantas que es complicado seguir la pista a como evoluciona tantos actores. Un buen intento es el Big Data Landscape. Escoger la mejor plataforma de datos, se convierte en una tarea titánica y es natural que surjan plataformas integradas (y empresas que den soporte a dichas plataformas) como las conocidas Hortonworks, Cloudera, Data Artisans o Databricks. ¿Hacía dónde se dirigen estas plataformas? En anteriores movimientos de mercados, vimos cómo los proveedores de mercado complementaron su solución incluyendo módulos de analítica de negocio (proporcionando análisis basados en parámetros). Por lo que emergieron las plataformas combinando módulos de inteligencia y analítica de negocio. En esta etapa los últimos movimientos del mercado nos ofrecen otro panorama. Los fabricantes de plataformas empresariales de negocio están interesado en capitalizar el movimiento de Data Science, e integran componentes de Machine Learning, entornos de trabajos flexibles (basados en Jupyter, Apache Zeppelin o similares) e incluso fichando equipos para ofrecer servicios profesionales. Cloudera no han sido los primeros (por ejemplo, ya...

Ética de los Big Data: un libro necesario

Se ha publicado en la interesante colección de Tecnología de la editorial de la UOC, que dirige mi colega Toni Pérez, el “manual” Una ética para Big Data: Introducción a la ética de datos masivos, de Rosa Colmenarejo, profesora de la Universidad Loyola de Andalucía y colaboradora de la UOC, ingeniera, antropóloga y filósofa. En su origen, procede de materiales de nuestros programas de Inteligencia de Negocio y Data Science, trabajados con Montse Serra. Ahora estamos ante un librito urgente, necesario y prometedor, que no puedo dejar de recomendar. Urgente El conjunto de los problemas y dilemas éticos que afrontamos los directivos, usuarios, técnicos, analistas, estudiantes y docentes, que trabajamos con datos masivos, y los ciudadanos que cedemos, con mayor o menor consentimiento, nuestros datos a casi cualquiera, o que estamos expuestos a la vigilancia de otros que desconocemos, afectan como mínimo, ya lo sabíamos, a la identidad, la privacidad, la propiedad y la reputación. Pero eso quiere decir también y en sentido más amplio que impactan a la autonomía, la dignidad y la solidaridad –o sea, a todo lo que nos hace humanos: poca broma. Estas tecnologías diluyen la separación entre el espacio privado y el espacio público, la identidad online y la identidad offline, lo individual y lo colectivo, lo local y lo global, la propiedad y la pertenencia. Sólo levantar esta consciencia y dirigirse a ese estupor entre nuestros estudiantes y profesores y entre un público más amplio merece aplauso. Colmenarejo lo hace con tranquilidad, documentación, reflexión y rigor. La autora nos introduce en los conceptos básicos que han formado la filosofía de la sociedad y la ética,...

El perfil de un data scientist

Se dice que actualmente hay siete zettabytes de información disponible, que este volumen se duplica cada dos años y que, en un solo día, se produce el doble de información de la que contenía Internet hace veinte años. Pero sólo se analiza un 0,5% de este volumen. Los datos que se recogen actualmente dentro y fuera de las organizaciones poseen unas características que no poseían anteriormente: ocupan un volumen muy grande, se producen en un flujo continuo, proceden de múltiples fuentes (redes sociales, sensores, teléfonos móviles, clics en la web, etc.), se presentan en múltiples formatos (imagen, documentos, etc.) y, sobre todo, ya no se pueden almacenar solo en filas y columnas (tienen una estructura diferente y más compleja). Este gran volumen de datos presenta una gran oportunidad para extraer conocimiento útil para la toma de decisiones en las organizaciones, pero a la vez, las características intrínsecas de estos datos dificultan los procesos de manipulación y análisis asociados. Las empresas e instituciones se enfrentan al reto de encontrar los profesionales capacitados para aumentar la competitividad de su organización a través de la información obtenida de estos datos. Para ello, buscan profesionales dinámicos y especializados que provienen de diversos orígenes, tales como negocios, ingeniería, tecnología, economía, matemáticas y ciencias, y que sean capaces de identificar, capturar, transformar, analizar e interpretar los datos para impulsar el valor y la innovación aplicada en diversas industrias, como por ejemplo las finanzas, la salud, los bienes de consumo o la tecnología. Por estos motivos, y por un cierto repunte (hype) de expectativas en el mercado, los científicos de datos son actualmente los profesionales más...

Uso inteligente de datos en Sanidad

La Sanidad se identificó ya desde el estudio pionero del Instituto McKinsey como uno de los sectores con mayor potencial para el uso inteligente de datos, incluidos los big data. En el nivel de las operaciones, permite a los clínicos compartir la información de salud del paciente a lo largo de la cadena de cuidados (la asistencia primaria, el hospital, el socio-sanitario o la atención en casa). En el nivel de la gestión, facilita la transparencia y la comparación para reducir la variabilidad de la práctica asistencial, aumentando la calidad y seguridad de la atención; y permite a los reguladores, las compañías de seguros y los compradores de servicios establecer contratos y precios. En el nivel analítico, es una oportunidad para la investigación de nuevos tratamientos, servicios y productos que completen la promesa de una medicina personalizada y predictiva. En todos los casos, facilitan al paciente el acceso a sus datos y a información que desafía el poder de agencia de la industria y los profesionales… La sanidad es un negocio de información y conocimiento. Principal destino de las inversiones en sistemas de información en sanidad. Fuente: Gartner, Encuesta de CIOs, 2017. Sin embargo, el mismo estudio y otras fuentes han señalado que la falta de inversión en informática y en talento analítico, por una parte, y, por otra, las estructuras y culturas organizativas que impiden la compartición de datos, están actuando como barrera para realizar los beneficios potenciales del uso masivo de los datos en el sector. Algunos países (Dinamarca, Nueva Zelanda, Irlanda, Singapur…) han establecido en los últimos años estrategias de salud electrónica o e-Health, con energía política...

¿Cuál es la madurez analítica de nuestro ecosistema empresarial?

Data science, big data y analytics son algunas de las palabras que están sonando más estos últimos años. Estas palabras se relacionan con la filosofía de analizar los datos y usar el conocimiento extraído de dicho análisis para realizar una toma de decisiones basada en evidencias. Pero ¿Qué impacto tiene esta filosofía en nuestro contexto? ¿Hasta qué punto las organizaciones de nuestro entorno usan los datos en su toma de decisiones? ¿Cuál es la madurez analítica del ecosistema empresarial que nos rodea? Estas son preguntas muy interesantes, que nos podrían ayudar a entender mejor nuestro entorno pero cuya respuesta es difícil de obtener. Hay algunos estudios que han realizado análisis enfocados a intentar responder a estas preguntas, como el que realizó Accenture en Holanda el 2013 o el de Vonya del 2016, pero normalmente son muy sectoriales y se basan en un número de respuestas reducido. Aprovechando la amplia audiencia de la tercera edición del MOOC de Inteligencia de negocio y Big Data (cerca de 10.000 estudiantes) hemos propuesto una encuesta que hace un par de semanas compartimos con los estudiantes del MOOC y que ahora estamos difundiendo en las redes sociales. El objetivo es responder, con datos,  (y con margen de error también, somos conscientes), a la pregunta de ¿Cuál es la madurez analítica del ecosistema empresarial que nos rodea? y compartir las respuestas que obtengamos abiertamente con el resto de la comunidad. Hasta ahora ya hemos recogido cerca de 500 respuestas y querríamos pediros vuestra participación en esta experiencia para conocer cuál es el nivel de madurez analítica de vuestras organizaciones. La encuesta que hemos elaborado nos...

MOOC BI y Big Data: no hay dos sin tres

Los dos últimos años hemos tenido dos interesantes experiencias en el ámbito de los MOOC a través de la plataforma MiriadaX, que ya comentamos en su momento aquí y aquí. Este MOOC ha estado centrado en la inteligencia de negocio y Big Data, competencias que llevamos formando desde hace más de una década y que son absolutamente cruciales en la actualidad para trabajar y gestionar escenarios VUCA y en el que es necesario convertirse en una organización orientada al dato, como hemos comentado más de una vez (1 y 2). Desde nuestra perspectiva, el interés por estas dos iniciativas fue muy relevante (más de 35.000 personas interesadas en las dos ediciones) y casi 8.000 estudiantes que terminaron con éxito su correspondiente edición. Hemos aprendido mucho en estas dos ediciones. Lo hemos comentado en detalle aquí y aquí. Pero no somos el único que tiene esta perspectiva. Tal y como comentan desde MiriadaX, estamos en el TOP 10 de los cursos que más generaron interés en 2016, por ello hemos hecho propio el dicho: “no hay dos sin tres”. Para esta tercera edición hemos mantenido todo lo aprendido de las anteriores ediciones. Ello significa que: (1) los contenidos del MOOC se fundamentan en materiales y contenidos de nuestro programa de Business Intelligence y Big Data, (2) a lo largo del MOOC se tiene la posibilidad de interactuar con algunos de los profesores responsables y colaboradores en la UOC, (3) mantenemos los cambios introducidos en la segunda edición (por ejemplo, el capítulo entero dedicado a los sistemas de Big Data y a las bases de datos NoSQL, que es una de...