Introducción a las bases de datos NoSQL en grafo

Las bases de datos NoSQL ya no son una novedad sino una realidad que encontramos en muchas de las aplicaciones que utilizamos diariamente. En el pasado habíamos comentado las características de este tipo de bases de datos y su evolución. A diferencia de las bases de datos relacionales, las bases de datos NoSQL no responden a un único modelo de datos, sino a un conjunto de ellos. Actualmente existen centenares de sistemas gestores de bases de datos NoSQL, en general muy distintos entre sí. En aras de favorecer la discusión y su comparación, los sistemas gestores de bases de datos NoSQL se clasifican en diferentes familias: los basados en modelos de agregación (que se pueden agrupar en clave-valor, documental o de grandes columnas) y los basados en grafo. Con este post queremos dar inicio a una serie de entradas que sirvan de tutorial a quienes quieran aprender a utilizar bases de datos NoSQL. En esta primera entrada, empezaremos viendo qué es una base de datos en grafo, qué modelo de datos permiten gestionar estas bases de datos y mostraremos algún ejemplo de uso. En las siguientes entradas aprenderemos a utilizar Neo4j, la base de datos en grafo de uso más extendido en la actualidad, según dbengines, y veremos algunos casos prácticos. Las bases de datos NoSQL en grafo permiten representar los datos utilizando estructuras de grafos. Un grafo es una representación abstracta de un conjunto de objetos. Los objetos de los grafos se representan mediante vértices (también llamados nodos) y aristas. El modelo en grafo es útil cuando los datos a almacenar tienen multitud de interrelaciones entre sí, y...

UOC D^2 2018 – Barcelona

El año pasado hicimos dos sesiones sobre Big Data y Data Science. A estos eventos les llamamos UOC Data Day (D^2). Podéis revisar las sesiones aquí. Recordemos qué son los UOC D^2: El UOC Data Day es un evento gratuito enfocado a todas aquellas personas que tengan interés en las nuevas tecnologías relacionadas con los datos. Se llevaran a cabo charlas con académicos y profesionales apasionados por compartir conocimientos en este ámbito. Empezamos con la edición en Barcelona el próximo 16 de Mayo, para la que –creemos– hemos preparado un programa muy interesante. 16:00 – Bienvenida y presentación de la jornada 16:15 – Experiencias del uso de Kaggle en el entorno educativo superior, por Laia Subirats (Data science researcher en Eurecat (Technology Centre of Catalonia)) 16:45 – Propagación de la mora en redes financieras, por Jordi Nin (Senior Data Scientist en BBVA Data & Analytics) 17:15 – Networking & Coffee 17:45 – ¿Cómo estructurar un buen proyecto de Machine Learning?, por Anna Bosch Rué (VP Data Intelligence at Launchmetrics) 18:15 – Descifrar la red cerebral: el gran desafío de la neurociencia del S.XXI, por Eloy Martínez de las Heras (Investigador Postdoctoral en el grupo ImaginEM. Hospital Clínic de Barcelona e IDIBAPS) 18:45 – Q&A y clausura Más información e inscripciones: https://symposium.uoc.edu/20699/detail/uoc-data-day-2018-barcelona.html ¡Os esperamos en el UOC Data Day (D^2)!   Nota: Este artículo ha aparecido previamente en el blog de Análisis y Ciencia de Datos de la UOC: http://dataanalysis.blogs.uoc.edu/. Josep Curto es director académico del Máster en Inteligencia de Negocio y Big Data (MiB) en los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya. También es director de Delfos Research, empresa especializada en la investigación de los mercados...

El Plan de Sistemas de Salud de Catalunya

En estos días se han publicado dos documentos interesantes. La revista The Economist dedica la portada y una sección extensa a la revolución de los datos en el sector sanitario (“a revolution in health care”). Los artículos repasan los beneficios a los que nos referimos aquí hace poco, poniendo énfasis en el traspaso de conocimiento y poder a los pacientes (the doctor is you) y a las máquinas, y muestran un conjunto de experiencias y soluciones, con su rigor y elegancia casi siempre habituales. Los datos en sanidad están esta quincena en la portada del Economist; el paso siguiente es que sean el personaje del año del Time. El segundo documento es el Pla Director de Sistemes d’Informació del SISCAT  (el sistema sanitario de Cataluña), que se propone como una estrategia de transformación digital en beneficio de pacientes y profesionales basada en los datos. He participado, junto con otros profesores y colaboradores de la UOC, en el Plan y por lo tanto tengo todos los sesgos y subjetividades del caso, agravados por la proximidad de la publicación. Pero creo que eso no me impide resumir sus rasgos principales y las oportunidades que potencialmente abre. El Plan es una de las pocas iniciativas recientes, ambiciosas e integrales de transformación de los sistemas de información de salud en Europa (sólo se me ocurren Irlanda y Dinamarca). Es complicado hacer planificación de sistemas diversificados en un modelo sanitario bastante desintegrado y politizado y aquí nos encontramos con un esfuerzo paciente y hercúleo. Aún más lo es establecer un proceso balanceado entre la participación y colaboración de múltiples actores (hasta 300 participantes en el proyecto), liderado internamente, y...

MOOC BI y Big Data: a la cuarta va la vencida

Comentábamos el año pasado que no hay dos sin tres. Y este año decimos que a la cuarta va la vencida. Así que ¡volvemos con la cuarta edición del MOOC “Introducción al Business Intelligence y Big Data“! Durante los últimos tres años hemos adquirido una buena experiencia en el ámbito de los MOOCS a través de la plataforma MiriadaX, que ya comentamos en su momento aquí y aquí. Teniendo en cuenta la gran aceptación de las anteriores ediciones y la gran cantidad de personas que no pudieron realizar anteriores ediciones hemos decido repetirlo una vez más. Este MOOC, como su título indica, es inteligencia de negocio y Big Data, competencias que llevamos formando desde hace más de una década y que son absolutamente cruciales en la actualidad para trabajar y gestionar escenarios VUCA y en el que es necesario convertirse en una organización orientada al dato, como hemos comentado más de una vez (1 y 2). Hemos preparado un vídeo para presentar esta edición: Tras tres ediciones el interés ha sido fenomenal: más de 42.600 personas interesadas en las tres ediciones y casi 9.800 estudiantes que terminaron con éxito su correspondiente edición. Hemos aprendido mucho en estas tres ediciones. Lo hemos comentado en detalle aquí, aquí y aquí. Para esta cuarta edición hemos mantenido la misma estructura que en la tercera edición y sólo algunos pequeñas correcciones aquí y allá. El curso tiene una introducción donde explicamos los objetivos y capacidades, la estructura del programa y la metodología y claves para un seguimiento efectivo y se desarrolla durante un mes a través de cinco módulos docentes: Introducción al BI. Es un módulo conceptual de presentación de los sistemas de Inteligencia de Negocio, sus usos...

Arquitectura como estrategia: algunos ejemplos (y II)

En la entrada anterior, comenzamos a desplegar el concepto de arquitectura de empresa, “la lógica que organiza los procesos de negocio y la infraestructura de TI de una manera que refleje los requerimentos de integración y estandarización del modelo operativo de la empresa”. Allí presentamos varios modelos diversificados, o sea aquellos que no necesitan compartir ni datos ni procesos, pero pueden compartir parte de la infraestructura técnica o de las aplicaciones por razones principalmente económicas, no estratégicas. Descargar (PDF, 182KB) Modelos de arquitectura de empresa En los sistemas coordinados, el grupo comparte datos y transacciones de sus clientes, productos o proveedores, porque existe una integración vertical de las operaciones, aunque las empresas sean jurídica y económicamente independientes y los procesos de gestión no necesiten ser los mismos. Es el caso de la relación entre los fabricantes y los distribuidores o la de algunos tipos de franquicia. El lema sería: “si quieres trabajar conmigo, tienes que compartir la información”. En estos sistemas, los participantes facilitan interfaces de aplicación, visores remotos o cargan sus datos a través de servicios web o plataformas de integración más sofisticadas. Frecuentemente, esta solución es lenta o incómoda y acaba siendo más práctico disponer de repositorios comunes a los que cualquier miembro del grupo puede acceder en cualquier momento. La organización de la informática es más compleja, con modelos federados, donde el centro define políticas y estándares, pero cada unidad de negocio decide independientemente sobre sus procesos y soluciones. En las empresas globales, con plantas o filiales en todas partes, que hacen básicamente lo mismo en cualquier lugar, para clientes que también suelen ser globales, la organización de...

Plataformas y ecosistemas en BI, BA, Big Data y Data Science

No es la primera vez que hablamos sobre ecosistemas y plataformas, de hecho el interés viene de lejos. Últimas noticias de las anteriores semanas nos hacen volver a poner la atención en este punto. De hecho un par. Por un lado, la reciente compra de Fast Forward Labs por parte de Cloudera para reforzar su línea de Data Science (fundamentada en otra adquisición – Sense Platform – en 2016). Por otro, la disponibilidad de un nuevo backend para MongoDB llamado Stitch, que buscar facilitar la integración de la base de datos en desarrollos y aplicaciones. Como ya sabemos, en los últimos años las tecnologías para capturar, almacenar, procesar, analizar y visualizar datos tiene un marcado acento open source. Existen múltiples componentes alrededor de Apache Hadoop, Apache Spark, Apache Flink o MongoDB, por nombrar algunas. Aunque existen tantas que es complicado seguir la pista a como evoluciona tantos actores. Un buen intento es el Big Data Landscape. Escoger la mejor plataforma de datos, se convierte en una tarea titánica y es natural que surjan plataformas integradas (y empresas que den soporte a dichas plataformas) como las conocidas Hortonworks, Cloudera, Data Artisans o Databricks. ¿Hacía dónde se dirigen estas plataformas? En anteriores movimientos de mercados, vimos cómo los proveedores de mercado complementaron su solución incluyendo módulos de analítica de negocio (proporcionando análisis basados en parámetros). Por lo que emergieron las plataformas combinando módulos de inteligencia y analítica de negocio. En esta etapa los últimos movimientos del mercado nos ofrecen otro panorama. Los fabricantes de plataformas empresariales de negocio están interesado en capitalizar el movimiento de Data Science, e integran componentes de Machine Learning, entornos de trabajos flexibles (basados en Jupyter, Apache Zeppelin o similares) e incluso fichando equipos para ofrecer servicios profesionales. Cloudera no han sido los primeros (por ejemplo, ya...