Realización de beneficios en Informática

Venimos predicando por aquí que, aunque entendemos la fascinación por la elegancia de un algoritmo o por la robustez de un artefacto, las TIC tienen sentido si resuelven problemas de la gente y de la empresa y… si la gente y la empresa son capaces de extraer los beneficios de la aplicación de la tecnología para resolver sus problemas. En eso consiste la adopción y uso efectivo de las TIC o, si nos ponemos metafísicos, la diferencia entre el mundo de los objetos y el mundo de los significados, el mundo de lo social. En el fondo, como decía Keen, éste es el sentido del estudio de los sistemas de información.

Reedición de clásico de John Ward sobre Gestión de Benficios

En el nivel macroeconómico, la realización de beneficios de la informática es una combinación de las inversiones en IT y en “capital organizativo”: el esfuerzo dedicado a cambiar la forma de tomar las decisiones y los procesos de trabajo, utilizar la información, desarrollar el talento o relacionarse con el entorno. Esto se llama la teoría de la complementariedad, desarrollada por Brynjolfsson y otros, y cuenta con evidencias cuantitativas que, por ejemplo, han llevado al Instituto de Estadística norteamericano a cambiar su manera de medir la productividad o contabilizar los activos intangibles de las empresas. En el nivel local, en cada organización, la efectividad de la informática parece depender también más de factores organizativos, sociales y culturales. “Típicamente, los beneficios se consiguen a través de cambios intensivos en las prácticas de negocio y la toma de decisiones”, decía Markus, uno de los pioneros del estudio de la gestión de los beneficios de IT. Entre estos factores organizativos, el más importante parece ser la convicción y compromiso de los equipos directivos. Hace unos meses publicamos un artículo largo sobre todo esto en otro lugar.

En el estudio de los sistemas de información y la gestión de proyectos y programas, en los últimos veinte años ha crecido el interés por la realización de beneficios, aunque también la frustración con sus resultados. El manual de referencia es el de John Ward, del que disponemos de una reedición reciente con Elizabeth Daniel. A diferencia de la gestión de proyectos tradicional, enfocada a la implantación de tecnología en alcance, tiempo y coste, la realización de beneficios pone el énfasis en la aportación de valor para el negocio, la involucración de los interesados y la gestión del cambio. Los beneficios se gestionan a lo largo de todo el ciclo de vida del proyecto y más allá: de hecho, comienzan con la definición del proyecto a través de un caso de negocio (qué beneficios se desean conseguir por qué y para qué) y acaban mucho más tarde que cuando acaba el proyecto y se pone en operación un sistema. Una de las piezas centrales de la gestión de beneficios es hacer “revisiones de beneficios” (benefits reviews) después de la implantación.

La gestión de beneficios es aún más importante en la gestión de programas. Dijimos hace un tiempo: “Un programa no es un proyecto, ni muchos proyectos. Un proyecto consigue unos productos (un software, unos manuales, un entrenamiento, una red desplegada, un sistema para medir audiencias…). Un programa produce resultados para la empresa (un aumento de las ventas, la apertura de un nuevo canal, la reducción de los gastos generales…). El éxito de un proyecto se mide por el cumplimiento de una funcionalidad, unos tiempos y unos costes. El éxito de un programa se mide en indicadores financieros (EBITDA, por ejemplo) o no financieros (cuota de mercado, por ejemplo).” Este es el caso de los planes estratégicos de sistemas de información, en los que precisamente se persigue el diseño y despliegue de una estrategia de TI alineada con la estrategia de la empresa. Todo esto no es nada obvio, ni para los equipos de tecnología ni, paradójicamente, para el negocio: la realización de beneficios de IT parece algo mágico, “hacer visible lo invisible”, como decían Marchand y otros colegas en un libro de hace tiempo, como persiguen los supertelescopios de la NASA o algunas formas de fotografía por computador.

Como parte de un proyecto de investigación, estoy trabajando en la actualidad con el área de Tecnología de la propia UOC en el análisis de la ejecución hasta el momento de su Plan Director de SI, en el que hemos incorporado por primera vez una pieza de análisis de la realización de beneficios, que se trabaja internamente por los equipos de TI y luego se comparte y se desarrolla con los clientes internos (los departamentos de negocio y la dirección de la Universidad). Lo primero que entiendo y explico es que un ejercicio como éste es un proceso de aprendizaje y refinamiento sucesivo, que pide paciencia. Después de este proyecto, más allá del análisis y la presentación de sus resultados, deberíamos ser capaces de establecer un tipo de diálogo diferente y de lenguaje compartido que servirá para los próximos proyectos y para la gestión de las relaciones entre el negocio y la informática en el día a día. Y deberíamos haber creado un enfoque y un método para mejor definir y priorizar los esfuerzos de TI y para evaluar su realización.

Os mantendré informados.

 

José Ramón Rodríguez es profesor de dirección de las TIC en diferentes programas de la UOC y consultor independiente. Investiga la planificación y gestión de proyectos de transformación empresarial facilitados por los sistemas y tecnologías de la información.

Smart Cities y datos abiertos: El portal Open Data BCN

Las ciudades inteligentes, Smart Cities en inglés, persiguen garantizar el desarrollo sostenible, haciendo un uso eficiente de los recursos disponibles, para mejorar la calidad de vida de los ciudadanos. Para ello, resulta esencial que ciudad y ciudadanos puedan interactuar y beneficiarse mutuamente de la actividad y conocimiento que se genera en el contexto de la ciudad.

Entre las diferentes opciones e infraestructuras tecnológicas que facilitan el acercamiento entre ciudadanía, gobierno, y la propia ciudad, una de las principales herramientas son los datos abiertos, u open data de su denominación en inglés. Cualquier entidad u organización puede abrir sus datos al público, mediante la publicación de estos en un portal.

En la actualidad muchas de las principales administraciones y gobiernos, así como administraciones regionales y locales, disponen de un portal de datos en abierto. En el caso de la ciudad de Barcelona, la iniciativa surgió el año 2010 para implantarse al año siguiente. El portal Open Data BCN ha ido evolucionando con el paso de los años, tanto en utilización como en las normativas relacionadas con la publicación y acceso a los datos. Su principal objetivo es aprovechar los recursos disponibles, publicando la información generada o custodiada por la administración pública, permitiendo su acceso y reutilización para el beneficio de cualquier persona o entidad interesada.

El portal se enmarca dentro de la estrategia ”Pla Barcelona Ciudad Digital”, liderada por la Comisionada de Tecnología e Innovación Digital, Francesca Bria. Se trata de la hoja de ruta municipal para impulsar la soberanía tecnológica y el empoderamiento de la ciudadanía. Entre otras iniciativas, se pretende crear un ecosistema de datos abiertos de ciudad, quedando reforzada formalmente (y por parte del Ayuntamiento de Barcelona) la publicación de información en formatos abiertos, estándares e interoperables, facilitando su acceso y permitiendo su reutilización.

Para situarnos en los inicios del portal Open Data BCN, podemos remontarnos al “Tablón de edictos”, en el que el Ayuntamiento de Barcelona comunica actos y comunicaciones que, por disposición legal o reglamentaria, deben publicarse obligatoriamente. El concepto evoluciona a diferentes portales del propio Ayuntamiento donde se publica información, y posteriormente a servicios electrónicos donde hay una participación e interacción por parte del ciudadano. Finalmente se llega al concepto de portal “open data”, donde ya existe una colaboración entre Ayuntamiento y ciudadanía. El actual portal Open Data BCN es fruto de una hoja de ruta diseñada conjuntamente entre el Ayuntamiento de Barcelona y la escuela de negocios IESE. La hoja de ruta actual, que cubre el periodo 2016-2020 (la anterior hoja de ruta cubría el periodo 2011-2015), define acciones entre los diferentes actores como Open Data, Transparencia, Ayuntamiento y Ciudad.

Dentro de la estrategia de ciudad digital, el portal Open Data BCN tiene como objetivo conseguir una serie de beneficios alrededor de la eficiencia en la gobernanza como son la mejora de los servicios a los ciudadanos, la generación de actividades de negocio, la transparencia, la mejora de la eficiencia interna, o la generación de actividades de impacto social. En el caso de generación de actividades de negocio, el hecho de ofrecer datos a terceros puede permitir la realización de aplicaciones que el Ayuntamiento no puede hacer, por tiempo, presupuesto o incluso por desconocimiento de la necesidad, y de este modo mejorar la eficiencia del sistema en su conjunto. También se favorece la transparencia interna entre departamentos (que pueden conocer, en algunos casos en tiempo real, información del resto de la administración), así como la transparencia externa con el ciudadano.

En el marco de las actividades del Posgrado de “Smart Cities: Ciudad y Tecnología”, recientemente tuvimos la oportunidad de contar con la presencia de Mª Mercè Fígols, responsable del Proyecto Open Data BCN, con motivo de la presentación de la nueva versión del portal, inaugurado en febrero de este año. En esta presentación, dirigida a los estudiantes del Posgrado, la Sra. Fígols enumeró las principales características y novedades:

  • Tecnología y diseño: El rediseño se ha realizado sobre tecnologías libres y abiertas como CKAN y Drupal . Cuenta, para responder a las crecientes necesidades del portal, con el proveedor tecnológico Alfatec Sistemas junto a la Fundación CTIC (miembro del W3C y del cual su director en España y Latinoamérica, Martín Álvarez Espinar, es a su vez director adjunto del proyecto). En este enlace se puede consultar más información relacionada con la tecnología del portal.
  • Público objetivo: A pesar de que el público objetivo es todo el conjunto de ciudadanos (de Barcelona y de cualquier ciudad del mundo), se hace énfasis en la especialización y orientación del portal a desarrolladores, economistas, analistas de datos, periodistas de datos, emprendedores, diseñadores y creativos, estudiantes, investigadores, profesores, usuarios internos, u otras administraciones.
  • Relación circular: Se potencia una relación circular entre la web del negocio origen de los datos publicados y el portal Open Data BCN, a partir de la inclusión de enlaces cruzados entre ambos sitios web.
  • Reutilización: El portal Open Data BCN es el principal lugar web dentro del Ayuntamiento donde encontrar información pública en formato reutilizable. Dentro de este concepto encontramos la figura del “reutilizador” que abarca desde desarrolladores de aplicaciones hasta periodistas que puedan hacer uso de los datos en sus propias actividades. El objetivo del Ayuntamiento pasa por crear un espacio útil para estos colectivos, mejorando la documentación de las API o ampliando las prestaciones de las actuales para facilitar su uso, además de dar visibilidad a estos trabajos en un apartado específico en el portal.
  • Objetivos principales: Entre los objetivos principales a corto plazo del nuevo portal Open Data BCN se destacan los siguientes: la publicación de más información en el portal, potenciar la relación con los reutilizadores, obtener feedback continuo y directo, enriquecer el portal con las propuestas derivadas de esta relación, y dar visibilidad a las iniciativas y servicios creados con datos abiertos. Empresas, investigadores, otras instituciones públicas o la ciudadanía en general podrán hacer uso de los recursos de información con diversas finalidades, maximizando las posibilidades económicas y sociales que ofrece este proyecto.

Más allá de las características y novedades de la versión actual, en una apuesta innovadora por parte del Ayuntamiento se está trabajando conjuntamente con el Consorci d’Educació de Barcelona y el CESIRE en la introducción de los datos abiertos en los centros de educación secundaria. El objetivo es enseñar a los alumnos a trabajar con los datos, y prepararlos para un futuro en el que los datos serán una de las materias primas del mundo laboral.

El portal mantiene su organización en cinco grupos de datos: Administración, economía y empresa, población, territorio, ciudad y servicios. La publicación de nueva información puede ser de forma reactiva (por disponibilidad inmediata o petición de un usuario) o proactiva (basada en coordinación y planificación entre departamentos y reutilizadores). Ambos modelos tienen sus ventajas y desventajas, aunque la apertura de un recurso de forma proactiva presenta mayores beneficios en cuanto a eficiencia y beneficio por unidad de recurso. En cualquier caso, el portal cuenta con un protocolo de apertura de nuevos recursos que incluye los siguientes pasos:

  1. Identificación del conjunto o conjuntos de datos a abrir, y la priorización en el orden de incorporación.
  2. Conceptualización del recurso, identificando entre otros, los campos que constituirán el recurso, el formato de publicación, la licencia, o la frecuencia de actualización.
  3. Generación del recurso, consistente en la generación del fichero o ficheros de datos, y la definición del proceso de publicación (automática, manual, vía link, etc.).
  4. Publicación en el portal, mantenimiento, y publicidad del nuevo recurso.

La Sra. Fígols acabó su intervención ofreciendo estadísticas del portal Open Data BCN. En mayo de 2017, el portal contaba con 399 datasets, 1.363 incluyendo series históricas, y 2.792 incluyendo hasta 20 formatos diferentes de publicación. De los diferentes sets de datos, más del 97% tienen una clasificación de 3 o más estrellas en la escala definida por Sir Tim Barners-Lee sobre la calidad de los datos abiertos. El portal cuenta aproximadamente con 40.000 visitas mensuales, y unos 6.000 usuarios únicos al mes.

A modo de conclusión, queda claro que los datos son uno de los activos más importantes en el contexto de una ciudad inteligente (o ciudad digital). Las administraciones se esfuerzan en mejorar la transparencia e interacción con los diferentes organismos de gobierno, entidades y los propios ciudadanos, fomentando nuevos conceptos como la economía circular, o la reutilización de los datos. El objetivo final pasa por conseguir una mejor eficiencia en el aprovechamiento de los recursos de la ciudad, desarrollando un nuevo modelo de innovación basado en la transformación y la innovación digital, y la implicación entre los diferentes actores de la ciudad inteligente.

 

Agradecimientos: Maria Mercè Fígols es Licenciada en Matemáticas por la Universidad de Barcelona y responsable del Proyecto Open Data BCN, Instituto Municipal de Informática, Ayuntamiento de Barcelona.

 

Joan Melià es Ingeniero de Telecomunicación por la Universitat Politècnica de Catalunya, y Doctor por la Universidad Oberta de Catalunya. Actualmente trabaja como profesor en la Universitat Oberta de Catalunya, donde participa en el Posgrado en “Smart Cities: Ciudad y Tecnología”.

Carlos Monzo es Ingeniero de Telecomunicación y Doctor por la Universidad Ramon Llull. Actualmente trabaja como profesor en la Universitat Oberta de Catalunya, donde es el Director académico del Posgrado en “Smart Cities: Ciudad y Tecnología”.

Segmentación semántica: de imagen a vídeo

El pasado 6 de julio tuve la oportunidad de asistir a una charla que dio el investigador de Google Deepmind Joao Carreira llamada “Learning video representations from YouTube” en el marco de una summer school sobre Learning Systems impartida en el ETH Zürich. En una entrada anterior comenté los distintos benchmarks que existen para la segmentación semántica de imágenes, tales como PASCAL y Microsoft COCO. La charla en cuestión hacía hincapié en que ya es momento de dar el salto al vídeo, a aprender nuevos modelos a partir de vídeos en lugar de imágenes. Ya que los challenges de imágenes empiezan a estar saturados y las mejoras que se consiguen con tanto poco margen son muy poco significativas y porque sería intuitivo pensar que si la personas aprendemos a partir de nuestra percepción, la cual se asemeja más a información en forma de vídeo (percibimos constantemente la información visualmente), puede que estemos limitando la capacidad de nuestros modelos entrenándolos a partir de imágenes.

En la conferencia más prestigiosa del ámbito de computer vision (Computer Vision and Pattern Recognition, CVPR), el año pasado (CVPR’16) ya aparecieron un par de datasets más interesantes que ya empezaban a ir en esta dirección. Se trata de los datasets Cityscapes Dataset y DAVIS (Densely Annotated VIdeo Segmentation).

La primera de ellas, Cityscapes, consiste en un conjunto de secuencias de vídeo que han sido tomadas desde un coche en varias ciudades, la mayoría de ellas situadas en Alemania. Contiene 5000 secuencias que han sido anotadas con un alto nivel de detalle y 20000 secuencias que no han sido anotadas con tanto detalle. La siguiente figura muestra la diferencia de detalle entre ambas.

Ejemplos de imágenes anotadas en Cityscapes Dataset. Fila superior: anotación detallada (fine annotation). Fila inferior: anotación con menos detalle (coarse annotation).

Cada secuencia tiene una duración de 1.8 segundos y contiene 30 frames. Aunque únicamente se dispone de la anotación (ground truth) para el frame número 20 y no para el resto de la secuencia, el hecho de disponer de ellos permite explotar información temporal para construir mejores modelos. En la página de resultados se puede comprobar cuales son las técnicas del estado del arte para este challenge y también ver si cada una de las técnicas ha aprovechado la información de los 2 tipos de anotaciones (fine and coarse annotations) así como la información temporal (video). Es interesante observar que entre las mejores 20 técnicas, únicamente una de ellas explota la información temporal y es la que ocupa la quinta posición. La explicación la podemos encontrar en la carencia de bases de datos que permitan obtener buenos modelos temporales, ya que la mayoría de técnicas aún se aplican a nivel de frame, para luego llegar a un consenso.

El otro challenge que os comentaba, DAVIS, consiste en secuencias más generales (del estilo de Microsoft COCO), y no se focaliza tanto en un escenario específico como Cityscapes. La base de datos original (DAVIS-2016) consistía de 50 secuencias con un promedio de 70 frames por secuencia. DAVIS-2016 contenía secuencias que se focalizaba en un único objeto en la zona central y con una magnitud de movimiento considerable. Para la nueva edición del CVPR’17 ampliaron la base de datos (DAVIS-2017), constando ahora de 150 secuencias y habiendo un promedio de 2.56 objetos por secuencia. Cabe destacar que el dataset DAVIS tiene todos los frames de las secuencias anotados, a diferencia del que sucede con City Scapes. A continuación os dejo una imagen con ejemplos de secuencias anotadas en DAVIS.

Ejemplos de secuencias anotadas en DAVIS

Ejemplo de anotación de varios frames de una misma secuencia en DAVIS-2017

Podemos ver que ambas bases de datos tienen sus puntos fuertes. Cityscapes dispone de 25000 secuencias anotadas, mientras que DAVIS dispone de 150 secuencias. Por contra, DAVIS tiene un contenido mucho más rico en cuanto a diversidad y, además, tiene todos los frames anotados para cada una de las secuencias. Esto hace que vuelva a la charla que os comentaba inicialmente en el post, donde Joao Carreira presentó una nueva base de datos de vídeo, llamada Kinetics, y que se presentará en el CVPR’17 (a finales de este mes). Esta base de datos contiene 600,000 secuencias de vídeo de YouTube y que tienen 400 acciones humanas, cada una de las cuales aparece en un mínimo de 400 secuencias. Soy consciente que estamos refiriéndonos a otra tarea distinta, que es la que consiste en reconocer acciones humanas (tocar el violín, comer sandía, etc.), pero estamos delante de una nueva base de datos de vídeo un orden de magnitud mayor en cuanto a tamaño. Estaremos frente al nuevo ImageNet pero para vídeo? Esta nueva base de datos permitirá construir mejores modelos que luego se podrán aprovechar para otras tareas como la segmentación semántica? Habrá que ver como evoluciona el campo los próximos meses.

Carles Ventura es profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC). Doctor por la Universitat Politècnica de Catalunya (UPC), imparte cursos de inteligencia artificial y sus principales intereses en investigación se focalizan en el reconocimiento y detección de objetos y la segmentación semántica de imágenes. Es miembro del grupo de investigación SUnAI (Scene Understanding and Artificial Intelligence).

El perfil de un data scientist

Se dice que actualmente hay siete zettabytes de información disponible, que este volumen se duplica cada dos años y que, en un solo día, se produce el doble de información de la que contenía Internet hace veinte años. Pero sólo se analiza un 0,5% de este volumen. Los datos que se recogen actualmente dentro y fuera de las organizaciones poseen unas características que no poseían anteriormente: ocupan un volumen muy grande, se producen en un flujo continuo, proceden de múltiples fuentes (redes sociales, sensores, teléfonos móviles, clics en la web, etc.), se presentan en múltiples formatos (imagen, documentos, etc.) y, sobre todo, ya no se pueden almacenar solo en filas y columnas (tienen una estructura diferente y más compleja). Este gran volumen de datos presenta una gran oportunidad para extraer conocimiento útil para la toma de decisiones en las organizaciones, pero a la vez, las características intrínsecas de estos datos dificultan los procesos de manipulación y análisis asociados.

Las empresas e instituciones se enfrentan al reto de encontrar los profesionales capacitados para aumentar la competitividad de su organización a través de la información obtenida de estos datos. Para ello, buscan profesionales dinámicos y especializados que provienen de diversos orígenes, tales como negocios, ingeniería, tecnología, economía, matemáticas y ciencias, y que sean capaces de identificar, capturar, transformar, analizar e interpretar los datos para impulsar el valor y la innovación aplicada en diversas industrias, como por ejemplo las finanzas, la salud, los bienes de consumo o la tecnología.

Por estos motivos, y por un cierto repunte (hype) de expectativas en el mercado, los científicos de datos son actualmente los profesionales más buscados y mejor pagados en el ámbito de los sistemas y tecnologías de información.

Thomas H. Davenport y D.J. Patil aventuraban que la ciencia de los datos se convertirá en uno de los trabajos más “atractivos” del siglo actual. En España, según la encuesta de Tic.job, la demanda de científicos de datos crece en un 52% anualmente. Muchos de estos puestos se quedan sin cubrir, uno de cada cuatro en 2015, según icrunchdata, el mayor portal del mundo de búsqueda de empleo en gestión de datos. Forbes señala que el de científico de datos va a ser uno de los diez puestos de trabajo más difíciles de cubrir en el año 2016. Según la encuesta anual de la Society for Information Management (Kappelman et. Al, 20167) entre primeros ejecutivos de informática, un 40% de los encuestados señalaban el gap de talento en inteligencia de negocio en la primera posición.

Además, la ciencia de los datos tendrá un peso fundamental en la sociedad según Forbes, ya que será fundamental para abordar 4 de las 10 nuevas tendencias que han estimado para el 2016 (gestionar información de cualquier fuente, machine learning avanzado, plataformas y arquitecturas de Internet of Things (IoT) y arquitecturas avanzadas de sistemas).

La ciencia de los datos (o data science) está integrada por profesionales multidisciplinares que requieren de unos conocimientos profundos en distintas áreas. Esta disciplina engloba los procesos de identificación, captura, pre-procesamiento, análisis y visualización de datos en distintos ámbitos académicos y profesionales (incluyendo empresas de todo tipo, negocios y plataformas electrónicos, ciencias de la salud, servicios públicos, etc.) y en general, en cualquier ámbito sobre el que exista la posibilidad de obtener y procesar datos.

Aún teniendo una idea intuitiva de las tareas y del perfil de una data scientist, actualmente su perfil es un poco “difuso” y no siempre queda del todo claro dónde empiezan y terminan sus conocimientos, competencias y tareas, así como las principales diferencias con otros perfiles relacionados del mundo del análisis de datos y la inteligencia de negocio.

Para intentar poner un poco de luz sobre este tema, y a riesgo de proponer unas definiciones que puedan quedar en cierto punto “obsoletas” en poco tiempo, vamos a comentar un par de documentos accesibles en Internet que definen el perfil y las competencias asociadas a estos nuevos profesionales.

En primer lugar, enumeramos algunas de las principales competencias relacionadas con un científico:

  • Álgebra: conocimientos de cálculo de matrices, geometría de difusión y temas similares en matemáticas aplicadas.
  • Estadística, incluyendo temas como por ejemplo la regresión lineal, regresión multivariable y correlación entre variables.
  • Programación a nivel avanzado. Es necesario dominar los conceptos teóricos de programación estructurada  orientada al objeto, así como los conceptos relacionados de complejidad computacional. Los lenguajes más empleados, actualmente, son Python y R. También es importante conocer el lenguaje de scripting (bash) de los sistemas Unix/Linux.
  • Conocimientos de diseño y uso de bases de datos relacionales. Incluye temas de diseño, como por ejemplo indexación, normalización, constraints o diseño físico; y también conceptos de querying y optimización de consultas. Recientemente también se deben incorporar conocimientos de diseño y uso de bases de datos NoSQL y NewSQL.
  • Conocimientos de sistemas distribuidos (distributed computing y High Performance Computing, HPC), que abarcan conceptos relacionados con los modelos y problemas de la computación distribuida y el almacenamiento de datos distribuidos.
  • Conocimientos profundo de los modelos y algoritmos de minería de datos (data mining) y aprendizaje automático (machine learning). En este campo se incluyen algoritmos supervisados (como por ejemplo, Árboles de decisión, Redes neuronales, métodos probabilísticos, SVM, etc) y no supervisados (agrupamiento jerárquico o k-means) para problemas de clasificación, regresión o clustering.
  • Conocer las distintas tipologías y el ciclo de vida de los datos es, también, una competencia muy relevante en este tipo de profesionales. Aquí se incluyen competencias relacionadas con la captura de datos (IoT, web semántica, open y linked data, entre muchos otros), etiquetado mediante metadatos o procesos de extracción, transformación y carga (ETL, Extraction, Transform and Load). En conjunto, se conoce como modelado de datos o data modeling.
  • Técnicas y herramientas de visualización de datos, que permiten identificar patrones de forma visual o presentar los resultados de una forma clara y concisa. Algunos de las herramientas más relevantes son Tableau, D3.js o Processing.
  • La experiencia y conocimiento del dominio (domain expertise) es, sin duda, una parte clave en el proceso de análisis de datos. Este conocimiento permite entender los datos en toda su profundidad y realizarse las preguntas adecuadas y relevantes.
  • La gestión del proyecto (project management), como en cualquier otro proyecto, ocupa también una parte destacada de los conocimientos y competencias que debe tener un data scientist.
  • Finalmente, pero no por ello menos importante, un científico de datos debe tener los conocimientos éticos y de privacidad necesarios para poder trabajar de forma adecuada con todos los datos que manipula durante la ejecución de un proyecto.

Otro documento muy interesante al respecto de las competencias y perfiles de los data scientist nos lo brinda el UK Government Data Science. En el documento, actualmente en versión borrador, se incluyen algunas partes muy interesantes para ayudarnos a la definición de los roles y competencias de estos profesionales. Veamos algunos de los puntos más relevantes:

Se define el rol y las principales responsabilidades de un data scientist, pero también las categorías o niveles de este tipo de profesionales, que corresponden a:

  • Científico de datos en prácticas (Trainee Data Scientist): Pasan de un conocimiento más teórico de las habilidades básicas de ciencia de datos a un conocimiento más eficaz y práctico. Desarrollan su comprensión de cómo aplicar la ciencia de los datos a los problemas empresariales.
  • Científico de datos junior (Junior Data Scientist): Son responsables de algunos aspectos de los proyectos de ciencia de datos, mientras ganan experiencia práctica. Son capaces de aplicar ciertas técnicas de ciencias de datos y trabajar para desarrollar su capacidad técnica. Trabajan como parte de un equipo multidisciplinario con arquitectos de datos, ingenieros de datos, analistas y otros y proporcionan asesoramiento limitado sobre proyectos de ciencias de datos dentro de los equipos.
  • Científico de datos (Data Scientist): Son competentes en ciencia de datos. Poseen capacidad técnica en una serie de especialidades en ciencias de la información y proporcionan asesoramiento técnico detallado sobre su área de especialización.
  • Científico de datos senior (Senior Data Scientist): Son experimentados científicos de datos que proporcionan apoyo y orientación a los equipos. Son una autoridad reconocida en un conjunto de especialidades. Se involucran con las partes interesadas de alto nivel y defienden el valor de la ciencia de datos. Ellos dirigen a otros perfiles más junior. Comunican el valor de la ciencia de datos a los principales interesados.
  • Jefe de Ciencia de datos (Head of Data Science): Proporcionan liderazgo y dirección a proyectos de ciencia de datos multidisciplinarios, gestionando recursos para asegurar la entrega. Son reconocidos como una autoridad estratégica con experiencia técnica en métodos de vanguardia, y se encargan de definir la visión en toda la organización.

En este documento se identifican un conjunto de capacidades o competencias que los data scientist deben poseer, que junto con el nivel de destreza en cada una de ellas identifica a uno de los cinco roles vistos anteriormente.

A modo de ejemplo, este es el resumen de las competencias y niveles que debe poseer cada uno de los roles vistos:

Fuente: https://github.com/ukgovdatascience/

Os recomendamos la lectura detallada de ambas referencias, que constituyen dos buenas guías (aunque, ni mucho menos, las únicas o las mejores) para empezar a “esclarecer” este espacio difuso que definirá a una de las profesiones “de moda”, pero que a juicio de muchos (incluido el autor) han venido para quedarse.

Para finalizar, me gustaría destacar que la UOC inicia un Máster Universitario en Ciencia de Datos en breve (septiembre 2017), del cual podéis ver el programa y la información relacionada en el siguiente enlace.

Nota: Una versión preliminar de este artículo ha aparecido previamente en el blog de Análisis y Ciencia de Datos de la UOC http://dataanalysis.blogs.uoc.edu/.

 

Jordi Casas es profesor de los Estudios de Informática, Multimedia y Telecomunicación en la UOC y director del Máster Universitario en Ciencia de Datos y del Máster en Inteligencia de Negocio y Big Data. Su docencia se centra en las áreas de ciencia de datos, machine learning, privacidad y teoría de grafos.

Uso inteligente de datos en Sanidad

La Sanidad se identificó ya desde el estudio pionero del Instituto McKinsey como uno de los sectores con mayor potencial para el uso inteligente de datos, incluidos los big data. En el nivel de las operaciones, permite a los clínicos compartir la información de salud del paciente a lo largo de la cadena de cuidados (la asistencia primaria, el hospital, el socio-sanitario o la atención en casa). En el nivel de la gestión, facilita la transparencia y la comparación para reducir la variabilidad de la práctica asistencial, aumentando la calidad y seguridad de la atención; y permite a los reguladores, las compañías de seguros y los compradores de servicios establecer contratos y precios. En el nivel analítico, es una oportunidad para la investigación de nuevos tratamientos, servicios y productos que completen la promesa de una medicina personalizada y predictiva. En todos los casos, facilitan al paciente el acceso a sus datos y a información que desafía el poder de agencia de la industria y los profesionales… La sanidad es un negocio de información y conocimiento.

Principal destino de las inversiones en sistemas de información en sanidad. Fuente: Gartner, Encuesta de CIOs, 2017.

Sin embargo, el mismo estudio y otras fuentes han señalado que la falta de inversión en informática y en talento analítico, por una parte, y, por otra, las estructuras y culturas organizativas que impiden la compartición de datos, están actuando como barrera para realizar los beneficios potenciales del uso masivo de los datos en el sector. Algunos países (Dinamarca, Nueva Zelanda, Irlanda, Singapur…) han establecido en los últimos años estrategias de salud electrónica o e-Health, con energía política y financiación adecuada. En el centro de estas iniciativas no se encuentran grandes modernidades tecnológicas, sino una cosa bastante básica: establecer un modelo de datos común con las mismas reglas semánticas, disponer de un repositorio compartido con funcionalidades y tecnologías más o menos avanzadas, promover estándares técnicos que permitan la integración o, al menos, la interoperabilidad  y reducir el número de proveedores de sistemas de información. En España, las Comunidades Autónomas que disponen de modelos muy centralizados y jerarquizados están un poco más avanzados en ese camino. En otras, como Cataluña, con una gran diversidad de prestadores de servicios sanitarios y atomización de las soluciones tecnológicas, es más difícil, pero es uno de los objetivos de su Plan de Salud, que ya se está desplegando.

Por lo demás, el análisis de las preocupaciones de los CIOs sanitarios no muestra grandes diferencias con sus colegas de otros sectores industriales. En las encuestas de CIOs que venimos analizando aquí de tanto en tanto, la inversión en la familia de soluciones de Inteligencia de Negocio/ Inteligencia Analítica/ Big Data y Ciencia de los Datos sigue siendo el mayor destino de la inversión en niveles muy similares a los de los últimos años y la escasez de talento analítico sigue siendo la mayor barrera para el éxito. Aunque precisamente llama la atención que una parte significativa de los CIOs sanitarios entrevistados colocan el desarrollo de sistemas de sistemas de “historia clínica electrónica” entre los tres principales destinos de la inversión.

La UOC ha venido apostando desde hace tiempo por la formación e investigación en salud digital y, en particular, en el ámbito de datos, con una perspectiva multidisciplinar en la que participan los estudios de Salud, Psicología, Información y Comunicación y, desde luego, los de Informática, Multimedia y Telecomunicación. Recuerdo que los primeros casos prácticos de nuestro Máster de Inteligencia de Negocio ya se basaban en datos y ejemplos de hospitales. El Máster en Bioinformática y Bioestadística, compartido con la Universidad de Barcelona, proporciona contenidos especializados para informáticos, médicos, biólogos o estadísticos. La cátedra UOC-BSA es una iniciativa avanzada de investigación aplicada y análisis de datos en salud. Uno de los mercados principales de Open Evidence, una spin-off de la UOC dedicada al análisis de datos, es precisamente el sector sanitario.

En los últimos días se ha presentado el eHealth Center, un ambicioso proyecto que aspira a convertirse en la escuela de referencia en salud digital en el sur de Europa, trabajando en cuatro ámbitos prioritarios de conocimiento: a) educación y empoderamiento para la salud y habilidades digitales; b) diseño y evaluación de intervenciones en salud electrónica, incluyendo la móvil (aplicaciones de salud); c) ciencia de datos, y, por último, d) salud electrónica y equidad. Hace algunas semanas, varios colegas que participan en esta iniciativa han publicado algunos posts sobre este tema (al menos, aquí y aquí).

 

 

Agradezco a Jordi Piera, CIO y director de Investigación y Desarrollo de BSA y miembro del consejo asesor de la cátedra BSA-UOC, su inspiración y algunas de las referencias del post.

 

José Ramón Rodríguez es profesor de dirección de las TIC en diferentes programas de la UOC y consultor independiente. Investiga la planificación y gestión de proyectos de transformación empresarial facilitados por los sistemas y tecnologías de la información.