El perfil de un data scientist

Se dice que actualmente hay siete zettabytes de información disponible, que este volumen se duplica cada dos años y que, en un solo día, se produce el doble de información de la que contenía Internet hace veinte años. Pero sólo se analiza un 0,5% de este volumen. Los datos que se recogen actualmente dentro y fuera de las organizaciones poseen unas características que no poseían anteriormente: ocupan un volumen muy grande, se producen en un flujo continuo, proceden de múltiples fuentes (redes sociales, sensores, teléfonos móviles, clics en la web, etc.), se presentan en múltiples formatos (imagen, documentos, etc.) y, sobre todo, ya no se pueden almacenar solo en filas y columnas (tienen una estructura diferente y más compleja). Este gran volumen de datos presenta una gran oportunidad para extraer conocimiento útil para la toma de decisiones en las organizaciones, pero a la vez, las características intrínsecas de estos datos dificultan los procesos de manipulación y análisis asociados.

Las empresas e instituciones se enfrentan al reto de encontrar los profesionales capacitados para aumentar la competitividad de su organización a través de la información obtenida de estos datos. Para ello, buscan profesionales dinámicos y especializados que provienen de diversos orígenes, tales como negocios, ingeniería, tecnología, economía, matemáticas y ciencias, y que sean capaces de identificar, capturar, transformar, analizar e interpretar los datos para impulsar el valor y la innovación aplicada en diversas industrias, como por ejemplo las finanzas, la salud, los bienes de consumo o la tecnología.

Por estos motivos, y por un cierto repunte (hype) de expectativas en el mercado, los científicos de datos son actualmente los profesionales más buscados y mejor pagados en el ámbito de los sistemas y tecnologías de información.

Thomas H. Davenport y D.J. Patil aventuraban que la ciencia de los datos se convertirá en uno de los trabajos más “atractivos” del siglo actual. En España, según la encuesta de Tic.job, la demanda de científicos de datos crece en un 52% anualmente. Muchos de estos puestos se quedan sin cubrir, uno de cada cuatro en 2015, según icrunchdata, el mayor portal del mundo de búsqueda de empleo en gestión de datos. Forbes señala que el de científico de datos va a ser uno de los diez puestos de trabajo más difíciles de cubrir en el año 2016. Según la encuesta anual de la Society for Information Management (Kappelman et. Al, 20167) entre primeros ejecutivos de informática, un 40% de los encuestados señalaban el gap de talento en inteligencia de negocio en la primera posición.

Además, la ciencia de los datos tendrá un peso fundamental en la sociedad según Forbes, ya que será fundamental para abordar 4 de las 10 nuevas tendencias que han estimado para el 2016 (gestionar información de cualquier fuente, machine learning avanzado, plataformas y arquitecturas de Internet of Things (IoT) y arquitecturas avanzadas de sistemas).

La ciencia de los datos (o data science) está integrada por profesionales multidisciplinares que requieren de unos conocimientos profundos en distintas áreas. Esta disciplina engloba los procesos de identificación, captura, pre-procesamiento, análisis y visualización de datos en distintos ámbitos académicos y profesionales (incluyendo empresas de todo tipo, negocios y plataformas electrónicos, ciencias de la salud, servicios públicos, etc.) y en general, en cualquier ámbito sobre el que exista la posibilidad de obtener y procesar datos.

Aún teniendo una idea intuitiva de las tareas y del perfil de una data scientist, actualmente su perfil es un poco “difuso” y no siempre queda del todo claro dónde empiezan y terminan sus conocimientos, competencias y tareas, así como las principales diferencias con otros perfiles relacionados del mundo del análisis de datos y la inteligencia de negocio.

Para intentar poner un poco de luz sobre este tema, y a riesgo de proponer unas definiciones que puedan quedar en cierto punto “obsoletas” en poco tiempo, vamos a comentar un par de documentos accesibles en Internet que definen el perfil y las competencias asociadas a estos nuevos profesionales.

En primer lugar, enumeramos algunas de las principales competencias relacionadas con un científico:

  • Álgebra: conocimientos de cálculo de matrices, geometría de difusión y temas similares en matemáticas aplicadas.
  • Estadística, incluyendo temas como por ejemplo la regresión lineal, regresión multivariable y correlación entre variables.
  • Programación a nivel avanzado. Es necesario dominar los conceptos teóricos de programación estructurada  orientada al objeto, así como los conceptos relacionados de complejidad computacional. Los lenguajes más empleados, actualmente, son Python y R. También es importante conocer el lenguaje de scripting (bash) de los sistemas Unix/Linux.
  • Conocimientos de diseño y uso de bases de datos relacionales. Incluye temas de diseño, como por ejemplo indexación, normalización, constraints o diseño físico; y también conceptos de querying y optimización de consultas. Recientemente también se deben incorporar conocimientos de diseño y uso de bases de datos NoSQL y NewSQL.
  • Conocimientos de sistemas distribuidos (distributed computing y High Performance Computing, HPC), que abarcan conceptos relacionados con los modelos y problemas de la computación distribuida y el almacenamiento de datos distribuidos.
  • Conocimientos profundo de los modelos y algoritmos de minería de datos (data mining) y aprendizaje automático (machine learning). En este campo se incluyen algoritmos supervisados (como por ejemplo, Árboles de decisión, Redes neuronales, métodos probabilísticos, SVM, etc) y no supervisados (agrupamiento jerárquico o k-means) para problemas de clasificación, regresión o clustering.
  • Conocer las distintas tipologías y el ciclo de vida de los datos es, también, una competencia muy relevante en este tipo de profesionales. Aquí se incluyen competencias relacionadas con la captura de datos (IoT, web semántica, open y linked data, entre muchos otros), etiquetado mediante metadatos o procesos de extracción, transformación y carga (ETL, Extraction, Transform and Load). En conjunto, se conoce como modelado de datos o data modeling.
  • Técnicas y herramientas de visualización de datos, que permiten identificar patrones de forma visual o presentar los resultados de una forma clara y concisa. Algunos de las herramientas más relevantes son Tableau, D3.js o Processing.
  • La experiencia y conocimiento del dominio (domain expertise) es, sin duda, una parte clave en el proceso de análisis de datos. Este conocimiento permite entender los datos en toda su profundidad y realizarse las preguntas adecuadas y relevantes.
  • La gestión del proyecto (project management), como en cualquier otro proyecto, ocupa también una parte destacada de los conocimientos y competencias que debe tener un data scientist.
  • Finalmente, pero no por ello menos importante, un científico de datos debe tener los conocimientos éticos y de privacidad necesarios para poder trabajar de forma adecuada con todos los datos que manipula durante la ejecución de un proyecto.

Otro documento muy interesante al respecto de las competencias y perfiles de los data scientist nos lo brinda el UK Government Data Science. En el documento, actualmente en versión borrador, se incluyen algunas partes muy interesantes para ayudarnos a la definición de los roles y competencias de estos profesionales. Veamos algunos de los puntos más relevantes:

Se define el rol y las principales responsabilidades de un data scientist, pero también las categorías o niveles de este tipo de profesionales, que corresponden a:

  • Científico de datos en prácticas (Trainee Data Scientist): Pasan de un conocimiento más teórico de las habilidades básicas de ciencia de datos a un conocimiento más eficaz y práctico. Desarrollan su comprensión de cómo aplicar la ciencia de los datos a los problemas empresariales.
  • Científico de datos junior (Junior Data Scientist): Son responsables de algunos aspectos de los proyectos de ciencia de datos, mientras ganan experiencia práctica. Son capaces de aplicar ciertas técnicas de ciencias de datos y trabajar para desarrollar su capacidad técnica. Trabajan como parte de un equipo multidisciplinario con arquitectos de datos, ingenieros de datos, analistas y otros y proporcionan asesoramiento limitado sobre proyectos de ciencias de datos dentro de los equipos.
  • Científico de datos (Data Scientist): Son competentes en ciencia de datos. Poseen capacidad técnica en una serie de especialidades en ciencias de la información y proporcionan asesoramiento técnico detallado sobre su área de especialización.
  • Científico de datos senior (Senior Data Scientist): Son experimentados científicos de datos que proporcionan apoyo y orientación a los equipos. Son una autoridad reconocida en un conjunto de especialidades. Se involucran con las partes interesadas de alto nivel y defienden el valor de la ciencia de datos. Ellos dirigen a otros perfiles más junior. Comunican el valor de la ciencia de datos a los principales interesados.
  • Jefe de Ciencia de datos (Head of Data Science): Proporcionan liderazgo y dirección a proyectos de ciencia de datos multidisciplinarios, gestionando recursos para asegurar la entrega. Son reconocidos como una autoridad estratégica con experiencia técnica en métodos de vanguardia, y se encargan de definir la visión en toda la organización.

En este documento se identifican un conjunto de capacidades o competencias que los data scientist deben poseer, que junto con el nivel de destreza en cada una de ellas identifica a uno de los cinco roles vistos anteriormente.

A modo de ejemplo, este es el resumen de las competencias y niveles que debe poseer cada uno de los roles vistos:

Fuente: https://github.com/ukgovdatascience/

Os recomendamos la lectura detallada de ambas referencias, que constituyen dos buenas guías (aunque, ni mucho menos, las únicas o las mejores) para empezar a “esclarecer” este espacio difuso que definirá a una de las profesiones “de moda”, pero que a juicio de muchos (incluido el autor) han venido para quedarse.

Para finalizar, me gustaría destacar que la UOC inicia un Máster Universitario en Ciencia de Datos en breve (septiembre 2017), del cual podéis ver el programa y la información relacionada en el siguiente enlace.

Nota: Una versión preliminar de este artículo ha aparecido previamente en el blog de Análisis y Ciencia de Datos de la UOC http://dataanalysis.blogs.uoc.edu/.

 

Jordi Casas es profesor de los Estudios de Informática, Multimedia y Telecomunicación en la UOC y director del Máster Universitario en Ciencia de Datos y del Máster en Inteligencia de Negocio y Big Data. Su docencia se centra en las áreas de ciencia de datos, machine learning, privacidad y teoría de grafos.

2 Comments

  1. ¿ Para cuando un grado en ciencia de datos ?

    Reply
    • En ello estamos…
      Pero estos temas van despacio, así que, como mínimo, setiembre 2019.

      Reply

Comentar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Leer entrada anterior
Uso inteligente de datos en Sanidad

La Sanidad se identificó ya desde el estudio pionero del Instituto McKinsey como uno de los sectores con mayor potencial...

Cerrar