«Siempre me sentí acompañada e inspirada para finalizar los estudios de Ciencia de Datos»

25 marzo, 2021

Hablamos con Janneth Alexandra Chicaiza Espinosa, estudiante ecuatoriana del máster universitario de Ciencia de Datos (Data Science) de la UOC para conocer su experiencia como estudiante en la UOC, quien, además, en esta entrevista nos habló sobre el desarrollo de su trabajo final de máster (TFM) «Construcción de un sistema híbrido de preguntas-respuestas de tipo FAQ sobre COVID», dirigido por la doctora Nadjet Bouayad-Agha, profesora colaboradora del Máster.

¿Qué fue lo que más te llamó la atención de la universidad?

Durante mi formación he podido valorar dos aspectos positivos de la UOC. Por una parte, la calidad de todo el sistema, lo cual incluye mallas curriculares, material de estudio, servicios educativos, atención y, por supuesto, valoro la calidad de los tutores. Debo destacar que, a pesar de lo complicado que puede resultar estudiar a distancia, yo siempre me sentí acompañada por mis tutores e inspirada para finalizar el máster en Ciencia de Datos.

Y, por otra parte, la actualización continua del plan de estudios. Mientras estudié, tuve la oportunidad de matricularme en asignaturas optativas que se ofertaban por primera vez. Para quienes estudiamos y trabajamos en el ámbito de las tecnologías de la información y la comunicación es fundamental que la planificación formativa se vaya refrescando en función de la dinámica de las nuevas tecnologías.

¿Cómo fue la experiencia de estudiar en línea? ¿Cuál fue el mayor reto a superar?

Aunque de una forma u otra llevo varios años combinando el aprendizaje en línea con el trabajo, la experiencia de estudiar un programa formal en línea como el Máster universitario en Ciencia de Datos resultó ser un reto para mí, principalmente porque debí gestionar bien el tiempo para poder estudiar y entregar todas mis actividades según la planificación.

De forma concreta, la experiencia de estudiar en línea en la UOC la considero satisfactoria porque, aunque estudias a distancia y por tu propia cuenta, tienes un grupo de tutores que están pendientes de apoyarte y resolver tus dudas. Además, la comunidad de aprendizaje virtual se refleja en las conversaciones o discusiones de los foros de cada asignatura del Máster en Ciencia de Datos.

Hablando un poco de tu Trabajo Final de Máster (TFM), ¿cómo surge el problema del trabajo de investigación?

Durante las dos primeras etapas del proyecto me enfoqué en el estudio de las propuestas relacionadas con los sistemas de pregunta-respuesta y los desarrollos actuales para el dominio de la COVID-19. La pandemia movilizó a especialistas en varias áreas, incluyendo a la comunidad que trabaja en el procesamiento del lenguaje natural, la inteligencia artificial y la recuperación de información. En este sentido, encontramos algunas propuestas enfocadas en proveer respuestas a las preguntas de personal especializado en la enfermedad. Por tanto, decidimos diseñar un sistema de preguntas-respuestas que pudiera proveer información al público general.

Para orientar la solución a otra audiencia, no solo se trató de alimentar el sistema con fuentes de información más general, sino que el reto fue extraer, desde distintas fuentes, información expresada en lenguaje natural, y luego procesar, enriquecer y detectar la información relevante para el sistema.

Para quienes estudiamos y trabajamos en el ámbito de las tecnologías de la información y la comunicación es fundamental que la planificación formativa se vaya refrescando en función de la dinámica de las nuevas tecnologías.

¿Cómo fue el proceso de diseño e implementación del sistema? ¿Por qué se trata de un sistema híbrido?

El diseño e implementación del sistema fue un proceso iterativo y modular, es decir, cada componente fue construido desde una versión básica, y fue evolucionando hasta que pudimos integrar las piezas en un pipeline funcional. El repositorio de información del sistema fue creado desde cero, pero gracias a la ayuda de ciertas tecnologías pudimos automatizar su creación. Para el desarrollo de otros componentes reutilizamos frameworks y modelos existentes, lo cual nos ayudó a acelerar el proceso de implementación de todo el sistema.

El sistema de preguntas-respuestas es híbrido porque utiliza distintos tipos de información y porque, dependiendo de su naturaleza, utilizamos distintas técnicas. Para procesar información textual o no estructurada, utilizamos técnicas de los campos de la recuperación de información y del procesamiento del lenguaje natural, y para recuperar las respuestas desde un repositorio estructurado utilizamos tecnologías tradicionales y otras más actuales, como los grafos de conocimiento.

El trabajo realizado en el TFM no ha terminado y me encuentro trabajando con mi tutora para tener una solución más dinámica, confiable y accesible para el público general.

¿Cómo segmentar la información y las fuentes de información para alimentar el sistema?

Específicamente, utilizamos dos tipos de fuentes: por un lado, pares de preguntas-respuestas obtenidas desde las páginas de preguntas más frecuentes de organizaciones confiables y oficiales en el manejo de la pandemia (como la Organización Mundial de la Salud y los Centros para el Control y la Prevención de Enfermedades). Por otro lado, usamos contenido de la Wikipedia. Si bien es cierto que este último tipo de contenido puede ser catalogado como poco confiable, tiene la ventaja de que está en continua actualización y los eventos que surjan en el contexto de la COVID-19 se irán actualizando en este repositorio colaborativo; así conseguiremos mantener actualizada a la comunidad con las novedades más recientes de la enfermedad.

Con el volumen de información que hay en la red, ¿cómo se actualiza el sistema? ¿Cada cuánto lo hace?

Los procesos de captación y procesamiento de la información han sido automatizados para ser ejecutados cada cierto tiempo. Ahora mismo no está corriendo un plan automático de actualización de la información, pero, durante este tiempo, he estado optimizando los procesos para que puedan ser ejecutados y replicados por cualquier persona interesada, en cualquier momento. El trabajo realizado en el TFM no ha terminado y me encuentro trabajando con mi tutora para tener una solución más dinámica, confiable y accesible para el público general.

¿Cómo se accede al sistema? ¿Cualquiera puede ingresar a la información o es especializada?

La información a partir de la cual se alimenta el sistema es de conocimiento general y no se orienta al público de un país específico. En esta primera fase de construcción del sistema no se implementó una interfaz gráfica para el usuario final; sin embargo, la información, y todo el código generado en el proyecto, pueden ser reutilizados para crear servicios o interfaces que puedan ser utilizados por la comunidad para interactuar con el sistema.

(Visited 154 times, 1 visits today)

Autor / Autora

Comentarios

Deja un comentario