Wikipedia como laboratorio de investigación

Wikipedia es, sin lugar a duda, el mayor esfuerzo colaborativo realizado por la humanidad. Aunque no necesite presentación, podemos destacar que la Wikipedia en su versión inglesa apareció el 15 de enero de 2001 y hoy ya contiene más de 5.600.000 artículos en ese idioma, aunque existen más de 290 versiones en diferentes idiomas con más de 46 millones de artículos.

La versión catalana destaca por ser la segunda Wikipedia creada tras la inglesa y cuenta ya con casi 580.000 artículos. En lo que se refiere a la versión castellana, contiene actualmente más de 1.400.000 artículos, y representa la novena Wikipedia en tamaño y la cuarta en cuanto a número de ediciones y número de editores considerados en activo. Todos estos datos pueden ser consultados aquí.

Debido a su volumen y estructura de enlaces, se trata de un sitio web muy bien posicionado en los ránkings de los buscadores -aparece habitualmente en las primeras posiciones de cualquier búsqueda-, lo que la hace muy popular en Internet, generando suficiente tráfico como para aparecer en la 5a posición del ránking de Alexa.

En Wikipedia se dan encuentro contenidos (los artículos), estructuras organizativas como las categorías, portales y anexos y, obviamente, los usuarios, ya sean anónimos o registrados, los cuales generan un volumen de interacción entre ellos y los contenidos muy considerable.

Esto hace de Wikipedia un laboratorio único para realizar investigación sobre temas muy diversos:

  • Sistemas de traducción automática que aprenden de las diferentes versiones lingüísticas de un mismo artículo en diferentes idiomas.
  • Extracción automática de ontologías a partir de la estructura jerárquica de categorías y subcategorías.
  • Diferencias en la creación de contenidos y comportamiento de los editores en función de su género.
  • El uso de Wikipedia y su percepción como herramienta docente por parte de profesores y estudiantes.
  • Wikipedia como mecanismo para la diseminación de contenidos científicos-tecnológicos entre el público no especializado.
  • La propagación de noticias y el interés de los lectores en un tema en función de las búsquedas realizadas y las páginas visitadas.
  • Análisis de comunidades de interés a partir de la estructura de enlaces entre un grupo de páginas.
  • Análisis longitudinal de la cobertura de contenidos en un ámbito de conocimiento.
  • Esquemas de confianza y reputación de contenidos y usuarios.
  • Desarrollo de bots y agentes inteligentes para la automatización de tareas de edición y supervisión.

La prueba más evidente son los más de 7.000 trabajos publicados sobre Wikipedia en la literatura científica, lo que muestra el interés que despierta. Por volumen, los temas más importantes que se han investigado usando Wikipedia como fuente u objeto de interés son los aspectos semánticos ligados al contenido, la recuperación automática de información, el desarrollo de sistemas para el procesamiento del lenguaje natural, el análisis de redes sociales y el desarrollo de algoritmos de minería de datos e inteligencia artificial. Como se puede ver, predominan los estudios del área de ciencias de la computación e inteligencia artificial, pero también los hay de ciencias sociales y de estudios de arte y humanidades, destacando temas como el comportamiento de los usuarios, el consumo de información y la educación, entre otros.

Para realizar estos estudios, se cuenta con diferentes mecanismos y orígenes de datos:

  • Los volcados (dumps) que se publican periódicamente de cada versión idiomática de Wikipedia, que permiten disponer de una fotografía fija en un momento dado.
  • La API de Wikipedia que permite extraer información sobre páginas y usuarios de forma automatizada en tiempo real.
  • Datos publicados por Wikimedia Foundation sobre la actividad realizada en Wikipedia.
  • Las encuestas a usuarios de Wikipedia, sean editores o no.

El análisis de estos datos representa un reto, especialmente por su volumen, dado que los volcados que se generan de Wikipedia contienen toda la información disponible hasta la fecha, incluyendo todo el contenido, las ediciones realizadas y la discusión generada entre los editores. Esto supone disponer de almacenamiento para varios centenares de gigabytes en función del análisis que se desee realizar, así como la capacidad computacional necesaria para manipular dicha cantidad de datos.

Todo esto hace de Wikipedia un laboratorio único para la investigación multi e interdisciplinar en diferentes ámbitos de conocimiento, abarcando tanto aspectos tecnológicos como de gestión del conocimiento y del comportamiento de los usuarios, proporcionando datos masivos al respecto. Su importancia como recurso universal hace de Wikipedia una herramienta básica para la diseminación del conocimiento, ofreciendo múltiples oportunidades a investigadores, profesores y también empresas y organizaciones interesadas en el desarrollo de nuevas herramientas y aplicaciones. Wikipedia llegó para quedarse y claramente sigue aquí con el mismo objetivo.

 

Julià Minguillón es profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC. Sus ámbitos de conocimiento son el aprendizaje virtual (e-learning) y los recursos educativos abiertos. Es investigador del grupo LAIKA (Learning Analytics for Innovation and Knowledge Application in Higher Education) y fue responsable del área de Investigación Aplicada del eLearn Center.

Comentar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Leer entrada anterior
Notas de literatura y estrategia de sistemas de información

Me refiero a la literatura académica sobre la estrategia de los sistemas de información. 0.  En los tiempos que corren...

Cerrar