Diferencias de género en la Wikipedia española

En una entrada anterior presentábamos lo interesante que resulta Wikipedia como laboratorio para realizar investigaciones multidisciplinares en diferentes ámbitos de conocimiento. Como artefacto construido colaborativamente por millones de usuarios de todo el mundo, Wikipedia es un reflejo de nuestra sociedad y, por lo tanto incorpora de forma implícita sus hábitos y sesgos, entre ellos la brecha de género, documentada por diversos autores, entre los cuales podemos destacar un trabajo reciente de Ford y Wajcman (2017). La mayoría de estudios sitúa el porcentaje de mujeres editoras alrededor del 10%, muy lejos del 50% esperado y muy por debajo también de los objetivos propuestos por la Wikimedia Foundation, la cual en 2011 se propuso llegar al 25% en 2015, sin conseguirlo.

En esta entrada no analizaremos los motivos y causas que hacen que este porcentaje sea tan pequeño, sino que utilizaremos Wikipedia como un escenario donde obtener datos para contrastar el estado actual de dicha brecha de género. Para ello plantearemos una serie de pasos en diferentes entradas en este blog, propuestos como ejercicios abiertos, de forma que usando diferentes herramientas del ámbito de la ciencia de datos sea posible responder a la siguientes preguntas: 

  • ¿Cuál es el porcentaje de mujeres editoras en la Wikipedia en castellano? Obviamente, nos referimos a usuarios registrados que indican su género en su perfil de usuario. Por otra parte, esta pregunta puede plantearse en otras versiones de idioma.
  • ¿Son hombres y mujeres igualmente activos en Wikipedia por lo que respecta a número de ediciones, número de páginas editadas, etc.? 
  • ¿Qué páginas editan hombres y mujeres en Wikipedia? ¿Son las mismas o hay diferencias significativas entre géneros?
  • De aquellos usuarios de los cuales no conocemos el género, ¿es posible deducirlo a partir de su actividad y de qué páginas editan?

Lo haremos paso a paso, de acuerdo a la siguiente planificación:

  1. Obtener los datos relativos a las ediciones realizadas por los usuarios registrados, los cuales pueden identificar en su perfil de usuario si son hombres o mujeres, que es lo que queremos analizar. Esto consistirá en:
    1. Descargar el último dump de la Wikipedia en castellano que contiene todas las ediciones realizadas, no el contenido sino sus metadatos, concretamente quién edita qué página en qué momento y con qué resultado (bytes añadidos o eliminados, supresión de páginas, etc.). El último dump se puede encontrar aquí, y se trata del fichero que tiene por nombre eswiki-latest-stub-meta-history.xml.gz, el cual tiene un tamaño ligeramente superior a 7 GB, y eso que está comprimido.
    2. Recorrer todo el fichero de ediciones y descartar todas aquellas realizadas por usuarios no registrados (incluyendo aquellas hechas por usuarios anónimos, y que quedan identificadas por una dirección IP o MAC).
    3. Descartar también las ediciones realizadas por bots, los cuales son un tipo especial de usuario registrado pero que pueden identificarse dado que se mantiene una lista de bots conocidos.
    4. Seleccionar solamente aquellas ediciones que se han realizado en un período de tiempo reciente, digamos por ejemplo 5 años, descartando las anteriores.
Wikipedia género

El objetivo de este primer paso es obtener un fichero de texto en un formato plano, como CSV, por ejemplo, que contenga solamente la información deseada (el orden de los campos no es relevante):

usuario;página;fecha y hora de la edición;bytes añadidos o suprimidos

De esta manera será posible saber qué usuarios han editado qué página, o que páginas ha editado un usuario, en función del orden escogido para este fichero intermedio.

  1. A partir del subconjunto de ediciones seleccionadas en el paso anterior, generaremos un fichero conteniendo, para cada usuario, un resumen de su actividad en la Wikipedia en castellano, aspecto que desarrollaremos en una entrada posterior.
  2. Seguidamente, para cada usuario accederemos a la API que proporciona Wikimedia Foundation, con el objetivo de conocer diversos datos sobre el mismo, como su género (si lo ha especificado), la fecha en la cual se registró y otros datos disponibles. De esta manera será posible tener una primera estimación del número de mujeres editoras y determinar si hay diferencias entre hombres y mujeres por lo que respecta a su comportamiento como editores. Este punto también lo desarrollaremos en una entrada posterior.
  3. Finalmente, para aquellos usuarios de los cuales ha sido posible identificar el género, intentaremos construir un modelo estadístico y/o de minería de datos que, a partir de su actividad en Wikipedia y las páginas que edita un usuario cualquiera, sea capaz de predecir su género. Una vez el modelo está construido y validado, lo usaremos para predecir el género de aquellos usuarios para los cuales no fue posible establecer su género a partir de la información presente en su perfil de usuario. De esta manera, y combinando los resultados obtenidos, podremos refinar la estimación anterior, añadiendo un margen de confianza a nuestra predicción.

Por lo tanto, os animamos a intentar resolver el punto 1, el cual plantea diversos retos:

  • Recorrer un documento enorme en formato XML.
  • Descartar usuarios no registrados identificados por una dirección IP o MAC, usando expresiones regulares.
  • Crear una lista de bots conocidos y filtrarlos.
  • Seleccionar aquellas ediciones realizadas en los últimos 5 años de los usuarios registrados restantes, generando el fichero deseado.

Para ello podéis usar cualquier combinación de herramientas, librerías (mejor si son de código abierto) y lenguajes de programación, aunque ya existen soluciones parciales a algunos de los problemas planteados implementadas en Python, especialmente para manipular dumps de Wikipedia, lo cual os puede servir de pista para empezar.

Esperamos que este reto que os hemos planteado sea de vuestro interés y que os sirva de ejemplo sobre cómo usar un escenario como Wikipedia para plantearse preguntas relevantes sobre su funcionamiento, mientras aprendemos a manipular ficheros de gran tamaño. En posteriores entradas de este blog iremos proporcionando soluciones a las preguntas planteadas y desarrollaremos los puntos descritos anteriormente para intentar alcanzar los objetivos planteados.

Julià Minguillón es profesor de los estudios de Informática, Multimedia y Telecomunicación de la UOC. Su ámbito de conocimiento es el aprendizaje virtual (e-learning) y recursos educativos abiertos. También es investigador en el grupo LAIKA.


1 Comment

  1. Un trabajito arduo y complicado, creo que lo voy a intentar, aunque no dispongo de todos los conocimientos necesarios.

    Reply

Comentar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.