Diferencias de género en la Wikipedia en español (IV)

Diferencias de género en la Wikipedia en español (IV)

En una entrada anterior habíamos dejado pendiente filtrar los editores para quedarnos solamente aquellos que hayan realizado al menos 50 ediciones en la Wikipedia. Para ello, aprovechando la estructura del fichero intermedio de ediciones generado anteriormente, un simple script awk nos permite obtener el número de ediciones por editor:

BEGIN {
  FS=" "
}
 
{
  editor[$3]++
  if ((dini[$3]=="") || ($2<dini[$3])) dini[$3]=$2
  if ((dfin[$3]=="") || ($2>dfin[$3])) dfin[$3]=$2
}
 
END {
  for (e in editor) {
    if (editor[e]>=50) {
      print e, editor[e], dini[e], dfin[e]
    }
  }
}

El script usa arrays asociativos para almacenar el número de ediciones de todos los editores que se van encontrando en el fichero intermedio de ediciones (llamado editor), así como dos arrays asociativos más para almacenar la fecha de la primera y última edición respectivamente (llamados dini y dfin). El bucle final que se ejecuta una sola vez al finalizar el recorrido por el fichero intermedio de ediciones imprime para cada editor su número de ediciones y el intervalo de fechas entre las cuales ha realizado las ediciones, solamente si ha hecho al menos 50. Si ordenamos el resultado por número de ediciones, el resultado es otro fichero intermedio como éste:

1ucian0 50 20150218155426 20191206170558
3MS.Redes 50 20171024071858 20171025112327
6Javier7 50 20190127162242 20190708004541
ARKIMEDESCZ 50 20181117153211 20190628125631
ASLHB 50 20190706234112 20190708182722
Abnazhor 50 20150507135559 20180111115835
Acali1 50 20190520202813 20190714204836
Acros_Starboy 50 20170120073604 20170901032819
Adaneri 50 20190810132753 20191010230111
Aeencalada 50 20171031072646 20171103021505
…

El siguiente paso es obtener el género de los editores identificados mediante las opciones que ofrece la API de MediaWiki. Básicamente se trata de hacer peticiones para obtener el género, pero no de todos los editores identificados (hay 17,752), sino en paquetes de 50, debido a las limitaciones que nos impone la API. Mediante un sencillo script bash podemos ir cogiendo los editores de 50 en 50 y hacer la llamada a la API:

# get_gender_from_API.sh
# get_gender_from_API.sh
 
rm -f genero_API.json
 
inicio=1
 
NNN=`wc -l editores.dat | awk '{print $1}'`
 
while [ $inicio -le $NNN ] 
do
  echo $inicio"/"$NNN
  lista=`tail -n +$inicio editores.dat | 
         head -n 50 | 
         awk '{if (NR>1) printf("|"); printf("%s",$1)}' | 
         sed 's/&/%26/g'`
  wget -o /dev/null -O genero_API.temp "https://es.wikipedia.org/w/api.php?action=query&list=users&ususers=$lista&usprop=editcount|registration|gender&format=json"
  cat genero_API.temp | jq '.query.users[]' >> genero_API.json
  (( inicio+=50 ))
done

La variable lista es la que usa los comandos tail y head de manera que nos quedamos con las 50 líneas a partir de la inicial determinada por la variable inicio, que se va actualizando dentro del bucle while para ir avanzando de 50 en 50. El comando wget realiza una query solicitando a la API los campos con el número de ediciones, fecha de registro y género para la lista especificada como parámetro, devolviendo el resultado en formato JSON, como el siguiente:

{
{
  "userid": 72666,
  "name": "1ucian0",
  "editcount": 50,
  "registration": null,
  "gender": "unknown"
}

En Wikipedia los usuarios registrados pueden especificar en su perfil de usuario su género (solamente en binario, indicando si son hombres “male” o mujeres “female”), o bien dejarlo sin especificar, como en este caso (“unknown”). Un sencillo conteo revela una realidad terrible: de los 17,752 editores, 3,591 se identifican como hombres y solamente 502 como mujeres, mientras que la inmensa mayoría no lo han especificado en su perfil. Por lo tanto, solamente el 12.3% de los editores identificados son mujeres, un porcentaje realmente bajo.

A partir de aquí es posible realizar estudios para analizar las diferencias de género en Wikipedia usando los 3,591+502 editores identificados, de forma que sea posible responder preguntas como las siguientes:

  • ¿Los editores y editoras de Wikipedia están activos un periodo de tiempo parecido desde su primera edición hasta la última?
  • ¿Su participación en Wikipedia es comparable por lo que respecta al número de ediciones, número de páginas creadas, etc.?
  • ¿Editan las mismas páginas o bien se interesan por contenidos diferentes?

En una última entrada realizaremos un experimento para intentar demostrar o refutar alguna hipótesis relacionada con las preguntas mencionadas anteriormente.

Comentar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.