Diferencias de género en la Wikipedia en español (IV)

Diferencias de género en la Wikipedia en español (IV)

En una entrada anterior habíamos dejado pendiente filtrar los editores para quedarnos solamente aquellos que hayan realizado al menos 50 ediciones en la Wikipedia. Para ello, aprovechando la estructura del fichero intermedio de ediciones generado anteriormente, un simple script awk nos permite obtener el número de ediciones por editor: BEGIN {   FS=" " }   {   editor[$3]++   if ((dini[$3]=="") || ($2<dini[$3])) dini[$3]=$2   if ((dfin[$3]=="") || ($2>dfin[$3])) dfin[$3]=$2 }   END {   for (e in editor) {     if (editor[e]>=50) {       print e, editor[e], dini[e], dfin[e]     }   } } El script usa arrays asociativos para almacenar el número de ediciones de todos los editores que se van encontrando en el fichero intermedio de ediciones (llamado editor), así como dos arrays asociativos más para almacenar la fecha de la primera y última edición respectivamente (llamados dini y dfin). El bucle final que se ejecuta una sola vez al finalizar el recorrido por el fichero intermedio de ediciones imprime para cada editor su número de ediciones y el intervalo de fechas entre las cuales ha realizado las ediciones, solamente si ha hecho al menos 50. Si ordenamos el resultado por número de ediciones, el resultado es otro fichero intermedio como éste: 1ucian0 50 20150218155426 20191206170558 3MS.Redes 50 20171024071858 20171025112327 6Javier7 50 20190127162242 20190708004541 ARKIMEDESCZ 50 20181117153211 20190628125631 ASLHB 50 20190706234112 20190708182722 Abnazhor 50 20150507135559 20180111115835 Acali1 50 20190520202813 20190714204836 Acros_Starboy 50 20170120073604 20170901032819 Adaneri 50 20190810132753 20191010230111 Aeencalada 50 20171031072646 20171103021505 … El siguiente paso es obtener el género de los editores identificados mediante las opciones que ofrece la API de MediaWiki. Básicamente se trata de hacer peticiones para obtener el género, pero...
Diferencias de género en la Wikipedia en español (III)

Diferencias de género en la Wikipedia en español (III)

En una entrada anterior habíamos visto cómo obtener un fichero de texto con todas las ediciones realizadas en la Wikipedia en español, conteniendo solamente la información que nos interesa: de qué página se trata, el timestamp indicando el momento cuando se realizó la edición, qué usuario realizó la edición y el tamaño resultante de la página después de la edición. El siguiente paso que abordamos en este ejercicio consiste en reducir dicho fichero, todavía enorme, eliminando todas aquellas entradas que no nos interesan para nuestro objetivo final, el cual no es otro que analizar las posibles diferencias de género entre los editores. Esto no nos interesa desde el inicio de Wikipedia, sino desde hace, por ejemplo, 5 años (de hecho, desde el 2015 en adelante). Por lo tanto, el siguiente paso es filtrar el fichero obtenido en el ejercicio anterior para: Eliminar entradas anteriores a 01/01/2015.Eliminar entradas identificadas por una dirección IP (y no por un usuario registrado).Eliminar entradas realizadas por bots. Para ello usaremos una combinación de herramientas, básicamente awk y grep, pero antes procederemos a obtener la lista de bots de Wikipedia en español. Para ello nos aprovecharemos que todos los bots se encuentran categorizados como tales mediante una categoría específica en Wikipedia: https://es.wikipedia.org/wiki/Categoría:Wikipedia:Bots Está página de Wikipedia contiene, en el momento de realizar este ejercicio, 9 subcategorías y 472 páginas, apuntando a cada uno de los bots. Para obtener los nombres de los bots tenemos diferentes opciones: la más sencilla, si pensamos que este ejercicio solo lo vamos a ejecutar una vez, consiste en cortar y pegar los nombres de los usuarios presentes en esta página...
Diferencias de género en la Wikipedia española (II)

Diferencias de género en la Wikipedia española (II)

Vamos a empezar a resolver el ejercicio que dejamos pendiente en una entrada anterior sobre las diferencias de género existentes en la Wikipedia en español. El objetivo es mostrar cómo manipular los dumps de Wikipedia usando diferentes instrucciones y herramientas desde la línea de comandos del sistema operativo para analizar aspectos como las desigualdades de género presentes. En nuestro caso hemos utilizado como entorno de trabajo un ordenador MacBook Pro con el sistema operativo macOS, con diferentes extensiones (herramientas) que ya iremos introduciendo cuando sean requeridas, pero debería ser posible realizar las mismas operaciones en diferentes entornos. El primer paso, sencillo de ejecutar pero costoso en tiempo, es descargar el último dump de la Wikipedia en español, y lo hacemos mediante el uso de la herramienta wget desde la línea de comandos: wget https://dumps.wikimedia.org/eswiki/latest/eswiki-latest-stub-meta-history.xml.gz En nuestro caso, en el momento de ejecutar este comando la última versión del dump hacía referencia al día 02/02/2020 y se trata de un fichero comprimido .gz de unos 7,5 GB, el cual puede tardar varios minutos en descargarse, dependiendo de la velocidad de descarga. A unos 5 MB/s esto significa casi 26 minutos, así que no se trata de un fichero que se tenga que ir moviendo de sitio continuamente. Una vez descargado el fichero, procedemos a descomprimirlo con gunzip y mucha paciencia: gunzip -d https://dumps.wikimedia.org/eswiki/latest/eswiki-latest-stub-meta-history.xml.gz Después de un buen rato, esto genera un fichero con extensión .xml que ocupa unos 50 GB, por lo que habrá que tener suficiente espacio en disco para realizar estas dos operaciones. Al descomprimir el fichero .gz completamente, éste es eliminado automáticamente. El siguiente paso es recorrer...