Diferencias de género en la Wikipedia en español (III)

Diferencias de género en la Wikipedia en español (III)

En una entrada anterior habíamos visto cómo obtener un fichero de texto con todas las ediciones realizadas en la Wikipedia en español, conteniendo solamente la información que nos interesa: de qué página se trata, el timestamp indicando el momento cuando se realizó la edición, qué usuario realizó la edición y el tamaño resultante de la página después de la edición. El siguiente paso que abordamos en este ejercicio consiste en reducir dicho fichero, todavía enorme, eliminando todas aquellas entradas que no nos interesan para nuestro objetivo final, el cual no es otro que analizar las posibles diferencias de género entre los editores. Esto no nos interesa desde el inicio de Wikipedia, sino desde hace, por ejemplo, 5 años (de hecho, desde el 2015 en adelante). Por lo tanto, el siguiente paso es filtrar el fichero obtenido en el ejercicio anterior para: Eliminar entradas anteriores a 01/01/2015.Eliminar entradas identificadas por una dirección IP (y no por un usuario registrado).Eliminar entradas realizadas por bots. Para ello usaremos una combinación de herramientas, básicamente awk y grep, pero antes procederemos a obtener la lista de bots de Wikipedia en español. Para ello nos aprovecharemos que todos los bots se encuentran categorizados como tales mediante una categoría específica en Wikipedia: https://es.wikipedia.org/wiki/Categoría:Wikipedia:Bots Está página de Wikipedia contiene, en el momento de realizar este ejercicio, 9 subcategorías y 472 páginas, apuntando a cada uno de los bots. Para obtener los nombres de los bots tenemos diferentes opciones: la más sencilla, si pensamos que este ejercicio solo lo vamos a ejecutar una vez, consiste en cortar y pegar los nombres de los usuarios presentes en esta página...
Diferencias de género en la Wikipedia española (II)

Diferencias de género en la Wikipedia española (II)

Vamos a empezar a resolver el ejercicio que dejamos pendiente en una entrada anterior sobre las diferencias de género existentes en la Wikipedia en español. El objetivo es mostrar cómo manipular los dumps de Wikipedia usando diferentes instrucciones y herramientas desde la línea de comandos del sistema operativo para analizar aspectos como las desigualdades de género presentes. En nuestro caso hemos utilizado como entorno de trabajo un ordenador MacBook Pro con el sistema operativo macOS, con diferentes extensiones (herramientas) que ya iremos introduciendo cuando sean requeridas, pero debería ser posible realizar las mismas operaciones en diferentes entornos. El primer paso, sencillo de ejecutar pero costoso en tiempo, es descargar el último dump de la Wikipedia en español, y lo hacemos mediante el uso de la herramienta wget desde la línea de comandos: wget https://dumps.wikimedia.org/eswiki/latest/eswiki-latest-stub-meta-history.xml.gz En nuestro caso, en el momento de ejecutar este comando la última versión del dump hacía referencia al día 02/02/2020 y se trata de un fichero comprimido .gz de unos 7,5 GB, el cual puede tardar varios minutos en descargarse, dependiendo de la velocidad de descarga. A unos 5 MB/s esto significa casi 26 minutos, así que no se trata de un fichero que se tenga que ir moviendo de sitio continuamente. Una vez descargado el fichero, procedemos a descomprimirlo con gunzip y mucha paciencia: gunzip -d https://dumps.wikimedia.org/eswiki/latest/eswiki-latest-stub-meta-history.xml.gz Después de un buen rato, esto genera un fichero con extensión .xml que ocupa unos 50 GB, por lo que habrá que tener suficiente espacio en disco para realizar estas dos operaciones. Al descomprimir el fichero .gz completamente, éste es eliminado automáticamente. El siguiente paso es recorrer...