Internet Archive, preservando la web para el futuro

3 julio, 2014

En un futuro no muy lejano, l@s informátic@s de hoy en día deberemos explicar a las nuevas generaciones como era la tecnología de principios del siglo XXI. Un aspecto importante en esta explicación será explicar cómo funcionaba el software de la época y cómo eran los contenidos y tecnologías de la World Wide Web. Vaya, aunque sólo sea para explicar batallitas de lo que hacíamos en nuestros años mozos…

Presentar la informática del pasado es una tarea con un cierto grado de dificultad. Un museo como Bletchley Park está orientado a exponer objetos físicos, de forma que sólo puede ilustrar cómo era el hardware, los dispositivos de almacenamiento (diskettes, CDs, DVDs, …) y el embalaje del software. Una biblioteca física puede encargarse de almacenar el material publicitario, los manuales de usuario y de instalación y el resto de material impreso. Pero la parte intangible, el software y los contenidos de las web, quedan fuera del alcance de estos archivos del conocimiento «tradicionales».

Precisamente con el propósito de crear un archivo digital de contenidos para generaciones futuras, se creó en 1996 el Internet Archive. Inicialmente estaba orientado exclusivamente al World Wide Web, a través del servicio «Wayback Machine» que actualmente almacena 416 miles de millones de páginas web. Este servicio es como una máquina del tiempo que nos permite retroceder a momentos pasados y visitar cómo eran ciertas web en su día (Geocities, qué tiempos aquellos). A pesar de su utilidad y valor histórico, este servicio ha tenido sus más y sus menos con la justicia por temas de propiedad intelectual.

El propósito del Internet Archive se ha ido ampliando con el tiempo a otros tipos de contenidos: textos, audio, imágenes y software. ¿Distribuciones Linux? ¿Juegos shareware? ¿Software Libre en general? ¿Emuladores de Spectrum ZX? Todo esto puede encontrarse en el Internet Archive mediante una sencilla interfície de búsqueda.

El baúl de los recuerdos: la página principal de la UOC en 2002 según el Internet Archive

Un reto al que se enfrenta el Internet Archive (y otras iniciativas similares) es la evolución de la naturaleza de la red. Lo que inicialmente era un conjunto de páginas estáticas, ha ido evolucionando hacia un mundo de páginas dinámicas, Javascript y AJAX, servicios web, etc. Todo era muy fácil cuando el trabajo duro se hacía en el cliente, el navegador web, pero cada vez más la lógica de la web se encuentra repartida entre el cliente y el servidor. Y, en un futuro, este servidor puede dejar de estar disponible dejando la página completamente inservible. Ya existen los primeros señales de alarma sobre la complejidad de preservar el software para el futuro en la época del cloud computing: tal vez sólo seamos capaces de mostrar juguetes rotos.

Por otro lado, podemos almacenar la página principal de servicios como Google, Google Maps, Twitter, Instagram o Facebook pero… ¿qué pasa con el contenido?. Además, muchos de estos servicios requieren estar registrado y presentan contenido personalizado según el usuario. Es complejo preservar dicha información considerando cuestiones como privacidad, propiedad intelectual, el simple tamaño de los datos implicados y su volatilidad.

Resulta irónico que hoy en día un tema candente en Internet sea el derecho al olvido, cuando precisamente la mayor parte de la información que contiene parece destinada a desaparecer…

(Visited 14 times, 1 visits today)

Autor / Autora

Robert Clarisó Viladrosa
Informática, Multimedia y Telecomunicación

Twitter @robertclariso, Página Web

Comentarios

Manolo Palao3 julio, 2014 a las 11:51 am

Hay q estudiar cómo compatibilizar el derecho (y deber) de conservar con el de olvidar.
🙂

Responder

carlos sanchez27 agosto, 2014 a las 10:29 am

El caso de http://www.archive.org no solo se usa como biblioteca virtual sino tambien como lugar para busqueda de contenido para publicarlo posteriormente en blogs y webs, ya que a pesar de estar guardado al ser documentos de paginas con dominios expirados ya no estan indexados y los puedes publicar en google sin que por eso google te penalize. Es curioso como una herramienta pensada para un fin sirve para otro totalmente diferente

Responder

Deja un comentario