On sait tout on oublie tout

Dans un article précédent (article Pas de problème on veille sur vous) nous évoquions la formidable quantité d’informations générée chaque jour sur le net. L’humanité produit autant d’informations en deux jours qu’elle ne l’a fait en quatre milles ans. Mais combien de ces informations disparaissent chaque jour ? Combien sont irrémédiablement perdues,  sombrent dans l’oubli,  disparaissent à jamais ?

Le Web n’oublie rien ?

Il est de bon ton de nos jours de lancer des assertions du type : « le web n’oublie rien« . Rien n’est plus FAUX !!!! L’information sur le net peut disparaître. La mémoire de l’internet est volatile, parfois sélective, et surement pas exhaustive. Le net est atteint d’Alzheimer. Voici 10 raisons concrètes pour lesquelles la mémoire du net est fragile :

1

« disparition de masse : quand gratuité = précarité »

Un hébergeur de site gratuit qui disparaît, et ce sont des milliers (voire des centaines de milliers) de pages qui disparaissent ! L’exemple de la disparition de Geocities est édifiant,  même si certains nostalgiques du gif animé ont réussi à en sauver une partie. Les « pages perso » gratuites hébergées chez Lycos sont aussi passées par pertes et profits. Et là nous parlons des plus connus. Qui se souvient de f2o.org ? Parfois l’hébergeur continue d’exister mais supprime sans préavis les pages qui n’ont pas été mises à jour depuis x mois, ou bien celles qui ne lui plaisent pas (yes i’m talking to you free.fr).

2

« tué par son propre auteur : user deleted content »

L’auteur d’un article peut le supprimer ou le modifier. Tout simplement ! C’est valable pour les auteurs de blogs, d’articles, de commentaires, de post de forum… Qui n’a jamais fait l’expérience de tomber sur une « page not found » en lieu et place du super article  trouvé et « bookmarké » il y a seulement quelques jours ?

3

« le replay disparu »

Les vidéos en replay : après 7 jours c’est fini. Parfois moins, parfois plus, mais en règle générale, la vidéo que l’on souhaite revoir tombe très vite dans les oubliettes. « Mais où est donc passé le replay de cette émission de géopolitique très pointue ? et ce documentaire très fouillé sur la physique quantique ?  » Tombé au champ d’honneur, ça n’est pas grave, on se consolera avec 24 H de Nyan Cat sur Youtube.

4

« retrouvé mort dans un(e page) parking »

De nombreux noms de domaine expirent chaque jour.  Ce sont des disparitions pures et simples. Les noms de domaines sur internet ne sont pas immortels, loin de là. Que celui qui n’a jamais fait la douloureuse expérience de tomber sur une page parking là où il y avait un site intéressant me jette la première pierre.

5

« you’re going to pay »

L’accès à un article devient payant après une certaine période comme sur lemonde.fr par exemple. Certains journaux online procèdent de la sorte, l’accès aux articles parus après un certain laps de temps devient payant. L’info n’a pas vraiment disparu, mais c’est comme dans certains établissements : faut payer pour voir.

6

« le grand nettoyage »

Les demandes de retrait effectuées auprès de Google grâce au droit à l’oubli.  Cette fois on a affaire à un glissement dans le web profond, les contenus n’ont pas forcément disparu, mais leur accès devient très difficile. On considérera ceci comme une semi disparition. Tout comme avec certains professionnels qui peuvent faire « disparaître » une info : les nettoyeurs. Il s’agit ici d’information « noyée dans la masse »,  « planquée sous un flot d’informations », tel un cadavre enterré profondément sous un massif de géranium.

7

« télécharge ou crève »

Les fichiers disponibles en téléchargement sur les sites d’hébergement tel que dl.free.fr, rapidshare, rghost.ru, etc… ont souvent une durée de vie limitée :  ils disparaissent au bout de 30 jours ou bien disparaissent s’ils n’ont pas été téléchargés pendant x jours, etc… Sans compter que de tels hébergeurs peuvent aussi disparaitre (voir n°1), souvenons-nous de megaupload.

8

« n’oublie pas que tu vas mourir »

Les réseaux sociaux dont la spécialité est d’être éphémère :  SnapChat, Facebook Poke. Ainsi que les sites du type « imageboard » (ex : 4chan), dont le contenu s’efface régulièrement : la durée de vie d’un thread, selon sa popularité, peut varier entre quelques minutes et plusieurs heures (dixit wikipedia).

9

« tueurs niais »

Des pages wikipedia qui sont purement et simplement supprimées (historique compris), cela arrive plus souvent qu’on ne le pense. Les censeurs ultra zélés sont légions sur cette encyclopédie en ligne.

10

« drame de la vieillesse »

Des anciennes versions de logiciels qui deviennent indisponibles (seule la dernière version en date étant téléchargeable). La plupart du temps,  il vaut mieux être à jour avec ses logiciels, mais ça n’est pas toujours le cas ! logiciel qui se transforme en « bloatware », logiciel qui cède à la tentation d’installer des « barres » ou autres saloperies, logiciel qui régresse (oui ça arrive ! ça n’est pas le monopole de Microsoft), problèmes de compatibilité, de nombreuses raisons existent de vouloir se procurer une ancienne version.

Et cette liste n’est pas exhaustive.

La résurrection pour les nuls

Nous venons de voir les nombreuses causes qui peuvent entraîner la disparition de l’information. Mais que faire alors pour retrouver le saint Graal ? Peut-on redonner vie à l’information disparue ? On entend déjà venir les pro du web : « mais non, ça n’a pas disparu,  je suis un pro du web : le cache Google est ton ami, archive.org aussi »

Çà n’est pas faux, on peut tenter d’enrayer la perte de mémoire du web : un outil comme Firefox Resurrect Pages peut s’avérer précieux et faire gagner du temps, ce dernier va consulter entre autre le cache de Google, et le site archive.org à la recherche d’une trace de la page disparue que l’on souhaite déterrer ressusciter. Des sites tels que oldversion ou oldapps permettent de retrouver des vieux logiciels.

C’est un bon début, mais ça n’est pas la panacée, voici pourquoi :

Le cache de Google n’est pas éternel : un jour ou l’autre, l’information disparaîtra (du moins pour l’utilisateur…)
archive.org c’est bien mais :
– certains sites ne sont jamais trouvés et archivés par archive.org
– nombre de pages archivées sont des pages d’erreur 404 ! page not found
– une ligne dans le robot.txt permet d’interdire l’archivage sur archive.org.

Droit à l’oubli  VS  devoir de mémoire

Le web est un champ de bataille entre les forces conservatrice de données (Google cache, archive.org, les gentils qui ont « sauvé » geocities, etc.) et les forces obscures destructrices de données (les vilains nettoyeurs,  Google !, etc.)… et oui nous sommes des Geeks. Tiens Google serait le bien et le mal à la fois ?

Pour bien se rendre compte de l’ampleur du phénomène, n’hésitez pas à tenter cette expérience : un coup de CTRL+D systématique sur toutes les pages différentes sur lesquelles on navigue et on revient voir plusieurs mois après. Résultat garanti : plus de la moitié ont disparu, c’est la fête de la page parking et de la page 404.

La vraie question est :  quelle est la valeur de l’information ? (c’est subjectif !!). On pourrait espérer que ce sont les informations sans intérêt, inutiles, pauvres qui disparaissent, ne subsistant que le haut du panier. Malheureusement dans les faits on constate que ça n’est pas le cas, on pourrait même croire que c’est l’inverse ! les photos de nu de telles ou telles « stars » sont coriaces, pendant que des sujets de thèse passionnants sur le bruit de Johnson s’évaporent dans la nature.

Conclusion

Avant de conclure, nous proposons une minute de silence pour nos chers disparus :

– altavista
– chatroulette
– vitaminic
– spray.fr
– caramail
– second life
– myspace
– google reader, google wave, google code, google orkut, google knol, google answer, etc.

Donc en résumé, le seul moyen d’échapper à la perte de mémoire généralisée :  sauvegardez !!!!! sauvegardez !!!!!sauvegardez !!!!! sauvegardez !!!!! car pour retrouver c’est pas facile.

Luc dit Lopia & l’Homme à la cigarette électronique