Web français : 1,133 milliards de fichiers archivés en 2012

19 04 2013

En France, la Bibliothèque nationale (BNF) et l’Institut national de l’audiovisuel (INA) ont la lourde charge d’entretenir la mémoire du web, avec sans doute l’une des collections les plus vastes au monde. La BNF publiera dans les prochains jours les chiffres de sa moisson annuelle du Web français effectuée entre octobre et décembre 2012. 1,133 milliard de fichiers ont été récupérés et sauvegardés : textes, images, vidéos, sons… Et même les fichiers dits « css », qui décrivent les maquettes des sites Web.La récolte était budgétée sur 30 téraoctets, comme en 2011, contre 24 en 2010, date de la première collecte entièrement réalisée par la BNF. Auparavant celle-ci, comme l’INA, avait acheté des fonds à la fondation américaine à but non lucratif Internet Archive, puis avait utilisé ses services pour réaliser le travail de 2004 à 2008.

L’an dernier, 3,2 millions de sites ont été visités par les logiciels automatiques ou robots de la BNF. Un peu moins de 60 % sont des « .fr » et 30 % des « .com ». Plus précisément, 14 % sont des associations (« .asso ») et 5 % des institutionnels (« .fr »). Et 10 % correspondent à des pages d’erreur. Cette base d’archives ne saurait être exhaustive car, hormis les « .fr » qui sont dûment répertoriés, les autres sites français (commerciaux ou personnels en « .com », par exemple) sont difficiles à recenser. De plus, il reste à définir la fréquence des visites du robot et jusqu’à quelle profondeur il s’enfonce dans le site ; c’est-à-dire combien de liens de la page d’accueil et des suivantes il explore. La BNF a opté pour une collecte large mais annuelle et peu profonde.

L’INA a une autre stratégie, permise par un périmètre limité. Elle archive en permanence quelque 10 900 sites audiovisuels  sur une profondeur de 7 ou 8 clics. Ses robots visitent plusieurs fois par heure les sites les plus dynamiques. Il existe ainsi près de 25 000 versions du site de TF1 en 2012. La base de données totale pèse plus de 160 To, allégée grâce à un système de reconnaissance des fichiers déjà stockés. En outre, celle-ci n’enregistre pas les contenus des chaînes déjà archivés par ailleurs car diffusés à l’antenne. Contrairement à la BNF, tous les contenus ont été indexés, ce qui permet une navigation simplifiée.

Sur des corpus précis – Jeux Olympiques 2012, élections présidentielles, « unes » des journaux… -, la BNF a elle aussi une stratégie plus profonde d’archivage.

Pour des raisons légales, seuls peuvent accéder à ces données, dans les locaux de la BNF ou de l’INA, des « chercheurs ».

L’internaute nostalgique ne pourra que se contenter du site d’Internet Archive  qui recense quelques sites en français.

D’après Le Monde.


Actions

Informations

Laisser un commentaire