Novel Coronavirus, une collection de l‘International Internet Preservation Consortium

ArchiveIt Novel coronavirus ex espagne.png

Titre

Novel Coronavirus, une collection de l‘International Internet Preservation Consortium

Description

Préserver la mémoire numérique de la pandémie: la collecte collaborative d'archivage du web de l'International Internet Preservation Consortium

Cette illustration combine deux captures d'écran extraites de la collection Novel Coronavirus accessible sur le site d'Internet Archive et créée dès février 2020 par l'IIPC : celle du haut présente le titre de la collection tel qu’il est présenté sur Internet Archive, celle du bas est un extrait de la page web du Centro Nacional de Epidemiología collectée par l’IIPC et accessible à tous sur Internet Archive. Le graphique inséré au milieu a été réalisé par Sophie Gebeil lors de son étude sur la représentation des pays de la Méditerranée et de la zone MENA (Middle East and North Africa) dans la collecte Novel Coronavirus de l’IIPC. Il indique que, sur plus de 10000 contenus, les principales langues utilisées, témoignant ainsi d'une présence conséquente de contenus en espagnol.

La collecte impulsée par l’IIPC dès février 2020, fut l’occasion pour des pays ne disposant pas d’organisme de collecte dédié, de participer à la conservation des traces de la pandémie. Rompu aux collectes concernant des événements transnationaux, le Groupe de Développement de Contenu de l’IIPC piloté par Nicola Bingham (UK Web Archive) et Alex Thurman a mis en place un dispositif de collecte exceptionnel en accord avec Internet Archive (Bingham & Geeraert, 2020). La fondation états-unienne a en effet augmenté le budget de stockage alloué à l’IIPC, passant de 3 To à 5 To permettant ensuite l’identification des pages Web à collecter en ligne en vue de la création, via Archive-It, d’une collection accessible sur le site de la fondation états-unienne.

Dans le cadre du projet Web Archives of the COVID-19 Crisis  qui doit permettre d’approfondir l’étude de la collection rassemblée par l’IIPC en partenariat avec Internet Archive, grâce aux outils du programme The Archive Unleashed (Ruest et al., 2020), nous avons eu accès à la base de données de l’IIPC.

La collection rassemble, en février 2021, 10664 contenus concernent 137 pays dans 51 langages distincts. Ceux-ci proviennent principalement de pays européens (Danemark, France, Norvège, Hollande, Espagne, Portugal) et américains (États-Unis, Brésil, Pérou, Uruguay), les États-Unis représentant près d’un cinquième des contenus. Cela correspond en partie à des institutions membres de l’IIPC particulièrement actives au sein du réseau. Cette surreprésentation européenne et américaine se retrouve dans les langages référencés indépendamment du pays de publication : 31% de la collection est en anglais, 25% en espagnol, 18% en portugais, 7% en français.

La patrimonialisation du web est une dynamique principalement impulsée depuis les pays anglo-saxons et européens, même si ces dernières années la Chine, la Corée du Sud, ou encore la Malaisie ont investi dans la préservation de leur patrimoine nativement numérique. Or en Méditerranée, l’archivage du web reste balbutiant, y compris au sein d’États membres de l’Union Européenne (Italie, Espagne).

Le moissonnage des contenus s’est basé sur une double dynamique. D’une part, les membres de l’IIPC se sont vu adresser un guide de collecte ciblant des thèmes privilégiés (origine du coronavirus, information sur les symptômes, confinements, restrictions, aspects médicaux, sociaux, économiques et politiques) afin de pouvoir ensuite proposer des adresses URLs pertinentes repérées en ligne. Les suggestions étaient recensées dans un tableur collaboratif au sein duquel les membres devaient renseigner des métadonnées basiques concernant les URLs sélectionnées : titre, langage, description, extension du nom de domaine, pays, nom du moissonneur, périmètre de collecte (totalité du site hôte ou bien seulement une page). D’autre part, l’IIPC a diffusé un questionnaire en anglais réalisé sous Google Form, ouvert au public, permettant à tout internaute ou institution non-membre de l’IIPC de donner des suggestions en renseignant les informations citées précédemment pour chaque URL proposée. Les pages Web étaient privilégiées par rapport aux contenus issus des réseaux socionumériques. Contrairement à l’accès soumis à la règlementation du dépôt légal, les contenus collectés sont accessibles en ligne, ce qui a conduit les responsables à sélectionner la qualité des informations afin d’éviter de contribuer à la diffusion de rumeurs.

Couverture spatiale

International
Espagne

Couverture temporelle

Date

Type

Site web

Langue

Contributeur

Relation

Schafer V., Aasman S., Brügger N., Clavert F., De Wild K., Gebeil S., Analysing Web Archives of the COVID-19 Crisis through the IIPC collaborative collection, IIPC, https://netpreserveblog.wordpress.com/2021/11/02/analysing-web-archives-of-the-covid-19-crisis-through-the-iipc-collaborative-collection-early-findings-and-further-research-questions/

Aasman S., Bingham N., Brügger N., De Wild K., Gebeil S., Schafer V. (2021). Chicken and Egg: Reporting from a Datathon Exploring Datasets of the COVID- 19 Special Collections, Warcnet Papers, https://cc.au.dk/fileadmin/dac/Projekter/WARCnet/Aasman_et_al_Chicken_and_Egg.pdf

Gebeil, Sophie, " Archive-moi si tu peux ". À la recherche du patrimoine nativement numérique de la pandémie en Méditerranée et MENA. Communication, Organisation, Société du Savoir et Information, 2021, n°11, https://revue-cossi.numerev.com

Geeraert Friedel and Bingham Nicola, Exploring special web archives collections related to COVID-19: The case of the IIPC Collaborative collectio, WARCnet Papers ISSN 2597-0615, https://cc.au.dk/fileadmin/user_upload/WARCnet/Geeraert_et_al_COVID-19_IIPC__1_.pdf

Référence bibliographique

Capture de la page d'accueil de la collection Novel Coronavirus sur le site d'Internet Archive, 2021-04-12, https://archive-it.org/collections/13529
Graphique représentant les principaux langages présents dans la collection (mars 2022), Sophie Gebeil
Version archivée d'une page web du site du Centro Nacional de Epidemiología espagnol, datée du 12 avril 2021, https://wayback.archive-it.org/13529/20210412224206/https://cnecovid.isciii.es/covid19/

Source

Novel Coronavirus, IIPC, Archive It, https://archive-it.org/collections/13529

Droits

Graphique : Sophie Gebeil, Creative Commons,  Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)

Ayants droit

Internet Archive, service Archive-it :
https://archive-it.org/blog/learn-more/
International Internet Preservation Consortium : https://netpreserve.org
Centro Nacional de Epidemiología : https://www.isciii.es
Sophie Gebeil pour le graphique