En janvier 2026, comme les années précédentes, se tenait, à l’Unesco à Paris, le symposium annuel de la fondation Software HeritageFootnote 1. Celui-ci accueillait des acteurs et des actrices du patrimoine numérique, des entreprises investies dans le secteur du logiciel et plus largement du numérique, des représentantes et des représentants du monde politique, de la recherche et de l’enseignement intéressés par les données et la science ouvertes, un public universitaire et bien d’autres parties prenantes encore. Toutes et tous étaient sensibles à ce projet, né en 2016 et parmi les derniers venus dans le champ du patrimoine nativement numérique, qui a fait du code sourceFootnote 2, de sa préservation et de son accessibilité sa mission. Défini en 2003 par l’Unesco dans une charte relative à sa conservationFootnote 3, le patrimoine dit « nativement numérique » – pour le distinguer du patrimoine numérisé – connaît une grande diversité d’approches et d’acteurs. Son histoire commence en amont des années 2000, avec la création, notamment, de la fondation états-unienne Internet Archive en 1996Footnote 4. Ce type de patrimoine englobe des objets aussi variés que des bases de données, des archives du Web, des courriels, des jeux vidéo, des podcasts, des logiciels ou encore leur code source. En outre, les formats, les espaces, les interfaces, les plateformes de collecte comme d’accès et les usages se renouvellent à un rythme soutenu. Les institutions patrimoniales ont peu à peu intégré la préservation des contenus des réseaux sociaux numériques (ou en tout cas de certains d’entre eux), en déployant de nouvelles procédures de collecte, différentes de celles employées pour les sites web. Le développement des systèmes d’intelligence artificielle générative, dont ChatGPT n’est qu’une application parmi bien d’autres, pose aussi aujourd’hui la question de leurs traces : que préserver des prompts (les requêtes des utilisateurs), des textes et des images générés par ces systèmes ?
Au sein du patrimoine nativement numérique, ce sont les archives du Web qui ont été les plus explorées par le monde de la rechercheFootnote 5. Elles ont bénéficié des efforts des institutions patrimoniales pour les préserver, pour les faire connaître et les rendre accessibles. Elles s’inscrivent en France dans le cadre du dépôt légal du Web, défini par la loi DAVSDI de 2006Footnote 6. Les courriels, objets de collecte dans le champ politique, institutionnel et administratif, sont quant à eux soumis à de forts enjeux légaux et éthiques, renforcés par le Règlement général sur la protection des données (RGPD) et ses différentes implémentations dans les droits nationaux des États membres de l’Union européenne depuis 2016Footnote 7.
Les politiques de collecte, de conservation mais aussi de documentation et (re)documentarisation ne sont ainsi pas figées et évoluent au sein d’un écosystème en constante négociation. Il faut ajouter à cela une forte demande sociale sur des contenus et des données qui présentent des enjeux politiques certains, comme ceux, par exemple, qui concernent le mouvement Black Lives MatterFootnote 8 ou les archives en ligne des institutions culturelles de l’UkraineFootnote 9, mises en péril par la guerre déclenchée par la RussieFootnote 10. Si ces attentes de communautés, de mouvements activistes, de militants et militantes, ou plus largement de citoyens et citoyennes ne sont pas nouvelles, elles trouvent ici une dimension, une échelle et un écho internationaux inédits.
Il existe à cet égard des asymétries entre pays dotés ou non de politiques de conservation, de moyens techniques et humains plus ou moins conséquents, de périmètres de collecte plus ou moins larges. Les défis et les paradoxes de la conservation et de la documentation sont constants. D’un côté, les limites techniques sont sans cesse repoussées et de nouveaux modes de traitement et moyens sont expérimentés, tandis que des outils d’intelligence artificielleFootnote 11, pouvant aider à la collecte, à l’indexation ou à l’analyse, sont introduits. De l’autre, ce champ repose aussi sur des héritages importants, celui des initiatives des grandes bibliothèques nationales, qui relèvent d’une tradition issue du document papier, du dépôt légal et du droit d’auteur. Le mouvement d’incitation à l’ouverture des données dans le monde culturel comme dans celui de la recherche rend cette tension particulièrement visible, car les données ne sont pas toujours aisément accessibles, exportables, exploitables ou partageables, pour des raisons juridiques, mais aussi parfois techniques ou organisationnelles.
Alors que les sciences politiques et celles de l’information et de la communication s’emparent de ces corpus, dans le champ historique, le recours à ces sources concerne aujourd’hui principalement les recherches menées sur la période contemporaine récente et sur le temps présent (après les années 1990), mais il va sans doute se systématiser. Les archives du Web sont, aujourd’hui, encore peu utilisées dans les thèses françaises d’histoire contemporaineFootnote 12, mais on imagine difficilement que les historiens et historiennes du xxie siècle ne mobilisent pas les traces et les archives numériques que les sociétés ont fait naître, et ce sans se limiter aux archives du Web, mais en incluant également les bases de données, les courriels, etc. Or, le développement de telles recherches implique de prêter attention aux logiques de collecte, de documentation et de « mise en données » des sources nativement numériquesFootnote 13. Cela renvoie à ce que l’on appelle la « redocumentarisation », en suivant Jean-Michel Salaün :
Pour définir la re-documentatisation, il faut commencer par s’entendre sur le terme « documentarisation ». Documentariser, c’est ni plus ni moins traiter un document comme le font, ou le faisaient, traditionnellement les professionnels de la documentation (bibliothécaires, archivistes, documentalistes) : le cataloguer, l’indexer, le résumer, le découper, éventuellement le renforcer, etc. […].
Le numérique, par nature, implique une re-documentarisation. Dans un premier temps, il s’agit de traiter à nouveau des documents traditionnels qui ont été transposés sur un support numérique en utilisant les fonctionnalités de ce dernier. Mais le processus ne se réduit pas à cette simple transposition. En effet, bien des unités documentaires du Web ne ressemblent plus que de très loin aux documents traditionnels. Dans le Web 2.0, dans la construction du Web sémantique ou tout simplement sur les sites dynamiques, la stabilité du document classique s’estompe et la redocumentarisation prend une tout autre dimension. Il s’agit alors d’apporter toutes les métadonnées indispensables à la reconstruction à la volée de documents et toute la traçabilité de son cycleFootnote 14.
Pour saisir les pratiques, les réussites et les limites des opérations de (re)documentarisation, il s’agit de penser d’abord la manière dont sont traitées, transformées et « augmentées » les sources nativement numériques – au point que le chercheur Niels Brügger parle pour les archives du Web non plus de « born digital heritage » mais de « reborn digital heritage »Footnote 15. Ainsi une page web archivée est-elle redocumentarisée, et les gestes de collecte et d’archivage, loin d’être des enregistrements d’une information déjà là, modifient, nourrissent, augmentent le matériau initial. Il faut alors prendre en compte la diversité et l’évolution des approches de redocumentarisation, mais aussi les cheminements de la recherche, à l’instar du développement de méthodes de lecture distante, qui traitent les données au moyen d’outils computationnelsFootnote 16.
Or, documentation et redocumentarisation conditionnent en grande partie notre capacité à exploiter les archives nativement numériques. Il est dès lors essentiel d’en saisir les caractéristiques, les acteurs et les effets sur la recherche en sciences humaines et sociales, tout en pensant les continuités et les ruptures que cela induit pour les archivistes comme pour la recherche en ce qui concerne, par exemple, les fonds, les collections, les documentsFootnote 17, l’accès ou la contextualisation.
Un patrimoine redocumentarisé
Les environnements documentaires du patrimoine nativement numérique connaissent de rapides évolutions. Ce n’est certes pas une spécificité de ce patrimoine. Il suffit de penser aux archives audiovisuelles françaises de l’Institut national de l’audiovisuel (INA) : les archives de la radio ou encore de la télévision ont été soumises à des modes de documentation qui ont varié au fil du temps, en termes de traçabilité des choix et des conditions de collecte, de mots-clefs (descripteurs) attachés aux contenus, d’outils de fouille proposés, etc.Footnote 18. Sans décrire en détail, pour chaque type de patrimoine nativement numérique, les caractéristiques de documentation et de redocumentarisation à l’œuvre, il convient d’examiner la question du reborn digital heritage et des enjeux que partagent ces patrimoines autour, notamment, de leur accès ou de leur recherchabilité.
Comme précédemment évoqué, le patrimoine nativement numérique est en réalité un « reborn digital heritage », soit un patrimoine nativement numérique redocumentarisé. Il a subi au cours de sa collecte et de sa préservation de multiples transformations et augmentations par les professionnels de l’information, que ce soient les archivistes, les bibliothécaires, les conservateurs ou encore les ingénieurs d’études et de recherche. L’ensemble de ces actrices et acteurs est coutumier de la documentarisation. Ce sont elles et eux qui, depuis que des procédés d’archivage existent, se chargent du traitement des documentsFootnote 19 : la création d’instruments de recherche, l’indexation, la rédaction de résumés, l’ajout de retranscriptions sont autant de gestes de documentarisation qui visent à rendre le document accessible à son usager. Ces dispositifs remontent au moins au xixe siècle, si ce n’est plus loin, ainsi que le souligne Olivier PoncetFootnote 20.
Aujourd’hui, le processus de redocumentarisation des archives nativement numériques est une condition de leurs collecte, conservation et exploitation, selon des modalités qui diffèrent, pour partie, des premiers gestes de documentarisation des siècles précédents. Le patrimoine nativement numérique oblige à reconsidérer des principes archivistiques anciens et, partant, des perceptions de l’archive par les chercheurs et chercheuses : contenu et support peuvent être séparés (le texte d’un blog peut être copié, collé et modifié à l’infini, sans que cela affecte le site web initial) ; les masses de contenu sont de plus en plus importantesFootnote 21 ; la collecte ne répond dès lors plus systématiquement à des logiques de fonds générés par des producteurs stables et identifiés (une administration, un notaire, par exemple), mais peut s’organiser thématiquement et répondre à l’actualité, assemblant des productions de natures hétéroclites.
Les archives du Web offrent un observatoire de ce changement des principes archivistiques : dans leur cas, il est établi que l’on n’a jamais affaire à une copie 1:1 de ce qui a pu être présent en ligneFootnote 22. D’une part, les archives du Web sont collectées non comme des captures d’écran statiques qui feraient de la page des unités, mais par éléments (images, liens hypertextes, etc.), ce qui en fait des composites complexes. D’autre part, la collecte vise à reproduire une forme dynamique dans laquelle les hyperliens renvoient à d’autres pages et contenusFootnote 23. Il ne s’agit donc pas de figer les pages, mais bien de maintenir leur caractère interactif et de reproduire une expérience de navigation au sein du site et entre les pages. Celle-ci reste toutefois imparfaite, pour des raisons variées : un hyperlien peut renvoyer à une page non conservée ; certains éléments résistent à la collecte (comme les nombreuses animations flash et images manquantes dans les archives du Web des années 1990) ; des sauts temporels sont palpables, par exemple quand un hyperlien d’une page web renvoie à une autre page, capturée à une date antérieure ou postérieure. Explorer les interfaces, mais aussi les coulisses et le code source d’une page préservée par Internet Archive permet de se rendre compte des augmentations adjointes aux pages archivées, qui imbriquent des éléments « d’origine » et d’autres ajoutés par la fondation états-unienne (les métadonnées de redocumentarisation). Comme pour d’autres types de patrimoine nativement numérique, les archives du Web incorporent de multiples couches de transformation et d’enrichissement, c’est-à-dire de redocumentarisation : des modifications inhérentes à la collecte, des métadonnées, des permaliens pour permettre des citations pérennes, etc. Ainsi que l’a noté Emmanuelle BermèsFootnote 24, cet enrichissement est à mettre en relation avec la tendance qui veut que l’on aille de plus en plus d’un Web archivé vers un « Web des données », c’est-à-dire d’une approche considérant les pages comme des unités documentaires vers une approche plus transversale, morcelée et portant intérêt à certaines données plus spécifiques à l’écosystème du Web (images, nombre de likes, etc.). Cette dynamique invite à réfléchir à la question de l’authenticité documentaire, au cœur des préoccupations des historiens et historiennes depuis longtemps : le patrimoine nativement numérique peut être perçu comme un palimpseste temporel résistant aux outils critiques traditionnels. Le travail sur ce type de sources est alors précisément conditionné par la connaissance que nous avons de leurs contextes et logiques de constitution et de redocumentarisation. E. Bermès note ainsi que « toutes ces procédures aboutissent à la création d’archives numériques dont l’authenticité n’est garantie que par les procédures dont elles font l’objet au sein des institutions patrimoniales, mettant ainsi sur le devant de la scène les pratiques professionnelles des bibliothécaires, archivistes et conservateursFootnote 25 ».
Autre déplacement archivistique, la logique de stock est mise au défi et remplacée par une logique de flux. Comme le notait Louise Merzeau dès 2003 :
N’étant plus assigné à un support durable, le document se segmente en éléments plus ou moins autonomes (images, boutons, bandeaux, textes…), que l’on doit traiter isolément. C’est la quantité de ces objets à rapatrier (plusieurs milliards) plus que le nombre d’octets qui entraîne un formidable changement d’échelle de l’archive. […] Chaque parcours de navigation recevra alors une étiquette chronologique, attestant des états dans le temps d’un système toujours en équilibre – le stock dessinant ainsi une sorte de cartographie horaire du fluxFootnote 26.
Ces transformations subies au cours des processus de collecte et de traitement ne sont évidemment pas sans conséquence sur le patrimoine nativement numérique tel que mis à disposition de ses utilisateurs et utilisatrices. Dans les archives Twitter de l’INA, il est toujours possible de faire une lecture qualitative des tweets, mais il est aussi possible d’utiliser des outils qui permettent une vue sur des données spécifiques. Ainsi peut-on, dans le grand volume de données, ne chercher que les émoticônes : une requête dans les archives Twitter des attentats de 2015 donne la possibilité d’observer, par exemple, les émoticônes associées au mot-dièse (hashtag) JeSuisCharlie. Cela permet de distinguer des tendances dans la masse textuelle comme visuelle, à l’instar de l’usage des émojis crayon, drapeau français ou encore mains jointes en signe de prière, associés aux réactions des utilisateurs et utilisatrices. De même, pour la collection liée à la pandémie de COVID-19, il est possible de visualiser les émojis les plus utilisés (fig. 1).

Figure 1 – Émojis les plus utilisés entre février et juillet 2020 pour une requête COVID dans les tweets archivés par l’INA
Source : INA.
Cette approche n’est pas spécifique au patrimoine nativement numérique ; il en va de même pour le patrimoine numérisé, par exemple la presse. Là aussi, il est possible d’effectuer des recherches ciblées sur des éléments comme les titres, les mots-clefs ou parfois les images, les encadrés publicitaires, etc., sans forcément passer par la lecture complète de la page qui les accueille. Les modes de lecture se diversifient. C’est le cas avec des plateformes comme RetronewsFootnote 27, le site presse de la Bibliothèque nationale de France (BNF), ou d’initiatives nées dans le monde académique, à l’instar de Médias 19Footnote 28, ou encore avec la plateforme ImpressoFootnote 29 (fig. 2) qui s’appuient sur des collections de presse numérisée et offrent des interfaces et outils de fouille avancés.

Figure 2 – L’outil « Inspect & Compare » d’Impresso et ses filtres fondés sur la modélisation de sujets
La lecture dépend alors étroitement de l’interface. Or, ces interfaces d’accès, homogénéisées et « naturalisées »Footnote 30, peuvent donner l’impression d’un ensemble cohérent, alors qu’elles sont le résultat de différents procédés documentaires et techniques, menés par plusieurs acteurs à des rythmes divers, ainsi que de variations des cadres, périmètres et outils de collecte.
Une variété de protagonistes et d’approches
La redocumentarisation du patrimoine numérique repose en effet sur des protagonistes multiples qui conduisent des stratégies de collecte variées, dépendant à la fois de leurs choix et de contraintes techniques.
Il y a d’abord les institutions patrimoniales nationales et internationales, que l’on songe à la BNF ou à Internet ArchiveFootnote 31. Il faut ajouter que, sans être des acteurs d’archivage au sens propre, les opérateurs commerciaux conservent nos traces nativement numériques. On peut penser à Twitter, devenu X, et Facebook, mais aussi à des plateformes plus spécialisées comme Know Your MemeFootnote 32, qui documentent le patrimoine numérique tout en en tirant des bénéfices. En sus des démarches commerciales, on peut aussi penser à ceux et celles qui cherchent à préserver les traces de leurs activités sur le Web, que ce soient les associations ou les initiatives militantes. En effet, la conscience patrimoniale peut être étroitement liée à des enjeux politiques de visibilité et de lutte pour documenter et revendiquer une présence en ligne. C’est le cas par exemple d’initiatives de préservation des mémoires lesbiennes en ligne, qui articulent souvent sensibilité à des archives numérisées et attention au patrimoine nativement numérique, jusqu’à proposer des formations ad hoc Footnote 33. Cette conscience patrimoniale pose aussi la question de la relation aux producteurs et aux auteurs. Le patrimoine nativement numérique n’est pas un vaste ensemble désincarné, et la relation au producteur d’archives peut, dans un certain nombre de situations, devenir un atout pour la collecte, la préservation et la contextualisationFootnote 34.
Parmi tous ces acteurs, les choix, périmètres et stratégies de conservation varient, que l’on considère l’échelle choisie pour les collectes, les logiques qui président à l’assemblage documentaire ou les choix techniques opérés. En effet, préserver un code source, le contenu d’un CD-ROM ou d’une page web requiert des outils différents et seulement partiellement des techniques de documentation communes : certaines pratiques peuvent être partagées comme l’usage de permaliens ou de métadonnées, d’autres non. Les périmètres de conservation et d’approches peuvent aussi évoluer au sein d’une même institution, que ce soit sous l’influence d’initiatives internes, de moyens alloués et de missions supplémentaires ou encore d’incitations nationales et d’émergence de communautés de pratiques, parfois transnationales.
Les ambitions varient également selon l’échelle choisie, allant de collectes ciblées sur un type de contenu, à l’instar de l’initiative Saving Ukrainian Cultural Heritage Online (SUCHO)Footnote 35 destinée à sauvegarder le patrimoine culturel en ligne ukrainien, à des opérations étatiques d’archivage du Web menées par les bibliothèques nationales, voire à une visée mondiale avec Internet Archive. Certains projets peuvent englober une diversité de patrimoines nativement numériques – des contenus de CD-ROM, des codes source, des archives du Web, par exemple dans le cas d’Internet Archive, mais également de la BNF –, tandis que de nombreux services d’archives prennent en charge la conservation de bases de donnéesFootnote 36.
À cette diversité des périmètres et des ambitions répond une diversité des héritages et des expériences : alors que les bibliothèques, bénéficiaires de toute une tradition de conservation des publications, notamment papier, et du dépôt légal, inscrivent leur action de collecte du Web dans le cadre de la loi (le dépôt légal de l’Internet) et de missions patrimoniales institutionnelles, certaines initiatives se distinguent comme Arquivo.ptFootnote 37 pour le Portugal. Liées au monde des infrastructures numériques et des réseaux pour la recherche, toutes les archives du Web proposées sur la plateforme sont, comme celles d’Internet Archive, en accès ouvert, malgré les enjeux de droits d’auteur. De nouveaux venus s’appuient, quant à eux, sur des initiatives participatives pour faire face à l’urgence. SUCHO est ainsi très rapidement né après l’agression russe contre l’Ukraine en 2022 et a reçu le soutien et les contributions de milliers de bénévoles qu’il a fallu former et auxquels il a fallu donner les moyens de contribuer à la collecte des contenus en ligneFootnote 38.
Ces différences ont des conséquences sur les collections. Un exemple est celui de la conservation des traces numériques de la pandémie de COVID-19Footnote 39 : nombre d’initiatives indépendantes, plus ou moins pérennes, ont vu le jour, que ce soit de la part des universités, des GLAM (acronyme de Galleries, Libraries, Archives and Museums), des bibliothèques, notamment nationales, etc., donnant lieu à de multiples traces numériquesFootnote 40. Un exemple antérieur est celui des attaques terroristes de 2015 en France, notamment contre Charlie Hebdo et au Bataclan. La BNF et l’INA ont rapidement lancé des collectes des contenus en ligneFootnote 41, mais celles-ci ont aussi émané de chercheurs et de chercheuses ou encore de bibliothécaires : Nick Ruest, depuis le Canada, a par exemple mené des collectes Twitter abondantesFootnote 42. Les contenus conservés par ce dernier et ceux qu’ont recueillis l’INA et la BNF sur Twitter ne sont pas identiques. Il est effectivement difficile de préserver dans son intégralité une telle masse de données : il faut s’adapter quasi instantanément aux tendances et aux changements des mots-clefs pour que les requêtes soient pertinentes, et l’API (interface de programmation d’application) de Twitter limitait, à l’époqueFootnote 43, la collecte à un instant T à 1 % du flux mondial de tweets, rendant son exhaustivité impossibleFootnote 44.
La régularité des collectes au sein d’une même institution relève de choix mais aussi de ressources. Les collectes des archives du Web sont étroitement corrélées aux moyens techniques et humains dont dispose l’institution, ce qui implique des choix de curation et des priorités documentaires. Pour autant, des collections et des thématiques fortes ressortent : dans les bibliothèques européennes, les archivistes du Web sont sensibles aux contenus de la presse en ligne et portent une attention particulière aux institutions culturelles et politiques ; certaines excluent même les sites web des internautes ordinaires, tandis que d’autres vont les collecter mais au rythme d’une ou deux collectes annuelles. Par ailleurs, des actions peuvent être engagées plus spécifiquement lors de crises (attentat, mouvement social, etc.), d’événements majeurs (Jeux olympiques) ou lorsque les contenus sont menacés de disparition et demandent une action de préservation immédiate, comme l’ont menée récemment la BNF et l’INA pour les skyblogsFootnote 45 à l’annonce de la fermeture de la plateformeFootnote 46. Des sensibilités variées influencent ainsi les approches de ce patrimoine nativement numérique. Les périmètres des collections sont certes liés aux législations et au dépôt légal dans plusieurs pays, mais ils tiennent également aux choix de curation effectués par les équipes. Ces choix ont, parfois, des implications politiques : alors que l’invasion russe de l’Ukraine ou la pandémie de COVID-19 ont fait l’objet de collectes dans de nombreux pays occidentaux, il n’en est pas de même avec les attaques perpétrées par le Hamas contre Israël et la guerre menée depuis par Israël à GazaFootnote 47. On constate une même indifférence à l’archivage numérique du conflit entre l’Arménie et l’Azerbaïdjan de 2020, alors que celui-ci avait engendré une importante activité en ligne, par exemple sur le site web de discussion Reddit.
Les approches techniques varient aussi : pour collecter le patrimoine nativement numérique, il faut trouver des solutions techniques permettant de préserver des contenus composites, mêlant texte, image, son, code, le tout articulé en fils, discussions, nouvelles itérations et versions, remixes, etc. Ainsi, la BNF et l’INA ont adopté une approche différente des réseaux sociaux numériques et en particulier de Twitter. La BNF capture les informations en conservant la forme des fils de message, tandis que l’INA a choisi de passer par l’API de Twitter et de davantage traiter les contenus comme des données, sans préserver l’interface originelle, dans l’objectif de favoriser les lectures distantes par mots-dièse, images, etc.Footnote 48, en prêtant donc une attention importante à la redocumentarisation. De plus, toute la masse de pages archivées n’est pas forcément traitée en plein texte (plain text)Footnote 49. Seules les pages d’accueil des sites web conservés par Internet Archive sont en effet actuellement recherchables en plein texte : une recherche par mot-clef ne donne ainsi que des résultats partiels parmi les contenus archivés.
Si la diversité est de mise, les institutions partagent cependant des points communs. La fondation Software Heritage a adopté des identifiants uniques pour les codes source préservés, à l’instar de ce que font les bibliothèques pour les archives du Web, avec la création de permaliens qui permettent de citer les sources de manière pérenne. Il existe des espaces de partage, de mise en commun et de circulation des expériences et des savoir-faire (qui reposent d’ailleurs sur une tradition archivistique plus longue) : dans le cas des archives du Web, on peut citer l’International Internet Preservation Consortium (IIPC)Footnote 50 ou encore les conférences qui mêlent le milieu des archives et celui de la recherche, comme les conférences RESAW (A Research Infrastructure for the Study of Archived Web Materials) organisées depuis 2012Footnote 51. En France, la BNF et l’INA ont créé des DataLabsFootnote 52 pour développer les littératies numériques, diffuser les compétences en analyse de données et aider les chercheurs et chercheuses. Ces laboratoires peuvent s’appuyer sur des infrastructures de recherche, comme la très grande infrastructure de recherche (TGIR*) Huma-Num, pour mener des collaborations.
Il n’en reste pas moins que le patrimoine nativement numérique est soumis à des évolutions constantes, liées à la fois à des changements sociotechniques et légaux, et à des enjeux éthiques. La question des mèmesFootnote 53 – ces textes, images ou vidéos qui sont rapidement diffusés par réplication ou reproduction dans les courriels, les billets de blog, sur les médias sociaux, etc. – en fournit un bon exemple, puisqu’ils posent des défis d’archivage. Ils sont disséminés dans les captations des réseaux sociaux numériques ou encore des sites web. La bibliothèque du Congrès aux États-Unis a néanmoins lancé des initiatives dédiées pour documenter et archiver les sites qui recensent les mèmes ou permettent de les générer, dans une approche liée à la préservation du folklore, ici numériqueFootnote 54. SUCHO a créé un mur de mèmesFootnote 55 dédiés à la guerre en Ukraine et aux contenus échangés sur des plateformes comme TelegramFootnote 56. Ces contenus éphémères se transforment et circulent rapidementFootnote 57, ce qui les rend difficiles à documenter et pose des défis de redocumentarisation, essentiels pour les saisir et les contextualiser pleinement comme des formes de cultures numériques mais aussi de communicationFootnote 58. Un exemple très concret est celui du mème « Disaster Girl », une image macro très populaire représentant une fillette au sourire ambigu devant une maison en feu. On peut en retrouver des traces dans les archives du Web sans pour autant pouvoir suivre précisément sa circulation, ses usages et remixes, en particulier parce que le mème résiste aux outils classiques de découvrabilité, comme la recherche par image ou par mot-clef (la photographie est rarement associée à la mention « Disaster Girl »). Si l’on revient au mur de mèmes de SUCHO, on trouve des images complexes à recontextualiser : ce mur ne dit rien de la plateforme sur laquelle le mème a été trouvé, de l’ampleur de sa circulation, d’éventuelles modifications, de doublons, et ses codes culturels et ses références peuvent nous échapperFootnote 59.
Cette recontextualisation des sources, si elle reste au cœur de tout travail historique, dépend aussi étroitement des métadonnées et des politiques menées par les acteurs des collectes en matière d’accessibilité, d’ouverture des données et de partage.
Des enjeux d’accessibilité, d’ouverture et de partage
L’accessibilité du patrimoine nativement numérique et la disponibilité des données soulèvent en effet de nombreuses questions qui concernent leur valeur culturelle et scientifique, mais aussi les valeurs éthiques qui les sous-tendentFootnote 60. En particulier, l’application des principes FAIR (Findable, Accessible, Interoperable, Reusable)Footnote 61 à ce patrimoine interroge. Les acteurs se heurtent en effet à plusieurs obstacles en termes de recherchabilité, d’accessibilité, d’interopérabilité et de réemploi des contenus nativement numériques préservés. Le premier concerne les droits d’auteur : souvent, pour cette raison, les résultats des collectes menées par les institutions dans le cadre du dépôt légal ne sont accessibles qu’au sein de leurs établissements. Autre difficulté, la collecte comme la mise à disposition des données n’échappent pas à des questions industrielles et commerciales : Software Heritage s’est chargé de la mission « de collecter, préserver et partager tous les logiciels disponibles publiquement sous forme de code sourceFootnote 62 ». En d’autres termes, Software Heritage ne collecte pas (et ne peut pas collecter) les logiciels d’usage très courants dont le code source est propriétaire. De même, les réseaux socio-numériques témoignent de ces enjeux, puisque la dynamique récente de fermeture des interfaces de programmation (API)Footnote 63 de X et de Reddit est révélatrice d’une stratégie de monétisation de l’accès à la collecte des contenus, ce qui met en péril des pratiques qui bénéficiaient auparavant d’une politique plutôt ouverte, comme c’était le cas à l’INA. On a même pu parler d’« APIcalypse »Footnote 64 pour désigner ce mouvement de fermeture. Des sites d’organes de presse interdisent de leur côté leur archivage par Internet Archive, afin de garder le contrôle sur la monétisation de leurs contenusFootnote 65. Ces logiques économiques contraignantes ne sont certes pas nouvelles et ne concernent pas seulement le patrimoine nativement numérique ou numérisé : en 2008, un groupe d’historiens économistes avait par exemple tiré la sonnette d’alarme quand BNP-Paribas avait envisagé d’envoyer au pilon une partie de ses archives historiquesFootnote 66.
À ces contraintes externes s’ajoutent des défis techniques : les contenus doivent pouvoir être retrouvés (c’est la « découvrabilité ») dans un paysage foisonnant dans lequel il est parfois difficile de comprendre qui collecte quoi et comment y accéder. La performance virale « Harlem Shake » fournit un bon exemple des difficultés posées. Cette performance en ligne, musicale et dansée, gagne une popularité internationale en 2013Footnote 67 et entre dans les contenus archivés par la BNF via différents canaux, sans pour autant faire l’objet d’une collecte spéciale. C’est à la faveur de collectes des sites web, de presse ou encore de contenus vidéos (Dailymotion) que des traces en sont gardées. Or, seule une partie de la collecte du début des années 2010 est requêtable en plein texte à la BNF, notamment celle qui concerne la presse en ligne. Ainsi faut-il, pour retrouver les contenus liés au « Harlem Shake », développer des stratégies et passer par une extraction des adresses URLFootnote 68 afin d’isoler celles qui contiennent le terme, et ce avec l’appui des bibliothécairesFootnote 69. Cette méthode de recherche signifie que l’on passe à côté de contenus « Harlem Shake » dans des sites non dédiés, plus généralistes, dont les URLs ne comportent pas ces mots.
Le cas du « Harlem Shake » témoigne également de la fragmentation de l’archivage qui, sans être nouvelle, oblige à réfléchir aux périmètres d’archivage des institutions patrimoniales. On trouve ainsi la trace du « Harlem Shake » dans les archives de l’INA. Cependant, si l’on peut dénicher un tweet mentionnant le « Harlem Shake » en lien avec une émission télévisée, on ne peut pas retrouver l’ensemble des tweets qui lui sont dédiés, ni l’ensemble des vidéos. Une bonne connaissance de l’histoire des pratiques numériques est par ailleurs souvent requise : dans le cas du « Harlem Shake », les traces retrouvées doivent être replacées dans le contexte des usages de Twitter ou encore de YouTube en 2013Footnote 70.
En définitive, les contenus sont dispersés, les lacunes sont nombreuses et ne sont perceptibles qu’à la condition d’avoir une maîtrise suffisante des questions d’archivage. Retrouver les contenus du patrimoine nativement numérique implique donc d’avoir en tête cette cartographie des initiatives, des acteurs, des modes de collecte, de leurs contraintes, et de comprendre le fonctionnement des interfaces de recherche mises à dispositionFootnote 71. Ces dernières donnent accès au patrimoine nativement numérique en lissant un grand nombre des logiques de la redocumentarisation. La même interface de la BNF qui propose l’accès aux contenus web de la fin des années 1990 et à ceux produits au cours des années les plus récentes ne permet pas aux chercheurs et chercheuses de distinguer de manière immédiate les changements profonds qui ont affecté les choix de collecte et les méthodes documentaires au cours de plus de vingt années de dépôt légal. L’archivage a pourtant beaucoup variéFootnote 72. Ces interfaces sont aussi hétérogènes et peu interopérables, en particulier quand il s’agit de sortir des périmètres nationaux. Il n’est dès lors pas étonnant que les recherches aient d’abord porté sur des « Webs nationaux »Footnote 73, quand des recherches transnationales tardaient à voir le jour. Des expériences ont cependant montré l’importance des liens entre les collections à l’échelle mondiale : pour reconstruire l’histoire du site web de l’université de Bologne, Federico Nanni s’est appuyé sur des archives du Web du Danemark, qui, par le jeu des hyperliens, avaient conservé des captures du site web italienFootnote 74. Récemment, l’étude des contenus liés à la pandémie de COVID-19 a été l’occasion de mesurer et de discuter les écarts de pratiques de collecte qui peuvent exister ne serait-ce qu’en Europe ; une campagne d’entretiens oraux avec des personnels de plusieurs grandes bibliothèques européennes les a documentéesFootnote 75, ce qui devrait permettre de mieux comprendre comment croiser et comparer les collections en tenant compte de ces variationsFootnote 76.
En effet, la compréhension du patrimoine nativement numérique est étroitement liée à la capacité à documenter collectivement les gestes de collecte et de redocumentarisation, dans un dialogue entre bibliothèques et institutions patrimoniales et de recherche, qui construisent des espaces d’échanges autour de ces questionsFootnote 77. Les expertises sont plus que jamais complémentaires : les chercheurs et chercheuses ont rapidement perçu la nécessité de prendre en compte dans leur analyse les conditions de création des collectes, les atouts, les biais et les limites des données et des outils mis à disposition. Des problématiques liées à l’authenticité du patrimoine nativement numériqueFootnote 78, la perspective d’appliquer à ces contenus des méthodes issues de la philologieFootnote 79 et le besoin d’une critique et d’une herméneutique numériquesFootnote 80 se sont en effet posés dès que les chercheurs et chercheuses ont commencé à se saisir du patrimoine nativement numérique.
Les outils de la recherche
Les recherches sur les archives du WebFootnote 81 et leurs usages historiques ont pris de l’ampleur dans les années 2010, ouvrant des perspectives à la fois dans le champ de l’histoire numériqueFootnote 82 et, plus récemment, dans celui des memory studies Footnote 83. Le patrimoine nativement numérique fait désormais partie des sources qu’il n’est plus besoin de chercher à légitimer. Pour autant, d’autres pans de ce patrimoine sont nettement moins investis, bien que des travaux en cours de jeunes chercheurs et chercheuses sur le code source et l’histoire des langages informatiques laissent présager des développements intéressantsFootnote 84. Des espaces de réflexion collective ouvrent aussi la voie, comme le séminaire « Codes sources »Footnote 85 organisé depuis 2015, qui prolonge des travaux internationaux menés au sein des Critical Code Studies Footnote 86.
Toutefois, un problème double persiste souvent : accéder aux sources primaires et pouvoir ensuite les « lire »Footnote 87. En amont, les chercheuses et chercheurs peuvent être directement impliqués dans le processus de redocumentarisation, en particulier quand elles et ils se penchent sur les médias sociaux. Si des tweets sont archivés par les institutions patrimoniales, nombre de spécialistes doivent collecter les données de leur côté pour d’autres sujets. Avant son changement de nom (et de nature) en X, Twitter permettait de collecter des données, parfois même avec des accès spécifiquement mis en place pour les chercheurs et chercheuses, qui se faisaient alors aussi archivistes. Si ce phénomène n’est pas nouveau, il s’agit ici de l’appliquer à des masses de données bien plus étendues pour lesquelles les chercheurs et chercheuses doivent redocumentariser les données obtenues. Ils et elles peuvent alors trouver de l’aide dans les ressources internes des universités, notamment infrastructurelles, et dans des initiatives de répertoires plus larges (HAL, Zenodo, etc.), afin de déposer et documenter leurs jeux de données et d’en assurer une forme de maintenance. Cependant, l’expérience des années 1990 a montré que la concurrence de nombreux systèmes de gestion de bases de données (SGBD) de l’époque a abouti à la disparition de la plupart d’entre eux. Certaines bases de données sont ainsi perdues et, même lorsqu’elles pourraient être retrouvées, sont stockées sur des supports difficilement lisibles aujourd’hui, notamment par manque de matériel et/ou de logiciel adaptés pour les lire (disquettes 5 pouces ¼ par exemple). Reconstituer ces environnements informatiques obsolètes reste possible, mais le chemin est complexe. Les politiques infrastructurelles des universités ou de certaines structures interuniversitaires – les TGIR Huma-Num et Progedo en France, par exemple, mais de manière plus générale la mise en place de dépôts de données pérennes – ont tiré des leçons, dans toutes les disciplines, des décennies passées. Toutefois, la vulnérabilité de ces infrastructures (en termes de financement, de maintenance, de pérennité, de sécurité, etc.) doit être envisagée.
Une fois le corpus collecté, constitué et redocumentarisé, chercheurs et chercheuses peuvent alors « lire » ces sources. Cette lecture dépend toujours de la qualité des métadonnées et de la capacité à décomposer et recomposer leurs sources, à les qualifier et à les contextualiser, donc de la qualité de la redocumentarisation. Ainsi, pour assurer la faisabilité d’une démarche diachronique, des métadonnées d’horodatage s’avèrent nécessaires, alors qu’elles ne sont pas toujours présentes : si, dans les archives du Web, connaître la date et l’heure d’une collecte de données est possible, il n’est que rarement possible de déterminer la date précise de publication d’un contenu en ligne. En outre, on a vu qu’une page web, souvent dynamique, peut être (re)constituée d’éléments dont la date de publication diverge.
Les historiens et historiennes peuvent aussi utiliser des outils permettant une lecture distanteFootnote 88 – l’une des échelles de la lecture, lorsque l’ordinateur « lit pour nous » – de leur corpus. Pour la fouille de données, l’un des logiciels les plus utilisés aujourd’hui en France est IRaMuTeQ. Issu des mêmes méthodologies que le logiciel commercial Alceste – la théorie des mondes lexicauxFootnote 89 –, il est, au contraire de ce dernier, libre, c’est-à-dire que son code source est téléchargeable et modifiableFootnote 90. On peut néanmoins s’interroger sur la pérennité à terme du logiciel : si sa communauté d’utilisateurs et d’utilisatrices est grande, celle des développeurs et développeuses semble l’être beaucoup moins. Toutefois, IRaMuTeQ est un logiciel qui documente lui-même les opérations qu’il mène sur un corpus : en ce sens, chercheurs et chercheuses peuvent revenir sur leurs analyses et les reprendre de manière plutôt aisée et rigoureuse.
Au-delà de la question de la pérennisation d’un logiciel en particulier se pose aussi celle des méthodes informatiques permettant la fouille de données. Par exemple, le Latent Dirichlet Allocation Footnote 91 (LDA), un type de topic modelling (modélisation de sujets), a été « standard » dans les humanités numériques, notamment via le logiciel MALLET ; il est aujourd’hui souvent délaissé pour les vecteurs de mots ou de documents, eux-mêmes perfectionnés par les transformers, mis au point par GoogleFootnote 92, transformers qui sont à la base des intelligences artificielles génératives de texte. Ces dernières posent des problèmes de compréhension : elles sont opaques et, bien qu’elles dépendent d’un entraînement sur de grands ensembles de données, elles restent, malgré des améliorations récentes, peu capables de citer leurs sources et ne sont pas compatibles avec le standard FAIRFootnote 93.
En somme, pour comprendre le patrimoine nativement numérique et le mobiliser comme source primaire, il est nécessaire de s’intéresser aux bruits et aux silences des données, à leur constitution, à la représentativité des données archivées, aux atouts et aux limites des méthodes et des outils computationnels employés. Cependant, pour pouvoir remettre ces corpus en perspective, en saisir l’usage, l’audience, la place dans l’écosystème médiatique, il est crucial de les mobiliser comme des sources parmi d’autres, et donc de les croiser avec des corpus de différentes natures.
Ainsi, pour l’histoire des développements numériques en FranceFootnote 94 ou au LuxembourgFootnote 95, pour celle des mémoires en ligne sur le WebFootnote 96 et des forums de discussionFootnote 97, la recherche exploite des archives du Web et d’autres sources nativement numériques comme les Google Groups qui ont gardé trace des échanges UsenetFootnote 98, mais aussi la presse ou des entretiens oraux. Un même projet peut à la fois s’appuyer sur des sources « analogiques », papier et nativement numériques. Le projet CD-Hist sur l’histoire du CD-ROM, mené à l’université du LuxembourgFootnote 99, s’appuie par exemple sur des corpus de presse (généraliste et spécialisée), des entretiens oraux, des publicités (audiovisuelles et de presse), une multitude de manuels techniques et multimédia d’époque, des archives d’entreprises, des collections privées (par exemple, la collection numérisée d’Alain Letenneur de kits de connexion InternetFootnote 100) ainsi que sur tout un patrimoine nativement numérique disponible sur Internet Archive de contenus de CD-ROM émulésFootnote 101. S’y ajoutent d’autres collections, disponibles par exemple à la BNFFootnote 102, tels environ 50 000 CD-ROM préservés dans le cadre du dépôt légal. Insistons aussi sur le rôle extrêmement actif des communautés amateures (voire pro-amsFootnote 103), notamment dans le champ de la préservation vidéo-ludique et du retrocomputing, soit l’utilisation de matériel et logiciels obsolètes, et même sur l’activité engagée notamment dans la sphère des usagers, parfois pirates, qui ont filmé et mis en ligne des navigations, des contenus, etc. On peut citer enfin d’autres sources au périmètre spécifique, à l’instar des dossiers de demandes de subventions pour les réalisations multimédias, déposées au Centre national du cinéma et de l’image animée (CNC) dans le cas de la France, ou encore des collections d’archives institutionnelles, comme celles de l’Office des publications de l’Union européenne. Cet organisme a conservé dans ses archives à Luxembourg-ville tous les CD-ROM qu’il a publiés depuis 1997, contenant par exemple le Journal officiel jusqu’en 2010, quand le DVD a remplacé le support CD-ROM tandis que la pratique du Web généralisait aussi l’accès en ligne. Cet exemple montre la complémentarité des fonds mais aussi des logiques à l’œuvre et les moyens très différents dont disposent les divers acteurs des collectes et de la conservation.
Enfin, si chercheuses et chercheurs doivent documenter leurs méthodes et leurs recherches, et croiser les sources, se pose aussi pour eux la problématique plus large de se (re)documentariser soi-même. Une recherche est rarement le résultat de démarches strictement individuelles. La question de l’auctorialité émerge, tout comme celle des évolutions des acteurs de la conservation et de la recherche : « […] un troisième personnage apparaît entre le conservateur et le chercheur : l’ingénieurFootnote 104 ». De plus, les rencontres lors de colloques ou au sein d’un centre de recherche, les discussions en ligne sur les médias sociaux participent toutes à l’élaboration d’une recherche. Outre des notes personnelles, qu’en est-il aujourd’hui des logiciels utilisés par nos universités et qui documentent nos discussions, y compris scientifiques, au jour le jour ? Si la question des traces logicielles des discussions scientifiques n’est pas nouvelleFootnote 105, l’usage de logiciels de grandes sociétés appartenant aux GAFAM (Google, Apple, Facebook, Amazon, Microsoft) ou entreprises proches comme Slack (Salesforce), difficilement pérennisables, archivables, difficilement même redocumentarisables, pose un problème pour la redocumentarisation de la recherche elle-même.
Le patrimoine nativement numérique présente des défis nouveaux pour la recherche en termes de préservation, de documentation et d’exploitation, dans la mesure où il implique de sortir du modèle de conservation du papier pour aller vers un paradigme de la redocumentarisation. Cette redocumentarisation est menée par différents types d’institutions patrimoniales et, si nous avons insisté sur Internet Archive, les grandes bibliothèques nationales ou encore Software Heritage, ces enjeux sont présents dans tous les centres d’archives à toutes les échelles : tous sont aujourd’hui confrontés à des sources nativement numériques, des archives départementales aux archives universitaires ou d’entreprise. Les historiens et historiennes sont aussi parties prenantes de cette redocumentarisation. La diversité des protagonistes ainsi impliqués dans la collecte et la conservation des archives nativement numériques, allant des institutions patrimoniales aux initiatives de recherche et participatives, témoigne de la complexité de cette tâche. Les processus de redocumentarisation transforment ce patrimoine en un reborn digital heritage, nécessitant une approche critique et réflexive.
Pour les historiens et historiennes, l’utilisation de ces sources implique une acculturation à des compétences et des méthodologies numériques parfois inéditesFootnote 106. La constitution de corpus, leur documentation, la lecture distante et l’analyse de grandes masses de données nécessitent des outils spécifiques dont la pérennité n’est pas toujours assurée. La qualité des métadonnées et la compréhension des contextes de collecte et de préservation sont cruciales pour une exploitation rigoureuse de ces sources. En outre, la rapidité des évolutions technologiques pose la question de la durabilité des méthodes et des outils de recherche, ainsi que de la préservation des traces numériques que produisent les chercheurs et chercheuses.
Toutefois, et si nous avons jusqu’ici insisté sur les différences entre le patrimoine nativement numérique et le patrimoine « papier » plus traditionnel, nous pouvons aussi rappeler qu’une source reste une source : les archives nativement numériques ont des absences comme les archives papier ; la nécessité d’avoir une connaissance fine des archives, de leur collecte et de leur organisation, quelles qu’elles soient, se vérifie plus que jamais. Si savoir lire une cote permet de situer précisément un carton d’archives dans un contexte particulier et d’en retirer des informations riches pour une recherche historique, il en va de même de la capacité à savoir lire l’URL d’une page web archivée. La connaissance de traditions archivistiques qui diffèrent – entre les series au Royaume-Uni et aux États-Unis ou le principe du respect des fonds en Europe continentale (pour la période contemporaine) – est souvent nécessaire pour orienter au mieux ses recherches. Dans le cas des archives du Web, il ne s’agit pas de cote ou de carton, mais d’URL ou de fichier WARC (Web ARChive). Si l’on ne parle plus de fonds, il demeure des distinctions, par exemple à la BNF, entre les collections : l’une, « Actualités », se réfère à la presse en ligne, dont les contenus sont archivés quotidiennement, alors que d’autres collectes sont effectuées de manière plus ponctuelle, comme les collectes annuelles larges de tous les noms de domaine français identifiés. E. Bermès le rappelle : « cet effet ‘déconstructeur’ du numérique sur l’unité documentaire » est pensé dès les années 1990, notamment pour le patrimoine numérisé, avec la TEI (Text Encoding Initiative) qui cherche à y répondre par un encodage des textes mais aussi de leur contexteFootnote 107.
Penser aujourd’hui la masse des données, soit ce qui a été appelé le big data, en histoire implique aussi de penser ce qui manque, pour les archives nativement numériques comme pour les archives numérisées. Outre les plateformes de moins en moins archivables – Facebook depuis 2016, X depuis 2023 –, il y a aussi tout ce que ces plateformes prétendent pouvoir saisir mais ne saisissent que de manière imparfaite. Comment comprendre un like même décliné en émotions différentes ? Si des approches différentes sont explorées pour mieux archiver ces plateformes dont la conception rend (souvent volontairement) difficile l’archivageFootnote 108, ces méthodes ne sont pas encore en place et ne sont pas toujours compatibles avec les pratiques des institutions patrimoniales. Celles-ci, comme le souligne Lise Jaillant, sont prises en tenaille entre la rigueur de l’archivage, qui implique souvent une certaine lenteur – due autant à des contraintes juridiques, à des limites de ressources, techniques, financières ou humaines, qu’au temps de traitement –, et la demande des autorités publiques, des chercheurs et des chercheuses de fournir un accès rapide aux données qu’elles collectent. In fine, nous partageons ce constat de L. Jaillant :
Les archives sont faites pour être utilisées et non pas verrouillées. Pour déverrouiller leur potentiel culturel, nous devons travailler de façon interdisciplinaire et exploiter les technologies les plus récentes. L’accès aux archives numériques est essentiel, mais il faut aussi anticiper le moment où les documents [records]Footnote 109 nativement numériques seront plus aisément accessibles. Pour donner un sens à cette masse de données, il est urgent de mettre au point de nouvelles méthodologies, combinant les méthodes traditionnelles des sciences humaines avec des approches fondées sur la richesse en donnéesFootnote 110.
