Comment retrouver et relier toute cette information géohistorique?

Le volume de données géohistoriques disponible sur le web et entreposé dans différentes bases de données augmente rapidement alors que le tournant géospatial prend de l’ampleur et que les outils de cartographie en ligne devienne plus accessibles. Les cartes historiques peuvent être localisées avec un bounding box ou géoréférencées avec précision. Les photographies aériennes sont assemblées et géoréférencées pour permettre l’analyse d’une région ou la localisation d’une planche particulière. Les cartes statiques, interactives ou animées sont de plus en plus utilisées pour visualiser des phénomènes qui ont eu un impact sur l’histoire à différentes échelles : locale (Don Valley Historical Mapping Project), régionale (Carte de l’impact de la peste noire sur l’Angleterre médiévale), nationale (American Panorama. An Atlas of United States History), continentale (Mapping the Republic of Letters), trans-atlantique (The Trans-Atlantic Slave Trade Database) ou mondiale (Time-Lapse Map of Every Nuclear Explosion, 1945-1998).

Face à ces masses de données, les chercheurs ne tente pas seulement de trouver une aiguille dans une botte de foin. Ils doivent retrouver plusieurs aiguilles réparties à travers plusieurs bottes de foin. Plusieurs initiatives ont été lancées, incluant par cette équipe, pour développer des solutions qui amélioreraient l’accessibilité aux données géohistoriques. Les portails sont généralement perçus comme une solution qui permet de rassembler les données relatives à un lieu ou aux intérêts d’un groupe ou d’une institution. Consciemment ou non, ces portails sont aussi conçus pour mettre en valeur le travail d’une groupe ou d’une institution. Nous aurons besoin de portails comme infrastructure permettant d’héberger et de distribuer les données géospatiales. Mais ils ne peuvent pas, seuls, résoudre les problèmes de découverte de données, d’ouverture et d’interopérabilité.

Selon les compétences des développeurs en optimisation du portail pour les moteurs de recherche, un portail sera plus ou moins facile à retrouver sur le web. L’usager aboutira généralement sur la page d’accueil du portail de devra ensuite utiliser les outils spécifiques au portail pour retrouver le ou les items pertinents pour sa recherche. Certains systèmes, tels que GeoIndex+, associent la recherche par facettes à une vue cartographique pour faciliter la découverte de données. D’autres s’en remettent encore à des outils de recherche découlant d’anciens catalogues.

Que les données souhaitées puissent être retracées ou non, elles ne seront peut-être pas disponible pour le téléchargement. Hormis les enjeux de licences commerciales, plusieurs chercheurs sont encore réticents à rendre leurs données disponibles pour téléchargement, un enjeu pour un autre billet. Les différents paliers de gouvernement rendent graduellement leurs données disponibles gratuitement, mais il est encore possible qu’un chercheur finisse par numériser et géoréférencer des données qui existent déjà en ce format. L’utilisation d’un format de fichier incompatible avec le logiciel préféré du chercheur devient alors un inconvénient mineur.

Même lorsque les développeurs d’un portail ont les meilleurs intentions pour rendre les données disponibles et téléchargeables, le manque d’interopérabilité des systèmes rend les recherches trans-portail difficiles à moins d’ouvrir des API ou de rendre les données disponibles dans un format ouvert et lié. Bien que les API pourraient résoudre les problèmes immédiats, il resterait à résoudre des problèmes à plus long terme de sécurité, d’entretien et de renouvellement des systèmes. Je mettrai donc l’accent sur les données ouvertes et liées en tant que solution à long terme pour ce problème.

Les données liées, ou le web des données « est une initiative du W3C (Consortium World Wide Web) visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d’informations. Il s’appuie sur les standards du Web, tels que HTTP et URI – mais plutôt qu’utiliser ces standards uniquement pour faciliter la navigation par les êtres humains, le Web des données les étend pour partager l’information également entre machines. Cela permet d’interroger automatiquement les données, quels que soient leurs lieux de stockage, et sans avoir à les dupliquer. » [Source] Ce standard du W3C est à la base du web sémantique tel que défini par Tim Berners-Lee.

Les données liées reposent sur le Resource Description Framework (RDF), lequel utilise une grammaire sujet → prédicat → objet pour définir des déclarations à propos des ressources. Ces triplets, qui peuvent aussi être conçus comme des structure entité → attribut → valeur (le document X → est une → carte) peuvent être lus par les machines et utilisent des Uniform Resource Identifiers (URIs) pour relier les différents éléments. Les données liées sont déjà utilisées pour rendre l’information disponible et connectée dans des projets tels que DBpedia.

Les structures de données présentées en tant que déclarations rdf sont définies par des ontologies. Le Spatial Data on the Web Working Group a été mis sur pied par le W3C afin de

to determine how spatial information can best be integrated with other data on the Web;
to determine how machines and people can discover that different facts in different datasets relate to the same place, especially when ‘place’ is expressed in different ways and at different levels of granularity;
to identify and assess existing methods and tools and then create a set of best practices for their use;
where desirable, to complete the standardization of informal technologies already in widespread use.
[SDWWG Mission Statement]

Une telle initiative offrira les outils et l’infrastructure à partir de laquelle nous pourront rendre les données géohistoriques découvrables et accessibles.

Malheureusement, les données liées et ouvertes ne sont pas simple à mettre sur pied. Des ontologies concurrentes pourraient émerger, ce qui limiterait l’interopérabilité à moins de définir des équivalences. Certaines institutions insisteront pour définir leurs propres URIs, pour les toponymes par exemple, sans les reliées à d’autres listes d’autorité, recréant ainsi les silos que nous souhaitons éviter. Plusieurs parties prenantes devront ouvrir et offrir leurs données de recherche en triplets rdf pour que le web de données géohistoriques puisse émerger, comme c’est déjà le cas avec DBpedia, Geonames et le World Factbook. Conçu comme une infrastructure, les données ouvertes et liées n’ont pas un très grand effet « wow » qui apporterait de la visibilité et des investissements. Un projet pilote avec une vitrine sophistiquée sera nécessaire pour que les gens comprennent le potentiel des données ouvertes et liées et investissent les ressources nécessaires pour publier les données géohistoriques en triplets rdf.

Certains enjeux devront être résolus, dont l’approbation d’une ontologie standard ou d’un ensemble d’ontologies compatibles. Le SDWWG met de l’avant la compatibilité avec les ontologies supérieures plutôt que la dépendance sur une approche particulière des données liées. [SDWWG Best Practices Statement]. Nous devons aussi nous attendre à ce que différentes équipes publient leurs données à divers niveaux de granularité. Certains fourniront au minimum les métadonnées qui permettront d’indiquer qu’un jeu de données comprend de l’information sociale et économique à propos de Montréal en 1825 alors qu’un autre pourrait publier chaque donnée individuelle des maisonnées. Si on se penche sur les enjeux de la carrière des chercheurs, comment ce type de publication sera-t-il reconnu pour l’embauche, la promotion ou l’obtention de subventions? Le Collaborative for Historical Information and Analysis a étudié les pratiques des dépôts de données qui pourraient être utiles alors que nous avançons vers les données ouvertes et liées. Enfin, comment signalerons-nous des données qui sont peu recommandables pour la recherche académique? Nous aurons à définir un mécanisme d’évaluation par les pairs pour un monde de données ouvertes et liées.

En ce moment, les questions sont plus nombreuses que les réponses, mais les données ouvertes et liées offrent une solution à long terme pour la découverte et l’accès. Une telle solution devrait être intégrée dans la conception de portails à l’avenir.

Pour aller plus loin, le SDWWG énumère quelques publications et présentations sur le sujet. L’ouvrage de Catherine Dolbear et Glen Hart, Linked Data: A Geographic Perspective (CRC Press, 2013) offre aussi une approche pour l’utilisation des données liées dans une perspective géographique. Toute recherche sur les données liées ou le web sémantique donnera aussi plusieurs résultats de lectures utiles pour se lancer dans l’aventure. Pour les historiens, le mémoire de maîtrise de Philippe Michon, « Vers une nouvelle architecture de l’information historique : L’impact du Web sémantique sur l’organisation du Répertoire du patrimoine culturel du Québec », est fortement recommandé.

Léon Robichaud
Professeur agrégé
Département d’histoire
Université de Sherbrooke

Cet article est également disponible en : Anglais

Geohistory-Géohistoire Canada

Canadian Historical Geographic Information Systems Partnership – Partenariat canadien en systèmes d’information géographiques historiques

Comment retrouver et relier toute cette information géohistorique?