À la recherche de données SIGH canadiennes

Depuis plusieurs années, des quantités appréciables de données géohistoriques ont été créées par les chercheurs qui s’intéressent au Canada. Alors que l’on réfléchit à la création d’une infrastructure géohistorique nationale, il est pertinent d’identifier les jeux de données à différentes échelles qui pourront nourrir un tel portail. La démarche actuelle vise donc à faire connaître les jeux de données existants et disponibles. Si, à terme, il serait préférable d’énumérer et de décrire chaque couche et chaque table de données attributaires, il n’est pas nécessaire, en ce moment, d’aller à un niveau de granularité aussi fin. Nous espérons plutôt, à cette étape, identifier les collections découlant de différents projets de recherches ou de mise en ligne des données numériques déjà géoréférencées comme celles-ci :

  • cartes géographiques matricielles
  • photographies aériennes
  • couches vectorielles
  • données attributaires liées à des couches vectorielles

Nous avons déjà identifié une série de données offertes par différents types de créateurs, question de présenter une diversité dans la nature et les types de données qui peuvent intéresser les chercheurs. Ainsi, on y retrouve :

  • des données internationales de qualité (FAO)
  • des données issues de projets de cartographie collaborative (Open Street Map, Natural Earth)
  • des données disponibles sur les sites d’entreprises en SIG (ESRI)
  • des données nationales (gouvernement du Canada, Géogratis)
  • des données provinciales ou territoriales (Colombie-Britannique, Yukon, Québec, Nouvelle-Écosse, Île-du-Prince-Édouard, Nouveau-Brunswick)
  • des données municipales (Toronto, Montréal, Sherbrooke)
  • des données d’équipes de recherche (CIEQ, NICHE, LHPM, MAP, VIHistory)
  • des données de cartothèques et de centres d’archives (Scholars’ Geoportal, MADGIC, GéoIndex+)
  • des données d’initiatives personnelles (lignes de chemins de fer historiques)

Le choix des métadonnées à associer à chaque jeu de données nous amène à faire des compromis. Un niveau de détail insuffisant ne permettrait pas de faire des recherches efficaces alors qu’un niveau de détail trop grand pourrait décourager les créatrices et les créateurs de données qui ne sont pas formés pour créer des métadonnées qui répondent aux standards internationaux. Selon Rodolphe Devillers, six caractéristiques sont nécessaires pour définir la qualité d’un jeu de données géospatiales1.

i. Définition : Permet d’évaluer si la nature exacte d’une donnée et de l’objet qu’elle décrit, c.à.d. le « quoi », correspond aux besoins (définitions sémantique, spatiale et temporelle);

ii. Couverture : Permet d’évaluer si le territoire et la période pour lesquels la donnée existe, c.à.d. le « où » et le « quand », correspondent aux besoins ;

iii. Généalogie : Permet de connaître d’où provient une donnée, ses objectifs d’acquisition, les méthodes utilisées pour l’obtenir, c.à.d. le « comment » et le « pourquoi », et de voir si cela correspond aux besoins;

iv. Précision : Permet d’évaluer ce que vaut une donnée et si elle est acceptable pour le besoin exprimé (précision sémantique, temporelle et spatiale de l’objet et ses attributs);

v. Légitimité : Permet d’évaluer la reconnaissance officielle et la portée légale d’une donnée et si elles rencontrent les besoins (standards de facto, respect de normes reconnues, reconnaissance légale ou administrative par un organisme officiel, garantie légale par un fournisseur, etc.);

vi. Accessibilité : Permet d’évaluer la facilité avec laquelle l’usager peut obtenir la donnée analysée (coût, délai, format, confidentialité, respect des normes reconnues, droits d’auteur, etc.).

Un standard de métadonnées permettant de répondre à tous ces critères risquerait de rebuter plusieurs personnes qui souhaiteraient rendre leurs données accessibles. Nous proposons donc d’utiliser le format prescrit par le Dublin Core Metadata Initiative, un standard international dont les types de champs sont plus compréhensibles pour les personnes moins familières avec les métadonnées. Nous appliquons et interprétons le DCMI en nous inspirant de la définition générale disponible sur Wikipédia2 et des interprétations de certains champs proposés par la Bibliothèque nationale de France3. L’approche utilisée peut certainement être critiquée, car elle vise une application simple plutôt que la perfection. À la lumière de leur utilisation dans cette liste, nous pourrons évaluer comment revoir ces principes afin d’en arriver au meilleur compromis possible. Les champs n’apparaissent pas dans l’ordre prescrit par le DCMI et certains sont subdivisés afin d’apporter certaines précisions et d’en arriver à un niveau de granularité un peu plus fin.

Tableau 1. Liste des champs utilisés pour décrire les jeux de données

Élément Élément (anglais) Commentaire
Créateur Creator L’entité principalement responsable de la création du contenu de la ressource. Il s’agit du nom d’une ou de plusieurs personnes, d’une organisation ou d’un service.
Format : Nom, Prénom.
Séparer par des points-virgules les multiples entités.

Optionnel

Contributeur Contributor Entité responsable de contributions au contenu de la ressource.
Les exemples de contributeur comprennent une ou plusieurs personnes, une organisation ou un service.
Format : Nom, Prénom.
Séparer par des points-virgules les multiples entités.

Optionnel

Titre Title Nom donné à la ressource.
Le titre est généralement le nom formel sous lequel la ressource est connue.
Utiliser le titre tel qu’indiqué dans la langue d’origine de la ressource.
Si la ressource ne porte pas de titre formel et que le titre inscrit est dérivé du contenu, inscrire le titre entre crochets.

Obligatoire

Description.Générale Description.General Une présentation du contenu de la ressource.
Les exemples de description comprennent, notamment un exposé du contenu en texte libre.
Privilégier la description prévue par les créatrices ou les créateurs de la ressource.

Optionnel

Description.Nature-du-projet Description.Project-type Un mot-clé qui permet de classer les projets selon la typologie suivante :

– gouvernementale
– ONG
– universitaire
– individuelle
– commerciale
– collaborative

Obligatoire

Description.Méthodologie Description.Methodology Un texte suivi décrivant la démarche suivie pour créer la ressource. Optionnel
Description.Sources Description.Sources Énumération des documents qui ont servi à créer la ressource. Ce champ est distinct du champ Source, lequel sert à identifier l’endroit où on peut se procurer la ressource. Optionnel
Description.Champs Description.Fields Liste des champs utilisés dans le tableau ou la base de données, si possible avec description.

Optionnel

Date.Publication Date.Published Date de la création initiale de la ressource. Il ne s’agit pas nécessairement de la date représentée par la ressource.

Obligatoire

Date.Mise-à-jour Date.Updated Date d’un événement de mise à jour dans le cycle de vie de la ressource.

Optionnel

Couverture.Temps Coverage.Time Périmètre ou domaine d’application du contenu de la ressource, dans ce cas-ci, la date, l’année ou la période représentée par la ressource.

Obligatoire

Couverture.Espace Coverage.Space Périmètre ou domaine d’application du contenu de la ressource, dans ce cas-ci le territoire. intervalle de temps) ou une autorité (comme le nom d’une entité administrative). Il est recommandé de sélectionner une valeur dans un vocabulaire contrôlé.

Obligatoire

Couverture.Niveau Coverage.Level Un mot-clé qui permet d’identifier le niveau de couverture spatiale de la ressource :

– international
– national
– provincial
– régional
– municipal
– local

Obligatoire

Sujet.ISO Subject.ISO Un mot-clé permettant d’associer la ressource à une des catégories de classement ISO des données géospatiales.

– agriculture / farming
– biota / biota
– limites administratives / boundaries
– climatologie / climatology
– économie / economy
– élévation / elevation
– environnement / environment
– information géoscientifique / geoscientific information
– santé / health
– imagerie / imagery
– intelligence / intelligence (militaire)
– eaux intérieures / inland waters
– localisation / location
– océans / oceans
– urbanisme / planning
– société / society
– structure / structure
– transport / transportation
– services publics / utilities

Voir : https://geo-ide.noaa.gov/wiki/index.php?title=ISO_Topic_Categories

Obligatoire

Sujet Sujet Un ou des mot-clés permettant de classer la ressource. Optionnel
Format Format La manifestation (ou matérialisation) physique ou numérique de la ressource. Type MIME du document :

– shp
– kml
– kmz
– zip
– csv
– autres formats de données utilisés en SIG

Obligatoire.

Langue Language La langue du contenu intellectuel de la ressource.
Il est recommandé d’utiliser une des valeurs définies dans la RFC 3066 [RFC3066] qui, avec la norme ISO 639 [ISO639], définit des codes de langues primaires à deux, ainsi que des sous-codes facultatifs.
Exemples :- en
– fr

Obligatoire

Type de ressource Type Genre de contenu.
Par défaut, les ressources identifiées dans le cadre de ce projet font partie du type dataset (jeu de données).

Obligatoire

Droits.Licence Rights.License Identification brève du type de licence qui s’applique aux données :

– copyright
– CC (ou une ses variantes)
– domaine public
– ouverte

Obligatoire

Droits.Accessibilité Rights.Access Un des termes suivants permettant d’identifier la nature de l’accès aux données.

– gratuit
– payant
– abonnement gratuit
– abonnement payant

Obligatoire

Droits.Conditions d’utilisation Rights.Terms of use Texte copié et collé du site même pour préciser les conditions d’utilisation prescrites par l’équipe de création. Optionnel
Source Source Emplacement à partir duquel on peut obtenir la ressource. La source sera généralement un URL.
Un champ Source.URI pourra être ajouté si cela s’avère pertinent.

Obligatoire

Relation Relation Lien avec d’autres ressources. Une ressource peut être dérivée d’une autre ou être associée à une autre dans le cadre d’un projet.
Exemples : isPartOf [numéro de l’autre ressource]
isChildOf [numéro de l’autre ressource]
isDerivedFrom [numéro de l’autre ressource]

Optionnel

Éditeur Publisher Nom de la personne, de l’organisation ou du service à l’origine de la publication du document.

Optionnel

Commentaire Comment Tout information complémentaire qui permet de mieux comprendre la ressource.

Optionnel

Une liste de ressources déjà identifiées est disponible ici : http://bit.ly/2rlIkRC.
Certaines notices sont incomplètes et nous travaillerons à les compléter. Si vous désirez proposer un jeu de données, vous pourrez le faire en remplissant le formulaire suivant disponible ici : http://geohist.ca/donnees-sigh-hgis-data-form

1  DEVILLERS, Rodolphe (2004). « Conception d’un système multidimensionnel d’information sur la qualité des données géospatiales », [En ligne], Ph. D., Université Laval <http://theses.ulaval.ca/archimede/fichiers/22242/22242.html>.

2  Collaborateurs de Wikipédia (2016). « Dublin Core » <https://fr.wikipedia.org/wiki/Dublin_Core#Liste_des_.C3.A9l.C3.A9ments_et_raffinements>.

3  Bibliothèque nationale de France, Direction des Services et des Réseaux, Département de l’Information bibliographique et numérique (2008). « Guide d’utilisation du Dublin Core (DC) à la BnF : Dublin Core simple et Dublin Core qualifié, avec indications pour utiliser le profil d’application de TEL », version 2.0 <http://www.bnf.fr/documents/guide_dublin_core_bnf_2008.pdf>.

Cet article est également disponible en : Anglais