DataStream
Politique de gouvernance des données

Cette politique définit des principes de haut niveau sur la manière dont la plateforme de données ouvertes de DataStream est mise en œuvre afin de garantir le plus grand bénéfice et la plus grande valeur pour tous les utilisateurs et contributeurs.

À propos de DataStream

DataStream est une plateforme en libre accès pour le partage de données scientifiques occidentales sur la qualité de l’eau et des sédiments. Notre mission est de promouvoir le partage des connaissances et de favoriser la gérance concertée de l’eau, afin que nos eaux restent saines pour les futures générations.

DataStream travaille avec des initiatives de surveillance de l’eau et des organisations de toutes sortes qui souhaitent partager leurs données publiquement - dans des formats sécurisés, accessibles et normalisés. Les contributeurs de données conservent la propriété de leurs données et le contrôle de ce qu’ils choisissent de publier sur le système.

Principes directeurs

Les principes énoncés ci-dessous définissent les valeurs et les concepts fondamentaux qui guident la mise en œuvre continue de la plateforme de données ouvertes de DataStream, ainsi que la méthode de conservation et de gestion des données qu’elle contient. 

  1. Accès ouvert
  2. Accessibilité
  3. Qualité des données
  4. Interopérabilité
  5. Sécurité des données
  6. Durabilité

Ces principes s’appuient sur les meilleures pratiques nationales et internationales en constante évolution, notamment celles énoncées dans les principes FAIR pour la gestion des données scientifiques (Faciles à trouver, Accessibles, Interopérables et Réutilisables) [1], les principes CARE pour la gouvernance des données autochtones (avantage collectif, autorité de contrôle, responsabilité, éthique) [2], les Principes PCAP® des Premières Nations (propriété, contrôle, accès et possession) [3], et les principes TRUST pour les dépôts numériques (transparence, responsabilité, orientation utilisateur, durabilité) [4].

1. Accès ouvert

Les données sont rendues disponibles équitablement, librement et dans des délais raisonnables.

Faire en sorte que les données soient largement disponibles sans restriction (accès ouvert) est un mouvement grandissant partout dans le monde. Cela est particulièrement pertinent pour les données environnementales et les données recueillies dans l’intérêt du public, à l’aide de fonds publics. Les données ouvertes favorisent une science plus solide, améliorent la transparence dans la prise de décision et facilitent la collaboration entre les personnes et les organisations.

Rendre les données ouvertes nécessite de minimiser ou d’éliminer les obstacles à l’accès et à l’utilisation des données (tels que l’utilisation d’accords de partage de données restrictifs, de formats de fichiers propriétaires ou d’outils coûteux). Les données ouvertes sont des données numériques mises à la disposition du public avec les caractéristiques techniques et juridiques nécessaires pour qu’elles puissent être librement utilisées, réutilisées et redistribuées par tout le monde, sous réserve tout au plus de l’obligation de fournir une attribution. Pour que les données soient considérées comme « ouvertes », elles doivent être partagées dans un format non propriétaire, structuré et lisible par machine, et faire l’objet de licences claires permettant leur réutilisation.

Ce que fait DataStream...

  • DataStream est gratuit et ouvert à tous; l’accès aux données n’est pas hiérarchisé ou protégé par un mot de passe
  • Tous les ensembles de données sur DataStream sont publiés en vertu de licences de données ouvertes, ce qui permet de préciser la propriété, l’attribution et la réutilisation des données.   
  • Toutes les données peuvent être téléchargées dans des fichiers .csv structurés (un format lisible par machine, non propriétaire), ou être accédées par l’entremise d’une interface de protocole d’information ( API ).
  • Chaque observation de surveillance de l’eau (point de données) est accompagnée de métadonnées suffisantes pour la télécharger et la rendre utilisable et/ou évaluer son aptitude à être utilisée dans un contexte donné (par exemple, informations sur la localisation, unités de mesure, méthode d’analyse en laboratoire et limite de détection).
  • Les identificateurs d’objets numériques (DOI) des ensembles de données facilitent la citation des données et garantissent la possibilité de les trouver à long terme en évitant les liens brisés.

2. Accessibilité

Concevoir et mettre en œuvre DataStream de manière à réduire les obstacles à la participation.

L’accessibilité numérique consiste à créer des sites web et des outils web afin que le plus grand nombre de personnes possible puissent les utiliser, y compris les personnes handicapées, les personnes dont l’accès à l’internet est lent ou limité et les personnes ayant des niveaux variables de connaissances techniques et numériques. Cela consiste à s’assurer que les sites web et les applications sont conçus et codés de manière appropriée, à appliquer les normes et directives pertinentes en matière d’accessibilité et à améliorer en permanence l’expérience utilisateur pour tous. Ce faisant, nous réduisons les obstacles à la participation, qu’ils soient physiques, géographiques, culturels, linguistiques, numériques, financiers ou autres.

Ce que fait DataStream...

  • Les pages Web sont accessibles en anglais et en français, et la navigation se fait par clavier.
  • On peut explorer les données par des recherches par carte, visualisations de données interactives et documents d’explication scientifique (en plus du téléchargement de fichiers .csv ou d’accès par API).
  • Les tests du site web sont effectués avec une simulation de connexion mobile lente pour s’assurer que le site fonctionne bien pour les personnes ayant un accès lent ou limité à l’internet.
  • La Bibliothèque de ressources comprend des vidéos pratiques, des documents d’orientation textuels, des webinaires enregistrés et des séances  d’information.
  • Un soutien mis en place et personnalisé pour les contributeurs de données.
  • Sous-titrage codé de vidéos et inclusion de « texte alternatif » pour les images.

3. Qualité des données

Viser l’exhaustivité des ensembles de données et l’adhésion à des normes de données largement adoptées qui favorisent la réutilisation des données.

Il faut déployer des efforts pour s’assurer que les ensembles de données sont complets et que leur qualité est contrôlée afin que les données soient fiables et puissent être utilisées en toute confiance pour mieux comprendre la qualité de l’eau à l’échelle des bassins versants. Des normes de données établies et bien définies, avec des vocabulaires cohérents, protègent contre toute ambiguïté dans la communication des données et garantissent l’inclusion des métadonnées appropriées (données qui fournissent un contexte ou des informations supplémentaires sur les données). Cela facilite la réutilisation, l’interprétation et l’agrégation appropriée des données recueillies par diverses entités.

Les métadonnées qui accompagnent les ensembles de données doivent respecter les normes existantes en matière de catalogage des données et d’évaluation de leur pertinence. Les données devraient aussi être reliées à des ensembles de données connexes, le cas échéant, afin de montrer les liens entre les initiatives et les ensembles de données.

Ce que fait DataStream...

  • Toutes les données sur DataStream sont partagées dans un format normalisé basé sur le schéma WQX pour l’échange de données sur la qualité de l’eau (élaboré par l’EPA et l’USGS des États-Unis).
  • Les contrôles de validation du schéma pendant le processus de téléchargement des données garantissent la conformité avec le schéma des données WQX de DataStream et l’inclusion de toutes les informations nécessaires (par exemple, l’emplacement de l’échantillon, les unités de mesure, la méthode d’analyse et les limites de détection pour les données de laboratoire, etc.).
  • Des avertissements de contrôle de la qualité pendant le processus de téléchargement signalent si les résultats ou d’autres attributs ne correspondent pas aux valeurs attendues (par exemple, une valeur de pH comprise entre 0 et 14).
  • Les métadonnées des ensembles de données sont accessibles en DCAT (json, xml), ISO 19115.
  • Le contrôle de version et le journal des modifications de l’ensemble de données documentent les mises à jour de l’ensemble de données au fil du temps.

4. Interopérabilité

S’efforcer d’assurer l’interopérabilité technologique et sémantique avec d’autres initiatives.

L’écosystème d’infrastructure numérique dépend de la circulation coopérative des données entre les plateformes. Cette évolution vers une coopération et des échanges étendus a le potentiel d’aider à résoudre des problèmes scientifiques complexes, à grande échelle et des défis environnementaux.

Une condition préalable à une telle coopération est l'« interopérabilité ». L’interopérabilité permet à divers systèmes et entités de travailler ensemble (interopérer) vers des objectifs communs. L’interopérabilité comporte des éléments à la fois technologiques et humains. D’un point de vue technologique, l’interopérabilité consiste, entre autres, à diffuser des données dans des formats ouverts, lisibles par machine et normalisés. L’aspect humain et organisationnel de l’interopérabilité exige une communication cohérente entre les participants et un engagement à des moments clés de la prise de décision pour éclairer l’évolution du système.

Le maintien de l’interopérabilité exige une grande souplesse pour s’adapter aux changements rapides et souvent imprévisibles de la technologie de l’information, aux caractéristiques des diverses méthodologies de recherche et à la diversité culturelle au sein des régions et entre elles.

Ce que fait DataStream...

5. Sécurité des données

Sauvegarder l’intégrité et la sécurité des données contre la corruption et la perte afin de garantir leur aptitude à être utilisées à court et à long terme.

Le rythme rapide du développement des technologies de l’information a engendré de nouveaux défis en matière de cybersécurité. Pour faciliter la confiance et préserver les investissements dans la collecte, la gestion et le partage des données, il est essentiel que les données publiées et conservées dans des référentiels soient protégées contre la corruption et la perte au fil du temps. Les meilleures pratiques en matière de cybersécurité, notamment une cryptographie et des autorisations solides, garantissent l’immuabilité des données (protégées contre toute altération ou destruction accidentelle ou malveillante).

Ce que fait DataStream...

  • Mise en œuvre des meilleures pratiques de sécurité de l’industrie depuis la base, avec une surveillance et des mises à jour continues au fur et à mesure de l’évolution de ces meilleures pratiques.
  • La technologie de la chaîne de blocs est utilisée pour vérifier que les données auxquelles on accède à partir de DataStream sont les mêmes que celles qu’un contributeur a téléchargées.

6. Durabilité

Soutenir la maintenance et l’amélioration continues de DataStream, et assurer la préservation à long terme des données qui y sont conservées.

Pour demeurer viables et fonctionnels au fil du temps, les systèmes de données doivent faire l’objet de maintenance et de mises à jour permanentes afin de suivre l’évolution des technologies web et de répondre aux besoins des utilisateurs. Cela exige de planifier et de garantir des ressources adéquates à court et à long terme. Pour sauvegarder les données au fil du temps, y compris en cas de circonstances imprévues, un plan de préservation des données a été mis en place qui définit les processus permettant de garantir un accès continu aux données pour les générations actuelles et futures.

Ce que fait DataStream... 

  • Vérification annuelle des codes par un tiers indépendant
  • DataStream bénéficie du soutien de diverses sources de financement, dont des gouvernements et des fondations. Cela inclut le donateur fondateur de DataStream, The Gordon Foundation, qui est investi dans la durabilité à long terme du système.
  • Collecte et évaluation continues des commentaires des utilisateurs pour guider les améliorations de la plateforme.
  • Membre de la cohorte 2021-22 de soutien à la certification CoreTrustSeal de NDRIO-Portage 

Autres outils de référence

Ces principes directeurs ont été inspirés par une série d’initiatives et de publications relatives aux données ouvertes, à la gouvernance des données autochtones et aux meilleures pratiques de gestion des données scientifiques.

Gouvernance des données autochtones

Principes CARE de la gouvernance des données autochtones. L’Alliance mondiale pour les données autochtones. https://www.gida-global.org/care

Principes PCAP® des Premières Nations  Centre de gouvernance de l’information des Premières Nations. https://fnigc.ca  

Stratégie nationale inuite sur la recherche. Inuit Tapiriit Kanatami. https://www.itk.ca/wp-content/uploads/2018/03/Strat%C3%A9gie-nationale-inuite-sur-la-recherche.pdf

Données ouvertes

Directive sur le gouvernement ouvert du gouvernement du Canada. https://www.tbs-sct.canada.ca/pol/doc-fra.aspx

 Hacket, J., Olsen, R., and The Firelight Group. Diffusion de données géospatiales ouvertes sous la licence de gouvernement ouvert - Canada à travers les principes PCAP®. Ressources naturelles Canada (2019). https://geoscan.nrcan.gc.ca/starweb/geoscan/servlet.starweb?path=geoscan/fullf.web&search1=R=314977

Open Government Partnership. https://www.opengovpartnership.org

Open Knowledge Foundation. Open Data Handbook. https://opendatahandbook.org

Gestion, partage et réutilisation des données scientifiques

Déclaration de Beijing sur les données de recherche. Conseil international de la science, Comité sur les données. https://doi.org/10.5281/zenodo.3552330

Lin, D., Crabtree, J., Dillo, I. et al. Les principes TRUST pour les dépôts numériques. Sci Data 7, 144 (2020). https://doi.org/10.1038/s41597-020-0486-7

Déclaration de principes des trois organismes sur la gestion des données numériques. https://ic.gc.ca/eic/site/063.nsf/fra/h_83F7624E.html

Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. Les principes directeurs FAIR pour la gestion et l’intendance des données scientifiques. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18

Renvois

[1] Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. Les principes directeurs FAIR pour la gestion et l’intendance des données scientifiques. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18

[2] Research Data Alliance International Indigenous Data Sovereignty Interest Group. (Septembre 2019). « Principes CARE pour la gouvernance des données autochtones ». L’Alliance mondiale pour les données autochtones. GIDA-global.org

[3] Centre de gouvernance de l’information des Premières Nations Les principes de PCAP® des Premières nations. https://fnigc.ca/ocap-training/

[4] Lin, D., Crabtree, J., Dillo, I. et al. Les principes TRUST pour les dépôts numériques Sci Data 7, 144 (2020). https://doi.org/10.1038/s41597-020-0486-7