Bonnes pratiques d'organisation des données

Il est important de réfléchir à la façon dont on va organiser ses données en amont du démarrage d’un projet, car ensuite, il est souvent trop tard ou trop complexe pour changer les choses.

La mise en oeuvre de bonnes pratiques facilite, avant de parler de diffusion et d’open data, le travail de recherche lui-même, à la fois pour le chercheur individuel, mais aussi évidemment le travail collaboratif.

Il s’agit principalement de mesures de bon sens.

Convention de nommage

Suivre des conventions de nommage précises et homogènes permet bien souvent d’éviter pas mal de désagréments. Il faut se mettre d’accord avant le démarrage du projet sur le choix de cette convention.

  • Utiliser des noms intelligibles et significatifs pour tous les membres du projet
  • Ne pas non plus utiliser des noms trop longs qui rendraient difficile la visualisation des contenus des répertoires.
  • Eviter les caractères spéciaux et les accents, dans les noms des fichiers
  • Utiliser plutôt les caractères “_” ou “-” plutôt que les espaces ou les points, ou des majuscules sur chaque mot composant le nom
  • Formater les dates de manière homogène et compréhensible : AAAAMMJJ, ce qui en outre facilite le tri chronologique
  • Ne pas différencier des noms de fichiers par la casse : selon la façon d’accéder aux fichiers, DATA et data peuvent par exemple représenter la même chose
  • Gérer les versions de différents fichiers : soit directement dans le nom, soit idéalement en utilisant un gestionnaire de version

Organisation des répertoires

La structuration en répertoires et sous répertoires est évidemment nécessaire à une bonne organisation des données.

A noter que le nom du répertoire donne des éléments qu’il est inutile de répéter dans le nom des fichiers qu’il contient.

Gestion de version

L’utilisation d’un gestionnaire de version est particulièrement intéressante dans le cas de fichiers destinés à évoluer au cours d’un projet.

Un gestionnaire de version est un système permettant d’enregistrer, de suivre et de gérer plusieurs versions d’un fichier. Il est ainsi possible :

  • de revenir à tout moment et facilement à une version antérieure
  • de conserver un historique de toutes les modifications réalisées au cours du temps
  • de voir qui a modifié quoi et à quel moment

GRICAD met à votre disposition un gestionnaire de version qui vous permet :

  • de gérer et conserver les différentes versions de vos fichiers
  • de sécuriser et sauvegarder vos données

https://gricad-gitlab.univ-grenoble-alpes.fr/

Accéder à la documentation : https://gricad-doc.univ-grenoble-alpes.fr/gitlab/

Métadonnées

Les métadonnées sont des données sur les données, ce sont des informations structurées permettant de décrire les données.

Dans le cadre de l’organisation des données, les métadonnées pertinentes sont le plus souvent intrinsèques au système sur lequel elles sont stockées : date de création, de modification, auteur, …

A ces métadonnées de base s’ajouteront des métadonnées plus riches qui décriront de façon plus précise le contenu des fichiers.

Certains systèmes de stockage comme IRODS (Integrated Rule-Oriented Data System) propose la possibilité à l’utilisateur de gérer des métadonnées (en plus de celles disponibles sur le système). GRICAD vous propose un espace de stockage basé sur IRODS : Mantis .

Ressources utiles :