Généalogie - Informatisation


Informatisation des données

Inutile de recopier l'excellente sélection proposée par la page Logiciels de généalogie de Wikipédia, sauf à réparer un oubli : le logiciel Planète Généalogie (pour OS X et Windows) qui est une version simplifiée et gratuite du plus utilisé des logiciels de généalogie : Hérédis.

Mais il est par contre important d'attirer votre attention sur l'archivage des sources et les aspects informatiques liés.

Comme indiqué dans les pages précédentes, nous attachons une importance particulière aux numérisations et souhaitons signaler quelques problématiques la concernant, et naturellement proposer des solutions pour les résoudre (sans prétendre à aucune universalité).
Stacks Image 1170

(CC) BY-NC-SA — Creative Tools

Conservation des sources

- Documents bruts ou documents exploitables (publiables ?)

On est face à un problème insoluble : effectuer la numérisation avec la meilleure qualité possible tout en respectant la bande passante au niveau de la publication sur site. Cela n'est possible qu'en conservant deux versions du document : une version haute-définition, correctement identifiée et archivée, et une version destinée à la publication, aussi légère que possible, avec dans le cas de documents lourds (audio ou vidéo) différentes options de visualisation en ligne ou par téléchargement (différentes résolutions ou durées).

Concernant le document archivé, on prendra soin, autant que possible, de le garder « brut de numérisation », sans aucun traitement destiné à « l'améliorer ». Il n'est en effet pas possible de préjuger des moyens qui seront à disposition de nos descendants (tout comme il aurait été impossible d'imaginer, il y a vingt ou trente ans, les moyens grand-public dont nous disposons aujourd'hui). Donc : pas de filtrage pour les documents photographiques ou scannés, pas de corrections et enregistrements par plages d'une seule traite (sans découpe) pour les documents audio ou vidéo, etc.

- Nomenclature

Pour que les archives aient un sens, il faut qu'on puisse y retrouver ultérieurement (parfois longtemps après) les documents qu'on y a placés et qu'on sache à quoi ils correspondent, non seulement pour celui qui aura créé le classement mais aussi pour celui qui pourrait être appelé à l'exploiter dans le futur. La discipline correspondante s'appelle la nomenclature et fait l'objet de pages dédiées sur Wikipédia et ailleurs. J'indique ci-après (dans Aspects pratiques) la solution que j'ai adoptée, dérivée d'un excellent travail d'analyse réalisé par un internaute.
- Méta-données

Il est de plus en plus possible d'inclure dans des fichiers (photo, textes pdf, audio ou vidéo mp4…) des méta-données, c'est-à-dire des données invisibles codées dans le fichier et destinées à le référencer. Dans un certain nombre de cas ce référencement est en partie automatique, assuré par le logiciel ou l'appareil qui a créé le fichier : les appareils photo numériques intègrent ainsi dans leurs vues sous forme de données EXIF non seulement les paramètre de prise de vue mais aussi les coordonnées géographique du lieu, la date, etc. Les logiciels d'acquisition ou de conversion audio peuvent de même aller chercher automatiquement dans des bases de données en ligne le nom du disque, l'auteur, l'interprète, les noms des pistes, l'image de la pochette etc.

Ces données peuvent être éditées et complétées de différentes manières et vous pouvez donc inclure au sein même de vos documents des informations permettant de différencier la date de création du document et sa date de numérisation, le nom des personnes présentes sur une photo etc. Certains logiciels, par exemple sur les fichiers audio, permettent aussi de déduire/modifier le nom du fichier en fonction de ses métadonnées. Elles peuvent aussi servir à « signer » ou protéger un fichier contre la copie ou la modification, etc. Plus récemment, le standard EXIF a évolué pour inclure des critères de classification normalisés (voir page suivante).

Les métadonnées sont un domaine important et qui aura un grand avenir, nécessitant de leur accorder dès le début de vos actions de classement la plus grande attention. L'inventeur du World Wide Web, Tim Berners-Lee a créé à ce sujet le concept récent de Web sémantique, dont les implications en termes de gestion des connaissance sont très voisines des préoccupations décrites ici.

- Sauvegarde et archivage

Sans s'étendre sur ce domaine qui sera développé par ailleurs dans un chapitre Passions/Informatique (à venir), rappelons quelques principes simples :

- la sauvegarde est destinée à pallier à une panne (vol, destruction…) de votre système informatique, et à vous permettre de poursuivre votre travail sans avoir à le recommencer de zéro. Elle doit aussi permettre de récupérer des données effacées ou modifiées par erreur. Elle peut être incrémentale, automatisée, gérée par le système ou par des applications tierces, elle peut être « miroir » (clone), bootable, et peut, quand elle concerne l'ensemble de votre disque dur, vous permettre de reconstituer votre environnement de travail complet sur une nouvelle machine en quelques minutes ou quelques heures. La sauvegarde peut aussi être partielle, ne concerner que vos fichiers de travail les plus courants (sur une clé USB par exemple), mais c'est une méthode risquée que nous déconseillons (les fichiers dont on a besoin seront toujours ceux qu'on a omis de sauvegarder, loi de Murphy oblige).

- l'archivage ne doit pas être confondu avec la sauvegarde. Il a pour but de stocker de manière définitive des données qui ne sont plus destinées à être modifiées ni même utilisée au quotidien, mais auxquelles on souhaite pouvoir accéder à l'occasion. Au prix actuel des supports de sauvegarde, on peut estimer que pratiquement toutes les données originales que vous créez ont vocation à être archivées, faute de pouvoir prédire celles qui vous seront ou non utiles dans le futur. À la rigueur peut-on effacer les versions intermédiaires pour ne conserver que la version finale, mais même ce point peut être débattu.

- dans les deux cas, sauvegardes et archivages doivent être effectuées de manière multiple, sur des supports distincts et surtout conservés pour au moins une version sur un site distant (mais facilement accessible). Distant n'est pas synonyme de « en ligne » (mais c'est une solution possible).

- la sécurisation des données doit être prise en compte concernant ces sauvegardes et archivages distants (mise sous clé etc. fonction de leur importance et de leur confidentialité), et elles peuvent également faire l'objet d'un chiffrement, éventuellement automatisé, global, et pris en charge par le système.