SyMoGIH
Système modulaire de gestion de l'information historique
Initiateurs du projet : Francesco Beretta, Pierre Vernus, François Robert, Alexandre Giandou et Loïc Bonneval avec l'aide précieuse de nos collègues informaticiens, Raphaël Tournoy.
Document : organigramme des bases du LARHRA liées au projet SyMoGIH.
Le Système modulaire de gestion de l'information historique (SyMoGIH)
est un projet développé au sein du Pôle méthodes du Laboratoire de
recherche historique Rhône-Alpes (LARHRA) qui a une double finalité :
d'une part, mettre au point un système de stockage informatique de
l'information historique, à la fois ouvert et collectif, indépendant de
la période étudiée ; d'autre part, tirer profit des logiciels
existants, si possible gratuits et open source,
afin d'exploiter et d'analyser les données récoltées en leur appliquant
des outils de cartographie, d'analyse des réseaux, de statistique,
d'analyse factorielle, etc. D'où le projet d'un système modulaire,
ayant comme noyau une base de données structurée de manière à
permettre, en premier lieu, la saisie de tout type d'information issue
de différents objets historiques ou de problématiques de recherche
variées et, en second lieu, l'exportation de ces données pour les
exploiter grâce aux différents logiciels indiqués ci-dessus. Le projet
SyMoGIH ne vise donc pas la création d'un nouveau système de logiciels
mais l'acquisition, puis la diffusion d'un savoir faire informatique au service de la recherche historique.
L'étape première et fondamentale dans la
réalisation du projet a consisté dans l'élaboration du système de bases
de données pour la saisie et le stockage de l'information historique.
L'originalité de la modélisation des données et de la construction d'un
schéma logique de la base réside dans l'ambition de pouvoir accueillir
tout type de données et de permettre le travail collaboratif. Une
distinction essentielle est à opérer dans la modélisation selon qu'on
souhaite stocker les informations telles qu'elles se trouvent dans les
sources, notamment dans les sources sérielles, ou si on veut cumuler
l'information en vue de la reconstitution de "mondes historiques",
c'est-à-dire des mondes du passé sous leurs différents aspects (social,
économique, intellectuel, etc.). Tout en prévoyant des modules qui
donnent la possibilité de saisir l'information issue de sources
sérielles, le projet SyMoGIH se concentre sur la modélisation des
"mondes historiques" et s'efforce de produire un stockage de
l'information le plus "objectif" possible. A ce sujet, il faut relever
que toute modélisation et saisie de l'information relève d'une
problématique de recherche, et qu'elle est donc inévitablement
sélective. Toutefois, un certain degré d'objectivité peut-être atteint
en distinguant le plus possible le niveau de la récolte de
l'information comme telle de celui de son analyse et de sa
classification selon la problématique retenue pour la recherche.
Pour modéliser les données historiques, nous avons adopté le système
entité-relation (selon le système Merise) et choisi de mettre en
relation les différents entités concrètes et abstraites qui composent
les "mondes historiques" (personnes physiques, institutions, concepts,
objets, ouvres, etc.) grâce à une entité abstraite spécifique qui
représente le cour du système et qui correspond à une information
historique atomisée (cf. Schéma 1).
Notre système prévoit de décomposer le plus possible l'information en
unités simples, ayant comme propriétés une date (ou une date de début
et une date de fin), un descriptif de l'information, éventuellement une
valeur quantitative liée à l'information (avec son unité de mesure
spécifique), des compléments (précisions, citation littérale, etc.) On
peut ensuite associer à cette information un nombre indéfini d'entités
abstraites ou concrètes, définies dans la base, ce qui permet, en
retour, de pouvoir retrouver rapidement toutes les informations
concernant une entité (par exemple une personne) ou les relations
existantes entre deux entités.
Ce système, fondé sur une
description de l'information de type littéraire, n'autorise toutefois
pas d'exploitation systématique ou comparative des données. Nous avons
donc décidé de spécifier une typologie commune des informations,
soumise à un processus de validation collective, qui comprend en même
temps la définition de l'information elle-même et la manière dont les
différentes entités peuvent être associées à l'information ainsi
définie (cf. Schéma 2).
De cette manière, il est possible d'extraire de la base, grâce au
langage SQL, toutes les informations saisies selon la même
structuration et de les exporter sous forme de tables ou de fichiers
texte (csv) pour être ensuite exploitées par les logiciels adaptés au
traitement souhaité (statistique, cartographie, généalogique, etc.).
Selon le type de logiciel utilisé pour gérer la base de données, il est
même envisageable une exploitation directe des données ainsi codées,
par exemple grâce à une connexion ODBC/JDBC. La typologie des
informations est conçue comme un système ouvert, permettant d'ajouter
de nouvelles définitions si les objets historiques qu'on souhaite
traiter le demandent. On peut aussi créer des renvois internes et des
classes de types d'informations.
Cette modélisation des
"mondes historiques" amène à construire une base de données dont le
noyau est constitué par quatre tables stockant respectivement
l'information historique, les associations, ainsi que la description de
la typologie des informations et des associations, auxquelles
s'ajoutent les tables nécessaires à la gestion des différents types
d'entités (acteurs, institutions, etc.) propres aux différentes
recherches (cf. Schéma 3).
Le système est ainsi virtuellement ouvert à tout type de données et
d'objet historique. Dans le métier d'historien, il est aussi
indispensable de connaître l'origine de l'information saisie. Celle-ci
peut être de différente nature, de même que pour chaque information
atomisée on peut disposer de plusieurs sources (cf. Schéma 4).
Dans le schéma logique de la base, on ajoutera donc aux tables
constituant le cour du système au moins deux autres tables permettant
la gestion des sources (cf. Schéma 5).
Enfin, l'atomisation poussée de l'information, indispensable au
fonctionnement du système, demande de regrouper les informations
concernant les mêmes évènements ou objets historiques, ce qui peut se
faire soit de façon hiérarchique, en liant toute une série
d'informations à un évènement rassembleur, soit en liant les
informations entre elles par des renvois internes de nombre
indéterminé. Une autre table et un système de lien réflexifs seront en
conséquence introduits dans la base (cf. Schéma 6).
A ces tables, qui constituent la partie centrale du système et
permettent de stocker le niveau 'objectif' de l'information récoltée au
sujet des "mondes historiques" qu'on souhaite reconstituer, peuvent
s'en ajouter d'autres, à usage individuel ou collectif, pour coder et
regrouper l'information liée à une problématique particulière, ce qui
se fait par les outils classiques des base de données relationnelles
(report de clés ou tables-lien). Pour ce qui est des logiciels
utilisés, le système peut-être implémenté dans n'importe quel système
de gestion de bases de données relationnelles. En raison de sa facilité
d'accès, nous avons utilisé jusqu'ici FileMaker Server et les relatives
versions clientes pour la saisie et le stockage de l'information. En
revanche, l'exploitation systématique de l'information structurée selon
le système de codage commun repose sur d'autres solutions informatiques
car FileMaker ne permet pas d'exécuter des requêtes SQL. On peut
pallier ce problème via une connexion ODBC/JDBC (par exemple avec le
logiciel SquirrelSQL), mais la lenteur de l'interface, surtout en cas
de requêtes complexes, conduit à stocker un jeu de données,
régulièrement mis à jour, dans des bases MySQL qui permettent de gérer
facilement l'exportation des résultats de requêtes SQL ainsi que la
publication Web des données, si on le souhaite.
Le développement de SyMoGIH nous a également
amenés à étudier la possibilité de mettre en place des synergies entre
les différents projets en cours dans le LARHRA qui utilisent ce système
(Sippaf, Immolyon, Projet ISA et Scholasticon, Lyon et acteurs de la
régulation), dans le but d'éviter les redondances dans des tables
décrivant les mêmes entités telles que les lieux, les fonctions
sociales, etc. Nous avons donc mis en place une base de données commune
qui contient non seulement les dictionnaires des types d'information et
des associations, mais encore d'autres tables permettant de croiser les
données et de servir de référence commune aux différents projets (cf. Schéma 7).
Nous nous efforçons de construire cet outil commun en référence avec
les standards existants, tout en intégrant les données supplémentaires
produites dans notre travail pour permettre plus de souplesse. Par
exemple, dans le domaine du traitement des professions, nous avons
choisi d'adopter comme référentiel le système Hisco (http://historyofwork.iisg.nl/). Sur ce noyau commun pourront se greffer d'autres projets susceptibles d'utiliser le savoir faire propre à SyMoGIH.
Enfin, nous avons testé l'utilisation des données stockées dans nos
bases avec des systèmes d'information géograhique (MapInfo et
QuantumGIS), des logiciels de généalogie (GeneWeb et GenJ), des
tableurs (Excel et Calc), des logiciels d'analyse des réseaux (Pajek).
Validation : Alexandre Giandou, François Robert, Pierre Vernus
© CNRS 2008
Dernière modification le dimanche 16 août 2009 par F. Beretta









