SyMoGIH - Le projet

Système modulaire de gestion de l'information historique 

Initiateurs du projet : Francesco Beretta, Pierre Vernus, François Robert, Alexandre Giandou et Loïc Bonneval avec l'aide précieuse de nos collègues informaticiens, Raphaël Tournoy.

Document : organigramme des bases du LARHRA liées au projet SyMoGIH.

Le Système modulaire de gestion de l'information historique (SyMoGIH) est un projet développé au sein du Pôle méthodes du Laboratoire de recherche historique Rhône-Alpes (LARHRA) qui a une double finalité : d'une part, mettre au point un système de stockage informatique de l'information historique, à la fois ouvert et collectif, indépendant de la période étudiée ; d'autre part, tirer profit des logiciels existants, si possible gratuits et open source, afin d'exploiter et d'analyser les données récoltées en leur appliquant des outils de cartographie, d'analyse des réseaux, de statistique, d'analyse factorielle, etc. D'où le projet d'un système modulaire, ayant comme noyau une base de données structurée de manière à permettre, en premier lieu, la saisie de tout type d'information issue de différents objets historiques ou de problématiques de recherche variées et, en second lieu, l'exportation de ces données pour les exploiter grâce aux différents logiciels indiqués ci-dessus. Le projet SyMoGIH ne vise donc pas la création d'un nouveau système de logiciels mais l'acquisition, puis la diffusion d'un savoir faire informatique au service de la recherche historique.

L'étape première et fondamentale dans la réalisation du projet a consisté dans l'élaboration du système de bases de données pour la saisie et le stockage de l'information historique. L'originalité de la modélisation des données et de la construction d'un schéma logique de la base réside dans l'ambition de pouvoir accueillir tout type de données et de permettre le travail collaboratif. Une distinction essentielle est à opérer dans la modélisation selon qu'on souhaite stocker les informations telles qu'elles se trouvent dans les sources, notamment dans les sources sérielles, ou si on veut cumuler l'information en vue de la reconstitution de "mondes historiques", c'est-à-dire des mondes du passé sous leurs différents aspects (social, économique, intellectuel, etc.). Tout en prévoyant des modules qui donnent la possibilité de saisir l'information issue de sources sérielles, le projet SyMoGIH se concentre sur la modélisation des "mondes historiques" et s'efforce de produire un stockage de l'information le plus "objectif" possible. A ce sujet, il faut relever que toute modélisation et saisie de l'information relève d'une problématique de recherche, et qu'elle est donc inévitablement sélective. Toutefois, un certain degré d'objectivité peut-être atteint en distinguant le plus possible le niveau de la récolte de l'information comme telle de celui de son analyse et de sa classification selon la problématique retenue pour la recherche.

Pour modéliser les données historiques, nous avons adopté le système entité-relation (selon le système Merise) et choisi de mettre en relation les différents entités concrètes et abstraites qui composent les "mondes historiques" (personnes physiques, institutions, concepts, objets, ouvres, etc.) grâce à une entité abstraite spécifique qui représente le cour du système et qui correspond à une information historique atomisée (cf. Schéma 1). Notre système prévoit de décomposer le plus possible l'information en unités simples, ayant comme propriétés une date (ou une date de début et une date de fin), un descriptif de l'information, éventuellement une valeur quantitative liée à l'information (avec son unité de mesure spécifique), des compléments (précisions, citation littérale, etc.) On peut ensuite associer à cette information un nombre indéfini d'entités abstraites ou concrètes, définies dans la base, ce qui permet, en retour, de pouvoir retrouver rapidement toutes les informations concernant une entité (par exemple une personne) ou les relations existantes entre deux entités.

Ce système, fondé sur une description de l'information de type littéraire, n'autorise toutefois pas d'exploitation systématique ou comparative des données. Nous avons donc décidé de spécifier une typologie commune des informations, soumise à un processus de validation collective, qui comprend en même temps la définition de l'information elle-même et la manière dont les différentes entités peuvent être associées à l'information ainsi définie (cf. Schéma 2). De cette manière, il est possible d'extraire de la base, grâce au langage SQL, toutes les informations saisies selon la même structuration et de les exporter sous forme de tables ou de fichiers texte (csv) pour être ensuite exploitées par les logiciels adaptés au traitement souhaité (statistique, cartographie, généalogique, etc.). Selon le type de logiciel utilisé pour gérer la base de données, il est même envisageable une exploitation directe des données ainsi codées, par exemple grâce à une connexion ODBC/JDBC. La typologie des informations est conçue comme un système ouvert, permettant d'ajouter de nouvelles définitions si les objets historiques qu'on souhaite traiter le demandent. On peut aussi créer des renvois internes et des classes de types d'informations.

Cette modélisation des "mondes historiques" amène à construire une base de données dont le noyau est constitué par quatre tables stockant respectivement l'information historique, les associations, ainsi que la description de la typologie des informations et des associations, auxquelles s'ajoutent les tables nécessaires à la gestion des différents types d'entités (acteurs, institutions, etc.) propres aux différentes recherches (cf. Schéma 3). Le système est ainsi virtuellement ouvert à tout type de données et d'objet historique. Dans le métier d'historien, il est aussi indispensable de connaître l'origine de l'information saisie. Celle-ci peut être de différente nature, de même que pour chaque information atomisée on peut disposer de plusieurs sources (cf. Schéma 4). Dans le schéma logique de la base, on ajoutera donc aux tables constituant le cour du système au moins deux autres tables permettant la gestion des sources (cf. Schéma 5). Enfin, l'atomisation poussée de l'information, indispensable au fonctionnement du système, demande de regrouper les informations concernant les mêmes évènements ou objets historiques, ce qui peut se faire soit de façon hiérarchique, en liant toute une série d'informations à un évènement rassembleur, soit en liant les informations entre elles par des renvois internes de nombre indéterminé. Une autre table et un système de lien réflexifs seront en conséquence introduits dans la base (cf. Schéma 6).

A ces tables, qui constituent la partie centrale du système et permettent de stocker le niveau 'objectif' de l'information récoltée au sujet des "mondes historiques" qu'on souhaite reconstituer, peuvent s'en ajouter d'autres, à usage individuel ou collectif, pour coder et regrouper l'information liée à une problématique particulière, ce qui se fait par les outils classiques des base de données relationnelles (report de clés ou tables-lien). Pour ce qui est des logiciels utilisés, le système peut-être implémenté dans n'importe quel système de gestion de bases de données relationnelles. En raison de sa facilité d'accès, nous avons utilisé jusqu'ici FileMaker Server et les relatives versions clientes pour la saisie et le stockage de l'information. En revanche, l'exploitation systématique de l'information structurée selon le système de codage commun repose sur d'autres solutions informatiques car FileMaker ne permet pas d'exécuter des requêtes SQL. On peut pallier ce problème via une connexion ODBC/JDBC (par exemple avec le logiciel SquirrelSQL), mais la lenteur de l'interface, surtout en cas de requêtes complexes, conduit à stocker un jeu de données, régulièrement mis à jour, dans des bases MySQL qui permettent de gérer facilement l'exportation des résultats de requêtes SQL ainsi que la publication Web des données, si on le souhaite.

Le développement de SyMoGIH nous a également amenés à étudier la possibilité de mettre en place des synergies entre les différents projets en cours dans le LARHRA qui utilisent ce système (Sippaf, Immolyon, Projet ISA et Scholasticon, Lyon et acteurs de la régulation), dans le but d'éviter les redondances dans des tables décrivant les mêmes entités telles que les lieux, les fonctions sociales, etc. Nous avons donc mis en place une base de données commune qui contient non seulement les dictionnaires des types d'information et des associations, mais encore d'autres tables permettant de croiser les données et de servir de référence commune aux différents projets (cf. Schéma 7). Nous nous efforçons de construire cet outil commun en référence avec les standards existants, tout en intégrant les données supplémentaires produites dans notre travail pour permettre plus de souplesse. Par exemple, dans le domaine du traitement des professions, nous avons choisi d'adopter comme référentiel le système Hisco (http://historyofwork.iisg.nl/). Sur ce noyau commun pourront se greffer d'autres projets susceptibles d'utiliser le savoir faire propre à SyMoGIH.

Enfin, nous avons testé l'utilisation des données stockées dans nos bases avec des systèmes d'information géograhique (MapInfo et QuantumGIS), des logiciels de généalogie (GeneWeb et GenJ), des tableurs (Excel et Calc), des logiciels d'analyse des réseaux (Pajek).


Francesco Beretta, Version du 24 juin 2008
Validation : Alexandre Giandou, François Robert, Pierre Vernus
© CNRS 2008





Dernière modification vendredi 2 décembre 2011 par C. Lorgeré




 

ID. Pass.
Dernière mise à jour du site le mercredi 16 mai 2012 (18:13) +