Des travaux de R&D autour de la FRBRisation

L’émergence des technologies du Web Sémantique change le comportement des utilisateurs de portails documentaires. Ces derniers attendent des moteurs de recherche performants, facilitant leur accès à l’information. C’est pourquoi de plus en plus d’institutions culturelles tentent d’améliorer leurs systèmes d’information et de réinventer leurs pratiques de catalogage. La communauté des bibliothèques a déjà commencé son évolution avec la proposition de nouveaux modèles et règles pour le catalogage (ex : FRBR, RDA). Toutefois l’adoption de nouveaux modèles sémantiques comme FRBR implique de relever des challenges techniques pour migrer des données existantes. Les bibliothécaires doivent être accompagnés dans cette démarche avec les outils et les méthodes appropriés pour accomplir avec succès cette migration.

Migration des Métadonnées vers FRBR : FRBRisation.
Le processus de FRBRisation est connu de la communauté des bibliothécaires. Il consiste à extraire des entités et relations FRBR à partir de notices en MARC. Ce processus peut être très complexe à appliquer sur de grand volumes de données car il implique de rédiger des règles de migration pour interpréter automatiquement les notices MARC. De la richesse de ces règles va dépendre la qualité du résultat FRBR en sortie du processus. Toutefois les catalogues MARC sont très hétérogènes en fonction du type de ressource représenté, des pratiques de catalogage ou d’erreurs potentielles. Il est donc important pour une bibliothèque souhaitant adopter FRBR de pouvoir évaluer les techniques de FRBRisation utilisées sur son catalogue. Dans le cadre du projet Syrtis, Progilone a participé à la réalisation de travaux de recherche sur les techniques de FRBRisation des deux dernières décennies. Ces travaux ont abouti à la publication d’un article de recherche, dans le cadre de la conférence internationale TPDL 2015, qui propose une classification intuitive et pertinante des outils de FRBRisation (A Survey of FRBRization Techniques). Les conclusions de cette étude montrent que la plupart des outils proposés par la communauté n’ont pas ou peu été évalués en termes de qualité de la migration. C’est pourquoi Progilone a orienté ses recherches vers l’évaluation des outils de FRBRisation.

Interprétation des notices bibliographiques.
La migration des catalogues bibliographiques vers de nouveaux modèles sémantiques implique de garantir la complétude et la cohérence des données en sortie du processus. Pour la transformation des notices MARC vers FRBR, la FRBRisation, la qualité du processus est cruciale pour la bibliothèque qui transforme ses données. Dans un processus de migration automatisé sur des notices MARC, la qualité de la transformation dépend des règles utilisées pour générer les entités et relations FRBR. L’expressivité de ces règles peut varier en fonction de l’interprétation qui est faites des notices en entrée. Les recherches sur le domaine ont montré que différents niveaux de lecture doivent être considérés, les champs contenant les valeurs en chaînes de caractères, les zones correspondant à des agrégats d’informations de plus hauts niveaux (ex : Responsabilités, Sujets) et enfin des patterns bibliographiques implicites (ex : Traduction d’une œuvre, adaptations, relations spéciales entre œuvres).

A ces niveaux de lecture doit s’ajouter une compréhension des pratiques de catalogages spécifiques et spécificités du modèle MARC utilisées pour compléter l’interprétation des notices et écrire les règles de FRBRisation. En se basant sur ces critères, les recherches de Progilone ont mené à l’élaboration de mesures d’évaluation pour les techniques de FRBRisation et à la réalisation d’un benchmark des solutions récentes dédiées à ce processus. Ce benchmark est constitué de différents jeux de données étudiés pour tester les cas essentiels (Patterns bibliographiques, pratiques de catalogage) qu’un outil de FRBRisation doit considérer. Il inclut également différent types d’erreurs ou de manquements pouvant concerner un catalogue du monde réel à interpréter. Les éléments qui constituent le benchmark ont été présentés lors de la conférence Internationale JCDL 2016 (Open Datasets for Evaluating the Interpretation of Bibliographic Records). Les détails du benchmark et les expérimentations faites sur les outils existants de FRBRisation ont également donné lieu à la publication d’un article long, présenté lors de la conférence Internationale TPDL 2016 (BIB-R: a Benchmark for the Interpretation of Bibliographic Records).