L’intérêt d’utiliser cet outil pour décrire le contenu de fonds documentaires et de fonds d’archives – l’expérience d’Etopia.


Partant de notre expérience d’indexation des documents présents dans les fonds documentaire et d’archives que nous traitons, l’objectif de cet article est de témoigner de l’intérêt d’un thésaurus pour la gestion documentaire et la description de fonds et collections d’archives[[Ce texte a fait l’objet d’une communication au Neuvième congrès de l’Association des Cercles francophones d’Histoire et d’Archéologie de Belgique et LVIe congrès de la Fédération des Cercles d’Archéologie et d’Histoire de Belgique (Liège, 23-26 août 2012) – section : Archives et Bibliothèques.]].

Présentation du centre de documentation et d’archives privées d’Etopia

Mis en place dès 1983 au sein du CEFE (Centre d’Etudes et de Formation en Ecologie) pour encourager la réflexion autour du développement durable et du respect de l’environnement, le centre de documentation compte aujourd’hui plus de 15.000 ouvrages. Complété en 2003 par la création d’un centre d’archives privées, celui-ci a pour mission d’accueillir les archives liées à l’écologie politique et à la mouvance environnementale, assurer le traitement archivistique de ces fonds et valoriser ces différentes collections auprès d’un large public.

Son patrimoine relativement jeune est à la fois de nature politique et associative. Il rassemble les archives du parti Ecolo et du parti vert européen, des archives issues d’associations environnementales comme celle des Amis de la Terre Belgique ou d’Inter-environnement Wallonie ainsi que de personnes engagées dès les années 60 dans la préservation de la nature ou dont les revendications sont à mettre en lien avec les fondements de l’écologie politique[[Pour un aperçu plus complet et détaillé de nos collections, voir : S. Zareba, A. Hendrick, Etat des fonds et collections du centre d’archives privées d’étopia [en ligne], etopia, 2012. https://www.etopia.be/spip.php?article79.]].

Etant contemporain des nouvelles technologies de l’information et d’une société où la production de contenus est en expansion continue, nous devons développer des techniques et des méthodes nouvelles afin d’assurer la sauvegarde à long terme des nombreux supports qui constituent ces archives. Le centre d’archives explore donc de nouvelles voies afin de relever ce défi numérique. C’est ainsi qu’il propose à ses producteurs d’archives des méthodes de classement facilitant l’organisation de leurs documents ainsi qu’une interface documentaire permettant un archivage courant de leurs productions[[Pour plus de détails, voir : M.-L. Dubois, Comment contribuer à la collecte et à la conservation de sources pour les historiens de l’écologie. L’exemple d’Etopia [en ligne], etopia, 2010. https://www.etopia.be/spip.php?article1164.]] et facilitant les possibilités de recherches via un outil classificatoire : le thésaurus.

L’informatique au service de la gestion documentaire et archivistique

L’informatisation du service commence en 1998 avec l’acquisition du logiciel documentaire Alexandrie développé par la firme française GB Concept. Cet outil permet de gérer séparément les archives et la documentation.

Depuis 2007, les ressources documentaires du centre sont accessibles sur Internet[Etopia. Centre de documentation et d’archives d’étopia [en ligne]. [Alexandrie.]]. Le grand public peut ainsi consulter l’ensemble des références du centre de documentation ainsi que certaines archives. Les membres du personnel et collaborateurs du parti Ecolo bénéficient d’un accès aux archives produites par l’organisation via un profil sécurisé.

En plus des archivistes et documentalistes, une cinquantaine de collaborateurs saisissent eux-mêmes dans la banque de données les documents produits par leur service. Une validation est effectuée régulièrement par la documentaliste de manière à normaliser et uniformiser la description, garantir la logique classificatoire et assurer une cohérence dans la présentation des métadonnées du catalogue.

Les métadonnées – données relatives aux ressources documentaires (titre, auteur, éditeur, mots-clés, etc.) sont d’une importance capitale : elles permettent notamment de faciliter la recherche documentaire, l’archivage des documents et l’interopérabilité avec d’autres bases de données internes ou externes.

Pour indexer l’ensemble des documents – soit définir les métadonnées « mots-clés » -, le centre utilise un thésaurus commun à la documentation et aux archives.

Aspects théoriques : indexation et langages documentaires

L’indexation est l’opération qui consiste à décrire le contenu intellectuel d’un document, en attribuant à celui-ci des mots-clés reflétant le(s) sujet(s) sur le(s)quels il porte.
L’indexation peut se faire à l’aide de deux types de langages documentaires : le langage naturel ou le langage contrôlé.

Le langage naturel correspond au langage courant, non structuré et non hiérarchisé.
Il convient de rapprocher ce type de langage documentaire des « tags », mots-clés choisis librement par l’utilisateur qui les associe à un document (texte, image, audio ou vidéo) pour décrire les sujets que celui-ci présente. Les tags sont aujourd’hui largement utilisés sur les blogs, ou des sites comme Delicious, Flickr, ou Youtube[[Dans le cas d’images (Flickr) ou de vidéos (Youtube), les tags sont très importants de par l’absence de contenu textuel à analyser par les moteurs de recherche. La contribution des internautes à l’indexation (dite « tagging ») est donc essentielle pour permettre le référencement des ressources sur Internet.]].
Les moteurs de recherche comme Google utilisent aussi le langage naturel : en y effectuant des requêtes, le moteur balaie en tout ou partie l’intégralité du contenu des documents que son « réservoir » contient, il effectue ce qu’on appelle une recherche plein texte.
Le langage naturel a l’avantage de proposer un nombre de termes et d’expressions illimité, il présente une souplesse évidente pour l’attribution de mots-clés et demeure par conséquent facile d’emploi pour les utilisateurs, mais ses inconvénients sont nettement plus nombreux à la recherche : il est susceptible de présenter un manque de cohérence (utilisation conjointe des singuliers et pluriels, par exemple), ainsi que des risques de polynymie[[Fait pour un concept d’être désigné par plusieurs termes synonymes.]] et de polysémie, engendrant respectivement silence et bruit documentaire.

Le langage contrôlé oblige la consultation d’outils documentaires tels que les listes d’autorité, les classifications systématiques (telles que la CDU ou Dewey) ou les thésaurus. En effet, ces outils contiennent un nombre limité de concepts, soit autant de termes ou d’expressions admises pour les recherches. Contrairement au langage libre, le langage contrôlé promet, grâce à la règle de l’unité de sens, un nombre de recherches moins important et l’obtention de résultats plus ciblés. Certains outils de langage contrôlé présentent un fonctionnement plus élaboré que d’autres : par exemple, les thésaurus.

Le thésaurus est une liste structurée et hiérarchisée de mots-clés – dits ‘descripteurs’ – reliés les uns aux autres par plusieurs types de relations sémantiques :

1. les relations hiérarchiques, qui connectent ensemble un terme générique (TG) et un terme spécifique (TS),

Ex : (TG) violence → (TS) violence conjugale, (TS) violence sexuelle, (TS) harcèlement moral

2. les relations d’équivalence, qui connectent ensemble des termes synonymiques,

Ex : violence → maltraitance

3. les relations d’association, qui connectent ensemble des termes pouvant être associés (TA, terme associé) à d’autres par une autre relation que la hiérarchie (elles rapprochent généralement des descripteurs émanant de champs sémantiques/microthésaurus (MT) différents), soit pour marquer un lien significatif entre deux descripteurs*, soit pour les éloigner d’une acception erronée**, moyennant alors l’emploi de notes d’applications (NA) pour préciser l’usage prévu de ce terme dans le thésaurus.

* Ex : violence (MT Questions éthiques) → TA : insécurité (MT Sécurité-Police)

** Ex : viande → TA : alimentation animale
NA : Alimentation animale: sous ce terme, entendez la nourriture donnée aux animaux et non la viande
4. les relations d’équivalences interlinguistiques, qui relient un descripteur à celui auquel il correspond dans une ou plusieurs langues différentes.

Ex : violence → NL geweld, EN violence, DE gewalt, IT violenza

Le thésaurus ne prétend pas à l’exhaustivité. Son nombre de descripteurs doit refléter les sujets et domaines utiles à la structure professionnelle, sa richesse lexicale se veut par conséquent résolument restreinte. C’est un instrument combinatoire, qui permet de coordonner plusieurs concepts entre eux pour prétendre à davantage de précision. Il fait l’objet d’une logique booléenne (et, ou, sauf) et est donc « adapté aux opérations de base effectuées par l’ordinateur, d’où un succès immédiat et durable de ces langages documentaires en contexte informatisé »[[M.-F. Blanchet, Intérêt pédagogique des langages documentaires [en ligne]. Savoir-CDI, 2000. http://www.cndp.fr/savoirscdi/cdi-outil-pedagogique/reflexion/interet-pedagogique-des-langages-documentaires.html.]].

L’intérêt d’un thésaurus

Les avantages des thésaurus sont multiples et résident à plusieurs niveaux :

A l’utilisation

De manière générale, le thésaurus est un outil capable d’interroger les ressources enregistrées – qu’il s’agisse d’archives ou de documentation – par le biais des thématiques et de manière transversale. Ainsi, chacun des mots-clés attribués au document constitue autant de points d’accès supplémentaires pour retrouver le document au sein de la base de données. En coordonnant ces mots-clés – donc en affinant la recherche thématique -, il est également possible d’obtenir les documents répondant à des besoins plus précis.

Le thésaurus constitue une porte d’entrée parfois plus accessible pour l’utilisateur qu’un plan de classement figé : la cohérence d’un fonds demeure souvent limpide pour ceux qui l’ont structuré, mais encore faut-il avoir « vécu » avec ce fonds – c’est-à-dire avoir appréhendé son contenu, avoir dégagé son fil conducteur et l’avoir trié et décrit – pour voir clair sur sa logique et identifier les trésors qu’il recèle…
Plus qu’un simple instrument permettant de définir et d’attribuer des mots-clés, le thésaurus, en tant qu’outil de langage contrôlé, permet une normalisation terminologique et vise à éliminer toute ambigüité linguistique :

il « permet d’harmoniser le vocabulaire des auteurs, celui des indexeurs et celui des utilisateurs »[[B. Menon, Les langages documentaires : un panorama, quelques remarques critiques et un essai de bilan. Documentaliste, science de l’information, 44/1 (2007), p. 18.]]. En effet, ceux-ci ne parlent généralement pas le même langage. Ainsi, « le thésaurus fournit la liaison indispensable entre leurs vocabulaires, en traduisant chaque concept élémentaire par un mot ou une expression constituant un descripteur »[[Langages documentaires à structure combinatoire, thésaurus [en ligne]. http://fr.wikibooks.org/wiki/La_documentation/Langages_documentaires_%C3%A0_structure_combinatoire,_th%C3%A9saurus.]]

il présente des règles d’écriture précises pour standardiser et, en ce sens, « simplifier » la formulation des requêtes[[Forme substantive, masculin, singulier, forme développée en lieu et place des abréviations, sigles et acronymes, graphie la plus courante, mot le plus courant.]]

il résout les problèmes de polysémie ou d’homographie en affichant des parenthèses de précision ou des notes d’application pour écarter les équivoques

il résout les problèmes de polynymie/synonymie et dispense de la multiplication des requêtes documentaires en associant techniquement à un descripteur une série de concepts au sens similaire ou apparenté.

Plutôt que d’effectuer une équation de recherche extrêmement complexe ou autant de recherches qu’il y a de termes ou d’expressions apparentés, le thésaurus permet d’effectuer avec simplicité une seule recherche avec un maximum de résultats pertinents en guise de réponse.

Concrètement, une recherche Google – en langage naturel – sur les toits verts pourrait être l’occasion d’interroger le moteur pas moins de dix fois, sous les expressions suivantes : “toiture végétalisée”, “toitures végétalisées”, “toit végétal”, “toits végétaux”, “toit vert”, “toits verts”, “toiture verte”, “toitures vertes”, “toiture écologique”, “toitures écologiques”…

Bien qu’il n’ait pas pour vocation d’être exhaustif, le thésaurus, s’il contient le descripteur souhaité, permet une recherche unique puisque tous les autres concepts qui présentent un sens similaire à celui-ci sont techniquement liés à lui.

A la construction

Le thésaurus est un outil souple. Il peut-être créé de toutes pièces pour correspondre au vocabulaire de l’organisation qui l’utilise, ou faire l’objet d’une importation partielle ou totale, et être adapté en fonction des besoins de la structure à tout moment.

Il peut par ailleurs être général et couvrir un grand nombre de domaines (champs sémantiques) comme, par exemple, le thésaurus Eurovoc du Parlement européen[[Eurovoc [en ligne]. http://eurovoc.europa.eu/drupal.]]. A contrario, il peut aussi demeurer très spécifique, comme le thésaurus Mesh associé à la base de données spécialisée en médecine Medline[[Mesh [en ligne]. http://www.ncbi.nlm.nih.gov/mesh.]].

La construction du thésaurus

Comme dit précédemment, un thésaurus peut être créé intégralement (conception directe) ou être emprunté à un autre organisme, dont la spécialité et les matières couvertes sont communes (conception indirecte).

La conception directe

En théorie, la construction d’un thésaurus se fait en plusieurs étapes.
Il convient dans un premier temps de réunir le vocabulaire approprié en consultant dictionnaires, lexiques, tables des matières de manuels, ou en se référant directement aux archives ou à la documentation à traiter.
Tout le vocabulaire extrait doit ensuite être normalisé (opter pour les formes substantivées, le genre et le nombre au masculin singulier, l’écriture la plus fréquente…), puis réduit de sorte à ne garder que les vocables les plus significatifs par rapport à la structure dans laquelle il sera utilisé. Ensuite, vient la structuration du vocabulaire, où l’on articule la colonne vertébrale du thésaurus selon plusieurs microthésaurus et définit la position sémantiquement hiérarchique des concepts les uns par rapport aux autres.

La conception indirecte

Michèle Hudon[[ M. Hudon est professeure agrégée et responsable du doctorat en sciences de l’information à l’École de bibliothéconomie et des sciences de l’information (EBSI) de l’Université de Montréal.]] recommande de ne pas « réinventer la roue » en construisant un thésaurus qui existe peut-être déjà. Elle propose le repérage de thésaurus analogues, c’est-à-dire afférents en tout ou partie au domaine d’activité couvert par l’institution demandeuse[[M. Hudon, Le thésaurus : conception, élaboration, gestion. ASTED, 1994, p. 29.]].
Elle préconise aussi une évaluation de la compatibilité de ceux-ci selon trois aspects : la richesse conceptuelle (complétion de l’environnement sémantique (domaines)), la richesse lexicale (le degré de spécificité) et l’organisation sémantique (la structure du thésaurus).
Ces trois critères doivent être confrontés aux attentes de l’institution et correspondre autant que possible aux besoins de cette dernière.
Un thésaurus doit être testé sur un échantillon de plusieurs centaines de documents à indexer et rechercher pour pouvoir être évalué et validé.

La construction du thésaurus d’Etopia

Le thésaurus d’Etopia a été créé de toutes pièces en 1998 lors de l’informatisation du service. La documentaliste s’est inspirée d’une liste thématique – initialement créée et employée par l’association environnementale ou elle travaillait précédemment – ainsi que des thésaurus Eurovoc, Urbamet, celui du groupe Ecolo au Parlement wallon et de la CDU. Aucune règle n’a été scrupuleusement suivie pour la construction du thésaurus, mais il a, au fil des années et des mises à jour, fini par répondre précisément aux besoins d’indexation du centre.

En 2006, une arborescence thématique a par ailleurs été élaborée à la demande des collaborateurs afin de disposer de liste de mots-clés pour classer les archives et documents sur les répertoires partagés et serveurs informatiques ou pour identifier les personnes selon des thématiques liées à leur expertise. Le thésaurus construit par le centre de documentation a servi de base à la réflexion de cet instrument classificatoire, mais semblait ne pas correspondre exactement à la réalité des collaborateurs et présenter une complexité relative. Le choix a donc été fait d’élaborer deux listes fermées et simplifiées (thématique générale et thématique secondaire) qui se sont ajoutées à côté du thésaurus employé à Etopia.

Mise à jour d’un thésaurus

Il est nécessaire de mettre à jour et d’enrichir un thésaurus avec une certaine régularité[[L’opération de mise à jour d’un thésaurus est à renouveler tous les six mois pour un thésaurus fraîchement construit et tous les deux ans au minimum pour un thésaurus plus ancien, selon Georges Van Slype : G. Van Slype, Les langages d’indexation : conception, construction et utilisation dans les systèmes documentaires. Les éditions d’organisation, 1987, p. 146.]] pour maintenir l’efficacité de l’outil.

Cette mise à jour se fait par l’ajout, la modification ou la suppression de descripteurs ou des relations sémantiques qui lient ceux-ci.

Généralement, il convient de vérifier…

si tous les vocables sont correctement compris

s’ils sont encore d’actualité

si certains descripteurs ne semblent pas entretenir une ambiguïté linguistique ou faire double emploi

si les relations hiérarchiques qu’entretiennent les descripteurs sont logiques

si certains termes sont peu ou pas utilisés[[Certains modules thésaurus permettent de voir le nombre de documents auxquels a été assigné chaque descripteur.]] (voir si le niveau de spécificité des descripteurs n’est pas inutilement accru)

si certains termes sont trop utilisés (voir si le niveau de spécificité n’est pas insuffisant comparativement au cadre dans lequel le thésaurus est utilisé)

si des relations d’équivalence utiles pourraient être créées, de façon à optimiser les recherches

si les candidats descripteurs[[Termes créés entre deux révisions du thésaurus lorsque l’absence d’un concept se fait ressentir.]] qui ont été ajoutés sont indispensables ou superflus

etc.

La mise à jour du thésaurus d’Etopia

Le thésaurus d’Etopia a fait l’objet de plusieurs révisions depuis sa création.
Celle de 2008 a essentiellement permis de rapprocher le thésaurus et les listes thématiques qui ont été créées pour l’indexation des archives et l’identification des compétences des personnes[[Cf. « construction du thésaurus d’Etopia ».]]. Le thésaurus, par ces dernières modifications, s’est voulu plus proche de la « réalité du terrain », ce qui a permis de répondre beaucoup mieux aux attentes lexicales du personnel.
Actuellement, les documentalistes œuvrent à nouveau sur sa révision car certaines ambigüités sont constatées lors des recherches effectuées :

Des descripteurs présentent des ambigüités et semblent faire double emploi.

Ex : utilisation conjointe des descripteurs ‘égalité des genres’ et ‘égalité homme-femme’

Des descripteurs présentent des relations hiérarchiques peu logiques ou inversées.

Ex : ‘efficacité énergétique’, terme générique de ‘consommation d’énergie’

Des synonymes nécessitent d’être créés pour identifier directement le descripteur retenu.

Ex : ‘voile’ et ‘burqa’ à ajouter comme synonymes de ‘port de signes convictionnels’

Des descripteurs doivent être sucrés en raison d’un niveau de spécificité trop élevé par rapport aux besoins du service.

Ex : ‘pot catalytique’ ou ‘médiation pénale’ n’ont jamais été utilisés ni l’un ni l’autre en l’espace de plusieurs années

Des descripteurs sont utilisés à outrance, suggérant le manque d’un univers sémantique plus spécifique pouvant être utilisé à bon escient pour les besoins d’indexation.

Ex : ‘Service public – entreprise publique’, utilisé sur plus de 500 documents, alors que l’occurrence moyenne est de 20

Des descripteurs nécessitent d’être définis par une note d’application (faisant office de note d’explication, faute de champ prévu à cet effet) ou rendus intelligibles par l’emploi d’autres termes en raison d’une mécompréhension supposée de ceux-ci.

Ex : ‘eutrophisation’ et ‘gender budgeting’ sont en effet peu ou pas utilisés pour indexer les documents

Revoir les candidats descripteurs créés par les collaborateurs, mesurer leur (in)utilité par rapport au contexte dans lequel ils pourraient être utilisés.

Ex : les concepts ‘hippothérapie’, ‘surrégénérateur’ font chez nous l’objet d’une trop grande spécificité. Pareillement, la création d’expressions telles que ‘liaison autoroutière Cerexhe-Heuseux-Beaufays’ s’avère problématique, puisque la vocation d’un thésaurus n’est pas l’exhaustivité. La postcoordination de ‘route’ et ‘Liège (province)’ sera donc préférée

Etc.

Dans l’optique que « la construction d’un thésaurus implique une production menée en collaboration avec des experts en sciences de l’information et des experts du domaine sur lequel porte le thésaurus »[[Université de Lyon. La construction de thésaurus [en ligne]. http://spiral.univ-lyon1.fr/files_m/M6448/WEB/prototype/ressources/constructiondesthesaurus.html.]], les documentalistes d’Etopia ont collaboré avec les conseillers politiques pour la révision de leur thésaurus afin d’optimiser les services rendus aux utilisateurs.

Concrètement, chaque expert, responsable d’une ou plusieurs matières, est sollicité par la documentaliste pour revoir avec elle l’entièreté ou une partie de microthésaurus lié à ses thématiques de travail. Ensemble, ils confrontent l’existant – le vocabulaire et la structure du thésaurus – aux perceptions que les conseillers ont de « leur » matière.

Le contenu du thésaurus est réagencé en fonction de la réalité du terrain, tout en évitant les suggestions qui pourraient nuire au fonctionnement du thésaurus (prétendre à l’exhaustivité, injecter des concepts existant dans d’autres microthésaurus, fusionner des concepts dont la séparation était indispensable par le passé…).

Conclusion

La mise en place d’un thésaurus nécessite du temps et de la réflexion. Son utilisation implique nécessairement de former le personnel pour être maîtrisée. Cependant, notre expérience nous montre que cet outil aide grandement pour l’indexation des documents et les recherches effectuées par et pour nos utilisateurs.

En effet, un thésaurus facilite l’accès thématique aux archives que nous conservons. Les chercheurs, historiens et utilisateurs de notre centre de documentation et d’archives disposent ainsi d’une clé d’accès supplémentaire pour effectuer des recherches transversales dans nos différents fonds et collections. Les
descripteurs donnant aux concepts significatifs d’un document un poids supplémentaire, les résultats de la recherche n’en sont que plus précis et pertinents[[B. Menon, op. cit., p. 19-20.]].

Les thésaurus sont sources d’un gain de temps et d’argent lors d’une recherche d’information, tant ils permettent d’obtenir des résultats ciblés et pertinents.

Par ailleurs, l’utilisation d’un langage contrôlé commun entre les membres de l’équipe comprenant des documentalistes et des archivistes développe la polyvalence et facilite l’interaction avec nos utilisateurs.
« Les thésaurus sont sans doute les plus universels des langages documentaires, malgré (ou à cause de) leur caractère le plus souvent spécialisé. On en rencontre de toutes les tailles, dans tous les domaines, dans tous les pays et dans toutes sortes d’organisations »[[Id.]].

Quand un thésaurus est adopté, il permet d’accomplir des merveilles.

Share This