« La documentation/Langages documentaires à structure combinatoire, thésaurus » : différence entre les versions

Un livre de Wikilivres.
Contenu supprimé Contenu ajouté
Ligne 196 : Ligne 196 :
Il est également possible de présenter les thésaurus sous forme de schémas fléchés, après un découpage du domaine en champs sémantiques, c'est-à-dire en groupes de 30 à 40 descripteurs hiérarchisés relatifs à un même thème. Le descripteur le plus général du groupe fournit le titre de la page, dont il occupe le centre. Ce schéma peut être réalisé en se servant d'un quadrillage dont les cases sont numérotées, à moins que l'on préfère les coordonnées polaires.
Il est également possible de présenter les thésaurus sous forme de schémas fléchés, après un découpage du domaine en champs sémantiques, c'est-à-dire en groupes de 30 à 40 descripteurs hiérarchisés relatifs à un même thème. Le descripteur le plus général du groupe fournit le titre de la page, dont il occupe le centre. Ce schéma peut être réalisé en se servant d'un quadrillage dont les cases sont numérotées, à moins que l'on préfère les coordonnées polaires.


On appelle '''champ sémantique''' l'ensemble des descripteurs regroupés autour d'un concept principal. Un descripteur ne doit être rattaché qu'à un seul champ sémantique. Les relations d'association ou de voisinage permettent de rapprocher des éléments proches du point de vue sémantique mais qui sont situés dans des champs sémantiques différents.
On appelle '''champ sémantique''' l'ensemble des descripteurs regroupés autour d'un concept principal. Un descripteur ne doit être rattaché qu'à un seul champ sémantique. Pour reprendre l'exemple qui vient d'être donné, le concept d'ordinateur définit un champ sémantique.
Les relations d'association ou de voisinage permettent de rapprocher des éléments proches du point de vue sémantique mais qui sont situés dans des champs sémantiques différents.

La mention NA (note d'application ou note d'usage) introduit une relation de définition qui permet de préciser le sens qu'il convient de donner à un descripteur.


== Construction d'un thésaurus ==
== Construction d'un thésaurus ==

Version du 17 avril 2010 à 21:46

LA DOCUMENTATION


CDU:0

  1. Introduction
  2. La documentation et l'enseignement
  3. Notions de documentation et de document
  4. Chaîne documentaire et fonctions des documentalistes
  5. Performances d'un système documentaire
  6. Langages documentaires à structure hiérarchique, classifications
  7. Langages documentaires à structure combinatoire, thésaurus
  8. Informatique documentaire
  9. Rédaction technique
  10. Durées de conservation
  11. Gestion d'un centre de documentation et d'information
  12. Essai : les catégories dans Wikibooks
  13. Bibliographie


Historique

L'apparition des thésaurus est plus récente que celle des classifications et correspond à deux constats : les classifications ont des possibilités limitées par leur structure même, et par ailleurs le développement de l'informatique rend désormais possible les manipulations automatisées et combinatoires du langage.

Bien que l'on puisse parfaitement utiliser les thésaurus de manière non automatisée, ceux-ci doivent aujourd'hui être conçus en vue de leur exploitation par un logiciel documentaire, de façon à permettre leur intégration dans les systèmes automatisés.

Définition

Selon l'Association Française de Normalisation (AFNOR), un thésaurus est « un langage documentaire fondé sur une structuration hiérarchisée d'un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d'une ou plusieurs langues naturelles et les relations entre les notions par des signes conventionnels. »

Nous verrons par la suite que certaines classifications, comme la Classification Décimale Universelle, peuvent être utilisées en tant que thésaurus.

Par sa fonction, un thésaurus transpose donc en langage documentaire standardisé le langage naturel utilisé dans les documents. Par sa structure, c'est un dictionnaire de termes dotés de relations sémantiques, génériques ou hiérarchiques relevant d'un domaine particulier de la connaissance (sémantique : relatif à la signification, au sens). Généralement, l'indexeur et l'interrogateur ne parlent pas le même langage. Le thésaurus fournit la liaison indispensable entre leurs vocabulaires, en traduisant chaque concept élémentaire par un mot ou une expression constituant un descripteur.

Il ne s'agit plus ici de ranger chaque notion à une place prédéterminée, « dans un tiroir », pourrait-on dire, comme cela se pratique dans les classifications. Il faut décomposer chaque notion, aussi loin qu'il est possible ou utile de le faire, en éléments signifiants qui serviront ultérieurement pour la recherche.

Principes de base

Le langage artificiel constituant le thésaurus doit avant tout éliminer toute ambiguïté. Il faut donc choisir de la façon la plus judicieuse possible LE descripteur qui sera accepté et dès lors systématiquement utilisé pour représenter une notion donnée. Une fois ce choix effectué, tous les termes qui n'auront pas été choisis deviendront de fait des non-descripteurs et devront figurer en tant que tels dans le thésaurus, afin que nul ne les propose lors d'une éventuelle extension oum mise à jour.

Éliminer la synonymie, la polysémie, et ne pas confondre...

  • Un concept = un descripteur et un seul

Plusieurs mots ou expressions peuvent se rapporter à un même concept, par exemple chose = machin = truc = objet = bidule = engin = fourbi = zinzin...!). D'une manière générale les synonymes sont largement utilisés dans les textes plus ou moins littéraires pour améliorer le style, éviter des répétitions ou apporter des nuances. Les thésaurus sont évidemment peu compatibles avec la poésie...

  • Un descripteur = un concept et un seul

Un mot est atteint de polysémie lorsqu'il peut être utilisés avec plusieurs sens. Par exemple « fraise » : outil rotatif - fruit - collerette plissée et empesée du 16e siècle - membrane qui enveloppe les intestins du veau ou de l'agneau - couleur rouge - angiome - chair rouge et plissée sous le bec du dindon - pieu protégeant les piles des ponts - élément de fortification - ... ou encore trombine de celui qui la ramène quand il ferait mieux de la boucler !

C'est justement la polysémie qui rend particulièrement difficile la traduction automatique des documents. Nous avons encore en mémoire le règlement d'un concours de photographies dont la version française prévoyait un grand prix pour « la meilleure glissière de vertical » et un autre pour « la meilleure glissière d'horizontal ». Facéties ordinaires d'un logiciel qui a traduit slide par glissière au lieu de diapositive, vertical et horizontal étant évidemment là pour portrait et paysage (landscape), référence évidente aux modes de travail des imprimantes.

La polysémie est une « maladie » fort répandue !

  • Ne pas confondre...

La polysémie n'est pas l'homonymie, qui concerne par exemple des mots de même prononciation mais de sens différents comme ceint, sein, saint, sain, seing (homophonie) ou des mots écrits de la même manière mais qui se prononcent différemment (homographie, terme lui-même atteint de polysémie). On connaît le gag classique du sot qui, sur son cheval, transportait le sceau du roi dans un seau ; lorsque le cheval, effrayé, fit un saut, tous les ??? se retrouvèrent par terre ! Et chacun sait que les poules du couvent couvent, les mauvaises langues disant même que les religieuses se reproduisent en couvant.

  • Entrées, ou unités lexicales

Les entrées d'un thésaurus comportent finalement :

  1. des descripteurs, seuls mots ou expressions autorisés pour décrire les concepts, indexer les documents et procéder à des requpêtes,
  2. des mots-outils utilisés pour la création de descripteurs, mais qui n'ont pas de signification précise quand ils sont employés seuls (méthode, comparaison, produit, calcul...)
  3. des termes équivalents, ou synonymes, mentionnés en tant que non-descripteurs.
  • Mots vides

Il s'agit de tous les mots utilisés dans le langage courant pour former des phrases mais qui, contrairement aux non-descripteurs, n'ont aucune signification propre : le, la, du, ou, un, une, par, etc. Ces mots peuvent faire partie d'un anti-dictionnaire ou dictionnaire de mots vides. Attention là encore à la synonymie et à la polysémie. La préposition vers peut être considérée comme un mot vide mais il n'en est pas de même des vers intestinaux ou des vers de Victor Hugo.

Concevoir un langage univoque et post-coordonné

Il ne suffit pas de décomposer toutes les notions en expressions simples pour permettre l'interrogation des corpus de données. Dans l'immense majorité des documents disponibles, les notions élémentaires sont associées de diverses manières et de différents points de vue, c'est pourquoi les aspects combinatoires prennent ici une importance considérable.

Ainsi, par exemple, un article de périodique concernant « les collections de cartes postales photographiques anciennes » conduira à utiliser des croisements de descripteurs tels que :

  • CARTE POSTALE (l'objet de la collection)
  • HISTOIRE DE LA PHOTOGRAPHIE (point de vue du temps pendant lequel l'objet a existé)
  • COLLECTION D'OBJETS (activité particulière)
  • et le cas échéant d'autres descripteurs permettant d'affiner la recherche, par exemple de la restreindre aux cartes françaises, aux photographies érotiques, etc. ; il faut bien entendu supposer, ce que nous faisons ici, que les descripteurs en question figurent bien dans le thésaurus utilisé pour l'indexation, faute de quoi on peut légitimement supposer que le corpus interrogé ne possède aucun document relatif au sujet recherché.

Cet aspect combinatoire correspond bien entendu aux opérateurs booléens classiques ET, OU, SAUF,... et il s'agit bien d'une post-coordination qui permet de relier les éléments d'une indexation préalable.

Définir des relations entre les termes utilisés

Il s'agit ici de faciliter l'utilisation du thésaurus en précisant des relations d'équivalence ou de synonymie grâce auxquelles le nombre de descripteurs pourra être très sensiblement diminué. Cet aspect des choses, caractérisé par des expressions comme employer ou employé pour, sera évoquer plus longuement par la suite.

Règles de choix des descripteurs

L'idéal serait de parvenir à une correspondance biunivoque entre descripteurs et concepts, c'est-à-dire un seul concept par descripteur et un seul descripteur par concept. Ce n'est pas si simple !

Les descripteurs sont choisis en observant des règles d'écriture précises :

  • forme substantive : on utilise AGRICULTURE et non AGRICOLE,
  • masculin quand les deux formes sont possibles : PHOTOCOPIEUR et non PHOTOCOPIEUSE,
  • singulier, sauf quand seul le pluriel est utilisé, par exemple COORDONNÉES CARTÉSIENNES, ACIERS SPÉCIAUX, MATÉRIAUX COMPOSITES, ou quand le sens est différent au singulier et au pluriel : CISEAU et CISEAUX, OUÏE et OUÏES, RELIEF et RELIEFS,
  • forme développée et non abréviations : INSTITUT UNIVERSITAIRE DE TECHNOLOGIE et non IUT, SOCIÉTÉ D'INVESTISSEMENT À CAPITAL VARIABLE et non SICAV, sauf pour les sigles passés dans le langage courant : RADAR = Radio Detection And Ranging, LASER = Light Amplifier by Stimulated Emission of Radiations (l'équivalent français serait Amplificateur de Lumière par Émission Stimulée de Radiations = ALESR, à peu près imprononçable) ; qui peut traduire : CEDEX, ZAC, SIGDU, MEN, SEU, PTFE ? L'acronyme IAO peut être traduit, selon les documents où on le rencontre, par Ingénierie Assistée par Ordinateur ou Intégration (des circuits) Assistée par Ordinateur ; d'aucuns prétendent même qu'il s'agit de l'Informatique Assistée par Ordinateur...
  • graphie la plus courante : CLÉ et non CLEF, TÉLÉPHÉRIQUE et non TÉLÉFÉRIQUE, mais il faut tirer au sort entre GRANIT et GRANITE !
  • mot le plus courant : ORDINATEUR et non CALCULATEUR(TRICE), TUNGSTÈNE et non WOLFRAM, BÉRYLLIUM et non GLUCINIUM. Attention aux divers sabirs professionnels : TERRE = MISE À LA TERRE, VOLTAGE ( anglicisme) = TENSION ÉLECTRIQUE, SOFTWARE (anglais) = LOGICIEL. Attention aussi aux déviations du langage : ne pas employer TECHNOLOGIE, étude des techniques, des machines, à la place de TECHNIQUE, procédé méthodique pour faire une chose, ni NON-VOYANT pour AVEUGLE. Méfiance aussi avec les mots tombés plus ou moins en désuétude : un PULL-OVER A COL ROULÉ est tout simplement un CHANDAIL, le BROUILLARD GIVRANT des FRIMAS, etc. Il arrive que les mots changent de sens et les sens, de mots, disait Eddie Constantine dans le film Alphaville de Jean-Luc GODARD (1965). Du coup, bien des spectateurs friands des aventures de Lemmy Caution se sont posé de graves questions existentielles !
  • élimination de la polysémie en précisant le terme utilisé : RÉSISTANCE (guerre) et RÉSISTANCE (électricité), SINUS (trigonométrie) et SINUS (anatomie), JOINT d'étanchéité, JOINT de transmission, ANALYSE chimique, ANALYSE des contraintes...
  • dédoublement et utilisation de mots- outils : DESSALEMENT ou DÉSALINISATION ou encore DÉSALINATION peuvent se voir préférer ÉLIMINATION + SEL (deux mots). Élimination, comme gestion, évaluation, traitement... sont des mots-outils trop généraux pour être employés seuls. On les utilise en association avec un ou plusieurs autres descripteurs, par exemple :
GESTION + STOCK
ÉVALUATION + NIVEAU
TRAITEMENT + SURFACE
...
  • choix entre les variantes et les contraires : ceci concerne essentiellement les propriétés ou les états des choses : FLUIDITÉ et VISCOSITÉ. FRAGILITÉ et RÉSILIENCE. STABlLITÉ et INSTABILITÉ. JOIE et TRISTESSE, sont des couples de mots qui se rapportent aux mêmes concepts. C'est le problème bien connu du choix entre le caramel demi-mou et le caramel demi-dur.

Relations entre les descripteurs

Dans un thésaurus, pour mieux préciser les concepts, on utilise des relations entre les descripteurs :


norme AFNOR norme ISO
équivalence :
EMPLOYER EM USE
EMPLOYER POUR EP UF (use for)
hiérarchie :
TERME GÉNÉRIQUE TG BT (broader term)
TERME SPÉCIFIQUE TS NT (narrower term)
association :
TERME ASSOCIÉ (= « voir aussi ») TA RT (related term)
définition :
NOTE D'APPLICATION NA SN (scope note)


L'ordre des abréviations EM, EP, TG, TS, TA, NA est normalisé. Par exemple, dans un thésaurus présenté sous forme de dictionnaire, on aurait autour du terme ORDINATEUR :

..........

calculateur électronique :

EM ORDINATEUR

computer :

EM ORDINATEUR

micro-computer :

EM MICRO-ORDINATEUR

microcomputer :

EM MICRO-ORDINATEUR

micro ordinateur :

EM MICRO-ORDINATEUR

MICRO-ORDINATEUR :

EP micro-computer
EP microcomputer
EP micro ordinateur
TG1 MINI- ORDINATEUR
TG2 ORDINATEUR
TG3 MATÉRIEL INFORMATIQUE
TG4 INFORMATIQUE
TS1 MICRO-ORDINATEUR PORTABLE

ORDINATEUR :

EP calculateur électronique
EP computer
TG1 MATÉRIEL INFORMATIQUE
TG2 INFORMATIQUE
TS1 MINI-ORDINATEUR
TS2 MICRO-ORDINATEUR
TS3 MICRO-ORDINATEUR PORTABLE
TA LOGICIEL
TA RÉSEAU LOCAL
TA IMAGERIE MÉDICALE
TA PÉRIPHÉRIQUE INFORMATIQUE
TA CONSTRUCTION D'ORDINATEURS

..........

Il est également possible de présenter les thésaurus sous forme de schémas fléchés, après un découpage du domaine en champs sémantiques, c'est-à-dire en groupes de 30 à 40 descripteurs hiérarchisés relatifs à un même thème. Le descripteur le plus général du groupe fournit le titre de la page, dont il occupe le centre. Ce schéma peut être réalisé en se servant d'un quadrillage dont les cases sont numérotées, à moins que l'on préfère les coordonnées polaires.

On appelle champ sémantique l'ensemble des descripteurs regroupés autour d'un concept principal. Un descripteur ne doit être rattaché qu'à un seul champ sémantique. Pour reprendre l'exemple qui vient d'être donné, le concept d'ordinateur définit un champ sémantique.

Les relations d'association ou de voisinage permettent de rapprocher des éléments proches du point de vue sémantique mais qui sont situés dans des champs sémantiques différents.

La mention NA (note d'application ou note d'usage) introduit une relation de définition qui permet de préciser le sens qu'il convient de donner à un descripteur.

Construction d'un thésaurus

Thésaurus et macro thésaurus

Les thésaurus connaissent actuellement un important développement, lié à l'informatisation grandissante des systèmes documentaires. Les macro thésaurus, encore peu nombreux actuellement, sont destinés à servir de cadre commun à un ensemble de systèmes documentaires touchant à des domaines différents. Ils restet à un niveau de généralité assez élevé mais peuvent servir de structures d'accueil pour des thésaurus spécialisés.

Le thésaurus de l'Organisation de Coopération et de Développement Économique (OCDE), édité en 1972, recouvre 19 rubriques divisées en 24 sous-rubriques (culture, société, éducation, formation, agriculture, industrie, travail, démographie, population, etc.). Pas moins de 27 organisations ont collaboré à ce travail, qui a demandé trois ans.

Le macro thésaurus des Sciences et Techniques du Bureau National de l'Information Scientifique et Technique (BNIST) couvre par exemple les cinq secteurs suivants :

- mathématiques - physique. - terre - mer - espace - sciences de l'ingénieur - médecine - biologie - agriculture - chimie

Informatique documentaire

L'ordinateur, par sa formidable puissance de traitement des données, est un outil dont les documentalistes se sont emparés avec avidité depuis déjà bien des années. Des progrès étonnants ont déjà été accomplis mais d'autres restent à venir :

  • énormes possibilités de stockage d'information sur de nouveaux types de mémoires informatiques, numérisation d'images...
  • lecture automatique des documents écrits, grâce à la vision artificielle.
  • indexation automatique : l'ordinateur peut, si on le lui a appris, reconnaître les mots vides et les distinguer des mots ou expressions susceptibles de servir de descripteurs. Il peut également étudier la fréquence à laquelle ces descripteurs surviennent dans le texte. Cependant, il est actuellement incapable de reconnaître à coup sûr le sens d'un mot, si celui-ci est caractérisé par une forte polysémie.
  • traduction automatique : elle est actuellement loin d'être vraiment opérationnelle, sauf pour des textes très simples. Naturellement, l'ordinateur ne sait pas encore reconnaître les jeux de mots ou s'esclaffer en lisant des histoires belges ; les automatismes actuels, qui sont encore bien médiocres par rapport au but à atteindre, donnent parfois de bien étranges analyses que l'homme se doit de corriger.
  • développement de la télématique : cette rencontre des télécommunications et de l'information, autorise maintenant ce rêve du documentaliste, avoir la documentation traitée et stockée chez les autres et y accéder rapidement à partir de son propre centre de documentation (J. Chaumier, 1982).



Attention : modification en cours !link={{{link}}}

Un contributeur est en train de retravailler en profondeur cette page. Vous êtes prié(e) d'éviter de le modifier pour limiter les risques de conflit de versions jusqu'à disparition de cet avertissement. Merci.