« La documentation/Langages documentaires à structure combinatoire, thésaurus » : différence entre les versions
Ligne 15 : | Ligne 15 : | ||
Par sa fonction, un thésaurus transpose donc en langage documentaire standardisé le langage naturel utilisé dans les documents. Par sa structure, c'est un dictionnaire de termes dotés de relations sémantiques, génériques ou hiérarchiques relevant d'un domaine particulier de la connaissance (sémantique : relatif à la signification, au sens). Généralement, l'indexeur et l'interrogateur ne parlent pas le même langage. Le thésaurus fournit la liaison indispensable entre leurs vocabulaires, en traduisant chaque concept élémentaire par un mot ou une expression constituant un '''descripteur'''. |
Par sa fonction, un thésaurus transpose donc en langage documentaire standardisé le langage naturel utilisé dans les documents. Par sa structure, c'est un dictionnaire de termes dotés de relations sémantiques, génériques ou hiérarchiques relevant d'un domaine particulier de la connaissance (sémantique : relatif à la signification, au sens). Généralement, l'indexeur et l'interrogateur ne parlent pas le même langage. Le thésaurus fournit la liaison indispensable entre leurs vocabulaires, en traduisant chaque concept élémentaire par un mot ou une expression constituant un '''descripteur'''. |
||
Il ne s'agit plus ici de ranger chaque notion à une place prédéterminée, « dans un tiroir », pourrait-on dire, comme cela se pratique dans les classifications. Il faut décomposer chaque notion, aussi loin qu'il est possible ou utile de le faire, en éléments signifiants qui serviront ultérieurement pour la recherche. |
|||
== Principes de base == |
== Principes de base == |
Version du 17 avril 2010 à 12:42
Historique
L'apparition des thésaurus est plus récente que celle des classifications et correspond à deux constats : les classifications ont des possibilités limitées par leur structure même, et par ailleurs le développement de l'informatique rend désormais possible les manipulations automatisées et combinatoires du langage.
Bien que l'on puisse parfaitement utiliser les thésaurus de manière non automatisée, ceux-ci doivent aujourd'hui être conçus en vue de leur exploitation par un logiciel documentaire, de façon à permettre leur intégration dans les systèmes automatisés.
Définition
Selon l'Association Française de Normalisation (AFNOR), un thésaurus est « un langage documentaire fondé sur une structuration hiérarchisée d'un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d'une ou plusieurs langues naturelles et les relations entre les notions par des signes conventionnels. »
Nous verrons par la suite que certaines classifications, comme la Classification Décimale Universelle, peuvent être utilisées en tant que thésaurus.
Par sa fonction, un thésaurus transpose donc en langage documentaire standardisé le langage naturel utilisé dans les documents. Par sa structure, c'est un dictionnaire de termes dotés de relations sémantiques, génériques ou hiérarchiques relevant d'un domaine particulier de la connaissance (sémantique : relatif à la signification, au sens). Généralement, l'indexeur et l'interrogateur ne parlent pas le même langage. Le thésaurus fournit la liaison indispensable entre leurs vocabulaires, en traduisant chaque concept élémentaire par un mot ou une expression constituant un descripteur.
Il ne s'agit plus ici de ranger chaque notion à une place prédéterminée, « dans un tiroir », pourrait-on dire, comme cela se pratique dans les classifications. Il faut décomposer chaque notion, aussi loin qu'il est possible ou utile de le faire, en éléments signifiants qui serviront ultérieurement pour la recherche.
Principes de base
Éliminer la synonymie
Un concept = un descripteur et un seul
On élimine en particulier la synonymie (plusieurs termes pour un même concept, par exemple chose = machin = truc = objet = bidule = engin = fourbi = zinzin...!) et la polysémie (plusieurs sens pour un même mot, par exemple « fraise » : outil rotatif - fruit - collerette plissée et empesée du 16e siècle - membrane qui enveloppe les intestins du veau ou de l'agneau - couleur rouge - angiome - chair rouge et plissée sous le bec du dindon - pieu protégeant les piles des ponts - élément de fortification - ... ou encore trombine de celui qui la ramène quand il ferait mieux de la boucler !).
Ne pas confondre la polysémie avec l'homonymie, qui concerne des mots de même prononciation mais de sens différents (par exemple : ceint, sein, saint, sain, seing). On connaît le gag classique du sot qui, sur son cheval, transportait le sceau du roi dans un seau. Lorsque le cheval, effrayé, fit un saut tous les ??? se retrouvèrent par terre !
Règles de choix des descripteurs
L'idéal serait de parvenir à une correspondance biunivoque entre descripteurs et concepts, c'est-à-dire un seul concept par descripteur et un seul descripteur par concept. Ce n'est pas si simple !
Les descripteurs sont choisis en observant des règles d'écriture précises :
- forme substantive : on utilise AGRICULTURE et non AGRICOLE,
- masculin quand les deux formes sont possibles : PHOTOCOPIEUR et non PHOTOCOPIEUSE,
- singulier, sauf quand seul le pluriel est utilisé, par exemple COORDONNÉES CARTÉSIENNES, ACIERS SPÉCIAUX, MATÉRIAUX COMPOSITES, ou quand le sens est différent au singulier et au pluriel : CISEAU et CISEAUX, OUÏE et OUÏES, RELIEF et RELIEFS,
- forme développée et non abréviations : INSTITUT UNIVERSITAIRE DE TECHNOLOGIE et non IUT, SOCIÉTÉ D'INVESTISSEMENT À CAPITAL VARIABLE et non SICAV, sauf pour les sigles passés dans le langage courant : RADAR = Radio Detection And Ranging, LASER = Light Amplifier by Stimulated Emission of Radiations (l'équivalent français serait Amplificateur de Lumière par Émission Stimulée de Radiations = ALESR, à peu près imprononçable) ; qui peut traduire : CEDEX, ZAC, SIGDU, MEN, SEU, PTFE ? L'acronyme IAO peut être traduit, selon les documents où on le rencontre, par Ingénierie Assistée par Ordinateur ou Intégration (des circuits) Assistée par Ordinateur ; d'aucuns prétendent même qu'il s'agit de l'Informatique Assistée par Ordinateur...
- graphie la plus courante : CLÉ et non CLEF, TÉLÉPHÉRIQUE et non TÉLÉFÉRIQUE, mais il faut tirer au sort entre GRANIT et GRANITE !
- mot le plus courant : ORDINATEUR et non CALCULATEUR(TRICE), TUNGSTÈNE et non WOLFRAM, BÉRYLLIUM et non GLUCINIUM. Attention aux divers sabirs professionnels : TERRE = MISE À LA TERRE, VOLTAGE ( anglicisme) = TENSION ÉLECTRIQUE, SOFTWARE (anglais) = LOGICIEL. Attention aussi aux déviations du langage : ne pas employer TECHNOLOGIE, étude des techniques, des machines, à la place de TECHNIQUE, procédé méthodique pour faire une chose, ni NON-VOYANT pour AVEUGLE. Méfiance aussi avec les mots tombés plus ou moins en désuétude : un PULL-OVER A COL ROULÉ est tout simplement un CHANDAIL, le BROUILLARD GIVRANT des FRIMAS, etc. Il arrive que les mots changent de sens et les sens, de mots, disait Eddie Constantine dans le film Alphaville de Jean-Luc GODARD (1965). Du coup, bien des spectateurs friands des aventures de Lemmy Caution se sont posé de graves questions existentielles !
- élimination de la polysémie en précisant le terme utilisé : RÉSISTANCE (guerre) et RÉSISTANCE (électricité), SINUS (trigonométrie) et SINUS (anatomie), JOINT d'étanchéité, JOINT de transmission, ANALYSE chimique, ANALYSE des contraintes...
- dédoublement et utilisation de mots- outils : DESSALEMENT ou DÉSALINISATION ou encore DÉSALINATION peuvent se voir préférer ÉLIMINATION + SEL (deux mots). Élimination, comme gestion, évaluation, traitement... sont des mots-outils trop généraux pour être employés seuls. On les utilise en association avec un ou plusieurs autres descripteurs, par exemple :
- GESTION + STOCK
- ÉVALUATION + NIVEAU
- TRAITEMENT + SURFACE
- ...
- choix entre les variantes et les contraires : ceci concerne essentiellement les propriétés ou les états des choses : FLUIDITÉ et VISCOSITÉ. FRAGILITÉ et RÉSILIENCE. STABlLITÉ et INSTABILITÉ. JOIE et TRISTESSE, sont des couples de mots qui se rapportent aux mêmes concepts. C'est le problème bien connu du choix entre le caramel demi-mou et le caramel demi-dur.
Relations entre les descripteurs
Dans un thésaurus, pour mieux préciser les concepts, on utilise des relations entre les descripteurs :
norme AFNOR | norme ISO | |
équivalence : | ||
EMPLOYER | EM | USE |
EMPLOYER POUR | EP | UF (use for) |
hiérarchie : | ||
TERME GÉNÉRIQUE | TG | BT (broader term) |
TERME SPÉCIFIQUE | TS | NT (narrower term) |
association : | ||
TERME ASSOCIÉ (= « voir aussi ») | TA | RT (related term) |
définition : | ||
NOTE D'APPLICATION | NA | SN (scope note) |
L'ordre des abréviations EM, EP, TG, TS, TA, NA est normalisé. Par exemple, dans un thésaurus présenté sous forme de dictionnaire, on aurait autour du terme ORDINATEUR :
..........
calculateur électronique :
- EM ORDINATEUR
computer :
- EM ORDINATEUR
micro-computer :
- EM MICRO-ORDINATEUR
microcomputer :
- EM MICRO-ORDINATEUR
micro ordinateur :
- EM MICRO-ORDINATEUR
MICRO-ORDINATEUR :
- EP micro-computer
- EP microcomputer
- EP micro ordinateur
- TG1 MINI- ORDINATEUR
- TG2 ORDINATEUR
- TG3 MATÉRIEL INFORMATIQUE
- TG4 INFORMATIQUE
- TG3 MATÉRIEL INFORMATIQUE
- TG2 ORDINATEUR
- TS1 MICRO-ORDINATEUR PORTABLE
ORDINATEUR :
- EP calculateur électronique
- EP computer
- TG1 MATÉRIEL INFORMATIQUE
- TG2 INFORMATIQUE
- TS1 MINI-ORDINATEUR
- TS2 MICRO-ORDINATEUR
- TS3 MICRO-ORDINATEUR PORTABLE
- TS2 MICRO-ORDINATEUR
- TA LOGICIEL
- TA RÉSEAU LOCAL
- TA IMAGERIE MÉDICALE
- TA PÉRIPHÉRIQUE INFORMATIQUE
- TA CONSTRUCTION D'ORDINATEURS
..........
Il est également possible de présenter les thésaurus sous forme de schémas fléchés, après un découpage du domaine en champs sémantiques, c'est-à-dire en groupes de 30 à 40 descripteurs hiérarchisés relatifs à un même thème. Le descripteur le plus général du groupe fournit le titre de la page, dont il occupe le centre. Ce schéma peut être réalisé en se servant d'un quadrillage dont les cases sont numérotées, à moins que l'on préfère les coordonnées polaires.
Thésaurus et macro thésaurus
Les thésaurus connaissent actuellement un important développement, lié à l'informatisation grandissante des systèmes documentaires. Les macro thésaurus, encore peu nombreux actuellement, sont destinés à servir de cadre commun à un ensemble de systèmes documentaires touchant à des domaines différents. Ils restet à un niveau de généralité assez élevé mais peuvent servir de structures d'accueil pour des thésaurus spécialisés.
Le thésaurus de l'Organisation de Coopération et de Développement Économique (OCDE), édité en 1972, recouvre 19 rubriques divisées en 24 sous-rubriques (culture, société, éducation, formation, agriculture, industrie, travail, démographie, population, etc.). Pas moins de 27 organisations ont collaboré à ce travail, qui a demandé trois ans.
Le macro thésaurus des Sciences et Techniques du Bureau National de l'Information Scientifique et Technique (BNIST) couvre par exemple les cinq secteurs suivants :
- mathématiques - physique. - terre - mer - espace - sciences de l'ingénieur - médecine - biologie - agriculture - chimie
Informatique documentaire
L'ordinateur, par sa formidable puissance de traitement des données, est un outil dont les documentalistes se sont emparés avec avidité depuis déjà bien des années. Des progrès étonnants ont déjà été accomplis mais d'autres restent à venir :
- énormes possibilités de stockage d'information sur de nouveaux types de mémoires informatiques, numérisation d'images...
- lecture automatique des documents écrits, grâce à la vision artificielle.
- indexation automatique : l'ordinateur peut, si on le lui a appris, reconnaître les mots vides et les distinguer des mots ou expressions susceptibles de servir de descripteurs. Il peut également étudier la fréquence à laquelle ces descripteurs surviennent dans le texte. Cependant, il est actuellement incapable de reconnaître à coup sûr le sens d'un mot, si celui-ci est caractérisé par une forte polysémie.
- traduction automatique : elle est actuellement loin d'être vraiment opérationnelle, sauf pour des textes très simples. Naturellement, l'ordinateur ne sait pas encore reconnaître les jeux de mots ou s'esclaffer en lisant des histoires belges ; les automatismes actuels, qui sont encore bien médiocres par rapport au but à atteindre, donnent parfois de bien étranges analyses que l'homme se doit de corriger.
- développement de la télématique : cette rencontre des télécommunications et de l'information, autorise maintenant ce rêve du documentaliste, avoir la documentation traitée et stockée chez les autres et y accéder rapidement à partir de son propre centre de documentation (J. Chaumier, 1982).