« La documentation/Langages documentaires à structure combinatoire, thésaurus » : différence entre les versions

Un livre de Wikilivres.
Contenu supprimé Contenu ajouté
Ligne 1 : Ligne 1 :
{{Techniques documentaires}}
{{Techniques documentaires}}



== Historique ==

L'apparition des thésaurus est plus récente que celle des classifications et correspond à deux constats : les classifications ont des possibilités limitées par leur structure même, et par ailleurs le développement de l'informatique rend désormais possible les manipulations automatisées et combinatoires du langage.

Bien que l'on puisse parfaitement utiliser les thésaurus de manière non automatisée, ceux-ci doivent aujourd'hui être conçus en vue de leur exploitation par un logiciel documentaire, de façon à permettre leur intégration dans les systèmes automatisés.


== Définition ==
== Définition ==


Selon l'Association Française de Normalisation (AFNOR), un thésaurus est « un langage documentaire fondé sur une structuration hiérarchisée d'un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d'une ou plusieurs langues naturelles et les relations entre les notions par des signes conventionnels. »
Par sa fonction, un thésaurus transpose en langage documentaire standardisé le langage naturel utilisé dans les documents. Par sa structure, c'est un dictionnaire de termes dotés de relations sémantiques, génériques ou hiérarchiques relevant d'un domaine particulier de la connaissance (sémantique : relatif à la signification, au sens).

Nous verrons par la suite que certaines classifications, comme la Classification Décimale Universelle, peuvent être utilisées en tant que thésaurus.

Par sa fonction, un thésaurus transpose donc en langage documentaire standardisé le langage naturel utilisé dans les documents. Par sa structure, c'est un dictionnaire de termes dotés de relations sémantiques, génériques ou hiérarchiques relevant d'un domaine particulier de la connaissance (sémantique : relatif à la signification, au sens).


Généralement, l'indexeur et l'interrogateur ne parlent pas le même langage. Le thésaurus fournit la liaison indispensable entre leurs vocabulaires. On élimine en particulier la '''synonymie''' (plusieurs termes pour un même concept, par exemple chose = machin = truc = objet = bidule = engin = fourbi = zinzin...!) et la '''polysémie''' (plusieurs sens pour un même mot, par exemple « fraise » : outil rotatif - fruit - collerette plissée et empesée du 16e siècle - membrane qui enveloppe les intestins du veau ou de l'agneau - couleur rouge - angiome - chair rouge et plissée sous le bec du dindon - pieu protégeant les piles des ponts - élément de fortification - ... ou encore trombine de celui qui la ramène quand il ferait mieux de la boucler !).
Généralement, l'indexeur et l'interrogateur ne parlent pas le même langage. Le thésaurus fournit la liaison indispensable entre leurs vocabulaires. On élimine en particulier la '''synonymie''' (plusieurs termes pour un même concept, par exemple chose = machin = truc = objet = bidule = engin = fourbi = zinzin...!) et la '''polysémie''' (plusieurs sens pour un même mot, par exemple « fraise » : outil rotatif - fruit - collerette plissée et empesée du 16e siècle - membrane qui enveloppe les intestins du veau ou de l'agneau - couleur rouge - angiome - chair rouge et plissée sous le bec du dindon - pieu protégeant les piles des ponts - élément de fortification - ... ou encore trombine de celui qui la ramène quand il ferait mieux de la boucler !).


Ne pas confondre la polysémie avec l'homonymie, qui concerne des mots de même prononciation mais de sens différents (par exemple : ceint, sein, saint, sain, seing). On connaît le gag classique du sot qui, sur son cheval, portait le sceau du roi dans un seau. Lorsque le cheval, effrayé, fit un saut tous les ??? se retrouvèrent par terre !
Ne pas confondre la polysémie avec l'homonymie, qui concerne des mots de même prononciation mais de sens différents (par exemple : ceint, sein, saint, sain, seing). On connaît le gag classique du sot qui, sur son cheval, transportait le sceau du roi dans un seau. Lorsque le cheval, effrayé, fit un saut tous les ??? se retrouvèrent par terre !


== Règles de choix des descripteurs ==
== Règles de choix des descripteurs ==

Version du 17 avril 2010 à 11:28

LA DOCUMENTATION


CDU:0

  1. Introduction
  2. La documentation et l'enseignement
  3. Notions de documentation et de document
  4. Chaîne documentaire et fonctions des documentalistes
  5. Performances d'un système documentaire
  6. Langages documentaires à structure hiérarchique, classifications
  7. Langages documentaires à structure combinatoire, thésaurus
  8. Informatique documentaire
  9. Rédaction technique
  10. Durées de conservation
  11. Gestion d'un centre de documentation et d'information
  12. Essai : les catégories dans Wikibooks
  13. Bibliographie


Historique

L'apparition des thésaurus est plus récente que celle des classifications et correspond à deux constats : les classifications ont des possibilités limitées par leur structure même, et par ailleurs le développement de l'informatique rend désormais possible les manipulations automatisées et combinatoires du langage.

Bien que l'on puisse parfaitement utiliser les thésaurus de manière non automatisée, ceux-ci doivent aujourd'hui être conçus en vue de leur exploitation par un logiciel documentaire, de façon à permettre leur intégration dans les systèmes automatisés.

Définition

Selon l'Association Française de Normalisation (AFNOR), un thésaurus est « un langage documentaire fondé sur une structuration hiérarchisée d'un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d'une ou plusieurs langues naturelles et les relations entre les notions par des signes conventionnels. »

Nous verrons par la suite que certaines classifications, comme la Classification Décimale Universelle, peuvent être utilisées en tant que thésaurus.

Par sa fonction, un thésaurus transpose donc en langage documentaire standardisé le langage naturel utilisé dans les documents. Par sa structure, c'est un dictionnaire de termes dotés de relations sémantiques, génériques ou hiérarchiques relevant d'un domaine particulier de la connaissance (sémantique : relatif à la signification, au sens).

Généralement, l'indexeur et l'interrogateur ne parlent pas le même langage. Le thésaurus fournit la liaison indispensable entre leurs vocabulaires. On élimine en particulier la synonymie (plusieurs termes pour un même concept, par exemple chose = machin = truc = objet = bidule = engin = fourbi = zinzin...!) et la polysémie (plusieurs sens pour un même mot, par exemple « fraise » : outil rotatif - fruit - collerette plissée et empesée du 16e siècle - membrane qui enveloppe les intestins du veau ou de l'agneau - couleur rouge - angiome - chair rouge et plissée sous le bec du dindon - pieu protégeant les piles des ponts - élément de fortification - ... ou encore trombine de celui qui la ramène quand il ferait mieux de la boucler !).

Ne pas confondre la polysémie avec l'homonymie, qui concerne des mots de même prononciation mais de sens différents (par exemple : ceint, sein, saint, sain, seing). On connaît le gag classique du sot qui, sur son cheval, transportait le sceau du roi dans un seau. Lorsque le cheval, effrayé, fit un saut tous les ??? se retrouvèrent par terre !

Règles de choix des descripteurs

L'idéal serait de parvenir à une correspondance biunivoque entre descripteurs et concepts, c'est-à-dire un seul concept par descripteur et un seul descripteur par concept. Ce n'est pas si simple !

Les descripteurs sont choisis en observant des règles d'écriture précises :

  • forme substantive : on utilise AGRICULTURE et non AGRICOLE,
  • masculin quand les deux formes sont possibles : PHOTOCOPIEUR et non PHOTOCOPIEUSE,
  • singulier, sauf quand seul le pluriel est utilisé, par exemple COORDONNÉES CARTÉSIENNES, ACIERS SPÉCIAUX, MATÉRIAUX COMPOSITES, ou quand le sens est différent au singulier et au pluriel : CISEAU et CISEAUX, OUÏE et OUÏES, RELIEF et RELIEFS,
  • forme développée et non abréviations : INSTITUT UNIVERSITAIRE DE TECHNOLOGIE et non IUT, SOCIÉTÉ D'INVESTISSEMENT À CAPITAL VARIABLE et non SICAV, sauf pour les sigles passés dans le langage courant : RADAR = Radio Detection And Ranging, LASER = Light Amplifier by Stimulated Emission of Radiations (l'équivalent français serait Amplificateur de Lumière par Émission Stimulée de Radiations = ALESR, à peu près imprononçable) ; qui peut traduire : CEDEX, ZAC, SIGDU, MEN, SEU, PTFE ? L'acronyme IAO peut être traduit, selon les documents où on le rencontre, par Ingénierie Assistée par Ordinateur ou Intégration (des circuits) Assistée par Ordinateur ; d'aucuns prétendent même qu'il s'agit de l'Informatique Assistée par Ordinateur...
  • graphie la plus courante : CLÉ et non CLEF, TÉLÉPHÉRIQUE et non TÉLÉFÉRIQUE, mais il faut tirer au sort entre GRANIT et GRANITE !
  • mot le plus courant : ORDINATEUR et non CALCULATEUR(TRICE), TUNGSTÈNE et non WOLFRAM, BÉRYLLIUM et non GLUCINIUM. Attention aux divers sabirs professionnels : TERRE = MISE À LA TERRE, VOLTAGE ( anglicisme) = TENSION ÉLECTRIQUE, SOFTWARE (anglais) = LOGICIEL. Attention aussi aux déviations du langage : ne pas employer TECHNOLOGIE, étude des techniques, des machines, à la place de TECHNIQUE, procédé méthodique pour faire une chose, ni NON-VOYANT pour AVEUGLE. Méfiance aussi avec les mots tombés plus ou moins en désuétude : un PULL-OVER A COL ROULÉ est tout simplement un CHANDAIL, le BROUILLARD GIVRANT des FRIMAS, etc. Il arrive que les mots changent de sens et les sens, de mots, disait Eddie Constantine dans le film Alphaville de Jean-Luc GODARD (1965). Du coup, bien des spectateurs friands des aventures de Lemmy Caution se sont posé de graves questions existentielles !
  • élimination de la polysémie en précisant le terme utilisé : RÉSISTANCE (guerre) et RÉSISTANCE (électricité), SINUS (trigonométrie) et SINUS (anatomie), JOINT d'étanchéité, JOINT de transmission, ANALYSE chimique, ANALYSE des contraintes...
  • dédoublement et utilisation de mots- outils : DESSALEMENT ou DÉSALINISATION ou encore DÉSALINATION peuvent se voir préférer ÉLIMINATION + SEL (deux mots). Élimination, comme gestion, évaluation, traitement... sont des mots-outils trop généraux pour être employés seuls. On les utilise en association avec un ou plusieurs autres descripteurs, par exemple :
GESTION + STOCK
ÉVALUATION + NIVEAU
TRAITEMENT + SURFACE
...
  • choix entre les variantes et les contraires : ceci concerne essentiellement les propriétés ou les états des choses : FLUIDITÉ et VISCOSITÉ. FRAGILITÉ et RÉSILIENCE. STABlLITÉ et INSTABILITÉ. JOIE et TRISTESSE, sont des couples de mots qui se rapportent aux mêmes concepts. C'est le problème bien connu du choix entre le caramel demi-mou et le caramel demi-dur.

Relations entre les descripteurs

Dans un thésaurus, pour mieux préciser les concepts, on utilise des relations entre les descripteurs :


norme AFNOR norme ISO
équivalence :
EMPLOYER EM USE
EMPLOYER POUR EP UF (use for)
hiérarchie :
TERME GÉNÉRIQUE TG BT (broader term)
TERME SPÉCIFIQUE TS NT (narrower term)
association :
TERME ASSOCIÉ (= « voir aussi ») TA RT (related term)
définition :
NOTE D'APPLICATION NA SN (scope note)


L'ordre des abréviations EM, EP, TG, TS, TA, NA est normalisé. Par exemple, dans un thésaurus présenté sous forme de dictionnaire, on aurait autour du terme ORDINATEUR :

..........

calculateur électronique :

EM ORDINATEUR

computer :

EM ORDINATEUR

micro-computer :

EM MICRO-ORDINATEUR

microcomputer :

EM MICRO-ORDINATEUR

micro ordinateur :

EM MICRO-ORDINATEUR

MICRO-ORDINATEUR :

EP micro-computer
EP microcomputer
EP micro ordinateur
TG1 MINI- ORDINATEUR
TG2 ORDINATEUR
TG3 MATÉRIEL INFORMATIQUE
TG4 INFORMATIQUE
TS1 MICRO-ORDINATEUR PORTABLE

ORDINATEUR :

EP calculateur électronique
EP computer
TG1 MATÉRIEL INFORMATIQUE
TG2 INFORMATIQUE
TS1 MINI-ORDINATEUR
TS2 MICRO-ORDINATEUR
TS3 MICRO-ORDINATEUR PORTABLE
TA LOGICIEL
TA RÉSEAU LOCAL
TA IMAGERIE MÉDICALE
TA PÉRIPHÉRIQUE INFORMATIQUE
TA CONSTRUCTION D'ORDINATEURS

..........

Il est également possible de présenter les thésaurus sous forme de schémas fléchés, après un découpage du domaine en champs sémantiques, c'est-à-dire en groupes de 30 à 40 descripteurs hiérarchisés relatifs à un même thème. Le descripteur le plus général du groupe fournit le titre de la page, dont il occupe le centre. Ce schéma peut être réalisé en se servant d'un quadrillage dont les cases sont numérotées, à moins que l'on préfère les coordonnées polaires.

Thésaurus et macro thésaurus

Les thésaurus connaissent actuellement un important développement, lié à l'informatisation grandissante des systèmes documentaires. Les macro thésaurus, encore peu nombreux actuellement, sont destinés à servir de cadre commun à un ensemble de systèmes documentaires touchant à des domaines différents. Ils restet à un niveau de généralité assez élevé mais peuvent servir de structures d'accueil pour des thésaurus spécialisés.

Le thésaurus de l'Organisation de Coopération et de Développement Économique (OCDE), édité en 1972, recouvre 19 rubriques divisées en 24 sous-rubriques (culture, société, éducation, formation, agriculture, industrie, travail, démographie, population, etc.). Pas moins de 27 organisations ont collaboré à ce travail, qui a demandé trois ans.

Le macro thésaurus des Sciences et Techniques du Bureau National de l'Information Scientifique et Technique (BNIST) couvre par exemple les cinq secteurs suivants :

- mathématiques - physique. - terre - mer - espace - sciences de l'ingénieur - médecine - biologie - agriculture - chimie


Informatique documentaire

L'ordinateur, par sa formidable puissance de traitement des données, est un outil dont les documentalistes se sont emparés avec avidité depuis déjà bien des années. Des progrès étonnants ont déjà été accomplis mais d'autres restent à venir :

  • énormes possibilités de stockage d'information sur de nouveaux types de mémoires informatiques, numérisation d'images...
  • lecture automatique des documents écrits, grâce à la vision artificielle.
  • indexation automatique : l'ordinateur peut, si on le lui a appris, reconnaître les mots vides et les distinguer des mots ou expressions susceptibles de servir de descripteurs. Il peut également étudier la fréquence à laquelle ces descripteurs surviennent dans le texte. Cependant, il est actuellement incapable de reconnaître à coup sûr le sens d'un mot, si celui-ci est caractérisé par une forte polysémie.
  • traduction automatique : elle est actuellement loin d'être vraiment opérationnelle, sauf pour des textes très simples. Naturellement, l'ordinateur ne sait pas encore reconnaître les jeux de mots ou s'esclaffer en lisant des histoires belges ; les automatismes actuels, qui sont encore bien médiocres par rapport au but à atteindre, donnent parfois de bien étranges analyses que l'homme se doit de corriger.
  • développement de la télématique : cette rencontre des télécommunications et de l'information, autorise maintenant ce rêve du documentaliste, avoir la documentation traitée et stockée chez les autres et y accéder rapidement à partir de son propre centre de documentation (J. Chaumier, 1982).



Attention : modification en cours !link={{{link}}}

Un contributeur est en train de retravailler en profondeur cette page. Vous êtes prié(e) d'éviter de le modifier pour limiter les risques de conflit de versions jusqu'à disparition de cet avertissement. Merci.