Aller au contenu

Apertium/Créer une nouvelle paire de langues

Un livre de Wikilivres.
Version datée du 25 janvier 2010 à 20:14 par CaBot (discussion | contributions) (Bot : Indexation dans Catégorie:Apertium (livre))
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Pour créer une nouvelle paire de langues, il faut créer cinq nouveaux fichiers :

  • deux dictionaires monolingues
  • un dictionaire bilingue
  • deux fichiers de règles de transfert

Soient A et B les langues pour lesquelles vous désirez créer une paire. Vous pouvez dans certain cas récupérer un dictionaire monolingue si une paire A-X ou B-X existe déjà (X est une langue quelconque).

Nous allons prendre comme exemple la création de la paire français-néerlandais. Nous utiliserons comme abréviation fr pour le français et nl pour le néerlandais. Donc, si vous avez bien suivi, il faudra créer :

  • un dictionnaire monolingue nl
  • un dictionnaire bilingue fr-nl
  • un fichier de règles de transfer fr-->nl
  • un fichier de règles de transfer nl-->fr

Nous n'avons pas besoin de créer le dictionaire monolingue fr, car nous le récupérons de la paire de langues fr-es.

Commençons par créer le dictionnaire monolingue nl

Dictionnaire monolingue nl

[modifier | modifier le wikicode]

Le dictionnaire est un fichier xml.

Nous devons utiliser l'encodage "ISO-8859-1". A ce jour (avril 2007) l'UTF-8 qui permet d'utiliser davantage de langues, ne fonctionne pas encore avec Apertium.

Créez un fichier texte avec votre éditeur de texte préféré (notepad, gedit, kedit, etc.), saisir le texte :

<?xml version="1.0" encoding="ISO-8859-1"?>
<dictionary>
<alphabet>ÀÁÂÄÇÈÉÊËÌÍÎÏÑÒÓÔÖÙÚÛÜàáâäçèéêëìíîïñòóôöùúûüABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz</alphabet>
</dictionary>

Sauvegarder ce texte sous le nom de « apertium-fr-nl.nl.dix ».

Le contenu de la balise alphabet est nécessaire car Apertium ne reconnaît pas encore l'UTF-8.

Il convient ensuite de remplir l'espace entre :

<sdefs> </sdefs>

Pour cela saisissons :

<sdefs>

</sdefs>

Abréviations utilisées

[modifier | modifier le wikicode]
  • dix : dictionary (dictionnaire)
  • fr : français
  • nl : néerlandais