= Accueil
= Enjeux et objectifs
 
4 Balisage XML
 
= Encodage Unicode
= Communications
= Mauvais affichage ?

 

Agence universitaire de la francophonie, Réseau LTT

Expérimentation de normes de balisage
en langues partenaires

 

Le balisage XML

Initiation à XML

Le cours d'Andrei Popescu-Belis (ETI, Université de Genève)

Intro (Université de Montréal)

Aspects informatiques des bases documentaires hétérogènes et réparties (Université de Caen)

haut de la page


Comment baliser un texte ?

Trucs et astuces

Convertir des corpus téléchargés sur Internet (Centre Termisti)

Fiches cuisine et équipement de survie pour corpus (revue Texto)

Logiciels utilisés

  • Logiciels de balisage : Oxygen (existe en français !) et XML Spy. Il existe, par ailleurs de nombreux gratuiciels disponibles sur la toile.

  • Directement depuis le traitement de texte : Open Office (logiciel libre)

  • Le consortium de la Text Encoding Initiative propose une solution permettant d'ouvrir un fichier XML dans le traitement de texte d'Open Office et, inversement, de sauvegarder un fichier traitement de texte au format XML de la TEI (mode d'emploi). L'expérimentation montre la viabilité de cette solution.

    Pour l'importation d'un fichier TEI dans Open Office, les fichiers proposés ne permettent pas d'aller au-delà de la simple démonstration (cf. exemple en wolof). Toutefois, il semble tout à fait possible de les améliorer en veillant à une plus grande diversification des éléments présents dans la DTD et des styles qui leur correspondent dans le modèle tei.stw. Cette remarque concerne particulièrement les passages versifiés et dialogués.

    L'export d'Open Office vers la TEI est également aisément réalisable, mais demande, lui aussi, une amélioration des processus de transformation.

haut de la page


Normes de balisage XML considérées

Chacune de ces normes internationales garantit un balisage conforme au standard XML du W3C.

± XCES

± TEI et TEI Lite

± TMF

haut de la page


DTD utilisées

La description du type de document (ou DTD) est un simple fichier texte brut décrivant selon un formalisme relativement simple le modèle de données utilisé. Une DTD permet de contraindre le contenu d'un document, elle garantit tout à la fois une grande rigueur structurelle et une véritable liberté de conception du modèle de données.

± dicowolof.dtd
DTD créée dans le cadre du projet et appliquant les catégories de données définies dans la norme ISO 12620

± dicowoloftoolboxbis.dtd
DTD créée pour rendre compte de l'exportation de données par le logiciel Toolbox

± minirifal2.dtd
adaptation pour le CLAD de minirifal.dtd (créée par Marc Van Campenhoudt (ISTI, Bruxelles) dans le cadre des formations du Rifal

± teixlite.dtd
DTD de la TEI Lite de la Text Encoding Initiative

± tei-oucs.dtd
DTD de la Text Encoding Initiative adaptée pour Open Office.
Consulter le mode d'emploi

± tmf.dtd
DTD de la norme ISO 12642

± xcesdoc.dtd et xheader.elt
DTD du projet Corpus Encoding Standard for XML

haut de la page


Feuilles de styles XSL utilisées

Le mécanisme des feuilles de style XSL permet de convertir un fichier XML vers un autre format. Dans le cadre du projet, on a testé les transformations vers HTML et vers un fichier XML conforme à une autre DTD. Les feuilles de style créées ou testées dans le cadre du projet peuvent être facilement réutilisées, moyennant quelques modifications, pour la mise en œuvre d'autres transformations.

± dicowolof.xsl (vers HTML)
feuille de style créée dans le cadre du projet de recherche pour transformer les fiches XML conformes à dicowolof.dtd en fiches HTML.

± dicowolof-2-transform.xsl (vers XML)
feuille de style créée dans le cadre du projet de recherche pour transformer les fiches XML conformes à dicowolof.dtd en fiches XML conformes à minirifal2.dtd (norme ISO 12620)

± dicowoloftoolbox.xsl (vers HTML)
feuille de style créée dans le cadre du projet de recherche pour convertir en HTML des données XML exportées depuis le logiciel Toolbox

± dicowoloftoolbox-2-transform.xsl (vers XML)
feuille de style créée dans le cadre du projet de recherche pour transformer les fiches XML exportées depuis le logiciel Toolbox en fiches XML conformes à minirifal2.dtd (norme ISO 12620)

± minirifal2-html.xsl (vers HTML)
adaptation de la feuille de style minirifal2html.xsl, créée par Andrei Popescu-Belis (ETI, Université de Genève) dans le cadre des formations du Rifal

On a créé diverses versions de cette feuille minirifal2-html.xsl pour produire diffuser sur Internet des fiches (a) offrant un codage HTML 4.01 strict, (b) dont tout élément de style est déporté dans une feuille de style CSS (level1) validée garantissant une compatibilité maximale avec tout type de navigateur et (c) contenant une instruction de tri des données (avec en commentaire d'autres instructions de tri).

± term_lex_sort.xsl (vers HTML)
Implémente un tri à double clé (sur la catégorie grammaticale, puis la langue [wolof]) et contient un commentaire (transféré dans la sortie HTML) avec d'autres exemples d'instructions de tri.

± term_lex_sort_fra.xsl (vers HTML)
Implémente un tri sur les entrées en langue française.

± term_lex_sort_wol.xsl (vers HTML)
Implémente un tri sur les entrées en langue wolof.

± cesdoc.xsl (vers HTML)
Feuille de style du projet Corpus Encoding Standard for XML
Les transformations ont été effectuées à l'aide de XCES-RIFAL, une version améliorée par Andrei Popescu Belis (ETI, Université de Genève) dans le cadre des formations du Réseau international francophone d'aménagement linguistique.

± tei.xsl (vers HTML, LaTeX et XSL Formatting Objects)
Feuille de style de la version P4 de la Text Encoding Initiative

± teioo.zip (de TEI XML vers OpenOffice et réciproquement)
Feuilles de style de la Text Encoding Initiative adaptées pour Open Office.
Consulter le mode d'emploi

haut de la page


Corpus textuels balisés

Procédure à appliquer si ces pages s'affichent mal

Bambara

± Bekayi Konate : Tatenibamanan jujɔn, recueil et transcription par Mamadou Diakite (CLAD, Dakar)

version originale XML version originale XML
Transformation vers HTML Transformation vers HTML
Note sur la conversion : mauvais rendu des balises <sp></sp>. Note sur la conversion : mauvaise rendu des balises <sp></sp>.

± Jeli Baba Sisɔkɔ, Daa ka kɔrɛ kɛlɛ extrait balisé par Mamadou Diakite (CLAD, Dakar).

version originale XML version originale XML
Transformation vers HTML Transformation vers HTML
  Note sur le balisage : L’élément <poem> de la norme XCES n’apparaît pas dans la TEI Lite.

± Hadamaden josiraw dantigekan = Déclaration universelle des droits de l'homme, version originale téléchargée à des fins expérimentales sur le site du Haut-Commissariat des Nations unies aux droits de l'homme. Il importe de souligner que les membres du projet ne cautionnent pas cette traduction.

version originale XML version originale XML
Transformation vers HTML Transformation vers HTML
Note sur la conversion : la numérotation automatique de l'élément <div> entre en concurrence avec celle des articles. Note sur la conversion : la numérotation automatique de l'élément <div> entre en concurrence avec celle des articles

haut de la page

Pulaar

± Seegu Bali e Ngaari, Département des langues nationales et de linguistique, Université de Nouakchott

version originale XML version originale XML
Transformation vers HTML Transformation vers HTML
  Note sur le balisage : L’élément <poem> de la norme XCES n’apparaît pas dans la TEI Lite.

± Nanondiral winndereyankeewal hakkeeje aade = Déclaration universelle des droits de l'homme, version originale téléchargée à des fins expérimentales sur le site du Haut-Commissariat des Nations unies aux droits de l'homme. Il importe de souligner que les membres du projet ne cautionnent pas cette traduction.

version originale XML version originale XML
Transformation vers HTML Transformation vers HTML
Note sur la conversion : la numérotation automatique de l'élément <div> entre en concurrence avec celle des articles. Note sur la conversion : la numérotation automatique de l'élément <div> entre en concurrence avec celle des articles.

haut de la page

Wolof

± Doomu Yàla, conte wolof anonyme, balisage par Chérif Mbodj (CLAD, Dakar)

version originale XML version originale XML
Transformation vers HTML Transformation vers HTML

± Khadi Fall, Kersa ci tudde sama bopp bindkat, poème diffusé sur le site Lire les femmes écrivains et les littératures africaines.

version originale XML version originale XML
Transformation vers HTML Transformation vers HTML
  Transformation vers PDF
  Note sur le balisage : L’élément <poem> de la norme XCES n’apparaît pas dans la TEI Lite.

± Bataaxal gu mag gi ëmb sañ-sañi doomi aadama = Déclaration universelle des droits de l'homme, version originale téléchargée à des fins expérimentales sur le site du Haut-Commissariat des Nations unies aux droits de l'homme. Il importe de souligner que les membres du projet ne cautionnent pas cette traduction.

version originale XML version originale XML version originale XML
Transformation vers HTML Transformation vers HTML Transformation vers SXW
  Transformation vers PDF
Note sur la conversion : la numérotation automatique de l'élément <div> entre en concurrence avec celle des articles. Note sur la conversion : la numérotation automatique de l'élément <div> entre en concurrence avec celle des articles. Note sur la conversion : la conversion de XML vers Open Office s'opère correctement, mais avec peu de styles différents (perte de structure évidente dans l'en-tête).

haut de la page


Corpus lexicaux balisés

Procédure à appliquer si ces pages s'affichent mal

Wolof

± Lexique des élections, Centre de linguistique appliquée de Dakar, Université Cheikh Anta Diop

version XML (DTD : minirifal2.dtd)

minirifal2-html.xsl électionswolof.htm version HTML « brute »
term_lex_sort.xsl electionswolof_strict_sort.htm version HTML 4.01 validée, avec feuille de style CSS : tri à double clé (sur la catégorie grammaticale, puis la langue wolof)
term_lex_sort_wol.xsl electionswolof_strict_sort_wol.html version HTML 4.01 validée, avec feuille de style CSS : tri sur la langue wolof
term_lex_sort_fra.xsl electionswolof_strict_sort_fra.html version HTML 4.01 validée, avec feuille de style CSS : tri sur la langue française

± Lexique de la santé, Département des langues nationales et de linguistique, Université de Nouakchott

version XML (DTD : minirifal2.dtd)

minirifal2-html.xsl santewolof.htm version HTML « brute »
term_lex_sort.xsl santewolof_strict_sort.htm version HTML 4.01 validée, avec feuille de style CSS : tri à double clé (sur la catégorie grammaticale, puis la langue wolof)
term_lex_sort_wol.xsl santewolof_strict_sort_wol.html version HTML 4.01 validée, avec feuille de style CSS : tri sur la langue wolof
term_lex_sort_fra.xsl santewolof_strict_sort_fra.html version HTML 4.01 validée, avec feuille de style CSS : tri sur la langue française

± Projet de dictionnaire wolof-français, Département de linguistique, Université Cheikh Anta Diop

De XML vers HTML

DTD fondée sur les les catégories de données de la norme ISO 12 620.

version XML (DTD : dicowolof.dtd)

dicowolof.xsl dicowolof.htm

DTD basée sur le filtre d'exportation de Toolbox

version XML (DTD : dicowoloftoolboxbis.dtd)

dicowoloftoolbox.xsl dicowoloftoolbox.htm

De XML vers XML puis vers HTML

Les feuilles de style permettent de transformer les fichiers XML précédents en fichiers XML conformes à minirifal2.dtd. Bien entendu, le résultat peut ensuite être converti en HTML à l'aide de la feuille de style minirifal2-html.xsl.

dicowolof-2-transform.xsl dicowolof-2-transformed.xml term_lex_sort_wol.xsl dicowolof-2-transformed-sort-wol.html
dicowoloftoolbox-2-transform.xsl dicowoloftoolbox-2-transformed.xml term_lex_sort_wol.xsl dicowoloftoolbox-2-transformed-sort-wol.html

haut de la page


, © 2004 : UCAD - UNkc - ISTI.
dernière mise à jour : 3 décembre 2005

Retour vers Refer