Convertir des corpus téléchargés sur Internet aux formats HTML, PDF ou PS


Avertissement

Cette page n'envisage que les solutions gratuites qui semblent fonctionner de manière satisfaisante, sans imposer la présence de marques de fin de paragraphe ou de ligne. Il est, bien sûr, possible d'acheter divers logiciels de conversion, non envisagés ici. On n'oubliera pas que les meilleurs logiciels de reconnaissance optique de caractères sont capables de scanner virtuellement un fichier PDF, avec de très bons résultats. Ils coûtent environ cent euros et sont parfois compris dans le prix d'achat d'un scanner. Dans notre expérience, les logiciels gratuits et les sites de conversion en ligne n'offrent que de piètres résultats.

Il est important de souligner que toute manipulation d'un texte d'autrui doit être faite dans le respect des droits d'auteur.

Exploiter au mieux la mise en page initiale

Préférence devrait être donnée à des logiciels permettant une sauvegarde dans un format de traitement texte (*.odt, *.doc, *.docx, *.rtf) afin d'exploiter au mieux le lien entre la mise en page et des types de données appelant un balisage particulier (titres, italiques, gras, souligné...). À défaut, il est conseillé de sauvegarder les fichiers au format HTML et d'ensuite les importer dans un traitement de texte.

Nettoyer les scories

Dans tous les cas, le résultat de la conversion doit être inspecté systématiquement, les problèmes de conversion de caractères n’étant pas rares. On sera par ailleurs vigilant à confronter systématiquement le texte original et celui qui a été recréé pour rechercher toutes les causes de rupture du texte suivi, notamment :

Le passage du correcteur orthographique est souvent très utile pour dépister les problèmes qui subsistent.

Du format HTML au traitement de texte

  1. Vérifier si un simple copier-coller vers le traitement de texte fonctionne sans ajout de sauts de ligne ou de marques de paragraphe ;
  2. Sinon, enregistrer le fichier au format HTML (et non pas TXT, car les fins de ligne deviennent parfois des fins de paragraphe) ;
  3. Ouvrir le fichier HTML à partir du traitement de texte ;
  4. Sauvegarder au format du traitement de texte.

Du format PDF (Acrobat Reader) au format TXT grâce à un gratuiciel

Si la mise en page est simple et que l'on ne souhaite pas tenir compte de la mise en forme pour baliser certains éléments du texte, une solution simple et relativement performante consiste à utiliser le gratuiciel Convert associé au concordancier PhraseContext. Ne pas hésiter à jouer sur les options pour arriver au meilleur résultat possible.

Sous Linux, OCRFeeder (testé sous Ubuntu) semble donner des résultats également satisfaisants. La prise en main se fera aisément en consultant une vidéo.

Du format PostScript au format TXT via les formats PDF et HTML

Le format PostScript est très utilisé par les communautés scientifiques utilisant les systèmes UNIX et LINUX.

  1. Pour ouvrir un fichier PostScript sous Windows, installer le logiciel GhostScript et son interface graphique GSview
  2. Ouvrir le fichier PostScript à l’aide de Gsview
  3. Utiliser le menu « Fichier - Convert… » et choisir le type PDFwrite
  4. Sauvegarder le fichier avec une extension *.PDF
  5. Traiter ce fichier PDF à l'aide de Convert (point précédent)

Remarque : la conversion ne semble pas fonctionner pour un document PDF incluant des caractères particuliers (p.ex. la phonétique ou des symboles mathématiques).

Comment baliser le corpus ?

Consulter le site de la revue Texto : Fiches cuisine et équipement de survie pour corpus


[Logo Termisti] Retour à la page d'accueil de Termisti


dernière mise à jour : 7 novembre 2016
©  .