Cette page n'envisage que les solutions gratuites qui semblent fonctionner de manière satisfaisante, sans imposer la présence de marques de fin de paragraphe ou de ligne. Il est, bien sûr, possible d'acheter divers logiciels de conversion, non envisagés ici. On n'oubliera pas que les meilleurs logiciels de reconnaissance optique de caractères sont capables de scanner virtuellement un fichier PDF, avec de très bons résultats. Ils coûtent environ cent euros et sont parfois compris dans le prix d'achat d'un scanner. Dans notre expérience, les logiciels gratuits et les sites de conversion en ligne n'offrent que de piètres résultats.
Il est important de souligner que toute manipulation d'un texte d'autrui doit être faite dans le respect des droits d'auteur.
Préférence devrait être donnée à des logiciels permettant une sauvegarde dans un format de traitement texte (*.odt, *.doc, *.docx, *.rtf) afin d'exploiter au mieux le lien entre la mise en page et des types de données appelant un balisage particulier (titres, italiques, gras, souligné...). À défaut, il est conseillé de sauvegarder les fichiers au format HTML et d'ensuite les importer dans un traitement de texte.
Dans tous les cas, le résultat de la conversion doit être inspecté systématiquement, les problèmes de conversion de caractères n’étant pas rares. On sera par ailleurs vigilant à confronter systématiquement le texte original et celui qui a été recréé pour rechercher toutes les causes de rupture du texte suivi, notamment :
Le passage du correcteur orthographique est souvent très utile pour dépister les problèmes qui subsistent.
Si la mise en page est simple et que l'on ne souhaite pas tenir compte de la mise en forme pour baliser certains éléments du texte, une solution simple et relativement performante consiste à utiliser le gratuiciel Convert associé au concordancier PhraseContext. Ne pas hésiter à jouer sur les options pour arriver au meilleur résultat possible.
Sous Linux, OCRFeeder (testé sous Ubuntu) semble donner des résultats également satisfaisants. La prise en main se fera aisément en consultant une vidéo.
Le format PostScript est très utilisé par les communautés scientifiques utilisant les systèmes UNIX et LINUX.
Remarque : la conversion ne semble pas fonctionner pour un document PDF incluant des caractères particuliers (p.ex. la phonétique ou des symboles mathématiques).
Consulter le site de la revue Texto : Fiches cuisine et équipement de survie pour corpus
Retour à la page d'accueil de Termisti
dernière mise à jour : 7 novembre 2016
©
.