Page 1 sur 1

Re: Obtenir du texte à partir d'une image (avec un OCR)

Publié : dim. mai 14, 2006 2:14 pm
par Arnaud Carobbi
Salutations à tous les utilisateurs de ce forum,

Suite à un message de monsieur Labarbe sur les problèmes liés à la transformation d'une image en texte pour l'historique du 57e RI, je me suis lancé. J'ai entrepris, après téléchargement dudit historique (6,5Mo pour un dinosaure 56k), la numérisation en mode texte avec un logiciel de reconnaissance de caractères.
Ces logiciels ont dû en décevoir plus d'un à cause de leur manque d'efficacité lorsque la feuille n'est pas blanche et les caractères mal imprimés, comme cela arrive sur le vieux papier des historiques. Sans parler des feuilles imprimées avec l'espoir que le résultat soit meilleur et qui finissent imanquablement à la poubelle !
Voici quelques conseils :

Pour les novices :
Sur une image, on ne peut pas récupérer le texte pour le mettre sous Word à moins de le taper. Les logiciels de reconnaissance de caractères permettent de récupérer le texte de l'image. Ainsi les fichier sont moins volumineux et les modifications simples. Désolé pour les pros, mais ce rappel pourra être utile.

Logiciels utilisés :
- Irfanview pour la transformation des images ; simple, gratuit et en français, ce petit logiciel est redoutablement efficace ;
- Omnipage Pro 12.0 pour la reconnaissance de caractères.

CETTE PROCEDURE N'EST UTILE QUE POUR LES IMAGES QUE LE LOGICIEL N'ARRIVE PAS A TRANSFORMER EN TEXTE

Je vais indiquer la procédure que j'ai suivi pour obtenir du texte à partir de l'historique du 57e RI au format PDF de monsieur Labarbe. A l'aide de cette procédure, j'ai pu numériser 19 pages en 3 heures de travail. Cela peut paraître bien long et la méthode fastidieuse, mais le taux de reconnaissance des caractères était supérieure à 90% et ne nécessitait donc qu'une simple relecture. Et c'est toujours moins long que de tout taper ! Ce sont surtout les chiffres qui posent problème : le 3 devient 8, le 4 passe mal aussi ; le B majuscule est raté à tous les coups. Mais ce sont les seules grosses erreurs.


ETAPE 1 : Obtenir l'image à transformer ensuite en texte
¤ Ouvrir le fichier PDF.
¤ Réaliser une capture d'écran du texte : zoomer à 250% sur le texte puis appuyer sur la touche "Impr écran" ou "Print screen" du clavier. Cette touche se situe le plus souvent en haut à droite du clavier, non loin des touches "F1" à "F12".
Ne pas utiliser la fonction de copie de l'image d'Acrobat Reader, car quel que soit le zoom, il prendra l'image avec un zoom de 100%, insuffisant pour ce que l'on veut faire.
J'ai essayé avec un zoom à 220%, mais le taux de reconnaissance moins bon.
Le zoom de 250% oblige à créer 3 images pour une seule page de texte. Après chaque capture d'écran, il faut la coller. Une capture d'écran efface systématiquement la précédente.

¤ Démarrer le logiciel Irfanview et coller la capture d'écran. Découper la capture d'écran pour ne garder que le texte.
¤ Cliquer sur le menu "Image" d'Irfanview et choisissez "Convertir en niveau de gris" ;
¤ Cliquer sur le menu "Image" d'Irfanview et choisissez "Améliorer les couleurs" :
Voici les réglages, qui après moultes tatonnements, m'ont permis d'obtenir les meilleurs résultats :
BRILLANCE : -0.60
CONTRASTE : 70
CORRECTION DU GAMMA : 0.80

L'image obtenue va vous étonner : loin de la netteté attendue, elle va être baveuse, mal contrastée ! Pas d'erreur, c'est bien ce qui m'a donné plus de 90% de taux de reconnaissance.

¤ Enregistrer l'image obtenue au format TIF (car l'image au format TIF est enregistrée sans compression et cela semble avoir de l'importance pour les logiciels de reconnaissance de caractères).

ETAPE 2 : transformer l'image en texte
¤ Démarrer le logiciel de reconnaissance de caractères ;
¤ Lancer une séquence de reconnaissance de caractères d'une image (et non sur votre scanner). Sélectionner l'image voulue.
¤ Et zou, c'est parti...

Mais il faut recommencer tout à zéro pour un autre morceau de page... alors de la patience, le résultat final est à la hauteur du travail demandé ! :sweat:

AVERTISSEMENTS :
- Je le répète, cette procédure n'est utile que pour les pages qui rendent fou l'OCR (le logiciel de reconnaissance de caractères) !
- Cette procédure n'a été utilisée qu'avec Omnipage Pro 12.0, je ne sais pas ce qu'elle donne avec les autres logiciels de reconnaissance de caractères ;
- J'ai beaucoup parlé d'Irfanview, mais on peut modifier les images avec beaucoup d'autre logiciels. La règle veut que je ne parle que de ce que je connais, voilà tout. Presque.. car en réalité, adepte du logiciel libre, je leur fait aussi un peu de pub..., mais shut...


Mes connaissances sur la guerre 14-18 et mon éloignement du front ne me permettent pas d'être actif pour répondre aux questions souvent pointues du forum. Lecteur assidu et admiratif, j'espère apporter ma pierre à l'édifice de ce magnifique travail sur la Première Guerre mondiale fait par chacun.

Cordialement,

A. CAROBBI

Re: Obtenir du texte à partir d'une image (avec un OCR)

Publié : dim. mai 14, 2006 2:50 pm
par Alain Dubois-Choulik
Bonjour
A noter qu'Adobe dispose de son propre module d'OCR, "Paper capture", multilingue, qui donne de bons résultats...quand on n'a pas cochonné la numérisation ! Je serais à ce propos curieux de comparer dans certains cas le temps passé à numériser puis à transformer/mettre en forme/corriger et celui utilisé pour une frappe directe ....Ceci-dit, il y a des cas où c'est parfait à 99%, question de source....et de logiciel de ROC, nombreux, diversement efficaces ( j'ai un faible pour ABBYY FineReader).
Cordialement
Alain

Re: Obtenir du texte à partir d'une image (avec un OCR)

Publié : lun. mai 15, 2006 12:45 am
par LABARBE Bernard
Bonsoir à tous,
Merci Mr Carobbi pour cette notice fouillée que je pompe immédiatement.
Merci également pour l'intégrale de l'historique du 57 en mode texte nickel chrome que je vais mettre en forme (simples bidouillages) et envoyer aux sites collectionneurs bénis de nous tous. (Renaud et le Chtimiste).
Je suis sci-é ! :pt1cable: :ouch:
Mais vu la notice et la marche à suivre, je ne risquais pas de trouver tout seul ! :lol: :non:
Bravo et merci.
:hello:
Bernard

Re: Obtenir du texte à partir d'une image (avec un OCR)

Publié : lun. mai 15, 2006 2:28 am
par olivier gaget
Bonjour à tous,

Merci Caro pour cette notice intéressante. :)
Euh ! par contre, je ne sais pas si je vais l'essayer tout de même !!
mon éloignement du front ne me permettent pas d'être actif pour répondre aux questions souvent pointues du forum.
Ben Angers, c'est quand même moins loin du front que le japon où se trouve Roger, qui participe aussi à ce forum ! :)

Amicalement,
Olivier

Re: Obtenir du texte à partir d'une image (avec un OCR)

Publié : lun. mai 15, 2006 11:28 pm
par Arnaud Carobbi
Précision : ma bidouille n'est nécessaire que pour les documents qui ne sont pas reconnus par les logiciels autrement. Je ne suis pas là pour décourager ! :lol:

Cordialement,

A. Carobbi