Pour modifier un document scanné, la procédure est toujours la même, quel que soit la nature du document en question ou le type de fichier. Il faut utiliser un logiciel de reconnaissance optique (connu sous le nom d’OCR) pour transformer le résultat d’un scan qui est une image, en un fichier de données qui comprend les caractères reconnus et éventuellement la mise en page.
Comme je l’ai écrit dans mon comparatif des logiciels OCR, la qualité du résultat de la reconnaissance optique n’est pas garantie, et varie en fonction du logiciel utilisé (particulièrement pour la mise en page). Dans les exemples ci-dessous j’utilise FineReader, qui avec ReadIris sont parmi les meilleurs logiciels OCR du marché.
Liens vers les sections de l’article :
- modifier un document scanné ↓
- modifier un texte scanné ↓
- modifier un tableau scanné ↓
- modifier un PDF scanné ↓
Procédure pour modifier un document scanné :
Temps nécessaire : 10 minutes
Pour modifier un document scanné (comme un PDF), il faut:
- Analyser le document scanné
Avec un logiciel OCR comme FineReader ou Prizmo (disponible avec Setapp)
- Exporter le résultat dans un format qui convient
- Ouvrir ce document avec un logiciel qui permettra sa modification
- Éventuellement sauvegarder et/ou exporter le document une fois modifié.
Comme un PDF est susceptible de comporter à la fois texte, tableaux et images, nous allons avancer dans les exemples du plus simple au plus compliqué, en finissant par la modification d’un PDF.
Comment modifier un texte scanné :
C’est la procédure de base de la reconnaissance optique. Partons du principe que nous ayons un texte scanné que l’on veut modifier dans Word ou un autre logiciel de traitement de texte comme Pages pour mac, Google doc, Open Office ou n’importe quel autre.
Commencez par scanner le document pour un rendu de la meilleure qualité possible avec une définition d’au moins 300ppp.
La plupart des logiciels OCR possèdent une fenêtre de scanner, mais vous pouvez aussi directement ouvrir le fichier image si le scan a déjà été effectué.
Dans l’exemple ci-dessous j’ai démarré une nouvelle tâche FineReader « Convertir en document TXT » puis ouvert le scan en jpg d’une page du magazine Terre Sauvage, dans laquelle je n’ai sélectionné que la partie du texte que je voudrai modifier.
Dès la fin de la reconnaissance optique, le fichier s’ouvre automatiquement dans mon éditeur de texte par défaut qui est Write (lien App Store). Je peux alors modifier à ma guise le texte scanné.
Parfois, la reconnaissance de la mise en page « casse » la reconnaissance du texte, le rendant difficilement modifiable. Dans ce cas, essayez d’exporter sans la mise en page (en texte brut). Pour ce faire, sélectionnez le fichier TXT comme format d’export plutôt que DOCX, quitte à refaire la mise en page.
Vous pouvez maintenant enregistrer ou exporter dans d’autres formats le texte scanné et modifié.
Comment modifier un tableau scanné :
Dans l’exemple ci-dessous j’ai démarré une nouvelle tâche FineReader « Convertir en feuille de calcul Excel » puis ouvert le scan en jpg d’une devis dans laquelle je n’ai sélectionné que le tableau que je voudrai modifier.
Le fichier s’ouvre alors dans Excel (ou Numbers pour macOS), d’où je peux modifier le tableau.
Ici on peut voir que le rendu du formatage des cellules n’est pas parfait et va nécessiter quelques ajustements pour se rapprocher du document initial. Mais vous pouvez maintenant enregistrer ou exporter dans d’autres formats le tableau scanné et modifié.
En cas de problème, pour exporter les données d’un tableau sans formatage, choisissez comme format d’export le fichier .CSV.
Les tableaux (ou tableurs) sont en fait des données tabulaires dont la plus simple expression est le fichier .csv (pour « comma separated value » soit valeur séparée par virgule).
Prenons comme exemple très simple le tableau suivant :
Lundi | Mardi | Mercredi |
Pluie | Soleil | Nuage |
Le code source minimale .csv de ce tableau est :
1 Lundi,Mardi,Mercredi 2 Pluie,Soleil,Nuage
Ainsi si jamais vous avez besoin d’importer un Fichier .csv dans Excel et que le tableau ne s’ouvre pas correctement il suffit de changer le paramètre de délimitation des cellules. Pour trouver ce paramètre ouvrez le fichier .csv dans un éditeur de texte basique comme TextEdit sur Mac ou NotePad sur Windows. Cela peut arriver que ce caractère soit un point-virgule, une tabulation ou un guillemet.
Comment modifier un PDF scanné
Suivant les logiciels installés sur votre ordinateur, il y a deux façons de procéder pour modifier un PDF scanné. Vous pouvez soit exporter le résultat directement en PDF et modifier le PDF dans un éditeur de PDF comme PDFpen ou Acrobat DC, soit exporter en format DOCX ou ODT pour y effectuer les modifications et ensuite exporter en PDF.
Comme nous avons déjà vu un exemple avec Word je vais utiliser ici Acrobat DC.
Dans l’exemple ci-dessous j’ai démarré une nouvelle tâche FineReader « Convertir en document PDF » puis ouvert le même que dans le premier exemple, mais cette fois-ci la page entière, en ayant pris soin d’affiner les zones de sélection en fonction de leur type, ici image et texte.
Si l’arrière-plan de votre PDF est juste un fond blanc, sélectionnez le mode « Texte et images seulement« . Si il y a une texture ou une couleur « Texte par-dessus l’image de page« . Mais attention à l’option « Texte sous l’image de page » rendra la modification du texte impossible.
Ouvrez ensuite le PDF dans Acrobat et sélectionnez l’outil « Modifier le fichier PDF » pour sélectionner la zone de texte ou vous souhaitez effectuer les modifications.
Il suffit maintenant d’enregistrer ce document si vous l’avez modifié avec un éditeur de PDF, ou de l’exporter si vous l’avez modifié avec un logiciel de traitement de texte.
Conclusion:
Modifier un document scanné est quelque chose de plutôt compliqué dont la difficulté dépend beaucoup de matériau initial, du résultat final voulu et des outils utilisés.
Si c’est juste un petit bout de texte ce sera relativement simple, si c’est des centaines de documents dont la mise en page est complexe ce sera compliqué et long à effectuer.
Mais la bonne nouvelle, c’est que ce sont des manipulations « fun » à effectuer et dont le résultat est satisfaisant.
Cyrille tena dit
C’est vraiment génial. Courage et bon progrès dans vos recherches
Renaud LEVALLOIS dit
merci Michael