Comment fonctionne l'Image-to-Text (Reconnaissance Optique de Caractères)

Extraire le texte des images n'a jamais été aussi facile qu'aujourd'hui grâce à la technologie de reconnaissance optique des caractères (OCR). Mais qu'est-ce que l'OCR? Et comment fonctionne l'OCR?

Extraire le texte des images n'a jamais été aussi facile qu'aujourd'hui grâce à la technologie de reconnaissance optique des caractères (OCR).  Mais qu'est-ce que l'OCR?  Et comment fonctionne l'OCR?
Publicité

Extraire le texte des images n'a jamais été aussi facile qu'aujourd'hui grâce à la technologie de reconnaissance optique des caractères (OCR).

OCR nous permet de faire toutes sortes de choses utiles, comme la recherche d'images en utilisant des requêtes textuelles, la reproduction de documents sans les taper à la main, et même la conversion de texte manuscrit en texte numérique. Une image avec écriture manuscrite en texte à l'aide de l'OCR Pour convertir une image de texte manuscrit en texte numérique que vous pouvez modifier et rechercher, vous avez besoin d'un outil de reconnaissance optique de caractères (OCR). Essayez l'un de ces outils OCR pour numériser l'écriture manuscrite. Lire la suite .

Mais qu'est-ce que la reconnaissance optique de caractères? Comment cela fonctionne-t-il réellement? Cela peut vous sembler être de la magie noire, mais à la fin de cet article, vous comprendrez bien comment les ordinateurs peuvent reconnaître les lettres et les mots.

Comment fonctionne la reconnaissance optique de caractères

Pour comprendre comment le texte est extrait d'une image, nous devons d'abord comprendre ce que sont les images et comment elles sont stockées sur les ordinateurs.

Un pixel est un point unique d'une couleur particulière. Une image est essentiellement une collection de pixels. Plus il y a de pixels dans une image, plus sa résolution est élevée. Un ordinateur ne sait pas que l'image d'un panneau est vraiment un panneau indicateur-il sait juste que le premier pixel est cette couleur, le pixel suivant est cette couleur et affiche tous ses pixels pour que vous puissiez voir.

Cela signifie que le texte et le non-texte ne sont pas différents d'un ordinateur, et c'est pourquoi la reconnaissance optique des caractères est si difficile. Dans cet esprit, voici comment cela fonctionne.

Étape 1: Pré-traitement de l'image

Avant que le texte puisse être extrait, l'image doit être massée de certaines manières pour faciliter l'extraction et avoir plus de chances de réussir. C'est ce qu'on appelle le pré-traitement, et différentes solutions logicielles utilisent différentes combinaisons de techniques.

Les techniques de pré-traitement les plus courantes comprennent:

Binarisation
Chaque pixel de l'image est converti en noir ou en blanc. L'objectif est de préciser quels pixels appartiennent au texte et quels pixels appartiennent à l'arrière-plan, ce qui accélère le processus d'OCR.

Binarisation pour la reconnaissance optique de caractères

Redresser
Comme les documents sont rarement numérisés avec un alignement parfait, les caractères peuvent être inclinés ou même inversés. Le but ici est d'identifier les lignes de texte horizontales, puis de faire pivoter l'image pour que ces lignes soient réellement horizontales.

Dépouiller
Que l'image ait été binarisée ou non, il peut y avoir du bruit qui peut interférer avec l'identification des caractères. Despeckling se débarrasse de ce bruit et essaie de lisser l'image.

Suppression de ligne
Identifie toutes les lignes et marques qui ne sont probablement pas des caractères, puis les supprime afin que le processus OCR réel ne soit pas confondu. C'est particulièrement important lors de la numérisation de documents avec des tableaux et des boîtes.

Zonage
Sépare l'image en blocs de texte distincts, tels que l'identification des colonnes dans les documents à plusieurs colonnes.

Zonage pour la reconnaissance optique de caractères
Crédit d'image: WayneRay / Wikimedia

Étape 2: Traitement de l'image

Tout d'abord, le processus OCR essaie d'établir la ligne de base pour chaque ligne de texte de l'image (ou si elle a été zonée en pré-traitement, elle fonctionnera à travers chaque zone, une à la fois). Chaque ligne de caractères identifiée est traitée une par une.

Pour chaque ligne de caractères, le logiciel OCR identifie l'espacement entre les caractères en recherchant des lignes verticales de pixels non-texte (ce qui devrait être évident avec une binarisation appropriée). Chaque segment de pixels entre ces lignes non-texte est marqué comme un "jeton" qui représente un caractère. Par conséquent, cette étape est appelée tokenization .

Traitement d'image pour la reconnaissance optique de caractères

Une fois que tous les caractères potentiels de l'image sont segmentés, le logiciel OCR peut utiliser deux techniques différentes pour identifier les caractères de ces jetons:

La reconnaissance de formes
Chaque jeton est comparé pixel par pixel à un ensemble complet de glyphes connus (y compris les nombres, la ponctuation et d'autres symboles spéciaux) et la correspondance la plus proche est sélectionnée. Cette technique est également connue sous le nom de correspondance matricielle.

Il y a plusieurs inconvénients ici. Tout d'abord, les jetons et les glyphes doivent être de taille similaire sinon aucun d'entre eux ne correspondra. Deuxièmement, les jetons doivent être dans une police similaire à celle des glyphes, ce qui exclut l'écriture manuscrite. Mais si la police du jeton est connue, la reconnaissance des formes peut être rapide et précise.

Extraction de caractéristiques
Chaque jeton est comparé à différentes règles qui décrivent quel type de personnage il pourrait être. Par exemple, deux lignes verticales de hauteur égale reliées par une seule ligne horizontale sont susceptibles d'être une capitale H.

Cette technique est utile car elle n'est pas limitée à certaines polices ou tailles. Il peut également être plus nuancé dans la reconnaissance des différences subtiles entre un I majuscule, L en minuscule, et le numéro 1. L'inconvénient? La programmation des règles est beaucoup plus complexe que de simplement comparer les pixels d'un jeton aux pixels d'un glyphe.

Étape 3: Post-traitement de l'image

Une fois que tous les appariements de jetons sont terminés, le logiciel OCR peut simplement l'appeler un jour et vous présenter les résultats. Mais généralement, un peu plus de fudging doit être fait pour s'assurer que vous ne roulez pas les yeux sur les résultats du charabia.

Restriction lexicale
Tous les mots sont comparés à un lexique de mots approuvés, et ceux qui ne correspondent pas sont remplacés par le mot approprié le plus proche. Un dictionnaire est un exemple de lexique. Cela peut aider à corriger les mots avec des caractères erronés, comme "épine" au lieu de "th0rn".

Optimisations spécifiques aux applications
Lorsque l'OCR est utilisé dans des situations de niche, par exemple pour des documents médicaux ou juridiques, un type particulier de ROC peut être utilisé spécialement pour ce paramètre. Dans ces cas, le logiciel OCR peut rechercher des équations mathématiques, des termes spécifiques à l'industrie, etc.

Langage naturel
Cette technique avancée corrige les phrases en utilisant un modèle de langage qui décrit la probabilité que certains mots soient suivis par d'autres mots. C'est similaire à la technologie qui prédit quel mot vous voulez taper ensuite sur un clavier mobile.

Une fois bien fait, cela peut donner un texte remarquablement lisible.

Outils de reconnaissance de caractères optiques recommandés

Maintenant que vous savez comment l'OCR fonctionne, il devrait être facile de voir que tous les outils OCR ne sont pas égaux. L'exactitude de vos résultats dépendra fortement de la façon dont le logiciel implémente les différentes techniques OCR discutées dans cet article.

Nous recommandons fortement OneNote pour cela, ce qui n'est qu'une des raisons pour lesquelles Evernote bat Evernote contre OneNote: Quelle application de prise de notes vous convient le mieux? Evernote vs OneNote: Quelle application de prise de notes vous convient le mieux? Evernote et OneNote sont d'incroyables applications de prise de notes. C'est difficile de choisir entre les deux. Nous avons tout comparé de l'interface à l'organisation des notes pour vous aider à choisir. Qu'est-ce qui fonctionne le mieux pour vous? Lire la suite . Si vous êtes prêt à payer pour une solution premium, envisagez OmniPage. Voir notre comparaison de OneNote vs OmniPage pour OCR gratuit vs logiciel OCR payant: Microsoft OneNote et Nuance OmniPage Comparé gratuit ou payé logiciel OCR: Microsoft OneNote et Nuance OmniPage Comparé OCR scanner logiciel vous permet de convertir le texte en images ou PDF en texte éditable documents. Un outil OCR gratuit comme OneNote est-il suffisant? Découvrons-le! Lire la suite . Pour les documents mobiles, vous aurez envie de vérifier ces applications OCR pour les appareils Android 6 Meilleures applications Android OCR pour l'extraction de texte à partir d'images 6 Meilleures applications Android OCR pour l'extraction de texte à partir d'images Avez-vous besoin de numériser copie douce de celui-ci? Si oui, tout ce dont vous avez besoin est un outil de reconnaissance optique de caractères (OCR). Lire la suite .

Comment utilisez-vous OCR? Avez-vous des outils OCR préférés que nous n'avons pas mentionnés? Faites-nous savoir dans les commentaires ci-dessous!

In this article