La technologie OCR, ou vidéo encodage, consiste à lire et à analyser un texte (sous forme de mots, de caractères, etc.) pour produire une version informatique dans un format de fichier texte.
La reconnaissance optique des caractères capture les informations, les analyse (détecte les formes et les compare à une bibliothèque de formes pour faire correspondre les caractères ou les mots) et les traite pour finalement comprendre les données. Ainsi, toutes les lignes de texte sont définies en mots et en caractères.
La saisie peut être générée par un scanner lorsque le texte est au format papier, ou directement identifiable s'il s'agit d'une image numérique.
Les avantages
Attention : Ne confondez pas OCR et ICR (Intelligent Character Recognition). Dans le cas de documents manuscrits, la technologie ICR sera préférée à l'OCR.
En effet, IRC intègre la reconnaissance des caractères manuscrits. Il peut reconnaître un grand nombre de matrices potentielles (toutes les lettres, et donc tous les styles calligraphiques, même les plus maladroits), grâce à une bibliothèque de caractères qui peut être enrichie par l'apprentissage.