LAD : Lecture automatique de documents

LAD : Lecture automatique de documents
PEGA Health
Feb 4, 2022

LAD : Lecture automatique de documents

La lecture automatique de documents, également appelée LAD, est un ensemble de technologies (OCR, RAD, ICR, etc.) qui permettent de lire et de récupérer plusieurs informations et contenus sur tout type de document physique lors de la numérisation.

Cet ensemble de technologies complète la gestion électronique des documents pour capturer les données très rapidement. Les informations extraites peuvent ensuite être utilisées comme métadonnées dans le système GED pour faciliter leur recherche.

LAD regroupe trois technologies essentielles à son fonctionnement :

  •  La RAD : reconnaissance automatique de documents
  •  L’OCR : reconnaissance optique des caractères
  •  L’IRC : reconnaissance intelligente de caractères

S'appuyant sur la technologie de l'intelligence artificielle, la lecture automatique de documents a fait un saut qualitatif.

A première vue, le principe de la lecture automatique de documents (LAD) semble simple. Les scanners de production numérisent par assortiment des documents papier "modélisés" auparavant (formulaires, factures, etc.).

Entrent alors en jeu des moteurs de reconnaissance de caractères manuscrits et imprimés (OCR, ICR) ou de cases à cocher (OMR) qui extraient les informations pertinentes - références clients, montants de commandes, etc.

Lorsque des caractères ne sont pas reconnus, le système affiche une image numérique à l'opérateur de saisie, qui confirme ou annule "manuellement" les différentes options qui lui sont présentées. En fait, les solutions LAD ont très peu de points communs avec les logiciels OCR en boîte disponibles sur le marché.

Segmenter les mots et les phrases, éliminer les caractères parasites, reconstituer les caractères malformés, barrés ou "corrompus" : tout l'enjeu de LAD est de reproduire le travail de l'œil et du cerveau.

Pour ce faire, il s'appuie sur des algorithmes avancés, l'intelligence artificielle (réseaux de neurones) et des techniques d'apprentissage par l'exemple. Avec l'explosion des architectures distribuées, les éditeurs ont également fait évoluer leurs solutions pour unifier les flux d'informations quelle que soit leur source : fax, courrier, documents bureautiques, EDI (Electronic Data Interchange) ou email.

L'intégration entre la gestion documentaire et la LAD est d'autant plus étroite que, hormis la phase initiale de numérisation, le traitement des formulaires électroniques ou papier est le même : classement, extraction et lecture des données, test de conformité, traitement et validation.