publicité
Accueil Archimag > magazines > Archimag n°198 > enquêtes > numérisation

technologies de reconnaissance optique (2e volet)

des progrès notables à ne pas perdre de vue !

hélène ochanine
archimag - octobre 2006

La reconnaissance optique a profité des dernières années pour faire un bond technologique considérable. Après l'OCR est né l'IWR, après la Rad c’était le tour de l'IDR. On se rapproche de la capacité humaine de reconnaissance. Pour bientôt l’égaler ?


D'abord la lecture automatique de caractères, dactylographiés ou manuscrits, ensuite la reconnaissance de l'entité mot, puis la compréhension du contenu pour finir. Telle a été l'évolution de la recherche en technologies de reconnaissance optique de documents. L'objectif : arriver, un jour, au niveau de reconnaissance de l'être humain pour mettre en place la dématérialisation de presque n'importe quoi, avec une intervention humaine réduite à l’expression minimum. L’OCR (reconnaissance optique de caractères) est la première technologie de lecture automatisée de document à avoir vu le jour. Elle serait officiellement née au milieu du XXe siècle. Depuis, de notables évolutions ont affiné la pertinence. Les performances des moteurs sont aujourd'hui stupéfiantes : les taux de reconnaissance des moteurs d'OCR approchent de 99 %. Difficile, voire impossible, de faire mieux au niveau de la reconnaissance d’un caractère.


Echantillon des styles d’écriture © A2IA

des progrès possibles pour la vitesse de traitement

Pourtant, l'activité de recherche et développement des éditeurs est loin d'être stoppée. Car, si la fiabilité frôle la perfection, la vitesse de traitement peut être augmentée et la confusion de caractères éliminée. Jean-Michel Bérard, PDG d'Esker, entreprise spécialisée dans la dématérialisation des échanges de documents, résume ainsi : « Il y a dix ans, un moteur OCR traitait quelques pages par heure. Aujourd'hui, dans le même laps de temps, il est capable d'analyser entre cinq cents et mille pages ! ». Intégrateur de plates-formes de dématérialisation, Esker ne possède pas ses propres technologies d’OCR mais utilise, en fonction des besoins de ses clients, les moteurs de reconnaissance d'Abbyy ou de Scansoft. « Nous choisissons selon la qualité du document que nous voulons reconnaître. En basse résolution, nous travaillerons plutôt avec Scansoft, en haute résolution avec Abbyy. Dans certaines situations, nous déployons les deux technologies simultanément avec un système de vote. D'expérience, sur un fax, Scansoft est plus performant alors que, sur le résultat d’un scan, c’est Abbyy qui offre les meilleurs taux de reconnaissance ».

pour lire la suite..

Acheter cet article
    Envoyer &agrave un ami
 

Flux RSS IT : Ajouter à Netvibes - Ajouter à Google

<

Flux RSS Métier : Ajouter à Netvibes - Ajouter à Google

<

Flux RSS livres blancs : Ajouter à Netvibes - Ajouter à Google

<

Flux RSS derniere minute : Ajouter à Netvibes - Ajouter à Google

<