IDEAS – International Document Engineering, Analysis and Security Lab – Laboratoire Commun La Rochelle Université

L’Intelligence Artificielle mise au service de la dématérialisation de document, c’est à dire l’utilisation de versions numériques des documents, permet l’automatisation de l’interprétation des documents et la robotisation des processus métier impactés par le contenu de ces documents.

Yooz propose un service Internet SaaS d’automatisation de la gestion des demandes d’achat et des paiements et récemment, une extension au « tous documents ». Le succès de Yooz avec plus de 2000 clients repose sur sa stratégie d’innovation technologique dans la compréhension automatique des documents. Le L3i de l’université de La Rochelle a développé un savoir-faire d’excellence en algorithmes et méthodologies d’analyse de document, appliqué dans des domaines aussi variés que le document historique, administratif, culturuel, la vidéo de scène naturelle, la sécurité des documents multimédias,…
Yooz et le L3i sont partenaires depuis 2011 dans plusieurs projets de recherche collaboratifs centrés sur le document administratif, et notamment des projets pionniers en détection de fraude. Le LabCom IDEAS s’inscrit dans la continuité de ces collaborations, marquant une nouvelle étape dans le renforcement du partenariat L3i–Yooz.

Ces travaux ont conduit à élaborer une vision commune qui définit un périmètre et une ambition de développements scientifiques et technologiques communs: nous souhaitons inventer, développer, optimiser et entrainer les meilleurs algorithmes de traitement automatiques des documents d’entreprise pour offrir un service d’intelligence artificielle capable de comprendre un maximum de document d’entreprise. Concrètement, cette vision partagée se décline sur trois thèmes fonctionnels : la classification de document, la fouille de document et la détection de fraude documentaire.

L’innovation technologique résultante de cette vision tient dans la performance et la couverture en termes de variétés des documents (typologies, langues). Scientifiquement, cela demande de dépasser l’état de l’art des algorithmes capables d’apprendre efficacement de nombreuses classes de document dans la contrainte d’absence de données d’apprentissage (en volume) car une réalité industrielle tient dans la difficulté d’avoir a priori des échantillons de document.
Une seconde innovation importante autant technologique que scientifique, est la proposition d’algorithmes de détection de fraude sur des images de documents, en particulier sur des documents ayant subi des séquences impression/numérisation, pour lequel l’état de l’art est très pauvre.

Conscient de la variété de maturité des méthodes et des approches existantes, et afin de pouvoir valoriser les innovations techniques et scientifiques au plus tôt, nous proposons une mise en œuvre du programme du LabCom dans une stratégie d’intégration continue. Il s’agit de développer parallèlement des travaux court terme sur les méthodes matures et des travaux de recherche plus fondamentale, moyen ou long terme, sur les problématiques moins matures.
Ainsi, à court terme, nous envisageons de travaux à partir des technologies existantes afin d’optimiser les apprentissages et la coopération des différentes méthodes disponibles, d’enrichir le système expert de fouille de document de Yooz, et d’optimiser des prototypes existants réalisés à la fin de projet Securdoc concernant la détection de modification dans des images. Sur le moyen terme, nous souhaitons explorer d’autres approches pouvant dépasser les limites des méthodes existantes. Nous nous intéresserons au Deep Learning incrémental afin de bénéficier de la puissance de ces techniques avec des contraintes d’évolutivité continue et de tolérance aux petits corpus d’apprentissage, et à la généralisation de ces algorithmes sur des tâches de classification autant que de fouille de document. Enfin, à long terme, nous souhaitons étudier les autres techniques de stéganographies et d’authentification des imprimantes pour détecter des incohérences de qualité dans un document.