I. Introduction▲
L’un des plus grands défis pour les développeurs est de sans cesse mettre à jour les logiciels déjà existants ou de devoir en créer de nouveaux. Le but étant de toujours rester à la page et proche des besoins du client et de la société. L’ère de l’Open Source et des API facilite grandement leur tâche : plus besoin de tout construire, il est actuellement possible de bâtir à partir de projets existants.
Depuis maintenant une demi-décennie, Klippa s’est penché sur la gestion des dépenses et le traitement des factures afin d’établir une solution précise. L’objectif est de mettre fin à la saisie manuelle des données : tâche chronophage, répétitive et sujette à erreurs.
Pour ce faire, Klippa et ses développeurs mettent en œuvre plusieurs logiciels rapides d’intégration et instinctifs pour faciliter et sécuriser le traitement des données. L’extraction automatique des données des tickets de caisse est l’une des fonctionnalités centrales de notre application.
Nous sommes dans l’ère de l’Open Source et des API n’est-ce pas ? Klippa a donc passé en revue les différentes solutions déjà existantes. Après les avoir essayées, force est de constater qu’aucune d’entre elles ne répondait à nos critères de qualité et de fiabilité.
II. Création de l’API OCR Klippa▲
Les API testées n’ont pas satisfait nos exigences de qualité et de conformité aux besoins des clients : que ce soit en termes de rapidité, de fiabilité ou de taux de précision. L’aspect multilingue manquait également à l’appel, car pas assez précis.
À ce stade, nous nous demandions « Que faire » ? Aucune des solutions préexistantes ne répondait à nos exigences.
Avec nos développeurs, notre équipe internationale (les membres de notre équipe sont natifs de différents pays), l’aide des expressions régulières (appelées REGEX) et enfin le « machine learning », il a été décidé de construire ce dont nous avions vraiment besoin.
L’accent est principalement mis sur un logiciel rapide (résultats fournis en un temps réel de 5 secondes), précis (plus de 75% de données extraites), automatisé et évolutif. Afin de correspondre aux langues européennes et aux exigences de la plupart de ces pays, un résultat au format JSON a également été souhaité.
C’est en 2018 que l’ API OCR de Klippa voit le jour. Depuis lors, elle est quotidiennement améliorée et actualisée par nos développeurs. Elle est aujourd’hui disponible pour des tiers et fonctionne dans divers domaines : comptabilité, ERP, bancaire, marketing et fidélisation…
III. Comment fonctionne l’API OCR ?▲
Le processus peut être divisé en trois étapes.
-
La première étape consiste à envoyer une image à notre API. De là, l’image ou le PDF d’un reçu est transformé en un fichier texte basique. Cette partie utilise l’OCR couramment proposée par de nombreux acteurs aujourd’hui sur le marché.
Un simple fichier texte ne vous avance pas à grand-chose. Pour gagner en efficacité, il faut que le logiciel interprète les informations présentes sur le reçu et les renvoie sous forme structurée au format JSON. Heureusement, Klippa a construit cette API pour vous !
-
Une fois le travail de l’OCR effectué, notre moteur d’analyse intelligent entre en jeu. Il analyse le texte et interprète chaque élément : dates, montants, adresses… Le machine learning et l’analyse des REGEX permettent à notre moteur d’identifier chaque champ et de les lier aux informations renseignées. De là, les suggestions les plus pertinentes sont sélectionnées (montants totaux, date d’achat et bien d’autres champs.)
- À présent que les informations qui vous sont pertinentes sont extraites, le ticket de caisse est converti en fichier JSON. Ce format structure le résultat pour répondre précisément à ce que vous recherchez.
IV. Construction de l’API OCR KLIPPA▲
Toute notre offre est construite en backend suivant le langage GO par nos développeurs. Cela garantit une analyse rapide et une grande qualité des réponses. Notre analyseur effectuant l’extraction des données est construit en Python. Il possède d’excellentes compétences de machine learning et d’analyse des REGEX.
IV-A. Quels champs sont extraits par l’API de Klippa ?▲
Un reçu comporte de nombreuses informations pouvant être utiles pour la suite. Grâce à la flexibilité de notre API, il est possible d’extraire des informations diverses et variées parmi 50 champs différents. Les éléments de base sont évidemment pris en compte, par exemple : les montants totaux, les dates, les informations relatives à la TVA et l’adresse. D’autres informations plus complexes sont également prises en charge telle que la reconnaissance des données sur les reçus. Toutes ces informations se trouvent dans la documentation de l’API.
IV-B. Pour quels usages de l’API OCR ?▲
Bonne question ! L’OCR et plus particulièrement l’extraction de données peut être très utile dans beaucoup de cas. En général, nos clients intègrent l’API de capture de reçus dans leur logiciel de comptabilité ou de solution ERP. D’autres domaines font également appel à nos services : les compagnies d’assurance, banques et marketeurs…
Des fonctionnalités sont également adaptées et parfois créées pour rester toujours proches des besoins du client. Afin de tenir nos promesses de qualité et de performances, nous avons également développé un système de détection des doublons afin qu’ils soient repérés et directement signalés dans le cas de campagne fidélité.
IV-C. Quelles langues sont supportées par l’API OCR de ticket de caisse?▲
L’API est conçue de sorte à prendre en charge toutes les langues présentées. Les informations que l’on peut extraire sont :
- les montants ;
- les dates et heures ;
- les valeurs et pourcentages de TVA ;
- les numéros de chambre de commerce ;
- les informations de paiement ;
- les lignes d’articles.
Toutes les langues ne connaissent pas la même précision de traitement. Plus notre logiciel analyse et traite des documents dans une langue donnée, plus il se perfectionne et se rapproche de notre taux de précision. L’API est fonctionnelle et prête à l’emploi pour toutes les langues européennes. D’autres langages sont supportés, mais nécessitent un entraînement et une optimisation de l’API.
V. Quid de la documentation et du support de l’API OCR ?▲
Plus de la moitié de notre équipe est composée de développeurs. Ils ne jurent que par les API bien documentées. À nos yeux, il est primordial d’être en phase avec ce que nous promettons. Ainsi, non seulement une API prête à l’emploi et répondant à des critères très stricts vous est proposée, mais également une documentation soignée et rédigée par des développeurs.
En plus de cela, vous bénéficierez d’une assistance double : commerciale et technique pour l’installation. Vous trouverez sur le site internet de Klippa une documentation API téléchargeable et consultable.
VI. Conclusion▲
L’API OCR Klippa fonctionne sur plusieurs types de documents issus de différents secteurs : médical, logistique, judiciaire, financier, documents d’identité et de ressources humaines. Les solutions et logiciels Klippa sont prêts à l’emploi et toujours accompagnés d’un suivi par nos experts. Apprenez-en plus sur l’OCR API de Klippa sur www.klippa.com .