Téléchargez un document PDF ou une image JPG, PNG ou GIF pour en extraire le texte (TXT, HOCR, BOX). Lisez les codes barres. Convertissez le document ou l'image en un PDF/A. Validez un PDF/A. Analysez un PDF à la recherche de menaces potentielles.

Configurez l'extraction en images d'un PDF et la préparation des images pour l'OCR ou le lecteur de codes barres (résolution, orientation, contraste, luminosité, redimensionnement, recadrage, bordures, etc.) et réutilisez ce jeu de paramètres par programme avec l'API.

legal_fr.pdf • 381k
legal_fr.pdf

 • 

legal_fr.txt

Le PDF contient 2 images des 2 pages des mentions légales du site web, probablement une photocopie. Le texte a été lu avec Tesseract en mode 6 - Assume a single uniform block of text - après un redimensionnement des images à 125 % et une accentuation des contours. Cliquez sur un lien pour télécharger un fichier.

 •   •   •  NEWDOC
2137919

Seul 1 QR est lu par ZBar. À l'aide de YOLO, l'image est analysée et découpée en 2 images distinctes que ZBar peut facilement décoder.

Demandez-nous d'ajouter un traitement spécifique du texte extrait de vos documents (texte en clair d'un PDF ou lu dans des images par OCR, contenu d'un code barre) pour vérifier le résultat ou obtenir en sortie des données formatées en JSON ou en XML qui pourront directement alimenter un autre service.

Toutes les fonctionnalités sont disponibles gratuitement dans l'interface de votre espace personnel ou par programme en service payant à l'aide d'une simple API REST. Voir le Guide de l'utilisateur. Toutes les communications sont cryptées. Les fichiers que vous téléchargez sont inaccessibles à autrui et les fichiers qui sont traités et générés par l'API sont automatiquement détruits.

Tesseract est un logiciel libre de reconnaissance optique de caractères sponsorisé par Google depuis 2006.

ZBar est un logiciel open source pour la lecture des codes barres (EAN-13/UPC-A, UPC-E, EAN-8, Code 128, Code 39, Interleaved 2 of 5 et QR Code).

YOLO (You Only Look Once) est un système de détection d'objets dans des images avec des implémentations libres de droits.

Le PDF/A est une version normalisée ISO du format PDF spécialisée pour l'archivage et la conservation des documents numériques.

Le consortium veraPDF, dirigé par l'Open Preservation Foundation et la PDF Association, a été créé en réponse au défi PREFORMA de la Commission européenne de développer un validateur en logiciel libre pour le format PDF/A.

Ghostscript est une suite logicielle dédiée au traitement des fichiers Postscript et PDF.

Poppler fournit un jeu de commandes pour extraire les pages, le texte et les images des fichiers PDF.

ClamAV est un antivirus gratuit.