Tesseract veraPDF Ghostscript ClamAV

Téléchargez un document au format JPG, PNG ou PDF pour en extraire le texte (TXT, HOCR, BOX) ou le convertir en PDF/A. Validez un PDF/A. Analysez un PDF à la recherche de menaces potentielles. Configurez la préparation pour l'OCR d'une image (élimination des bordures d'un tableau, recadrage d'un ticket, contraste, luminosité, redimensionnement), nommez ce jeu de paramètres et réutilisez ces paramètres par programme avec l'API. Demandez-nous d'ajouter un traitement spécifique du texte extrait de vos documents (texte en clair d'un PDF ou lu dans des images par OCR) pour vérifier le résultat ou obtenir en sortie des données formatées dans un fichier en JSON ou en XML qui pourra directement alimenter un autre service.

Toutes les fonctionnalités sont disponibles gratuitement dans l'interface de votre espace personnel ou par programme en service payant à l'aide d'une simple API REST. Voir le Guide de l'utilisateur. Toutes les communications sont cryptées. Vos fichiers sont inaccessibles à autrui et automatiquement détruits passé un certain délai.

Tesseract est un logiciel libre de reconnaissance optique de caractères sponsorisé par Google depuis 2006.

Le PDF/A est une version normalisée ISO du format PDF spécialisée pour l'archivage et la conservation des documents numériques.

Le consortium veraPDF, dirigé par l'Open Preservation Foundation et la PDF Association, a été créé en réponse au défi PREFORMA de la Commission européenne de développer un validateur en logiciel libre pour le format PDF/A.

Ghostscript est une suite logicielle dédiée au traitement des fichiers PostScript et PDF.

ClamAV est un antivirus gratuit.