La reconnaissance optique de caractères (OCR) est désormais omniprésente dans la numérisation de reçus, la vérification d'identité, l'automatisation des factures, la numérisation d'archives historiques et les applications de prise de notes au stylet. Le marché de l'OCR devrait atteindre 32.90 milliards de dollars d'ici 2030, avec un taux de croissance annuel composé (TCAC) de 14.8 % (Grand View Research, 2024). La reconnaissance intelligente de caractères, branche de l'OCR dédiée à la lecture de l'écriture manuscrite, connaît la croissance la plus rapide. Que vous développiez des systèmes d'analyse de documents, de détection de texte dans des scènes ou de transcription manuscrite, la précision maximale de votre système OCR dépend de l'ensemble de données utilisé pour l'entraînement. Ce guide présente 22 ensembles de données OCR gratuits et open source, dont les meilleurs ensembles de données d'écriture manuscrite, classés par cas d'utilisation et mis à jour avec les dernières versions jusqu'en 2024.
Points clés à retenir
- OCR (reconnaissance optique de caractères) : technologie qui convertit les images de textes imprimés, de scènes ou de textes manuscrits en données lisibles par machine.
- Les ensembles de données OCR sont divisés en cinq groupes : document/formulaire, texte de scène, chiffre/caractère, écriture manuscrite et multilingue.
- Ensembles de données OCR de documents capturer des pages structurées comme des formulaires et des reçus ; ensembles de données de texte de scène Capturez du texte « dans la nature ».
- IAM, MNIST, ICDAR et SROIE restent les référentiels OCR les plus cités dans la recherche.
- Les conditions de licence varient considérablement — vérifiez chaque ensemble de données OCR avant toute formation commerciale.
Qu'est-ce que l'OCR (reconnaissance optique de caractères) ?
L'OCR est une technologie qui convertit différents types de documents, comme des documents papier numérisés, des PDF ou des images de texte, en données modifiables et consultables. Son fonctionnement est le suivant :
- Analyser la structure du texte dans une image
- Décomposer le texte en lignes et en caractères
- Conversion de ces caractères visuels en texte lisible par machine
Les utilisations courantes incluent :
- Conversion de documents numérisés en fichiers texte modifiables
- Numérisation des livres imprimés
- Extraire du texte à partir de photos
- Conversion d'ordonnances manuscrites en texte numérique
- Reconnaissance de plaque d'immatriculation
Comment choisir le bon jeu de données OCR ?
Le choix d'un jeu de données OCR dépend de quatre facteurs : le type de texte, l'environnement de capture, la granularité des annotations et la licence. L'OCR de documents imprimés nécessite des données d'entraînement différentes de celles utilisées pour l'écriture manuscrite cursive ou le texte en écriture courbe. Les jeux de données de documents conviennent aux factures, formulaires et reçus ; les jeux de données de texte en écriture cursive conviennent à la signalétique et à la lecture de produits ; les jeux de données d'écriture manuscrite conviennent aux notes, manuscrits et à la saisie au stylet. Les annotations au niveau du mot et de la ligne prennent en charge les chaînes de traitement OCR complètes, tandis que les jeux de données au niveau du caractère conviennent aux méthodes de classification de référence. Il est essentiel de toujours vérifier les conditions de licence, car certains jeux de données OCR sont réservés à la recherche ou nécessitent un enregistrement.
Quels sont les meilleurs ensembles de données OCR pour les documents et les formulaires ?
Les jeux de données OCR de documents permettent d'entraîner des modèles à analyser des pages structurées telles que des factures, des formulaires, des reçus et des pièces d'identité. Ces modèles automatisent le traitement des documents commerciaux et extraient les valeurs clés.
- FONDS — 199 formulaires numérisés et annotés, présentant un aspect réaliste et bruité. La référence en matière de compréhension de formulaires et d'extraction de paires clé-valeur.
- SROIE — Ensemble de données ICDAR 2019 de reçus numérisés d'environ 1 000 reçus, prenant en charge la détection de texte, la reconnaissance et l'extraction d'informations dans un seul ensemble.
- CORDE — Un ensemble de données consolidées de reçus, conçu pour l'analyse post-OCR, avec des étiquettes détaillées au niveau des champs pour l'automatisation des factures et des reçus.
- XFONDS — Extension multilingue de FUNSD couvrant sept langues (allemand, espagnol, français, italien, japonais, portugais et chinois), chacune comportant 199 pages. Idéale pour l'IA de documents multilingues.
- DDI-100 — Environ 100 000 images de documents déformés pour la détection et la reconnaissance dans des conditions de dégradation réelles telles que la distorsion, le flou et le bruit.
Quels sont les meilleurs jeux de données OCR pour le texte de scènes ?
Les jeux de données OCR de texte en contexte permettent d'entraîner des modèles à lire du texte dans des images naturelles telles que des panneaux, des produits et des scènes de rue. Ils sont essentiels pour l'OCR en situation réelle, où les arrière-plans sont encombrés.
- Lecture robuste ICDAR — La famille de référence à l'origine de la plupart des recherches sur les textes de scène, y compris les défis Focused et Incidental Scene Text avec des cadres de délimitation au niveau des mots et des transcriptions.
- COCO-Text — Annotations textuelles à grande échelle superposées aux images MS-COCO. Particulièrement performantes pour la détection de texte à grande échelle dans les scènes naturelles.
- Texte total — Spécialisé dans le traitement des textes courbes et d'orientation arbitraire, un point faible connu des anciens modèles OCR.
- SVT (Street View Text) — Images de mots extraites de Google Street View, souvent en basse résolution et très variables. Disponibles via les miroirs de Papers with Code.
- HierText — Annotation hiérarchique du paragraphe à la ligne puis au mot, couvrant les textes manuscrits et imprimés. Utile pour la reconnaissance optique de caractères (OCR) prenant en compte la mise en page.
Quels sont les meilleurs jeux de données OCR pour les chiffres et les caractères ?
Les jeux de données OCR de chiffres et de caractères permettent d'entraîner les modèles à reconnaître des symboles individuels dans des environnements contrôlés. Ce sont les points de départ standard pour les références de classification.
- MNIST — 70 000 images de chiffres manuscrits en niveaux de gris. La base de référence la plus rapide pour valider un classificateur de chiffres.
- EMNIST — Étend MNIST avec 814 255 lettres et chiffres manuscrits dérivés de la base de données spéciale 19 du NIST.
- SVHN (Numéros de maison avec vue sur rue) — Plus de 600 000 images de chiffres réels provenant de numéros de maison. Une nette amélioration par rapport à MNIST en conditions difficiles.
- Chars74K — 74 107 images couvrant les caractères anglais et kannada à partir d'images naturelles et de polices informatiques.
- Base de données spéciale NIST 19 — Plus de 810 000 images de caractères manuscrits provenant de 3 600 scripteurs. Cette base de données sert de référence pour de nombreux tests de reconnaissance optique de caractères (OCR) en anglais.
Quels sont les meilleurs ensembles de données d'écriture manuscrite pour la reconnaissance optique de caractères (OCR) ?
Les jeux de données d'écriture manuscrite permettent d'entraîner les modèles de reconnaissance optique de caractères (OCR) à lire les textes cursifs, imprimés et manuscrits anciens. Les jeux de données d'écriture manuscrite ouverts les plus performants restent les références les plus citées en matière de reconnaissance de texte manuscrit (RTM).
- Base de données d'écriture manuscrite IAM — La référence absolue en matière d'écriture manuscrite anglaise, avec 13 353 lignes de texte provenant de 657 scripteurs. Elle reste l'ensemble de données d'écriture manuscrite le plus cité dans la recherche sur la reconnaissance optique de caractères (OCR) de 2024-2025.
- IAM-OnDB — La version en ligne d'IAM, qui capture les données de trajectoire des traits de stylet. Le jeu de données de référence pour la reconnaissance d'écriture manuscrite au stylet et sur tablette.
- Documents de Bentham — Transcription de manuscrits historiques anglais du philosophe Jeremy Bentham. Référence incontournable en matière de reconnaissance optique de caractères (OCR) de manuscrits anciens, accessible via Transkribus.
- GNHK (GoodNotes Handwriting Kollection) — Un ensemble de données de 2021 composé de notes manuscrites anglaises réelles, sans contraintes. Plus proche des données de production brutes que des données IAM aseptisées en laboratoire.
Quels sont les meilleurs ensembles de données OCR multilingues et non latins ?
Les jeux de données OCR multilingues permettent d'entraîner des modèles sur des systèmes d'écriture autres que l'anglais, notamment le chinois, l'arabe et la notation mathématique. Ils sont essentiels pour la reconnaissance de documents et d'écriture manuscrite à l'échelle mondiale.
- CASIA-HWDB — Le référentiel OCR chinois standard, avec 1.17 million d'échantillons de caractères manuscrits provenant de 1 020 scripteurs.
- KHATT — 1 000 formulaires manuscrits arabes de 1 000 auteurs différents, numérisés à plusieurs résolutions. Le jeu de données OCR arabe ouvert le plus complet.
- CROHME — Concours de reconnaissance d'expressions mathématiques manuscrites en ligne : plus de 10 000 expressions utilisant plus de 101 symboles mathématiques, disponibles en versions en ligne et hors ligne. Indispensable pour la reconnaissance optique de caractères (OCR) d'équations manuscrites.
Quels sont les pièges courants liés à l'utilisation d'ensembles de données OCR gratuits ?
Trois pièges guettent la plupart des équipes.
Incompatibilité de domaine : La formation sur des données IAM ou COCO-Text propres et leur déploiement sur des factures froissées garantissent une précision médiocre.
Cécité liée aux licences : Plusieurs ensembles de données OCR de texte de scène et historiques sont réservés à la recherche ou nécessitent un enregistrement avant toute utilisation commerciale.
Lacunes dans les annotations : De nombreux ensembles de données OCR ne comportent pas les métadonnées de mise en page, les cadres de délimitation au niveau des lignes ou les étiquettes de champ dont les systèmes de production ont besoin.
Imaginez une entreprise de logistique de taille moyenne qui automatise la lecture des étiquettes d'expédition. Un entraînement sur des textes d'exemple leur permet d'atteindre 80 % de réussite aux tests de référence, mais les étiquettes réelles, avec leurs reflets et leurs plis, font chuter ce taux à 58 %. Combler cet écart a nécessité une approche ciblée. annotation de données de 6 000 images d'étiquettes du domaine avant le lancement.
Avantages et défis des ensembles de données open source

Les entreprises doivent opposer les avantages et les défis les uns aux autres pour comprendre si elles doivent opter pour des données gratuites pour leurs applications ML.
Les Avantages
- Les données sont facilement accessibles. En raison de la disponibilité des données, le coût de développement de l'application est considérablement réduit.
- Le temps et les efforts consacrés à la collecte de données pour l'application sont considérablement réduits car l'ensemble de données est facilement disponible.
- Il existe une abondance de forums communautaires ou de groupes d'aide qui aident à apprendre, adapter et optimiser l'ensemble de données.
- L'un des principaux avantages de l'ensemble de données open source est qu'il n'impose aucune restriction à la personnalisation.
- Les données Open Source sont accessibles à une grande partie de la population, rendant l'analyse et l'innovation possibles sans barrières monétaires.
Défis
- Les données spécifiques au projet sont difficiles à acquérir. En outre, il existe un risque d'informations manquantes et d'utilisation incorrecte des données disponibles.
- L'acquisition de données exclusives prend du temps, des efforts et est coûteuse
- Bien qu'il puisse être plus facile d'acquérir des données, le coût des connaissances et de l'analyse peut l'emporter sur l'avantage initial.
- D'autres développeurs utilisent également les mêmes données pour développer des applications.
- Ces ensembles de données sont très vulnérables aux failles de sécurité, à la confidentialité et au consentement.
Comment Shaip soutient-il les projets de reconnaissance optique de caractères (OCR) et de reconnaissance de l'écriture manuscrite ?
Shaip's services de données d'entraînement OCR Associer la curation de jeux de données ouverts à des personnalisations collecte de données Couvrant plus de 60 langues et incluant documents imprimés, écriture manuscrite, reçus et pièces d'identité, les flux de travail d'annotation de Shaip ajoutent les éléments qui font défaut aux ensembles de données OCR publics : cadres de délimitation au niveau de la ligne, étiquettes au niveau du champ, contrôle qualité de la transcription et métadonnées de l'auteur.
Conclusion
Les 22 jeux de données OCR ci-dessus vous offrent une base open source complète pour la reconnaissance de documents, de textes, de chiffres, d'écriture manuscrite et multilingue jusqu'en 2026. Commencez par le jeu de données OCR adapté à votre type de texte et à votre environnement de capture, validez-le avec un échantillon de vos données réelles et prévoyez un budget pour l'annotation personnalisée afin de combler les lacunes du domaine. Cette solution est plus rapide à déployer qu'un développement à partir de zéro.
Quel est le meilleur jeu de données OCR gratuit pour l'apprentissage automatique ?
Le meilleur jeu de données OCR gratuit dépend de la tâche. ICDAR Robust Reading est idéal pour le texte, FUNSD et SROIE pour les documents et les reçus, et IAM pour l'écriture manuscrite. Pour la reconnaissance de chiffres, MNIST et SVHN sont les références. La plupart des équipes combinent deux ou trois jeux de données OCR pour différentes catégories plutôt que de se fier à un seul.
Les jeux de données OCR open source sont-ils gratuits pour un usage commercial ?
Les jeux de données OCR open source ne sont pas tous libres d'utilisation commerciale. MNIST, SVHN et COCO-Text utilisent des licences permissives, tandis que les jeux IAM, ICDAR et les jeux de données historiques d'écriture manuscrite requièrent souvent un enregistrement ou limitent leur utilisation à la recherche. Il est impératif de toujours consulter la licence de chaque jeu de données avant d'entraîner un modèle commercial.
Quelle est la différence entre les ensembles de données OCR et les ensembles de données d'écriture manuscrite ?
Les jeux de données OCR couvrent toute la reconnaissance de texte lisible par machine, y compris les documents imprimés, le texte de scènes et les chiffres, tandis que les jeux de données d'écriture manuscrite constituent le sous-ensemble axé sur le contenu manuscrit. Les jeux de données d'écriture manuscrite tels que IAM et Bentham servent à l'entraînement des modèles HTR, tandis que les jeux de données OCR de documents et de textes de scènes traitent le texte imprimé et le texte en situation réelle.
Quels jeux de données OCR prennent en charge la reconnaissance multilingue ?
Les jeux de données OCR multilingues comprennent XFUND pour sept langues de formulaires, CASIA-HWDB pour le chinois, KHATT pour l'arabe et ICDAR MLT pour le texte de scènes multilingues. La combinaison de jeux de données OCR spécifiques à chaque système d'écriture avec une augmentation synthétique des données surpasse généralement l'entraînement sur un seul jeu de données.
De combien d'annotations personnalisées ai-je besoin au-delà des jeux de données OCR gratuits ?
Les besoins en annotations personnalisées dépendent de la proximité de vos documents avec les données publiques. Les formulaires imprimés nets peuvent nécessiter entre 1 000 et 5 000 exemples propres au domaine, tandis que les documents à écriture manuscrite illisible, les reçus ou les écritures rares en requièrent souvent entre 10 000 et 50 000. Les pipelines d'annotation de Shaip offrent généralement un gain de précision de 15 à 30 % par rapport à un apprentissage OCR basé uniquement sur des données publiques.


