Ensembles de données d'écriture manuscrite

Les 15 meilleurs ensembles de données d'écriture manuscrite open source pour former vos modèles ML

Le monde des affaires se transforme à un rythme phénoménal, mais cette transformation numérique n'est pas aussi vaste que nous le souhaiterions. Les gens manipulent encore des documents physiques dans leurs opérations quotidiennes, des grandes entreprises aux petites entreprises. Bien que la fréquence d'utilisation ait considérablement diminué, elle n'a pas complètement disparu. Au lieu du processus fastidieux de numérisation de documents pour une utilisation numérique, en utilisant la dernière OCR est rapide et efficace.

L'augmentation de l'utilisation de la reconnaissance optique de caractères peut principalement être attribuée à l'augmentation de la production de systèmes de reconnaissance automatique. En conséquence, la valeur marchande mondiale de la technologie OCR, fixée à 8.93 milliard de dollars en 2021, devrait croître à un TCAC de 15.4 % entre 2022 et 2030.

Mais qu'est-ce que la technologie OCR exactement ? Et pourquoi cela change-t-il la donne pour les entreprises qui développent des modèles d'IA efficaces ? Découvrons-le.

Qu'est-ce que l'OCR ?

Également appelé reconnaissance de texte, OCR ou reconnaissance optique de caractères est un programme qui extrait des données imprimées ou écrites à partir de documents numérisés, de fichiers PDF contenant uniquement des images et de notes manuscrites dans un format lisible par machine. Le logiciel extrait chaque lettre de l'image et les combine en mots et en phrases, ce qui facilite l'accès et l'édition numérique des documents.

Que sont les ensembles de données open source ?

Il existe plusieurs endroits où la technologie OCR a un grand potentiel à exploiter. Certains endroits incluent l'aéroport, l'édition de livres électroniques, les publicités, les banques et les systèmes de chaîne d'approvisionnement. Cependant, pour que les applications remplissent leur fonction, elles doivent être formées sur des Ensembles de données de reconnaissance optique de caractères.

L'efficacité de l'application dépend en grande partie de la qualité de l'ensemble de données et de la méthodologie de formation impliquée. Cependant, trouver un numérique de qualité et ensembles de données d'écriture manuscrite est difficile pour l'application. Ainsi, de nombreuses entreprises utilisent des ensembles de données open source ou gratuits au lieu d'ensembles propriétaires.

Avantages et défis des ensembles de données open source

Les entreprises doivent opposer les avantages et les défis les uns aux autres pour comprendre si elles doivent opter pour des données gratuites pour leurs applications ML.

Avantages

  • Les données sont facilement accessibles. En raison de la disponibilité des données, le coût de développement de l'application est considérablement réduit.
  • Le temps et les efforts consacrés à la collecte de données pour l'application sont considérablement réduits car l'ensemble de données est facilement disponible.
  • Il existe une abondance de forums communautaires ou de groupes d'aide qui aident à apprendre, adapter et optimiser l'ensemble de données.
  • L'un des principaux avantages de l'ensemble de données open source est qu'il n'impose aucune restriction à la personnalisation.
  •   Les données Open Source sont accessibles à une grande partie de la population, rendant l'analyse et l'innovation possibles sans barrières monétaires.

Défis

  • Les données spécifiques au projet sont difficiles à acquérir. En outre, il existe un risque d'informations manquantes et d'utilisation incorrecte des données disponibles.
  • L'acquisition de données exclusives prend du temps, des efforts et est coûteuse
  • Bien qu'il puisse être plus facile d'acquérir des données, le coût des connaissances et de l'analyse peut l'emporter sur l'avantage initial.
  • D'autres développeurs utilisent également les mêmes données pour développer des applications.
  • Ces ensembles de données sont très vulnérables aux failles de sécurité, à la confidentialité et au consentement.

Discutons aujourd'hui de vos besoins en données de formation en IA.

Répertorier différents ensembles de données open source pour l'OCR

Ensembles de données OCR open source

De nombreux ensembles de données open source sont disponibles pour le développement d'applications de reconnaissance de texte. Certains des 15 meilleurs sont

  1. L'ensemble de données ICDAR

    La Conférence internationale pour l'analyse et la reconnaissance de documents dispose d'un référentiel de 229 images de formation et de 233 images de test, ainsi que des annotations. Il agit comme une référence pour l'évaluation de la détection de texte.

  2. Ensemble de données IIIT 5K-Word

    Issu de la recherche d'images Google, IIIT 5K-word est une collection de mots provenant d'enseignes, de panneaux d'affichage, de plaques d'immatriculation et d'affiches. Il contient des images de mots recadrées de 5K, ce qui en fait l'une des plus vastes collections d'ensembles de données de reconnaissance de texte disponibles.

  3. Base de données NIST

    Le NIST ou le National Institute of Science propose une collection gratuite de plus de 3600 échantillons d'écriture manuscrite avec plus de 810,000 XNUMX images de caractères

  4. Base de données MNIST

    Dérivée des bases de données spéciales 1 et 3 du NSIT, la base de données MNIST est une collection compilée de 60,000 10,000 numéros manuscrits pour l'ensemble d'apprentissage et de XNUMX XNUMX exemples pour l'ensemble de test. Cette base de données open source permet de former des modèles à reconnaître des modèles tout en consacrant moins de temps au prétraitement.

  5. Détection de texte

    Une base de données open source, l'ensemble de données de détection de texte contient environ 500 images intérieures et extérieures de panneaux de signalisation, de plaques de porte, de plaques d'avertissement, etc.

  6. ROC de Stanford

    Publié par Stanford, cet ensemble de données gratuit est une collection de mots manuscrits du MIT Spoken Language Systems Group.

  7. DDI-100

    Autrement appelé ensemble de données d'images de documents déformés, le DDI-100 est une collection de plus de 6658 pages de documents avec plusieurs motifs géométriques et distorsions appliqués. De plus, le DDI-100 possède plus de 99870 XNUMX images, masques de tampon, masques de texte et cadres de délimitation.

  8. RoadText-1K

    L'un des plus grands ensembles de données qui aident à former des modèles pour détecter du texte dans des vidéos, le RoadText-1K contient 1000 clips vidéo complets avec une annotation de texte de boîte englobante et une transcription du texte dans chaque image vidéo.

  9. MSRA-TD500

    Contient 300 images de formation et 200 images de texte ; le MSRA-TD500 contient des caractères des langues chinoise et anglaise et est annoté au niveau de la phrase.

  10. Ensemble de données MJSynth

    Fourni par l'Université d'Oxford, cet ensemble de données de mots contient près de 9 millions d'images générées synthétiquement couvrant plus de 90 XNUMX mots en anglais.

  11. Texte Street View

    Recueilli à partir d'images Google Street View, cet ensemble de données contient des images de détection de texte principalement de panneaux et de panneaux au niveau de la rue.

  12. Base de données de documents

    La base de données de documents est une collection de 941 documents manuscrits, y compris des tableaux, des formules, des dessins, des diagrammes, des listes, etc., de 189 auteurs.

  13. Expressions mathématiques

    The Mathematics Expressions est une base de données qui contient 101 symboles mathématiques et 10,000 XNUMX expressions.

  14. Numéros de maison Street View

    Récolté à partir de Google Street View, ce Street View House Numbers est une base de données contenant 73257 chiffres de numéro de rue.

  15. ROC de l'environnement naturel

    L'OCR de l'environnement naturel est un ensemble de données de près de 660 images dans le monde et de 5238 annotations de texte.

Il s'agissait de certains des meilleurs ensembles de données open source pour la formation de modèles ML pour les applications de détection de texte. La sélection de celle qui correspond à vos besoins commerciaux et applicatifs peut prendre du temps et des efforts. Cependant, vous devez expérimenter avec ces ensembles de données avant de choisir celui qui convient.

Pour vous aider à progresser vers une application de détection de texte fiable et efficace, Shaip est le fournisseur de solutions technologiques de haut niveau. Nous tirons parti de notre expérience technologique pour créer des produits personnalisables, optimisés et ensembles de données de formation OCR efficaces pour divers projets clients. Pour bien comprendre nos capacités, contactez-nous dès aujourd'hui.

Partager