Démarrer avec OCR for Azure

C# + VB.NET: Langues Intl Langues Intl
using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

ocrTesseract.Language = OcrLanguage.Arabic;

using (var ocrInput = new OcrInput())
{
    ocrInput.LoadImage(@"images\arabic.gif");
    var ocrResult = ocrTesseract.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}

// Example with a Custom Trained Font Being used:

var ocrTesseractCustomerLang = new IronTesseract();
ocrTesseractCustomerLang.UseCustomTesseractLanguageFile("custom_tesseract_files/custom.traineddata");
ocrTesseractCustomerLang.AddSecondaryLanguage(OcrLanguage.EnglishBest);

using (var ocrInput = new OcrInput())
{
    ocrInput.LoadPdf(@"images\mixed-lang.pdf");
    var ocrResult = ocrTesseractCustomerLang.Read(ocrInput);
    Console.WriteLine(ocrResult.Text);
}
Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

ocrTesseract.Language = OcrLanguage.Arabic

Using ocrInput As New OcrInput()
	ocrInput.LoadImage("images\arabic.gif")
	Dim ocrResult = ocrTesseract.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

' Example with a Custom Trained Font Being used:

Dim ocrTesseractCustomerLang = New IronTesseract()
ocrTesseractCustomerLang.UseCustomTesseractLanguageFile("custom_tesseract_files/custom.traineddata")
ocrTesseractCustomerLang.AddSecondaryLanguage(OcrLanguage.EnglishBest)

Using ocrInput As New OcrInput()
	ocrInput.LoadPdf("images\mixed-lang.pdf")
	Dim ocrResult = ocrTesseractCustomerLang.Read(ocrInput)
	Console.WriteLine(ocrResult.Text)
End Using

IronOCR prend en charge 125 langues internationales.

Outre l'anglais, qui est installé par défaut, des packs de langues peuvent être ajoutés à votre projet .NET via NuGet ou téléchargés à partir de notre site WebPage des langues.

La plupart des langues sont disponibles en version rapide, standard(recommandé) et la meilleure qualité. Le meilleur est peut-être plus précis, mais il est aussi plus lent.

C# + VB.NET: Objets de résultats Objets de résultats
using IronOcr;
using IronSoftware.Drawing;

// We can delve deep into OCR results as an object model of
// Pages, Barcodes, Paragraphs, Lines, Words and Characters
// This allows us to explore, export and draw OCR content using other APIs/
var ocrTesseract = new IronTesseract();

ocrTesseract.Configuration.ReadBarCodes = true;

using var ocrInput = new OcrInput();
var pages = new int[] { 1, 2 };
ocrInput.LoadImageFrames("example.tiff", pages);

OcrResult ocrResult = ocrTesseract.Read(ocrInput);
foreach (var page in ocrResult.Pages)
{
    // Page object
    int PageNumber = page.PageNumber;
    string PageText = page.Text;
    int PageWordCount = page.WordCount;
    // null if we dont set Ocr.Configuration.ReadBarCodes = true;
    OcrResult.Barcode[] Barcodes = page.Barcodes;
    AnyBitmap PageImage = page.ToBitmap(ocrInput);
    double PageWidth = page.Width;
    double PageHeight = page.Height;
    double PageRotation = page.Rotation; // angular correction in degrees from OcrInput.Deskew()

    foreach (var paragraph in page.Paragraphs)
    {
        // Pages -> Paragraphs
        int ParagraphNumber = paragraph.ParagraphNumber;
        string ParagraphText = paragraph.Text;
        AnyBitmap ParagraphImage = paragraph.ToBitmap(ocrInput);
        int ParagraphX_location = paragraph.X;
        int ParagraphY_location = paragraph.Y;
        int ParagraphWidth = paragraph.Width;
        int ParagraphHeight = paragraph.Height;
        double ParagraphOcrAccuracy = paragraph.Confidence;
        OcrResult.TextFlow paragrapthText_direction = paragraph.TextDirection;
        foreach (var line in paragraph.Lines)
        {
            // Pages -> Paragraphs -> Lines
            int LineNumber = line.LineNumber;
            string LineText = line.Text;
            AnyBitmap LineImage = line.ToBitmap(ocrInput);
            int LineX_location = line.X;
            int LineY_location = line.Y;
            int LineWidth = line.Width;
            int LineHeight = line.Height;
            double LineOcrAccuracy = line.Confidence;
            double LineSkew = line.BaselineAngle;
            double LineOffset = line.BaselineOffset;
            foreach (var word in line.Words)
            {
                // Pages -> Paragraphs -> Lines -> Words
                int WordNumber = word.WordNumber;
                string WordText = word.Text;
                AnyBitmap WordImage = word.ToBitmap(ocrInput);
                int WordX_location = word.X;
                int WordY_location = word.Y;
                int WordWidth = word.Width;
                int WordHeight = word.Height;
                double WordOcrAccuracy = word.Confidence;
                foreach (var character in word.Characters)
                {
                    // Pages -> Paragraphs -> Lines -> Words -> Characters
                    int CharacterNumber = character.CharacterNumber;
                    string CharacterText = character.Text;
                    AnyBitmap CharacterImage = character.ToBitmap(ocrInput);
                    int CharacterX_location = character.X;
                    int CharacterY_location = character.Y;
                    int CharacterWidth = character.Width;
                    int CharacterHeight = character.Height;
                    double CharacterOcrAccuracy = character.Confidence;
                    // Output alternative symbols choices and their probability.
                    // Very useful for spellchecking
                    OcrResult.Choice[] Choices = character.Choices;
                }
            }
        }
    }
}
Imports IronOcr
Imports IronSoftware.Drawing

' We can delve deep into OCR results as an object model of
' Pages, Barcodes, Paragraphs, Lines, Words and Characters
' This allows us to explore, export and draw OCR content using other APIs/
Private ocrTesseract = New IronTesseract()

ocrTesseract.Configuration.ReadBarCodes = True

Dim ocrInput As New OcrInput()
Dim pages = New Integer() { 1, 2 }
ocrInput.LoadImageFrames("example.tiff", pages)

Dim ocrResult As OcrResult = ocrTesseract.Read(ocrInput)
For Each page In ocrResult.Pages
	' Page object
	Dim PageNumber As Integer = page.PageNumber
	Dim PageText As String = page.Text
	Dim PageWordCount As Integer = page.WordCount
	' null if we dont set Ocr.Configuration.ReadBarCodes = true;
	Dim Barcodes() As OcrResult.Barcode = page.Barcodes
	Dim PageImage As AnyBitmap = page.ToBitmap(ocrInput)
	Dim PageWidth As Double = page.Width
	Dim PageHeight As Double = page.Height
	Dim PageRotation As Double = page.Rotation ' angular correction in degrees from OcrInput.Deskew()

	For Each paragraph In page.Paragraphs
		' Pages -> Paragraphs
		Dim ParagraphNumber As Integer = paragraph.ParagraphNumber
		Dim ParagraphText As String = paragraph.Text
		Dim ParagraphImage As AnyBitmap = paragraph.ToBitmap(ocrInput)
		Dim ParagraphX_location As Integer = paragraph.X
		Dim ParagraphY_location As Integer = paragraph.Y
		Dim ParagraphWidth As Integer = paragraph.Width
		Dim ParagraphHeight As Integer = paragraph.Height
		Dim ParagraphOcrAccuracy As Double = paragraph.Confidence
		Dim paragrapthText_direction As OcrResult.TextFlow = paragraph.TextDirection
		For Each line In paragraph.Lines
			' Pages -> Paragraphs -> Lines
			Dim LineNumber As Integer = line.LineNumber
			Dim LineText As String = line.Text
			Dim LineImage As AnyBitmap = line.ToBitmap(ocrInput)
			Dim LineX_location As Integer = line.X
			Dim LineY_location As Integer = line.Y
			Dim LineWidth As Integer = line.Width
			Dim LineHeight As Integer = line.Height
			Dim LineOcrAccuracy As Double = line.Confidence
			Dim LineSkew As Double = line.BaselineAngle
			Dim LineOffset As Double = line.BaselineOffset
			For Each word In line.Words
				' Pages -> Paragraphs -> Lines -> Words
				Dim WordNumber As Integer = word.WordNumber
				Dim WordText As String = word.Text
				Dim WordImage As AnyBitmap = word.ToBitmap(ocrInput)
				Dim WordX_location As Integer = word.X
				Dim WordY_location As Integer = word.Y
				Dim WordWidth As Integer = word.Width
				Dim WordHeight As Integer = word.Height
				Dim WordOcrAccuracy As Double = word.Confidence
				For Each character In word.Characters
					' Pages -> Paragraphs -> Lines -> Words -> Characters
					Dim CharacterNumber As Integer = character.CharacterNumber
					Dim CharacterText As String = character.Text
					Dim CharacterImage As AnyBitmap = character.ToBitmap(ocrInput)
					Dim CharacterX_location As Integer = character.X
					Dim CharacterY_location As Integer = character.Y
					Dim CharacterWidth As Integer = character.Width
					Dim CharacterHeight As Integer = character.Height
					Dim CharacterOcrAccuracy As Double = character.Confidence
					' Output alternative symbols choices and their probability.
					' Very useful for spellchecking
					Dim Choices() As OcrResult.Choice = character.Choices
				Next character
			Next word
		Next line
	Next paragraph
Next page

IronOCR renvoie un objet de résultat avancé pour chaque page qu'il scanne à l'aide de Tesseract 5. Il contient les données de localisation, les images, le texte, la confiance statistique, les choix de symboles alternatifs, les noms de polices, la décoration des tailles de polices, les graisses de polices et la position pour chacun d'entre eux :

  • Page
  • Paragraphe
  • Ligne de texte
  • Mot
  • Caractère individuel
  • et code-barres

Human Support related to Azure OCR API

Soutien humain directement par notre équipe de développement

Qu'il s'agisse de questions sur les produits, l'intégration ou les licences, l'équipe de développement des produits Iron est à votre disposition pour répondre à toutes vos questions. Prenez contact et entamez un dialogue avec Iron pour tirer le meilleur parti de notre bibliothèque dans le cadre de votre projet.

Poser une question
Image To Text related to Azure OCR API

Moteur de lecture OCR pour Azure dans .NET

Votre solution OCR Microsoft Azure de référence pour traiter les images imparfaites

Qu'il s'agisse de pages de passeport, de factures, de relevés bancaires, de courrier, de cartes de visite ou de reçus; la reconnaissance optique de caractères (OCR) est un domaine de recherche basé sur la reconnaissance de formes, la vision par ordinateur et l'apprentissage automatique. Les entreprises utilisent l'OCR entre différents départements pour extraire du texte dans les systèmes de comptabilité et de finance, la numérisation d'entreprise, la gestion de contenu d'entreprise et les systèmes de rapport de données.

En plus de construire d'autres histoires de réussite. IronOCR ajoute de la valeur à Google Tesseract et Microsoft 2021 Azure Cognitive Services avec IronOCR - une bibliothèque OCR native en C#.

Si vous cherchez à convertir des images réelles avec une précision de 99 %, alors lisez la suite pour voir comment IronOCR vous permet de construire une application de reconnaissance optique de caractères efficace, précise, évolutive, et presque humaine.

IronOCR fait la différence entre la reconnaissance optique de caractères concurrentielle sur le marché et la meilleure du marché

La reconnaissance optique de caractères (OCR) est considérée comme un phénomène résolu en raison de la confiance immense que différentes API revendiquent envers la protection. Cependant, les divers produits sont souvent rigides et inexacts et échouent dans les applications réelles. De même, Tesseract OCR fonctionne avec des textes imprimés par machine, haute résolution, parfaits.

Ça a l'air bien ?

Seulement, le monde réel n’a pas toujours de texte parfaitement imprimé et manuscrit avec une haute résolution. Au lieu de cela, IronOCR prend en charge les imperfections numériques telles que la rotation, l'inclinaison, les basses DPI, le bruit de fond, et toutes les malédictions des imperfections numériques, y compris l'extraction de texte manuscrit à partir de fichiers images. Nous garantissons un document précis, consultable à 99,8 - 100 %, avec un support multiplateforme incluant Windows, Linux, macOS, Microsoft Azure, AWS, et Docker - il y a une raison pour laquelle les développeurs en C# choisissent IronOCR plutôt que le Tesseract OCR (basique) - tout est question de valeur ajoutée.

Équipez-vous avec le meilleur !

En plus de ce qui précède, IronOCR vous offre la possibilité de traiter rapidement les documents image. Si ce n’est pas tout, les fonctionnalités de l’API IronOCR incluent également ce qui suit :

  • Extraire du texte imprimé via OCR sur presque n'importe quel fichier, image ou PDF avec une précision exceptionnelle et une vitesse fulgurante
  • Extraction de texte de PDF et images dans des documents consultables avec une représentation visuelle et spatiale parfaite
  • Ne nécessite pas d'exécutables ou de code C++
  • Support complet de l'OCR PDF
  • Compatible avec les applications MVC, WebApp, Desktop, Console et Server
  • Support complet de .NET Core, Standard et FrameWork
  • Lecture en utilisant C# & VB .NET
  • Exporter l'OCR vers XHTML
  • Prise en charge du multi-threading
  • Prise en charge de 125 langues internationales - packs de langues prêts à l'emploi et constructions personnalisées
  • Extrait des images, coordonnées, statistiques, polices et bien plus encore
  • Redistribue Tesseract OCR dans des applications commerciales et propriétaires
  • S'exécute localement, sans besoin de SaaS
  • Excellente alternative au service OCR de Microsoft Cognitive Services

Pratiquement des fonctionnalités illimitées - IronOCR est 'l'outil' de reconnaissance optique de caractères pour l'espace de travail numérique.

Transition de l'installation de DLL natives ou d'exécutables vers une source unique de vérité - développez en utilisant une bibliothèque de composants .NET native unique avec une API C# simple qui prend en charge :

  • .NET Framework 4.5 et supérieur
  • .NET Standard 2.0 et supérieur (y compris 3.x & .NET 5 Beta)
  • .NET Core 2.0 et supérieur (y compris 3.x & .NET 5 Beta)
  • .NET 5
  • Xamarin pour macOS

L'art de l'API IronOCR ne s'arrête pas là; vous pouvez continuer à explorer notre avantage technique fonctions. Nous réduisons les complexités commerciales, un pas à la fois, en développant des solutions fiables pour simplifier les applications de traitement de documents et maximiser les revenus commerciaux en offrant des fonctionnalités de pointe de l'industrie :

  • Capacités d'API OCR pur .NET
  • Opération OCR locale, pas de cloud signifie plus de sécurité
  • Créer des ressources de numérisation optimisées de qualité inférieure, bruyantes et déformées
  • Lit les PDF, les TIFFs multipages
  • Peut enregistrer n'importe quel échantillon de numérisation OCR dans un document PDF ou XHTML que les utilisateurs peuvent rechercher
  • Texte brut, données de code-barres, et une classe de résultat OCR contenant des paragraphes, des lignes, des mots et des caractères

Avantage de l'API IronOCR : Remplir la Vision par Ordinateur ?

Notre processus de reconnaissance optique de caractères commence par un prétraitement d'image automatisé, pour améliorer le fichier image qui améliore le taux de réponse d'extraction. IronOCR ajoute de la valeur à votre travail en permettant aux utilisateurs d'extraire le fichier image de base d'exemple dans sa version optimale. IronOCR couvre toutes les bases :

Amélioration de la résolution

Comme le service IronOCR fonctionne de manière optimale sur des fichiers d'image de 300 DPI (Points Par Pouce), toute image significativement en dehors de 200-300 DPI est rééchantillonnée pour s'adapter à la plage visée.

Cela se traduit par un échantillonnage vers le bas des images de 600 DPI à 300 DPI ou un échantillonnage vers le haut des images de 100 DPI à 200 DPI avec 99 % de confiance.

Binarisation

Comme les services cognitifs IronOCR sont conçus pour fonctionner sur des images monochromatiques, toutes les images colorées ou en niveaux de gris sont converties en monochromatiques, utilisant un algorithme de binarisation adaptative.

L'algorithme compare les densités de pixels dans une zone pour déterminer le seuil à utiliser pour convertir les pixels en monochromes.

Auto-Rotation et Désinclinaison

IronOCR recherche des lignes de texte et des motifs de caractères pour désincliner et faire pivoter automatiquement les ressources d'images d'entrée vers l'orientation souhaitée.

Suppression adaptative du bruit

Avec IronOCR, les fichiers image sont automatiquement analysés pour la présence et la quantité de bruit. Le bruit est essentiellement les 'taches' trouvées sur les images scannées. Notre algorithme adaptatif supprime alors le bruit en fonction de la taille des particules de bruit.

Dès que le fichier image d'échantillon est prétraité, IronOCR divise alors le fichier image d'entrée en différentes zones de traitement.

Zonage

Une autre étape de pré-préparation consiste à diviser l'image de référence en différentes zones logiques. IronOCR localise d'abord le texte et les images dans l'image avec l'aide des espaces blancs et des motifs; la région de texte est séparée des images.

Elle est ensuite partitionnée en zones – paragraphes, colonnes, et blocs de texte. Les images et les pixels non-textuels restants sont identifiés pour être omis lors de la reconnaissance de texte et inclus dans la sortie intelligente. IronOCR marque alors les zones de texte comme des tableaux avec l'aide des lignes de grille et des blocs de texte.

Capacités de reconnaissance de texte

Effectuer plusieurs étapes interconnectées qui convertissent les amas de pixels en fils de texte monolignes que les utilisateurs peuvent rechercher. Cela inclut la segmentation des caractères, la classification adaptative, les références de dictionnaire, et d'autres processus connexes qui contribuent à l'optimisation du texte extrait.

Paramètres multiples éprouvés et testés

Avec le service API IronOCR, nous avons testé notre outil à travers plusieurs exemples de fichiers de données dans de multiples langues incluant les niveaux de mots, la précision des symboles, et la conservation de la mise en page dans les formats de Microsoft Office. Bien que certains paramètres soient automatiquement testés; d'autres incluent des vérifications visuelles.

Connectez-vous avec IronOCR - la solution idéale de services cognitifs OCR

IronOCR vous permet d'ajouter des capacités OCR multiplateforme avec plusieurs formats d'entrée à une chaîne de texte brut que vous pouvez rechercher. Pour renforcer votre productivité avec IronOCR, commencez par notre documentation tutoriel gratuite qui vous guide à travers l'utilisation de IronOCR. Téléchargez dès aujourd'hui notre programme d'installation de package NuGet, et explorez avec une clé d'essai gratuite ou connectez-vous avec un support personnel 24/7. Évoluez selon vos besoins avec nos licences à vie, quelle que soit la taille de votre équipe.

Fonctionne avec .NET, VB.NET, C#

Voir les licences
Soutient :
  • .NET Framework 4.0 et supérieur : C#, VB, F#
  • Icône Microsoft Visual Studio. icône de l'IDE de développement .NET
  • Support de l'installateur NuGet pour Visual Studio
  • Compatible avec l'assistant de langage C# de JetBrains ReSharper
  • Compatible avec la plateforme d'hébergement Microsoft Azure C# .NET

Licences et tarifs

Licences de développement communautaire gratuites. Licences commerciales à partir de 749 $.

Licence de la bibliothèque du projet C# + VB.NET

Projet

Développeur C# + VB.NET Licence de bibliothèque

Développeur

Organisation Licences pour les bibliothèques C# + VB.NET

Organisation

Licence de la bibliothèque C# + VB.NET de l'Agence

Agence

Licence de la bibliothèque C# + VB.NET pour SaaS

SaaS

Licence OEM pour la bibliothèque C# + VB.NET

OEM

Voir les options de licence complète  

Tutoriels OCR de notre communauté .NET

.NET Tesseract Alternative | IronOCR for .NET

C# Tesseract OCR

Jim Baker est ingénieur de développement chez Iron, où il développe le produit OCR

Comparaison IronOCR & Tesseract for .NET

Jim a joué un rôle de premier plan dans le développement d'IronOCR. Il conçoit et développe des algorithmes de traitement d'images et des méthodes de lecture pour l'OCR.

Voir la comparaison
Texte vers image dans .NET | Tutoriel

C# OCR ASP.NET

Gemma Beckford - Ingénieur solutions Microsoft

Texte à partir d'images pour .NET

Découvrez comment l'équipe de Gemma utilise IronOCR pour lire du texte à partir d'images pour leur logiciel d'archivage. Gemma partage ses propres exemples de code.

Tutoriel .NET de conversion d'image en texte
Des milliers de développeurs utilisent IronOCR pour...

Systèmes comptables et financiers

  • # Recettes
  • # Rapports
  • # Impression des factures
Ajouter la prise en charge du format PDF aux systèmes comptables et financiers ASP.NET

Numérisation des entreprises

  • # Documentation
  • # Commande et étiquetage
  • # Remplacement du papier
Cas d'utilisation de la numérisation des entreprises en C#

Gestion de contenu d'entreprise

  • # Production de contenu
  • # Gestion des documents
  • # Distribution du contenu
prise en charge des PDF par le CMS .NET

Applications de données et de rapports

  • # Suivi des performances
  • # Cartographie des tendances
  • # Rapports
Rapports PDF en C#
Iron Software Enterprise Développeurs de composants .NET

Des milliers d'entreprises, de gouvernements, de PME et de développeurs font confiance aux produits logiciels d'Iron.

L'équipe d'Iron a plus de 10 ans d'expérience sur le marché des composants logiciels .NET.

GE
Vireq
ANZ
Foley
Medcode
Nexudus
Equinor
Marval