Comment lire les images
L'OCR, ou reconnaissance optique de caractères, est une technologie qui permet de reconnaître et d'extraire du texte à partir d'images. Cette technologie est particulièrement utile pour la numérisation de documents imprimés, car elle permet d'extraire et de travailler le contenu textuel de pages scannées, de photographies ou d'autres fichiers d'images.
IronOCR prend en charge différents formats d'image, notamment jpg, png, gif, tiff et bmp. Des filtres d'image sont également disponibles pour améliorer la capacité de lecture.
Commencez avec IronOCR
Commencez à utiliser IronOCR dans votre projet dès aujourd'hui avec un essai gratuit.
Comment lire les images
- Télécharger une bibliothèque C# pour la lecture d'images
- Prise en charge d'images dans différents formats, notamment jpg, png, gif, tiff et bmp
- Instanciez le OcrImageInput pour saisir une image
- Utiliser le
Lire
méthode d'OCR sur l'image d'entrée - Spécifier la région de culture pour définir la zone de lecture
Exemple de lecture d'images
Commencez par instancier la classe IronTesseract pour activer l'OCR. Utilisez l'instruction "using" pour créer un objet OcrImageInput, en spécifiant le chemin d'accès au fichier image. Cela permet d'assurer l'élimination correcte des ressources lorsqu'elles ne sont plus nécessaires. IronOCR prend en charge les images d'entrée dans différents formats, notamment jpg, png, gif, tiff et bmp. Enfin, utilisez la méthode Read
pour effectuer l'OCR.
:path=/static-assets/ocr/content-code-examples/how-to/input-images-read.cs
using IronOcr;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Add image
using var imageInput = new OcrImageInput("Potter.png");
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
Imports IronOcr
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Add image
Private imageInput = New OcrImageInput("Potter.png")
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(imageInput)
Visitez le siteComment lire les GIF et TIFF multi-trames/pages pour en savoir plus sur la lecture des images TIFF et GIF.
Importer des images en tant qu'octets
Outre le chemin d'accès au fichier, la classe OcrImageInput accepte également des informations sur l'image sous forme d'octets, de AnyBitmap, de Stream, ainsi que d'Image. AnyBitmap est un objet bitmap de typeIronSoftware.Drawing.AnyBitmap.
:path=/static-assets/ocr/content-code-examples/how-to/input-images-import-byte.cs
using IronOcr;
using System.IO;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Read byte from file
byte[] data = File.ReadAllBytes("Potter.tiff");
// Import image byte
using var imageInput = new OcrImageInput(data);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
Imports IronOcr
Imports System.IO
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Read byte from file
Private data() As Byte = File.ReadAllBytes("Potter.tiff")
' Import image byte
Private imageInput = New OcrImageInput(data)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(imageInput)
Spécifier la région de balayage
Un CropRectangle est également accepté lors de l'instanciation de la classe OcrImageInput. Cela vous permet de spécifier la région du document image qui doit être traitée par OCR. En fonction du document image, la spécification de la région à numériser peut améliorer considérablement les performances. Dans l'exemple de code que je fournis, je précise que seuls le numéro et le titre du chapitre doivent être lus.
:path=/static-assets/ocr/content-code-examples/how-to/input-images-read-specific-region.cs
using IronOcr;
using IronSoftware.Drawing;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Specify crop region
Rectangle scanRegion = new Rectangle(800, 200, 900, 400);
// Add image
using var imageInput = new OcrImageInput("Potter.tiff", ContentArea: scanRegion);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);
// Output the result to console
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Imports IronSoftware.Drawing
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Specify crop region
Private scanRegion As New Rectangle(800, 200, 900, 400)
' Add image
Private imageInput = New OcrImageInput("Potter.tiff", ContentArea:= scanRegion)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(imageInput)
' Output the result to console
Console.WriteLine(ocrResult.Text)