יידישער OCR אין C# און .NET

אנדערע ווערסיעס פון דעם דאקומענט:

IronOCR איז א C# ווייכווארג קאמפאנענט וואס אלאוז .NET קאדערס צו לייענען טעקסט פון בילדער און PDF דאקומענטן אין 126 שפראך, אריינגערעכנט יידיש.

עס איז א אוואנסירטע גאפל פון טעססעראקט, געבויט אויסשליסלעך פאר .NET דעוועלאפערס און קעסיידער פערפארמז אנדערע טעססעראקט ענדזשאנז פאר גיכקייט און אקיעראסי.

אינהאלט פון IronOcr.Languages.Yiddish

דער פעקל כולל 46 OCR שפראכן פאר .NET:

  • יידיש
  • Yiddish בעסטער
  • YiddishFast

אראפקאפיע

יידיש שפראך פאק [יידיש]
* Download as זיפ
* Install with https://www.nuget.org/packages/IronOcr.Languages.Yiddish/ NuGet

ינסטאללאטיאן

דער ערשטער זאך וואס מיר דארפן צו טאן איז צו ינסטאלירן אונדזעריידיש OCR פעקל צו דיין .NET פרויעקט.

PM> Install-Package IronOCR.Languages.Yiddish

קאדעקס עקסאמפלע

דעם ביישפיל פון C# קאד לייענט יידיש טעקסט פון א בילד אדער PDF דאקומענט.

// PM> Install-Package IronOcr.Languages.Yiddish
using IronOcr;

var Ocr = new IronTesseract();
// Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

// Create an OCR input for the image
using (var Input = new OcrInput(@"images\Yiddish.png"))
{
    // Perform OCR on the input image
    var Result = Ocr.Read(Input);
    // Extract the text from the OCR result
    var AllText = Result.Text;
}
// PM> Install-Package IronOcr.Languages.Yiddish
using IronOcr;

var Ocr = new IronTesseract();
// Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

// Create an OCR input for the image
using (var Input = new OcrInput(@"images\Yiddish.png"))
{
    // Perform OCR on the input image
    var Result = Ocr.Read(Input);
    // Extract the text from the OCR result
    var AllText = Result.Text;
}
' PM> Install-Package IronOcr.Languages.Yiddish
Imports IronOcr

Private Ocr = New IronTesseract()
' Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish

' Create an OCR input for the image
Using Input = New OcrInput("images\Yiddish.png")
	' Perform OCR on the input image
	Dim Result = Ocr.Read(Input)
	' Extract the text from the OCR result
	Dim AllText = Result.Text
End Using
$vbLabelText   $csharpLabel

פארוואס קלייבן IronOCR?

אייזן אקר איז אן גרינג-צו-ינסטאלירן, גאנץ און געזונט-דאקיאמענאד. נעץ ווייכווארג ביבליאטעק.

סעלעקטירן IronOCR צו דערגרייכן 99.8% + אקר אקיעראסי אן ניצן פונדרויסנדיק וועב באדינונגס, אנגאינג פיז אדער שיקן קאנפאדענשאל דאקומענטן איבער דער אינטערנעץ.

פארוואס C# דעוועלאפערס קלייבן IronOCR איבער Vanilla Tesseract:

  • ינסטאלירן ווי א איין דלל אדער נוגעט
  • כולל פאר טעססעראקט 5, 4 און 3 ענדזשאנז.
  • 99.8% אקיעראסי וואס איז באטייטיק העכער ווי רעגולער טעססעראקט.
  • בלייזינג ספיד און מולטיטהרעאדינג
  • קאמפאטאבאל MVC, WebApp, דעסקטאפ, קאנסאול & סערווירער אפפליקאטיאן
  • קיין עקסעס אדער C ++ קאד צו ארבעטן מיט
  • גאנץ פדף אקר שטיצן
  • צו דורכפירן OCR כמעט קיין בילד טעקע אדער PDF
  • גאנץ. נעט קאר, סטאנדארד און פריימווארק שטיצן
  • צעוויקלען אויף Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • לייענען בארקאדעס און QR קאודז
  • ארויספירן OCR ווי צו XHTML
  • ארויספירן אקר צו סעארטשאבלע פדף דאקומענטן
  • מולטיטהרעאדינג שטיצן
  • 126 אינטערנאציאנאלע שפראכן אלע געראטן דורך NuGet אדער OcrData טעקעס
  • עקסטראקט בילדער, קאארדינאטעס, סטאטיסטיק און פאנץ. ניט נאר טעקסט.
  • קען זיין געניצט צו רידיסטריביוטינג Tesseract OCR אין געשעפט און פראפרייאטערי אפלאקיישאנז.

פרעסן אקר שיינט ווען ארבעטן מיט פאקטיש וועלט בילדער און אימפערפעקט דאקומענטן אזא ווי פאוטאגראפס, אדער סקאנז פון נידעריק האחלאטע וואס קען האבן דיגיטאל ראש אדער אימפערפעקשאנז.

אנטשולדיקט, פריי אקר לייברעריז פאר .NET פלאטפארמע אזא ווי. נעץ טעססעראקט אפיס און וועב סערוויסעס טאן ניט דורכפירן אזוי גוט אין די פאקטיש וועלט נוצן קאסעס.

OCR מיט Tesseract 5 - אנהייב קאדירונג אין C#

די קאד מוסטער אונטן ווייזט ווי גרינג עס איז צו לייענען טעקסט פון א בילד ניצן C# אדער VB .NET.

אנעלינער

// Reads text from image using a single line
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
// Reads text from image using a single line
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
' Reads text from image using a single line
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
$vbLabelText   $csharpLabel

קאנפיגוראבלע העלא וועלט

// PM> Install-Package IronOCR.Languages.Yiddish
using IronOcr;

var Ocr = new IronTesseract();
// Setting the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

// Create a new OCR input and add images
using (var Input = new OcrInput())
{
    Input.AddImage("images/sample.jpeg");
    //... איר קענען לייגן קיין נומער פון בילדער
    var Result = Ocr.Read(Input);
    // Print the OCR result text to the console
    Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Yiddish
using IronOcr;

var Ocr = new IronTesseract();
// Setting the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

// Create a new OCR input and add images
using (var Input = new OcrInput())
{
    Input.AddImage("images/sample.jpeg");
    //... איר קענען לייגן קיין נומער פון בילדער
    var Result = Ocr.Read(Input);
    // Print the OCR result text to the console
    Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Yiddish
Imports IronOcr

Private Ocr = New IronTesseract()
' Setting the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish

' Create a new OCR input and add images
Using Input = New OcrInput()
	Input.AddImage("images/sample.jpeg")
	'... איר קענען לייגן קיין נומער פון בילדער
	Dim Result = Ocr.Read(Input)
	' Print the OCR result text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

C# פדף אקר

דער זעלביקער צוגאנג קענען זיין סימילארלי געניצט צו עקסטראקט טעקסט פון קיין PDF דאקומענט.

var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;

// Create a new OCR input for PDF
using (var input = new OcrInput())
{
    // Add PDF and specify password if needed
    input.AddPdf("example.pdf", "password");
    // Perform OCR on the PDF document
    var Result = Ocr.Read(input);

    // Print extracted text and page count
    Console.WriteLine(Result.Text);
    Console.WriteLine($"{Result.Pages.Count()} Pages");
    // 1 בלאט פאר יעדער בלאט פון דעם PDF
}
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;

// Create a new OCR input for PDF
using (var input = new OcrInput())
{
    // Add PDF and specify password if needed
    input.AddPdf("example.pdf", "password");
    // Perform OCR on the PDF document
    var Result = Ocr.Read(input);

    // Print extracted text and page count
    Console.WriteLine(Result.Text);
    Console.WriteLine($"{Result.Pages.Count()} Pages");
    // 1 בלאט פאר יעדער בלאט פון דעם PDF
}
Dim Ocr = New IronTesseract()
' Set language for OCR
Ocr.Language = OcrLanguage.Yiddish

' Create a new OCR input for PDF
Using input = New OcrInput()
	' Add PDF and specify password if needed
	input.AddPdf("example.pdf", "password")
	' Perform OCR on the PDF document
	Dim Result = Ocr.Read(input)

	' Print extracted text and page count
	Console.WriteLine(Result.Text)
	Console.WriteLine($"{Result.Pages.Count()} Pages")
	' 1 בלאט פאר יעדער בלאט פון דעם PDF
End Using
$vbLabelText   $csharpLabel

OCR פאר MultiPage TIFFs

OCR רידינג TIFF טעקע פארמאט אריינגערעכנט קייפל בלאט דאקומענטן. TIFF קענען אויך זיין קאנווערטעד גלייך אין א פדף טעקע מיט סעארטשאבלע טעקסט.

using IronOcr;

var Ocr = new IronTesseract();
// Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

// Create a new OCR input for the TIFF image
using (var Input = new OcrInput())
{
    Input.AddMultiFrameTiff("multi-frame.tiff");
    var Result = Ocr.Read(Input);
    // Output the OCR result
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
// Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

// Create a new OCR input for the TIFF image
using (var Input = new OcrInput())
{
    Input.AddMultiFrameTiff("multi-frame.tiff");
    var Result = Ocr.Read(Input);
    // Output the OCR result
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
' Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish

' Create a new OCR input for the TIFF image
Using Input = New OcrInput()
	Input.AddMultiFrameTiff("multi-frame.tiff")
	Dim Result = Ocr.Read(Input)
	' Output the OCR result
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

בארקאדעס און QR

א יינציק שטריך פון IronOCR איז אז עס קענען לייענען בארקאדעס און QR קאודז פון דאקומענטן בשעת עס סקאנינג פאר טעקסט. ינסטאנסיז פון די OcrResult.OcrBarcode קלאס געבן די דעוועלאפער דיטיילד אינפארמאציע וועגן יעדער סקאנד בארקאדע.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true; // Enable barcode reading

using (var input = new OcrInput())
{
    input.AddImage("img/Barcode.png");
    var Result = Ocr.Read(input);
    foreach (var Barcode in Result.Barcodes)
    {
        // Print each barcode value
        Console.WriteLine(Barcode.Value);
        // טיפ און ארט פראפערטיעס אויך יקספאוזד
    }
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true; // Enable barcode reading

using (var input = new OcrInput())
{
    input.AddImage("img/Barcode.png");
    var Result = Ocr.Read(input);
    foreach (var Barcode in Result.Barcodes)
    {
        // Print each barcode value
        Console.WriteLine(Barcode.Value);
        // טיפ און ארט פראפערטיעס אויך יקספאוזד
    }
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True ' Enable barcode reading

Using input = New OcrInput()
	input.AddImage("img/Barcode.png")
	Dim Result = Ocr.Read(input)
	For Each Barcode In Result.Barcodes
		' Print each barcode value
		Console.WriteLine(Barcode.Value)
		' טיפ און ארט פראפערטיעס אויך יקספאוזד
	Next Barcode
End Using
$vbLabelText   $csharpLabel

OCR אויף ספעציפיש ארעאס פון בילדער

אלע סקאנינג און לייענען מעטהאדס פון IronOCR צושטעלן די פיייקייט פונקט פון וואס טייל פון א בלאט אדער בלעטער מיר ווילן צו לייענען טעקסט. דאס איז זייער נוציק ווען מיר קוקן אין סטאנדערדייזד פארמען און קענען שפארן שרעקלעך צייט און פארבעסערן עפעקטיווקייט.

צו נוצן גערעטעניש געגנטן, מיר דארפן צו לייגן א סיסטעם באווייזן צו System.Drawing אזוי אז מיר קענען נוצן די System.Drawing.Rectangle כייפעץ.

using IronOcr;
using System.Drawing; // Required for Rectangle

var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
    // Define the specific area to scan within the image
    var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
    // Add image with defined content area
    Input.Add("document.png", ContentArea);

    // Perform OCR and output the result
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
using System.Drawing; // Required for Rectangle

var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
    // Define the specific area to scan within the image
    var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
    // Add image with defined content area
    Input.Add("document.png", ContentArea);

    // Perform OCR and output the result
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Imports System.Drawing ' Required for Rectangle

Private Ocr = New IronTesseract()
' Set language for OCR
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput()
	' Define the specific area to scan within the image
	Dim ContentArea = New Rectangle() With {
		.X = 215,
		.Y = 1250,
		.Height = 280,
		.Width = 1335
	}
	' Add image with defined content area
	Input.Add("document.png", ContentArea)

	' Perform OCR and output the result
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

OCR פאר סקאנז מיט נידעריק קוואליטעט

די IronOCR OcrInput קלאס קענען פארריכטן סקאנז וואס נארמאל טעססעראקט קען נישט לייענען.

using IronOcr;
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;

// Create OCR input for the low-quality scan
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
    Input.DeNoise(); // Fixes digital noise and scan quality
    Input.Deskew(); // Fixes rotation and perspective
    // Perform OCR and print the result text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;

// Create OCR input for the low-quality scan
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
    Input.DeNoise(); // Fixes digital noise and scan quality
    Input.Deskew(); // Fixes rotation and perspective
    // Perform OCR and print the result text
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set language for OCR
Ocr.Language = OcrLanguage.Yiddish

' Create OCR input for the low-quality scan
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
	Input.DeNoise() ' Fixes digital noise and scan quality
	Input.Deskew() ' Fixes rotation and perspective
	' Perform OCR and print the result text
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

ארויספירן OCR רעזולטאטן ווי א סעארטשאבלע פדף

בילד צו פדף מיט קאפיראבאל טעקסט סטרינגס. קען זיין ינדעקסט דורך זוכן ענדזשאנז און דאטאבייסיז.

using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
    // Set the title for the PDF
    Input.Title = "Quarterly Report";
    // Add images to OCR input
    Input.AddImage("image1.jpeg");
    Input.AddImage("image2.png");
    Input.AddImage("image3.gif");

    // Read the input and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
    // Set the title for the PDF
    Input.Title = "Quarterly Report";
    // Add images to OCR input
    Input.AddImage("image1.jpeg");
    Input.AddImage("image2.png");
    Input.AddImage("image3.gif");

    // Read the input and save as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput()
	' Set the title for the PDF
	Input.Title = "Quarterly Report"
	' Add images to OCR input
	Input.AddImage("image1.jpeg")
	Input.AddImage("image2.png")
	Input.AddImage("image3.gif")

	' Read the input and save as a searchable PDF
	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

TIFF צו סעארטשאבלע PDF קאנווערסיאן

קאנווערט א TIFF דאקומענט (אדער קיין גרופע פון בילד טעקעס) גלייך צו א סעארטשאבלע PDF וואס קענען זיין ינדעקסט דורך ינטראנעט, וועבזייטל און Google זוך ענדזשאנז.

using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
    // Add multi-frame TIFF to input
    Input.AddMultiFrameTiff("example.tiff");
    // Read the input and save as a searchable PDF
    var Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
    // Add multi-frame TIFF to input
    Input.AddMultiFrameTiff("example.tiff");
    // Read the input and save as a searchable PDF
    var Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput()
	' Add multi-frame TIFF to input
	Input.AddMultiFrameTiff("example.tiff")
	' Read the input and save as a searchable PDF
	Dim Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

ארויספירן OCR רעזולטאטן ווי HTML

OCR בילד צו XHTML קאנווערזשאן.

using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
    // Set the title for the HTML result
    Input.Title = "Html Title";
    // Add images to be OCR'd
    Input.AddImage("image1.jpeg");
    // Perform OCR on the input and save as HTML
    var Result = Ocr.Read(Input);
    Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
    // Set the title for the HTML result
    Input.Title = "Html Title";
    // Add images to be OCR'd
    Input.AddImage("image1.jpeg");
    // Perform OCR on the input and save as HTML
    var Result = Ocr.Read(Input);
    Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput()
	' Set the title for the HTML result
	Input.Title = "Html Title"
	' Add images to be OCR'd
	Input.AddImage("image1.jpeg")
	' Perform OCR on the input and save as HTML
	Dim Result = Ocr.Read(Input)
	Result.SaveAsHocrFile("results.html")
End Using
$vbLabelText   $csharpLabel

אקר בילד ענכאנסמאנט פילטערס

IronOCR פראווידעס יינציק פילטערס פאר OcrInput אבדזשעקץ צו פארבעסערן OCR פארשטעלונג.

בילד ענהאנסעמענט קאוד ביישפיל

מאכט אקר אריינשרייב בילדער העכער קוואליטעט צו פראדוצירן בעסער, פאסטער אקר רעזולטאטן.

using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
    // Apply filters to improve OCR
    Input.DeNoise(); // Fixes digital noise and poor scanning
    Input.Deskew(); // Fixes rotation and perspective
    // Perform OCR and print the result
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
    // Apply filters to improve OCR
    Input.DeNoise(); // Fixes digital noise and poor scanning
    Input.Deskew(); // Fixes rotation and perspective
    // Perform OCR and print the result
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput("LowQuality.jpeg")
	' Apply filters to improve OCR
	Input.DeNoise() ' Fixes digital noise and poor scanning
	Input.Deskew() ' Fixes rotation and perspective
	' Perform OCR and print the result
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

רשימה פון אקר בילד פילטערס

ינפוט פילטערס צו פארבעסערן די OCR פארשטעלונג וואס זענען געבויט אין IronOCR:

  • OcrInput.Rotate (טאפל דיגריז) - דרייען בילדער דורך א נומער פון דיגריז קלאקווייז. ניצן נעגאטיוו נומערן פאר אנטי-קלאקווייז.
  • OcrInput.Binarize () - דעם בילד פילטער טורנס יעדער פיקסעל שווארץ אדער ווייס אן מיטל ערד. קען פארבעסערן OCR פארשטעלונג קאסעס פון זייער נידעריק קאנטראסט פון טעקסט צו הינטערגרונט.
  • OcrInput.ToGrayScale () - דעם בילד פילטער טורנס יעדער פיקסעל אין א שאטן פון גרייסקאלע. אנלייקלי צו פארבעסערן OCR אקיעראסי אבער קען פארבעסערן גיכקייט.
  • OcrInput.Contrast () - ינקרעאסיז קאנטראסט אויטאמאטיש. דער פילטער אפט ימפרוווז אקר גיכקייט און אקיעראסי אין סקאנדז מיט נידעריק קאנטראסט.
  • OcrInput.DeNoise () - רימוווז דיגיטאל ראש. דער פילטער זאל זיין געניצט בלויז ווו געריכט איז געריכט.
  • OcrInput.Invert () - ינווערץ יעדער קאליר. למשל, ווייס ווערט שווארץ: שווארץ ווערט ווייס.
  • OcrInput.Dilate () - אוואנסירטע מארפאלאגי. דילאטיאן מוסיף בילדצעלן צו די באונדריז פון אבדזשעקץ אין א בילד. פארקערט פון עראדע.
  • OcrInput.Erode () - אוואנסירטע מארפאלאגי. יראוזשאן רימוווז בילדצעלן אויף כייפעץ באונדריז קעגן דילאטע.
  • OcrInput.Deskew () - ראוטייץ א בילד אזוי עס איז די רעכט וועג ארויף און ארטאגאנאל. דאס איז זייער נוציק פאר OCR ווייל טעססעראקט טאלעראנץ פאר סקיוזד סקאנז קענען זיין ווי נידעריק ווי 5 דיגריז.
  • OcrInput.DeepCleanBackgroundNoise () - שווער הינטערגרונט ראש באזייטיקונג. נאר נוצן דעם פילטער אין פאל פון באקאנטע עקסטרעם דאקומענט ראש איז באוווסט, ווייל דעם פילטער וועט אויך ריזיקירן רידוסינג די OCR אקיעראסי פון ריין דאקומענטן און איז זייער קפו טייער.
  • OcrInput.EnhanceResolution - ימפרוווז די האכלאטע פון בילדער פון נידעריק קוואליטעט. דער פילטער איז נישט אפט דארף ווייל OcrInput.MinimumDPI און OcrInput.TargetDPI וועט אויטאמאטיש כאפן און באשליסן ינפוץ מיט נידעריק האכלאטע.

CleanBackgroundNoise. דאס איז א באשטעטיקן וואס איז א ביסל צייט-קאנסומינג; אבער, דאס אלאוז די ביבליאטעק צו אויטאמאטיש רייניקן דיגיטאל ראש, פאפיר קראמפאלז און אנדערע ימפערפעקשאנז אין א דיגיטאל בילד, וואס אנדערש קען נישט זיין לייענען דורך אנדערע אקר לייברעריז.

EnhanceContrast איז א באשטעטיקן געפירט צו די יראן OCR צו אויטאמאטיש פארגרעסערן די קאנטראסט פון טעקסט קעגן דעם הינטערגרונט פון א בילד, ינקריסינג די אקיעראסי פון OCR און בכלל פארגרעסערן די פארשטעלונג און די OCR גיכקייט.

ענהאנסעסאלוטיאן איז א באשטעטיקן וואס אויטאמאטיש דיטעקט בילדער מיט נידעריק האכלאטע (אונטער 275 דפי) און אויטאמאטיש אפסקייל די בילד און שארפן אלע טעקסט אזוי אז עס קען זיין לייענען בישליימעס דורך אן OCR ביבליאטעק. כאטש די אפעראציע איז אין זיך צייט-קאנסומינג, אבער עס בכלל ראדוסאז די קוילעלדיק צייט פאר א OCR אפעראציע אויף א בילד.

Language IronOCR שטיצט 22 אינטערנאציאנאלע שפראך פאקס, און די שפראך באשטעטיקן קענען ווערן גענוצט צו סעלעקטירן איין אדער מער קייפל שפראכן צו זיין געווענדט פאר א OCR אפעראציע.

סטראטעגיע יראן אקר שטיצט צוויי סטראטעגיעס. מיר קענען קלייבן צו נעמען א שנעל און ווייניקער פינטלעך יבערקוקן פון א דאקומענט, אדער נוצן א אוואנסירטע סטראטעגיע וואס ניצט עטלעכע קינסטלעך סייכל מאדעלס צו אויטאמאטיש פארבעסערן די אקיעראסי פון די OCR טעקסט דורך די סטאטיסטיש שייכות פון ווערטער צו יעדער אנדערער אין א זאץ.

קאלארספאסע איז א באשטעטיקן וואס מיר קענען קלייבן צו OCR אין גרייסקאלע אדער קאליר. בכלל, גרייסקאלע איז דער בעסטער אפציע. אפשר ווען עס זענען טעקסטן אדער באקגראונדז פון ענלעך כיו אבער גאר אנדערש קאליר, א פול-קאליר קאליר פלאץ וועט צושטעלן בעסער רעזולטאטן.

DetectWhiteTextOnDarkBackgrounds. אין אלגעמיין, אלע אקר לייברעריז דערווארטן צו זען שווארץ טעקסט אויף ווייס באקגראונדז. די באשטעטיקן אלאוז IronOCR צו אויטאמאטיש דיטעקט נעגאטיוועס אדער טונקל בלעטער מיט ווייס טעקסט און לייענען זיי.

InputImageType. די באשטעטיקן אלאוז די דעוועלאפער צו פירן די OCR ביבליאטעק צי ער קוקט אין א פול דאקומענט אדער א סניפאט, אזא ווי א סקרעענשאט.

RotateAndStraighten איז א אוואנסירטע באשטעטיקן וואס אלאוז IronOCR די יינציק פיייקייט צו לייענען דאקומענטן וואס זענען נישט בלויז ראוטייטיד, אבער טאמער מיט פערספעקטיוו, אזא ווי פאוטאגראפס פון טעקסט דאקומענטן.

רעאדבארקאדעס איז א נוציק שטריך וואס אלאוז יראן אקר צו אויטאמאטיש לייענען בארקאדעס און QR קאודז אויף בלעטער ווי עס אויך לייענט טעקסט, אן אדינג א גרויס נאך צייט מאסע.

קאלארדעפטה. די באשטעטיקן דיטערמאנז ווי פילע ביטן פער פיקסעל די אקר ביבליאטעק וועט נוצן צו באשליסן די טיף פון א קאליר. א העכער קאליר טיף קען פארגרעסערן די OCR קוואליטעט, אבער דאס וועט אויך פארגרעסערן די צייט פאר די OCR אפעראציע.

126 שפראך פאקס

IronOCR שטיצט 126 אינטערנאציאנאלע שפראכן דורך שפראך פאקס וואס זענען פונאנדערגעטיילט ווי דללס וואס קענען זיין דאונלאודיד פון דעם וועבזייטל אדער פון NuGet Package Manager.

שפראכן ארייננעמען דייטש, פראנצויזיש, ענגליש, כינעזיש, יאפאניש און פילע מער. ספעציאליסט שפראך פאקס יגזיסץ פאר MRZ פאס, MICR טשעקס, פינאנציעל דאטן, ליסענסע פלאטעס און פילע מער. איר קענט אויך נוצן קיין טעססעראקט ".טראינעדאטא" טעקע - אריינגערעכנט די זיך איר שאפן.

שפראך ביישפיל

ניצון אנדערע אקר שפראכן.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
// Set the OCR language to Arabic
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
    input.AddImage("img/arabic.gif");
    // Apply image filters if needed
    // IronTesseract can read what conventional Tesseract cannot

    var Result = Ocr.Read(input);

    // Console cannot print Arabic on Windows, so save to disk instead
    Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
// Set the OCR language to Arabic
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
    input.AddImage("img/arabic.gif");
    // Apply image filters if needed
    // IronTesseract can read what conventional Tesseract cannot

    var Result = Ocr.Read(input);

    // Console cannot print Arabic on Windows, so save to disk instead
    Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
' Set the OCR language to Arabic
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
	input.AddImage("img/arabic.gif")
	' Apply image filters if needed
	' IronTesseract can read what conventional Tesseract cannot

	Dim Result = Ocr.Read(input)

	' Console cannot print Arabic on Windows, so save to disk instead
	Result.SaveAsTextFile("arabic.txt")
End Using
$vbLabelText   $csharpLabel

קייפל שפראך ביישפיל

עס איז אויך מעגלעך צו OCR ניצן קייפל שפראכן אין דער זעלביקער צייט. דאס קען טאקע העלפן צו באקומען מעטאדאטא און URL ס אין ענגליש שפראך אין אוניקאד דאקומענטן.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
// Set primary OCR language to Chinese Simplified
Ocr.Language = OcrLanguage.ChineseSimplified;
// Add secondary language
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish);
// Add as many languages as needed

using (var input = new OcrInput())
{
    input.Add("multi-language.pdf");
    var Result = Ocr.Read(input);
    // Save OCR results to a text file
    Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
// Set primary OCR language to Chinese Simplified
Ocr.Language = OcrLanguage.ChineseSimplified;
// Add secondary language
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish);
// Add as many languages as needed

using (var input = new OcrInput())
{
    input.Add("multi-language.pdf");
    var Result = Ocr.Read(input);
    // Save OCR results to a text file
    Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
' Set primary OCR language to Chinese Simplified
Ocr.Language = OcrLanguage.ChineseSimplified
' Add secondary language
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish)
' Add as many languages as needed

Using input = New OcrInput()
	input.Add("multi-language.pdf")
	Dim Result = Ocr.Read(input)
	' Save OCR results to a text file
	Result.SaveAsTextFile("results.txt")
End Using
$vbLabelText   $csharpLabel

דיטיילד אקר רעזולטאטן אבדזשעקץ

יראן אקר קערט אן אקר רעזולטאט כייפעץ פאר יעדער אקר אפעראציע. בכלל, דעוועלאפערס נוצן בלויז די טעקסט פארמויג פון דעם כייפעץ צו באקומען די טעקסט סקאנד פון דעם בילד. אבער, די OCR רעזולטאטן DOM איז פיל מער אוואנסירטע ווי דאס.

using IronOcr;
using System.Drawing; // include System.Drawing namespace to work with Rectangle

var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Set OCR engine mode
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
// Enable barcode reading
Ocr.Configuration.ReadBarCodes = true;

using (var Input = new OcrInput(@"images\sample.tiff"))
{
    OcrResult Result = Ocr.Read(Input);
    var Pages = Result.Pages; // get all pages
    var Words = Pages[0].Words; // get words from the first page
    var Barcodes = Result.Barcodes; // get all scanned barcodes
    // Explore to find a massive, detailed API:
    // - Pages, Blocks, Paragraphs, Lines, Words, Chars
    // - Image Export, Fonts Coordinates, Statistical Data
}
using IronOcr;
using System.Drawing; // include System.Drawing namespace to work with Rectangle

var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Set OCR engine mode
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
// Enable barcode reading
Ocr.Configuration.ReadBarCodes = true;

using (var Input = new OcrInput(@"images\sample.tiff"))
{
    OcrResult Result = Ocr.Read(Input);
    var Pages = Result.Pages; // get all pages
    var Words = Pages[0].Words; // get words from the first page
    var Barcodes = Result.Barcodes; // get all scanned barcodes
    // Explore to find a massive, detailed API:
    // - Pages, Blocks, Paragraphs, Lines, Words, Chars
    // - Image Export, Fonts Coordinates, Statistical Data
}
Imports IronOcr
Imports System.Drawing ' include System.Drawing namespace to work with Rectangle

Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
' Set OCR engine mode
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
' Enable barcode reading
Ocr.Configuration.ReadBarCodes = True

Using Input = New OcrInput("images\sample.tiff")
	Dim Result As OcrResult = Ocr.Read(Input)
	Dim Pages = Result.Pages ' get all pages
	Dim Words = Pages(0).Words ' get words from the first page
	Dim Barcodes = Result.Barcodes ' get all scanned barcodes
	' Explore to find a massive, detailed API:
	' - Pages, Blocks, Paragraphs, Lines, Words, Chars
	' - Image Export, Fonts Coordinates, Statistical Data
End Using
$vbLabelText   $csharpLabel

פארשטעלונג

יראנאקר ארבעט אויס פון די קעסטל אן פארשטעלונג ניגן אדער שווער מאדיפיצירן אריינשרייב בילדער.

Speed is Blazing: IronOcr.2020 + איז ארויף צו 10 מאל פאסטער און מאכט איבער 250% ווייניקער עררארס ווי פריערדיקע בילדער.

לערן מער

צו לערנען מער וועגן OCR אין C#, VB, F# אדער קיין אנדערע .NET שפראך, ביטע לייענען אונדזער קאמיוניטי טוטאריאלז, וואס געבן פאקטיש ביישפילן פון ביישפיל ווי אייזן OCR קענען ווערן גענוצט און קען ווייזן די נואנסיז ווי איר באקומען די בעסטער פון דעם ביבליאטעק.

א פולשטעקנדיקער כייפעץ דערמאנען פאר .NET דעוועלאפערס איז אויך בנימצא.