יידישער OCR אין C#און. Net

אנדערע ווערסיעס פון דעם דאָקומענט:

IronOCR איז אַ C#ווייכווארג קאָמפּאָנענט וואָס אַלאַוז .NET קאָדערס צו לייענען טעקסט פון בילדער און PDF דאָקומענטן אין 126 שפּראַך, אַרייַנגערעכנט ייִדיש.

עס איז אַ אַוואַנסירטע גאָפּל פון טעססעראַקט, געבויט אויסשליסלעך פֿאַר .NET דעוועלאָפּערס און קעסיידער פּערפאָרמז אנדערע טעססעראַקט ענדזשאַנז פֿאַר גיכקייַט און אַקיעראַסי.

אינהאַלט פֿון IronOcr.Languages.Yiddish

דער פּעקל כּולל 46 OCR שפּראַכן פֿאַר .NET:

  • יידיש
  • Yiddish בעסטער
  • YiddishFast

אראפקאפיע

ייִדיש שפּראַך פּאַק [ייִדיש]
* Download as זיפּ
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Yiddish/'> NuGet

ינסטאַללאַטיאָן

דער ערשטער זאַך וואָס מיר דאַרפֿן צו טאָן איז צו ינסטאַלירן אונדזער יידיש OCR פּעקל צו דיין .NET פּרויעקט.

PM> Install-Package IronOCR.Languages.Yiddish

קאָדעקס עקסאַמפּלע

דעם ביישפּיל פון C#קאָד לייענט ייִדיש טעקסט פֿון אַ בילד אָדער PDF דאָקומענט.

//PM> Install-Package IronOcr.Languages.Yiddish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput(@"images\Yiddish.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Yiddish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput(@"images\Yiddish.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Yiddish
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish
Using Input = New OcrInput("images\Yiddish.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

פארוואס קלייַבן IronOCR?

אייַזן אָקר איז אַן גרינג-צו-ינסטאַלירן, גאַנץ און געזונט-דאַקיאַמענאַד. נעץ ווייכווארג ביבליאָטעק.

סעלעקטירן IronOCR צו דערגרייכן 99.8% + אָקר אַקיעראַסי אָן ניצן פונדרויסנדיק וועב באַדינונגס, אָנגאָינג פיז אָדער שיקן קאַנפאַדענשאַל דאָקומענטן איבער דער אינטערנעץ.

פארוואס C#דעוועלאָפּערס קלייַבן IronOCR איבער Vanilla Tesseract:

  • ינסטאַלירן ווי אַ איין דלל אָדער נוגעט
  • כולל פֿאַר טעססעראַקט 5, 4 און 3 ענדזשאַנז.
  • די אַקיעראַסי 99.8% באטייטיק העכער ווי רעגולער טעססעראַקט.
  • בלייזינג ספּיד און מולטיטהרעאַדינג
  • קאַמפּאַטאַבאַל MVC, WebApp, דעסקטאָפּ, קאַנסאָול & סערווירער אַפּפּליקאַטיאָן
  • קיין עקסעס אָדער C ++ קאָד צו אַרבעטן מיט
  • גאַנץ פּדף אָקר שטיצן
  • צו דורכפירן OCR כּמעט קיין בילד טעקע אָדער PDF
  • גאַנץ. נעט קאָר, סטאַנדאַרד און פריימוואָרק שטיצן
  • צעוויקלען אויף Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • לייענען באַרקאָדעס און QR קאָודז
  • אַרויספירן OCR ווי צו XHTML
  • אַרויספירן אָקר צו סעאַרטשאַבלע פּדף דאָקומענטן
  • מולטיטהרעאַדינג שטיצן
  • 126 אינטערנאַציאָנאַלע שפּראַכן אַלע געראטן דורך Nuget אָדער OcrData טעקעס
  • עקסטראַקט בילדער, קאָאָרדינאַטעס, סטאַטיסטיק און פאַנץ. ניט נאָר טעקסט.
  • קענען זיין געניצט צו רידיסטריביוטינג Tesseract OCR אין געשעפט און פּראַפּרייאַטערי אַפּלאַקיישאַנז.

פּרעסן אָקר שיינט ווען ארבעטן מיט פאַקטיש וועלט בילדער און ימפּערפיקט דאָקומענטן אַזאַ ווי פאָוטאַגראַפס, אָדער סקאַנז פון נידעריק האַכלאָטע וואָס קען האָבן דיגיטאַל ראַש אָדער ימפּערפעקשאַנז.

אנדערע פריי אָקר לייברעריז פֿאַר .NET פּלאַטפאָרמע אַזאַ ווי. נעץ טעססעראַקט אַפּיס און וועב סערוויסעס טאָן ניט דורכפירן אַזוי גוט אין די פאַקטיש וועלט נוצן קאַסעס.

OCR מיט Tesseract 5 - אָנהייב קאָדירונג אין C #

די קאָד מוסטער אונטן ווייזט ווי גרינג עס איז צו לייענען טעקסט פֿון אַ בילד ניצן C#אָדער VB .NET.

אָנעלינער

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

קאָנפיגוראַבלע העלא וועלט

// PM> Install-Package IronOCR.Languages.Yiddish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... איר קענען לייגן קיין נומער פון בילדער
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Yiddish
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... איר קענען לייגן קיין נומער פון בילדער
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Yiddish
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#פּדף אָקר

דער זעלביקער צוגאַנג קענען זיין סימילאַרלי געניצט צו עקסטראַקט טעקסט פון קיין PDF דאָקומענט.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// מיר קענען אויך סעלעקטירן ספּעציפיש פּדף נומבערס צו OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 בלאַט פֿאַר יעדער בלאַט פון דעם PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// מיר קענען אויך סעלעקטירן ספּעציפיש פּדף נומבערס צו OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 בלאַט פֿאַר יעדער בלאַט פון דעם PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' מיר קענען אויך סעלעקטירן ספּעציפיש פּדף נומבערס צו OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 בלאַט פֿאַר יעדער בלאַט פון דעם PDF
End Using
VB   C#

OCR פֿאַר MultiPage TIFFs

OCR רידינג TIFF טעקע פֿאָרמאַט אַרייַנגערעכנט קייפל בלאַט דאָקומענטן. TIFF קענען אויך זיין קאָנווערטעד גלייַך אין אַ פּדף טעקע מיט סעאַרטשאַבלע טעקסט.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

באַרקאָדעס און QR

א יינציק שטריך פון Iron OCR איז אַז עס קענען לייענען באַרקאָדעס און QR קאָודז פֿון דאָקומענטן בשעת עס סקאַנינג פֿאַר טעקסט. ינסטאַנסיז פון די OcrResult.OcrBarcode קלאַס געבן די דעוועלאָפּער דיטיילד אינפֿאָרמאַציע וועגן יעדער סקאַנד באַרקאָדע.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// טיפּ און אָרט פּראָפּערטיעס אויך יקספּאָוזד
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// טיפּ און אָרט פּראָפּערטיעס אויך יקספּאָוזד
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' טיפּ און אָרט פּראָפּערטיעס אויך יקספּאָוזד
Next Barcode
End Using
VB   C#

OCR אויף ספּעציפיש אַרעאַס פון בילדער

אַלע סקאַנינג און לייענען מעטהאָדס פון Iron OCR צושטעלן די פיייקייט פּונקט פֿון וואָס טייל פון אַ בלאַט אָדער בלעטער מיר ווילן צו לייענען טעקסט. דאָס איז זייער נוציק ווען מיר קוקן אין סטאַנדערדייזד פארמען און קענען שפּאָרן שרעקלעך צייט און פֿאַרבעסערן עפעקטיווקייַט.

צו נוצן גערעטעניש געגנטן, מיר דאַרפֿן צו לייגן אַ סיסטעם באַווייַזן צו System.Drawing אַזוי אַז מיר קענען נוצן די System.Drawing.Rectangle כייפעץ.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// דימענסיאָנס זענען אין פּקסנומקס

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// דימענסיאָנס זענען אין פּקסנומקס

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' דימענסיאָנס זענען אין פּקסנומקס

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR פֿאַר סקאַנז מיט נידעריק קוואַליטעט

די Iron OCR OcrInput קלאַס קענען פאַרריכטן סקאַנז וואָס נאָרמאַל טעססעראַקט קען נישט לייענען.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // פיקסיז דיגיטאַל ראַש און נעבעך סקאַנינג
Input.Deskew(); // פיקסיז ראָוטיישאַן און פּערספּעקטיוו
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // פיקסיז דיגיטאַל ראַש און נעבעך סקאַנינג
Input.Deskew(); // פיקסיז ראָוטיישאַן און פּערספּעקטיוו
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' פיקסיז דיגיטאַל ראַש און נעבעך סקאַנינג
Input.Deskew() ' פיקסיז ראָוטיישאַן און פּערספּעקטיוו
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

אַרויספירן OCR רעזולטאַטן ווי אַ סעאַרטשאַבלע פּדף

בילד צו פּדף מיט קאַפּיראַבאַל טעקסט סטרינגס. קענען זיין ינדעקסט דורך זוכן ענדזשאַנז און דאַטאַבייסיז.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF צו סעאַרטשאַבלע PDF קאָנווערסיאָן

קאָנווערט אַ TIFF דאָקומענט (אָדער קיין גרופּע פון בילד טעקעס) גלייך צו אַ סעאַרטשאַבלע PDF וואָס קענען זיין ינדעקסט דורך ינטראַנעט, וועבזייטל און Google זוכן ענדזשאַנז.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

אַרויספירן OCR רעזולטאַטן ווי HTML

OCR בילד צו XHTML קאַנווערזשאַן.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

אָקר בילד ענכאַנסמאַנט פילטערס

IronOCR פּראָווידעס יינציק פילטערס פֿאַר OcrInput אַבדזשעקץ צו פֿאַרבעסערן OCR פאָרשטעלונג.

בילד ענהאַנסעמענט קאָוד בייַשפּיל

מאכט אָקר אַרייַנשרייַב בילדער העכער קוואַליטעט צו פּראָדוצירן בעסער, פאַסטער אָקר רעזולטאַטן.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // פיקסיז דיגיטאַל ראַש און נעבעך סקאַנינג
Input.Deskew(); // פיקסיז ראָוטיישאַן און פּערספּעקטיוו
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // פיקסיז דיגיטאַל ראַש און נעבעך סקאַנינג
Input.Deskew(); // פיקסיז ראָוטיישאַן און פּערספּעקטיוו
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' פיקסיז דיגיטאַל ראַש און נעבעך סקאַנינג
Input.Deskew() ' פיקסיז ראָוטיישאַן און פּערספּעקטיוו
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

רשימה פון אָקר בילד פילטערס

ינפּוט פילטערס צו פֿאַרבעסערן די OCR פאָרשטעלונג וואָס זענען געבויט אין IronOCR:

  • OcrInput.Rotate (טאָפּל דיגריז) - דרייען בילדער דורך אַ נומער פון דיגריז קלאַקווייז. ניצן נעגאַטיוו נומערן פֿאַר אַנטי-קלאַקווייז.
  • OcrInput.Binarize () - דעם בילד פילטער טורנס יעדער פּיקסעל שוואַרץ אָדער ווייַס אָן מיטל ערד. קען פֿאַרבעסערן OCR פאָרשטעלונג קאַסעס פון זייער נידעריק קאַנטראַסט פון טעקסט צו הינטערגרונט.
  • OcrInput.ToGrayScale () - דעם בילד פילטער טורנס יעדער פּיקסעל אין אַ שאָטן פון גרייַסקאַלע. אַנלייקלי צו פֿאַרבעסערן OCR אַקיעראַסי אָבער קען פֿאַרבעסערן גיכקייַט
  • OcrInput.Contrast () - ינקרעאַסיז קאַנטראַסט אויטאָמאַטיש. דער פילטער אָפט ימפּרוווז אָקר גיכקייַט און אַקיעראַסי אין סקאַנדז מיט נידעריק קאַנטראַסט.
  • OcrInput.DeNoise () - רימוווז דיגיטאַל ראַש. דער פילטער זאָל זיין געניצט בלויז ווו געריכט איז געריכט.
  • OcrInput.Invert () - ינווערץ יעדער קאָליר. למשל ווייַס ווערט שוואַרץ: שוואַרץ ווערט ווייַס.
  • OcrInput.Dilate () - אַוואַנסירטע מאָרפאָלאָגי. דילאַטיאָן מוסיף בילדצעלן צו די באַונדריז פון אַבדזשעקץ אין אַ בילד. פאַרקערט פון עראָדע
  • OcrInput.Erode () - אַוואַנסירטע מאָרפאָלאָגי. יראָוזשאַן רימוווז בילדצעלן אויף כייפעץ באַונדריז קעגן דילאַטע
  • OcrInput.Deskew () - ראָוטייץ אַ בילד אַזוי עס איז די רעכט וועג אַרויף און אָרטאָגאָנאַל. דאָס איז זייער נוציק פֿאַר OCR ווייַל טעססעראַקט טאָלעראַנץ פֿאַר סקיוזד סקאַנז קענען זיין ווי נידעריק ווי 5 דיגריז.
  • OcrInput.DeepCleanBackgroundNoise () - שווער הינטערגרונט ראַש באַזייַטיקונג. נאָר נוצן דעם פילטער אין פאַל פון באַקאַנטע עקסטרעם דאָקומענט ראַש איז באַוווסט ווייַל דעם פילטער וועט אויך ריזיקירן רידוסינג די OCR אַקיעראַסי פון ריין דאָקומענטן און איז זייער קפּו טייַער.
  • OcrInput.EnhanceResolution - ימפּרוווז די האַכלאָטע פון בילדער פון נידעריק קוואַליטעט. דער פילטער איז נישט אָפט דארף ווייַל OcrInput.MinimumDPI און OcrInput.TargetDPI וועט אויטאָמאַטיש כאַפּן און באַשליסן ינפּוץ מיט נידעריק האַכלאָטע.

CleanBackgroundNoise. דאָס איז אַ באַשטעטיקן וואָס איז אַ ביסל צייט-קאַנסומינג; אָבער, דאָס אַלאַוז די ביבליאָטעק צו אויטאָמאַטיש רייניקן דיגיטאַל ראַש, פּאַפּיר קראַמפּאַלז און אנדערע ימפּערפעקשאַנז אין אַ דיגיטאַל בילד, וואָס אַנדערש קען נישט זיין לייענען דורך אנדערע אָקר לייברעריז.

EnhanceContrast איז אַ באַשטעטיקן געפֿירט צו די יראָן OCR צו אויטאָמאַטיש פאַרגרעסערן די קאַנטראַסט פון טעקסט קעגן דעם הינטערגרונט פון אַ בילד, ינקריסינג די אַקיעראַסי פון OCR און בכלל פאַרגרעסערן די פאָרשטעלונג און די OCR גיכקייט.

ענהאַנסעסאָלוטיאָן איז אַ באַשטעטיקן וואָס אויטאָמאַטיש דיטעקט בילדער מיט נידעריק האַכלאָטע (אונטער 275 דפּי) און אויטאָמאַטיש אַפּסקייל די בילד און שאַרפּן אַלע טעקסט אַזוי אַז עס קענען זיין לייענען בישליימעס דורך אַן OCR ביבליאָטעק. כאָטש די אָפּעראַציע איז אין זיך צייט-קאַנסומינג, אָבער עס בכלל ראַדוסאַז די קוילעלדיק צייט פֿאַר אַ OCR אָפּעראַציע אויף אַ בילד.

Language Iron OCR שטיצט 22 אינטערנאַציאָנאַלע שפּראַך פּאַקס, און די שפּראַך באַשטעטיקן קענען ווערן גענוצט צו סעלעקטירן איין אָדער מער קייפל שפּראַכן צו זיין געווענדט פֿאַר אַ OCR אָפּעראַציע.

סטראַטעגיע יראָן אָקר שטיצט צוויי סטראַטעגיעס. מיר קענען קלייַבן צו נעמען אַ שנעל און ווייניקער פּינטלעך יבערקוקן פון אַ דאָקומענט, אָדער נוצן אַ אַוואַנסירטע סטראַטעגיע וואָס ניצט עטלעכע קינסטלעך סייכל מאָדעלס צו אויטאָמאַטיש פֿאַרבעסערן די אַקיעראַסי פון די OCR טעקסט דורך די סטאַטיסטיש שייכות פון ווערטער צו יעדער אנדערער אין אַ זאַץ. .

קאָלאָרספּאַסע איז אַ באַשטעטיקן וואָס מיר קענען קלייַבן צו OCR אין גרייַסקאַלע אָדער קאָליר. בכלל, גרייַסקאַלע איז דער בעסטער אָפּציע. אפֿשר ווען עס זענען טעקסטן אָדער באַקגראַונדז פון ענלעך כיו אָבער גאָר אַנדערש קאָליר, אַ פול-קאָליר קאָליר פּלאַץ וועט צושטעלן בעסער רעזולטאַטן.

DetectWhiteTextOnDarkBackgrounds. אין אַלגעמיין, אַלע אָקר לייברעריז דערוואַרטן צו זען שוואַרץ טעקסט אויף ווייַס באַקגראַונדז. די באַשטעטיקן אַלאַוז Iron OCR צו אויטאָמאַטיש דיטעקט נעגאַטיוועס אָדער טונקל בלעטער מיט ווייַס טעקסט און לייענען זיי.

InputImageType. די באַשטעטיקן אַלאַוז די דעוועלאָפּער צו פירן די OCR ביבליאָטעק צי ער קוקט אין אַ פול דאָקומענט אָדער אַ סניפּאַט, אַזאַ ווי אַ סקרעענשאָט.

RotateAndStraighten איז אַ אַוואַנסירטע באַשטעטיקן וואָס אַלאַוז Iron OCR די יינציק פיייקייט צו לייענען דאָקומענטן וואָס זענען נישט בלויז ראָוטייטיד, אָבער טאָמער מיט פּערספּעקטיוו, אַזאַ ווי פאָוטאַגראַפס פון טעקסט דאָקומענטן.

רעאַדבאַרקאָדעס איז אַ נוציק שטריך וואָס אַלאַוז יראָן אָקר צו אויטאָמאַטיש לייענען באַרקאָדעס און QR קאָודז אויף בלעטער ווי עס אויך לייענט טעקסט, אָן אַדינג אַ גרויס נאָך צייט מאַסע.

קאָלאָרדעפּטה. די באַשטעטיקן דיטערמאַנז ווי פילע ביטן פּער פּיקסעל די אָקר ביבליאָטעק וועט נוצן צו באַשליסן די טיף פון אַ קאָליר. א העכער קאָליר טיף קען פאַרגרעסערן די OCR קוואַליטעט, אָבער דאָס וועט אויך פאַרגרעסערן די צייט פֿאַר די OCR אָפּעראַציע.

126 שפּראַך פּאַקס

Iron OCR שטיצט 126 אינטערנאַציאָנאַלע שפּראַכן דורך שפּראַך פּאַקס וואָס זענען פונאנדערגעטיילט ווי דללס וואָס קענען זיין דאַונלאָודיד פֿון דעם וועבזייטל אָדער פֿון NuGet Package Manager .

שפּראַכן אַרייַננעמען דייַטש, פראנצויזיש, ענגליש, כינעזיש, יאַפּאַניש און פילע מער. ספּעציאַליסט שפּראַך פּאַקס יגזיסץ פֿאַר MRZ פּאַס, MICR טשעקס, פינאַנציעל דאַטן, ליסענסע פּלאַטעס און פילע מער. איר קענט אויך נוצן קיין טעססעראַקט ".טראַינעדאַטאַ" טעקע - אַרייַנגערעכנט די זיך איר שאַפֿן.

שפּראַך בייַשפּיל

ניצן אנדערע אָקר שפּראַכן.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// לייג בילד פילטערס אויב איר דאַרפֿן
// אין דעם פאַל, אפילו געדאַנק ינפּוט איז זייער נידעריק קוואַליטעט
// IronTesseract קענען לייענען וואָס קאַנווענשאַנאַל Tesseract קען נישט.

var Result = Ocr.Read(input);

// קאַנסאָול קענען נישט דרוקן אַראַביש אויף ווינדאָוז.
// זאל ס שפּאָרן צו דיסק אַנשטאָט.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// לייג בילד פילטערס אויב איר דאַרפֿן
// אין דעם פאַל, אפילו געדאַנק ינפּוט איז זייער נידעריק קוואַליטעט
// IronTesseract קענען לייענען וואָס קאַנווענשאַנאַל Tesseract קען נישט.

var Result = Ocr.Read(input);

// קאַנסאָול קענען נישט דרוקן אַראַביש אויף ווינדאָוז.
// זאל ס שפּאָרן צו דיסק אַנשטאָט.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' לייג בילד פילטערס אויב איר דאַרפֿן
' אין דעם פאַל, אפילו געדאַנק ינפּוט איז זייער נידעריק קוואַליטעט
' IronTesseract קענען לייענען וואָס קאַנווענשאַנאַל Tesseract קען נישט.

Dim Result = Ocr.Read(input)

' קאַנסאָול קענען נישט דרוקן אַראַביש אויף ווינדאָוז.
' זאל ס שפּאָרן צו דיסק אַנשטאָט.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

קייפל שפּראַך ביישפיל

עס איז אויך מעגלעך צו OCR ניצן קייפל שפּראַכן אין דער זעלביקער צייט. דאָס קען טאַקע העלפֿן צו באַקומען מעטאַדאַטאַ און URL ס אין ענגליש שפּראַך אין אוניקאָד דאָקומענטן.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish);

// מיר קענען לייגן קיין נומער פון שפּראַכן

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish);

// מיר קענען לייגן קיין נומער פון שפּראַכן

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish)

' מיר קענען לייגן קיין נומער פון שפּראַכן

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

דיטיילד אָקר רעזולטאַטן אָבדזשעקץ

יראָן אָקר קערט אַן אָקר רעזולטאַט כייפעץ פֿאַר יעדער אָקר אָפּעראַציע. בכלל, דעוועלאָפּערס נוצן בלויז די טעקסט פאַרמאָג פון דעם כייפעץ צו באַקומען די טעקסט סקאַנד פֿון דעם בילד. אָבער, די OCR רעזולטאַטן DOM איז פיל מער אַוואַנסירטע ווי דאָס.

using IronOcr;
using System.Drawing; //לייג אַסעמבלי רעפערענץ

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! וויכטיק

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// ויספאָרשן דאָ צו געפֿינען אַ מאַסיוו, דיטיילד API:
// - בלעטער, בלאַקס, פּאַראַפאַפס, שורות, ווערטער, טשאַרס
// - בילד אַרויספירן, פאָנץ קאָאָרדינאַטעס, סטאַטיסטיש דאַטע
}
using IronOcr;
using System.Drawing; //לייג אַסעמבלי רעפערענץ

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Yiddish;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! וויכטיק

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// ויספאָרשן דאָ צו געפֿינען אַ מאַסיוו, דיטיילד API:
// - בלעטער, בלאַקס, פּאַראַפאַפס, שורות, ווערטער, טשאַרס
// - בילד אַרויספירן, פאָנץ קאָאָרדינאַטעס, סטאַטיסטיש דאַטע
}
Imports IronOcr
Imports System.Drawing 'לייג אַסעמבלי רעפערענץ

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Yiddish
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! וויכטיק

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' ויספאָרשן דאָ צו געפֿינען אַ מאַסיוו, דיטיילד API:
' - בלעטער, בלאַקס, פּאַראַפאַפס, שורות, ווערטער, טשאַרס
' - בילד אַרויספירן, פאָנץ קאָאָרדינאַטעס, סטאַטיסטיש דאַטע
End Using
VB   C#

פאָרשטעלונג

יראָנאָקר אַרבעט אויס פון די קעסטל אָן פאָרשטעלונג ניגן אָדער שווער מאָדיפיצירן אַרייַנשרייַב בילדער.

Speed is Blazing: IronOcr.2020 + איז אַרויף צו 10 מאל פאַסטער און מאכט איבער 250% ווייניקער ערראָרס ווי פריערדיקע בילדער.

לערן מער

צו לערנען מער וועגן OCR אין C #, VB, F # אָדער קיין אנדערע .NET שפּראַך, ביטע לייענען אונדזער קאַמיוניטי טוטאָריאַלז , וואָס געבן פאַקטיש ביישפילן פון ביישפּיל ווי אייַזן OCR קענען ווערן גענוצט און קען ווייַזן די נואַנסיז ווי איר באַקומען די בעסטער פון דעם ביבליאָטעק.

א פולשטענדיק כייפעץ דערמאָנען פֿאַר. NET דעוועלאָפּערס איז אויך בנימצא.