יידישער OCR אין C# און .NET
אנדערע ווערסיעס פון דעם דאקומענט:
IronOCR איז א C# ווייכווארג קאמפאנענט וואס אלאוז .NET קאדערס צו לייענען טעקסט פון בילדער און PDF דאקומענטן אין 126 שפראך, אריינגערעכנט יידיש.
עס איז א אוואנסירטע גאפל פון טעססעראקט, געבויט אויסשליסלעך פאר .NET דעוועלאפערס און קעסיידער פערפארמז אנדערע טעססעראקט ענדזשאנז פאר גיכקייט און אקיעראסי.
אינהאלט פון IronOcr.Languages.Yiddish
דער פעקל כולל 46 OCR שפראכן פאר .NET:
- יידיש
- Yiddish בעסטער
- YiddishFast
אראפקאפיע
יידיש שפראך פאק [יידיש]
* Download as זיפ
* Install with https://www.nuget.org/packages/IronOcr.Languages.Yiddish/ NuGet
ינסטאללאטיאן
דער ערשטער זאך וואס מיר דארפן צו טאן איז צו ינסטאלירן אונדזעריידיש OCR פעקל צו דיין .NET פרויעקט.
PM> Install-Package IronOCR.Languages.Yiddish
קאדעקס עקסאמפלע
דעם ביישפיל פון C# קאד לייענט יידיש טעקסט פון א בילד אדער PDF דאקומענט.
// PM> Install-Package IronOcr.Languages.Yiddish
using IronOcr;
var Ocr = new IronTesseract();
// Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Create an OCR input for the image
using (var Input = new OcrInput(@"images\Yiddish.png"))
{
// Perform OCR on the input image
var Result = Ocr.Read(Input);
// Extract the text from the OCR result
var AllText = Result.Text;
}
// PM> Install-Package IronOcr.Languages.Yiddish
using IronOcr;
var Ocr = new IronTesseract();
// Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Create an OCR input for the image
using (var Input = new OcrInput(@"images\Yiddish.png"))
{
// Perform OCR on the input image
var Result = Ocr.Read(Input);
// Extract the text from the OCR result
var AllText = Result.Text;
}
' PM> Install-Package IronOcr.Languages.Yiddish
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
' Create an OCR input for the image
Using Input = New OcrInput("images\Yiddish.png")
' Perform OCR on the input image
Dim Result = Ocr.Read(Input)
' Extract the text from the OCR result
Dim AllText = Result.Text
End Using
פארוואס קלייבן IronOCR?
אייזן אקר איז אן גרינג-צו-ינסטאלירן, גאנץ און געזונט-דאקיאמענאד. נעץ ווייכווארג ביבליאטעק.
סעלעקטירן IronOCR צו דערגרייכן 99.8% + אקר אקיעראסי אן ניצן פונדרויסנדיק וועב באדינונגס, אנגאינג פיז אדער שיקן קאנפאדענשאל דאקומענטן איבער דער אינטערנעץ.
פארוואס C# דעוועלאפערס קלייבן IronOCR איבער Vanilla Tesseract:
- ינסטאלירן ווי א איין דלל אדער נוגעט
- כולל פאר טעססעראקט 5, 4 און 3 ענדזשאנז.
- 99.8% אקיעראסי וואס איז באטייטיק העכער ווי רעגולער טעססעראקט.
- בלייזינג ספיד און מולטיטהרעאדינג
- קאמפאטאבאל MVC, WebApp, דעסקטאפ, קאנסאול & סערווירער אפפליקאטיאן
- קיין עקסעס אדער C ++ קאד צו ארבעטן מיט
- גאנץ פדף אקר שטיצן
- צו דורכפירן OCR כמעט קיין בילד טעקע אדער PDF
- גאנץ. נעט קאר, סטאנדארד און פריימווארק שטיצן
- צעוויקלען אויף Windows, Mac, Linux, Azure, Docker, Lambda, AWS
- לייענען בארקאדעס און QR קאודז
- ארויספירן OCR ווי צו XHTML
- ארויספירן אקר צו סעארטשאבלע פדף דאקומענטן
- מולטיטהרעאדינג שטיצן
- 126 אינטערנאציאנאלע שפראכן אלע געראטן דורך NuGet אדער OcrData טעקעס
- עקסטראקט בילדער, קאארדינאטעס, סטאטיסטיק און פאנץ. ניט נאר טעקסט.
- קען זיין געניצט צו רידיסטריביוטינג Tesseract OCR אין געשעפט און פראפרייאטערי אפלאקיישאנז.
פרעסן אקר שיינט ווען ארבעטן מיט פאקטיש וועלט בילדער און אימפערפעקט דאקומענטן אזא ווי פאוטאגראפס, אדער סקאנז פון נידעריק האחלאטע וואס קען האבן דיגיטאל ראש אדער אימפערפעקשאנז.
אנטשולדיקט, פריי אקר לייברעריז פאר .NET פלאטפארמע אזא ווי. נעץ טעססעראקט אפיס און וועב סערוויסעס טאן ניט דורכפירן אזוי גוט אין די פאקטיש וועלט נוצן קאסעס.
OCR מיט Tesseract 5 - אנהייב קאדירונג אין C#
די קאד מוסטער אונטן ווייזט ווי גרינג עס איז צו לייענען טעקסט פון א בילד ניצן C# אדער VB .NET.
אנעלינער
// Reads text from image using a single line
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
// Reads text from image using a single line
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
' Reads text from image using a single line
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
קאנפיגוראבלע העלא וועלט
// PM> Install-Package IronOCR.Languages.Yiddish
using IronOcr;
var Ocr = new IronTesseract();
// Setting the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Create a new OCR input and add images
using (var Input = new OcrInput())
{
Input.AddImage("images/sample.jpeg");
//... איר קענען לייגן קיין נומער פון בילדער
var Result = Ocr.Read(Input);
// Print the OCR result text to the console
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Yiddish
using IronOcr;
var Ocr = new IronTesseract();
// Setting the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Create a new OCR input and add images
using (var Input = new OcrInput())
{
Input.AddImage("images/sample.jpeg");
//... איר קענען לייגן קיין נומער פון בילדער
var Result = Ocr.Read(Input);
// Print the OCR result text to the console
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Yiddish
Imports IronOcr
Private Ocr = New IronTesseract()
' Setting the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
' Create a new OCR input and add images
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg")
'... איר קענען לייגן קיין נומער פון בילדער
Dim Result = Ocr.Read(Input)
' Print the OCR result text to the console
Console.WriteLine(Result.Text)
End Using
C# פדף אקר
דער זעלביקער צוגאנג קענען זיין סימילארלי געניצט צו עקסטראקט טעקסט פון קיין PDF דאקומענט.
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;
// Create a new OCR input for PDF
using (var input = new OcrInput())
{
// Add PDF and specify password if needed
input.AddPdf("example.pdf", "password");
// Perform OCR on the PDF document
var Result = Ocr.Read(input);
// Print extracted text and page count
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 בלאט פאר יעדער בלאט פון דעם PDF
}
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;
// Create a new OCR input for PDF
using (var input = new OcrInput())
{
// Add PDF and specify password if needed
input.AddPdf("example.pdf", "password");
// Perform OCR on the PDF document
var Result = Ocr.Read(input);
// Print extracted text and page count
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 בלאט פאר יעדער בלאט פון דעם PDF
}
Dim Ocr = New IronTesseract()
' Set language for OCR
Ocr.Language = OcrLanguage.Yiddish
' Create a new OCR input for PDF
Using input = New OcrInput()
' Add PDF and specify password if needed
input.AddPdf("example.pdf", "password")
' Perform OCR on the PDF document
Dim Result = Ocr.Read(input)
' Print extracted text and page count
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 בלאט פאר יעדער בלאט פון דעם PDF
End Using
OCR פאר MultiPage TIFFs
OCR רידינג TIFF טעקע פארמאט אריינגערעכנט קייפל בלאט דאקומענטן. TIFF קענען אויך זיין קאנווערטעד גלייך אין א פדף טעקע מיט סעארטשאבלע טעקסט.
using IronOcr;
var Ocr = new IronTesseract();
// Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Create a new OCR input for the TIFF image
using (var Input = new OcrInput())
{
Input.AddMultiFrameTiff("multi-frame.tiff");
var Result = Ocr.Read(Input);
// Output the OCR result
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Create a new OCR input for the TIFF image
using (var Input = new OcrInput())
{
Input.AddMultiFrameTiff("multi-frame.tiff");
var Result = Ocr.Read(Input);
// Output the OCR result
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
' Create a new OCR input for the TIFF image
Using Input = New OcrInput()
Input.AddMultiFrameTiff("multi-frame.tiff")
Dim Result = Ocr.Read(Input)
' Output the OCR result
Console.WriteLine(Result.Text)
End Using
בארקאדעס און QR
א יינציק שטריך פון IronOCR איז אז עס קענען לייענען בארקאדעס און QR קאודז פון דאקומענטן בשעת עס סקאנינג פאר טעקסט. ינסטאנסיז פון די OcrResult.OcrBarcode
קלאס געבן די דעוועלאפער דיטיילד אינפארמאציע וועגן יעדער סקאנד בארקאדע.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true; // Enable barcode reading
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
// Print each barcode value
Console.WriteLine(Barcode.Value);
// טיפ און ארט פראפערטיעס אויך יקספאוזד
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true; // Enable barcode reading
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
// Print each barcode value
Console.WriteLine(Barcode.Value);
// טיפ און ארט פראפערטיעס אויך יקספאוזד
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True ' Enable barcode reading
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
' Print each barcode value
Console.WriteLine(Barcode.Value)
' טיפ און ארט פראפערטיעס אויך יקספאוזד
Next Barcode
End Using
OCR אויף ספעציפיש ארעאס פון בילדער
אלע סקאנינג און לייענען מעטהאדס פון IronOCR צושטעלן די פיייקייט פונקט פון וואס טייל פון א בלאט אדער בלעטער מיר ווילן צו לייענען טעקסט. דאס איז זייער נוציק ווען מיר קוקן אין סטאנדערדייזד פארמען און קענען שפארן שרעקלעך צייט און פארבעסערן עפעקטיווקייט.
צו נוצן גערעטעניש געגנטן, מיר דארפן צו לייגן א סיסטעם באווייזן צו System.Drawing
אזוי אז מיר קענען נוצן די System.Drawing.Rectangle
כייפעץ.
using IronOcr;
using System.Drawing; // Required for Rectangle
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput())
{
// Define the specific area to scan within the image
var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Add image with defined content area
Input.Add("document.png", ContentArea);
// Perform OCR and output the result
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
using System.Drawing; // Required for Rectangle
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput())
{
// Define the specific area to scan within the image
var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Add image with defined content area
Input.Add("document.png", ContentArea);
// Perform OCR and output the result
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Imports System.Drawing ' Required for Rectangle
Private Ocr = New IronTesseract()
' Set language for OCR
Ocr.Language = OcrLanguage.Yiddish
Using Input = New OcrInput()
' Define the specific area to scan within the image
Dim ContentArea = New Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Add image with defined content area
Input.Add("document.png", ContentArea)
' Perform OCR and output the result
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR פאר סקאנז מיט נידעריק קוואליטעט
די IronOCR OcrInput
קלאס קענען פארריכטן סקאנז וואס נארמאל טעססעראקט קען נישט לייענען.
using IronOcr;
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;
// Create OCR input for the low-quality scan
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // Fixes digital noise and scan quality
Input.Deskew(); // Fixes rotation and perspective
// Perform OCR and print the result text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
// Set language for OCR
Ocr.Language = OcrLanguage.Yiddish;
// Create OCR input for the low-quality scan
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // Fixes digital noise and scan quality
Input.Deskew(); // Fixes rotation and perspective
// Perform OCR and print the result text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set language for OCR
Ocr.Language = OcrLanguage.Yiddish
' Create OCR input for the low-quality scan
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' Fixes digital noise and scan quality
Input.Deskew() ' Fixes rotation and perspective
' Perform OCR and print the result text
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
ארויספירן OCR רעזולטאטן ווי א סעארטשאבלע פדף
בילד צו פדף מיט קאפיראבאל טעקסט סטרינגס. קען זיין ינדעקסט דורך זוכן ענדזשאנז און דאטאבייסיז.
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput())
{
// Set the title for the PDF
Input.Title = "Quarterly Report";
// Add images to OCR input
Input.AddImage("image1.jpeg");
Input.AddImage("image2.png");
Input.AddImage("image3.gif");
// Read the input and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput())
{
// Set the title for the PDF
Input.Title = "Quarterly Report";
// Add images to OCR input
Input.AddImage("image1.jpeg");
Input.AddImage("image2.png");
Input.AddImage("image3.gif");
// Read the input and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
Using Input = New OcrInput()
' Set the title for the PDF
Input.Title = "Quarterly Report"
' Add images to OCR input
Input.AddImage("image1.jpeg")
Input.AddImage("image2.png")
Input.AddImage("image3.gif")
' Read the input and save as a searchable PDF
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
TIFF צו סעארטשאבלע PDF קאנווערסיאן
קאנווערט א TIFF דאקומענט (אדער קיין גרופע פון בילד טעקעס) גלייך צו א סעארטשאבלע PDF וואס קענען זיין ינדעקסט דורך ינטראנעט, וועבזייטל און Google זוך ענדזשאנז.
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput())
{
// Add multi-frame TIFF to input
Input.AddMultiFrameTiff("example.tiff");
// Read the input and save as a searchable PDF
var Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput())
{
// Add multi-frame TIFF to input
Input.AddMultiFrameTiff("example.tiff");
// Read the input and save as a searchable PDF
var Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
Using Input = New OcrInput()
' Add multi-frame TIFF to input
Input.AddMultiFrameTiff("example.tiff")
' Read the input and save as a searchable PDF
Dim Result = Ocr.Read(Input).SaveAsSearchablePdf("searchable.pdf")
End Using
ארויספירן OCR רעזולטאטן ווי HTML
OCR בילד צו XHTML קאנווערזשאן.
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput())
{
// Set the title for the HTML result
Input.Title = "Html Title";
// Add images to be OCR'd
Input.AddImage("image1.jpeg");
// Perform OCR on the input and save as HTML
var Result = Ocr.Read(Input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput())
{
// Set the title for the HTML result
Input.Title = "Html Title";
// Add images to be OCR'd
Input.AddImage("image1.jpeg");
// Perform OCR on the input and save as HTML
var Result = Ocr.Read(Input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
Using Input = New OcrInput()
' Set the title for the HTML result
Input.Title = "Html Title"
' Add images to be OCR'd
Input.AddImage("image1.jpeg")
' Perform OCR on the input and save as HTML
Dim Result = Ocr.Read(Input)
Result.SaveAsHocrFile("results.html")
End Using
אקר בילד ענכאנסמאנט פילטערס
IronOCR פראווידעס יינציק פילטערס פאר OcrInput
אבדזשעקץ צו פארבעסערן OCR פארשטעלונג.
בילד ענהאנסעמענט קאוד ביישפיל
מאכט אקר אריינשרייב בילדער העכער קוואליטעט צו פראדוצירן בעסער, פאסטער אקר רעזולטאטן.
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
// Apply filters to improve OCR
Input.DeNoise(); // Fixes digital noise and poor scanning
Input.Deskew(); // Fixes rotation and perspective
// Perform OCR and print the result
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
// Apply filters to improve OCR
Input.DeNoise(); // Fixes digital noise and poor scanning
Input.Deskew(); // Fixes rotation and perspective
// Perform OCR and print the result
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
Using Input = New OcrInput("LowQuality.jpeg")
' Apply filters to improve OCR
Input.DeNoise() ' Fixes digital noise and poor scanning
Input.Deskew() ' Fixes rotation and perspective
' Perform OCR and print the result
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
רשימה פון אקר בילד פילטערס
ינפוט פילטערס צו פארבעסערן די OCR פארשטעלונג וואס זענען געבויט אין IronOCR:
- OcrInput.Rotate (טאפל דיגריז) - דרייען בילדער דורך א נומער פון דיגריז קלאקווייז. ניצן נעגאטיוו נומערן פאר אנטי-קלאקווייז.
- OcrInput.Binarize () - דעם בילד פילטער טורנס יעדער פיקסעל שווארץ אדער ווייס אן מיטל ערד. קען פארבעסערן OCR פארשטעלונג קאסעס פון זייער נידעריק קאנטראסט פון טעקסט צו הינטערגרונט.
- OcrInput.ToGrayScale () - דעם בילד פילטער טורנס יעדער פיקסעל אין א שאטן פון גרייסקאלע. אנלייקלי צו פארבעסערן OCR אקיעראסי אבער קען פארבעסערן גיכקייט.
- OcrInput.Contrast () - ינקרעאסיז קאנטראסט אויטאמאטיש. דער פילטער אפט ימפרוווז אקר גיכקייט און אקיעראסי אין סקאנדז מיט נידעריק קאנטראסט.
- OcrInput.DeNoise () - רימוווז דיגיטאל ראש. דער פילטער זאל זיין געניצט בלויז ווו געריכט איז געריכט.
- OcrInput.Invert () - ינווערץ יעדער קאליר. למשל, ווייס ווערט שווארץ: שווארץ ווערט ווייס.
- OcrInput.Dilate () - אוואנסירטע מארפאלאגי. דילאטיאן מוסיף בילדצעלן צו די באונדריז פון אבדזשעקץ אין א בילד. פארקערט פון עראדע.
- OcrInput.Erode () - אוואנסירטע מארפאלאגי. יראוזשאן רימוווז בילדצעלן אויף כייפעץ באונדריז קעגן דילאטע.
- OcrInput.Deskew () - ראוטייץ א בילד אזוי עס איז די רעכט וועג ארויף און ארטאגאנאל. דאס איז זייער נוציק פאר OCR ווייל טעססעראקט טאלעראנץ פאר סקיוזד סקאנז קענען זיין ווי נידעריק ווי 5 דיגריז.
- OcrInput.DeepCleanBackgroundNoise () - שווער הינטערגרונט ראש באזייטיקונג. נאר נוצן דעם פילטער אין פאל פון באקאנטע עקסטרעם דאקומענט ראש איז באוווסט, ווייל דעם פילטער וועט אויך ריזיקירן רידוסינג די OCR אקיעראסי פון ריין דאקומענטן און איז זייער קפו טייער.
- OcrInput.EnhanceResolution - ימפרוווז די האכלאטע פון בילדער פון נידעריק קוואליטעט. דער פילטער איז נישט אפט דארף ווייל OcrInput.MinimumDPI און OcrInput.TargetDPI וועט אויטאמאטיש כאפן און באשליסן ינפוץ מיט נידעריק האכלאטע.
CleanBackgroundNoise. דאס איז א באשטעטיקן וואס איז א ביסל צייט-קאנסומינג; אבער, דאס אלאוז די ביבליאטעק צו אויטאמאטיש רייניקן דיגיטאל ראש, פאפיר קראמפאלז און אנדערע ימפערפעקשאנז אין א דיגיטאל בילד, וואס אנדערש קען נישט זיין לייענען דורך אנדערע אקר לייברעריז.
EnhanceContrast איז א באשטעטיקן געפירט צו די יראן OCR צו אויטאמאטיש פארגרעסערן די קאנטראסט פון טעקסט קעגן דעם הינטערגרונט פון א בילד, ינקריסינג די אקיעראסי פון OCR און בכלל פארגרעסערן די פארשטעלונג און די OCR גיכקייט.
ענהאנסעסאלוטיאן איז א באשטעטיקן וואס אויטאמאטיש דיטעקט בילדער מיט נידעריק האכלאטע (אונטער 275 דפי) און אויטאמאטיש אפסקייל די בילד און שארפן אלע טעקסט אזוי אז עס קען זיין לייענען בישליימעס דורך אן OCR ביבליאטעק. כאטש די אפעראציע איז אין זיך צייט-קאנסומינג, אבער עס בכלל ראדוסאז די קוילעלדיק צייט פאר א OCR אפעראציע אויף א בילד.
Language IronOCR שטיצט 22 אינטערנאציאנאלע שפראך פאקס, און די שפראך באשטעטיקן קענען ווערן גענוצט צו סעלעקטירן איין אדער מער קייפל שפראכן צו זיין געווענדט פאר א OCR אפעראציע.
סטראטעגיע יראן אקר שטיצט צוויי סטראטעגיעס. מיר קענען קלייבן צו נעמען א שנעל און ווייניקער פינטלעך יבערקוקן פון א דאקומענט, אדער נוצן א אוואנסירטע סטראטעגיע וואס ניצט עטלעכע קינסטלעך סייכל מאדעלס צו אויטאמאטיש פארבעסערן די אקיעראסי פון די OCR טעקסט דורך די סטאטיסטיש שייכות פון ווערטער צו יעדער אנדערער אין א זאץ.
קאלארספאסע איז א באשטעטיקן וואס מיר קענען קלייבן צו OCR אין גרייסקאלע אדער קאליר. בכלל, גרייסקאלע איז דער בעסטער אפציע. אפשר ווען עס זענען טעקסטן אדער באקגראונדז פון ענלעך כיו אבער גאר אנדערש קאליר, א פול-קאליר קאליר פלאץ וועט צושטעלן בעסער רעזולטאטן.
DetectWhiteTextOnDarkBackgrounds. אין אלגעמיין, אלע אקר לייברעריז דערווארטן צו זען שווארץ טעקסט אויף ווייס באקגראונדז. די באשטעטיקן אלאוז IronOCR צו אויטאמאטיש דיטעקט נעגאטיוועס אדער טונקל בלעטער מיט ווייס טעקסט און לייענען זיי.
InputImageType. די באשטעטיקן אלאוז די דעוועלאפער צו פירן די OCR ביבליאטעק צי ער קוקט אין א פול דאקומענט אדער א סניפאט, אזא ווי א סקרעענשאט.
RotateAndStraighten איז א אוואנסירטע באשטעטיקן וואס אלאוז IronOCR די יינציק פיייקייט צו לייענען דאקומענטן וואס זענען נישט בלויז ראוטייטיד, אבער טאמער מיט פערספעקטיוו, אזא ווי פאוטאגראפס פון טעקסט דאקומענטן.
רעאדבארקאדעס איז א נוציק שטריך וואס אלאוז יראן אקר צו אויטאמאטיש לייענען בארקאדעס און QR קאודז אויף בלעטער ווי עס אויך לייענט טעקסט, אן אדינג א גרויס נאך צייט מאסע.
קאלארדעפטה. די באשטעטיקן דיטערמאנז ווי פילע ביטן פער פיקסעל די אקר ביבליאטעק וועט נוצן צו באשליסן די טיף פון א קאליר. א העכער קאליר טיף קען פארגרעסערן די OCR קוואליטעט, אבער דאס וועט אויך פארגרעסערן די צייט פאר די OCR אפעראציע.
126 שפראך פאקס
IronOCR שטיצט 126 אינטערנאציאנאלע שפראכן דורך שפראך פאקס וואס זענען פונאנדערגעטיילט ווי דללס וואס קענען זיין דאונלאודיד פון דעם וועבזייטל אדער פון NuGet Package Manager.
שפראכן ארייננעמען דייטש, פראנצויזיש, ענגליש, כינעזיש, יאפאניש און פילע מער. ספעציאליסט שפראך פאקס יגזיסץ פאר MRZ פאס, MICR טשעקס, פינאנציעל דאטן, ליסענסע פלאטעס און פילע מער. איר קענט אויך נוצן קיין טעססעראקט ".טראינעדאטא" טעקע - אריינגערעכנט די זיך איר שאפן.
שפראך ביישפיל
ניצון אנדערע אקר שפראכן.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
// Set the OCR language to Arabic
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Apply image filters if needed
// IronTesseract can read what conventional Tesseract cannot
var Result = Ocr.Read(input);
// Console cannot print Arabic on Windows, so save to disk instead
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
// Set the OCR language to Arabic
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Apply image filters if needed
// IronTesseract can read what conventional Tesseract cannot
var Result = Ocr.Read(input);
// Console cannot print Arabic on Windows, so save to disk instead
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
' Set the OCR language to Arabic
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Apply image filters if needed
' IronTesseract can read what conventional Tesseract cannot
Dim Result = Ocr.Read(input)
' Console cannot print Arabic on Windows, so save to disk instead
Result.SaveAsTextFile("arabic.txt")
End Using
קייפל שפראך ביישפיל
עס איז אויך מעגלעך צו OCR ניצן קייפל שפראכן אין דער זעלביקער צייט. דאס קען טאקע העלפן צו באקומען מעטאדאטא און URL ס אין ענגליש שפראך אין אוניקאד דאקומענטן.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
// Set primary OCR language to Chinese Simplified
Ocr.Language = OcrLanguage.ChineseSimplified;
// Add secondary language
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish);
// Add as many languages as needed
using (var input = new OcrInput())
{
input.Add("multi-language.pdf");
var Result = Ocr.Read(input);
// Save OCR results to a text file
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
// Set primary OCR language to Chinese Simplified
Ocr.Language = OcrLanguage.ChineseSimplified;
// Add secondary language
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish);
// Add as many languages as needed
using (var input = new OcrInput())
{
input.Add("multi-language.pdf");
var Result = Ocr.Read(input);
// Save OCR results to a text file
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
' Set primary OCR language to Chinese Simplified
Ocr.Language = OcrLanguage.ChineseSimplified
' Add secondary language
Ocr.AddSecondaryLanguage(OcrLanguage.Yiddish)
' Add as many languages as needed
Using input = New OcrInput()
input.Add("multi-language.pdf")
Dim Result = Ocr.Read(input)
' Save OCR results to a text file
Result.SaveAsTextFile("results.txt")
End Using
דיטיילד אקר רעזולטאטן אבדזשעקץ
יראן אקר קערט אן אקר רעזולטאט כייפעץ פאר יעדער אקר אפעראציע. בכלל, דעוועלאפערס נוצן בלויז די טעקסט פארמויג פון דעם כייפעץ צו באקומען די טעקסט סקאנד פון דעם בילד. אבער, די OCR רעזולטאטן DOM איז פיל מער אוואנסירטע ווי דאס.
using IronOcr;
using System.Drawing; // include System.Drawing namespace to work with Rectangle
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Set OCR engine mode
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
// Enable barcode reading
Ocr.Configuration.ReadBarCodes = true;
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages; // get all pages
var Words = Pages[0].Words; // get words from the first page
var Barcodes = Result.Barcodes; // get all scanned barcodes
// Explore to find a massive, detailed API:
// - Pages, Blocks, Paragraphs, Lines, Words, Chars
// - Image Export, Fonts Coordinates, Statistical Data
}
using IronOcr;
using System.Drawing; // include System.Drawing namespace to work with Rectangle
var Ocr = new IronTesseract();
// Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish;
// Set OCR engine mode
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
// Enable barcode reading
Ocr.Configuration.ReadBarCodes = true;
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages; // get all pages
var Words = Pages[0].Words; // get words from the first page
var Barcodes = Result.Barcodes; // get all scanned barcodes
// Explore to find a massive, detailed API:
// - Pages, Blocks, Paragraphs, Lines, Words, Chars
// - Image Export, Fonts Coordinates, Statistical Data
}
Imports IronOcr
Imports System.Drawing ' include System.Drawing namespace to work with Rectangle
Private Ocr = New IronTesseract()
' Set the OCR language to Yiddish
Ocr.Language = OcrLanguage.Yiddish
' Set OCR engine mode
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
' Enable barcode reading
Ocr.Configuration.ReadBarCodes = True
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages ' get all pages
Dim Words = Pages(0).Words ' get words from the first page
Dim Barcodes = Result.Barcodes ' get all scanned barcodes
' Explore to find a massive, detailed API:
' - Pages, Blocks, Paragraphs, Lines, Words, Chars
' - Image Export, Fonts Coordinates, Statistical Data
End Using
פארשטעלונג
יראנאקר ארבעט אויס פון די קעסטל אן פארשטעלונג ניגן אדער שווער מאדיפיצירן אריינשרייב בילדער.
Speed is Blazing: IronOcr.2020 + איז ארויף צו 10 מאל פאסטער און מאכט איבער 250% ווייניקער עררארס ווי פריערדיקע בילדער.
לערן מער
צו לערנען מער וועגן OCR אין C#, VB, F# אדער קיין אנדערע .NET שפראך, ביטע לייענען אונדזער קאמיוניטי טוטאריאלז, וואס געבן פאקטיש ביישפילן פון ביישפיל ווי אייזן OCR קענען ווערן גענוצט און קען ווייזן די נואנסיז ווי איר באקומען די בעסטער פון דעם ביבליאטעק.
א פולשטעקנדיקער כייפעץ דערמאנען פאר .NET דעוועלאפערס איז אויך בנימצא.