Македонски OCR во C#и .Net

Други верзии на овој документ:

IronOCR е компонента на софтвер C#што им овозможува на .NET кодерите да читаат текст од слики и PDF документи на 126 јазик, вклучително и македонски.

Тоа е напредна вилушка на Tesseract, изградена исклучиво за .NET развивачите и редовно ги надминува другите Tesseract мотори и за брзина и за точност.

Содржина на IronOcr.Јазиците.македонски

Овој пакет содржи 55 јазици на OCR за .NET:

  • Македонски
  • MacedonianBest
  • MacedonianFast

Преземи

Пакет за македонски јазик [македонски јазик]
* Download as Поштенски
* Install with as
https://www.nuget.org/packages/IronOcr.Languages.Macedonian/'> NuGet

Инсталација

Првото нешто што треба да направиме е да го инсталираме нашиот македонски пакет OCR во вашиот .NET проект.

PM> Install-Package IronOCR.Languages.Macedonian

Пример за код

Овој пример со код C#чита македонски текст од документ за слика или PDF.

//PM> Install-Package IronOcr.Languages.Macedonian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
using (var Input = new OcrInput(@"images\Macedonian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Macedonian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
using (var Input = new OcrInput(@"images\Macedonian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Macedonian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian
Using Input = New OcrInput("images\Macedonian.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Зошто да изберете IronOCR?

Iron OCR е лесна за инсталација, комплетна и добро документирана .NET софтверска библиотека.

Изберете IronOCR за да постигнете 99,8% + OCR точност без употреба на надворешни веб-услуги, постојани такси или испраќање доверливи документи преку Интернет.

Зошто програмерите на C#избираат IronOCR наместо Vanilla Tesseract:

  • Инсталирајте како единствена DLL или Nuget
  • Вклучува мотори Tesseract 5, 4 и 3 надвор од кутијата.
  • Точност 99,8% значително го надминува редовниот Tesseract.
  • Брзина на светлината и мулти-нишка
  • Компатибилна со MVC, WebApp, Desktop, Console & Server апликација
  • Нема Exes или C ++ код за работа
  • Целосна PDF OCR поддршка
  • Да извршите OCR скоро секоја датотека со слика или PDF
  • Целосна .Net Core, Standard и FrameWork поддршка
  • Распоредување на Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Прочитајте баркодови и QR-кодови
  • Извоз на OCR како на XHTML
  • Изведете OCR во PDF документи што може да се пребаруваат
  • Поддршка за повеќе нишки
  • Со 126 меѓународни јазици управувано преку датотеките Nuget или OcrData
  • Извлечете слики, координати, статистика и фонтови. Не само текст.
  • Може да се користи за прераспределба на Tesseract OCR во комерцијални и сопственички апликации.

Ironелезниот OCR сјае кога работите со реални слики и несовршени документи, како што се фотографии, или скенирања со ниска резолуција што може да имаат дигитален шум или несовршености.

Другите бесплатни библиотеки на OCR за .NET платформата, како што се другите API-мрежи и мрежни услуги на NET не функционираат толку добро во овие случаи на употреба во реалниот свет.

OCR со Tesseract 5 - започнете со кодирање во C #

Примерокот со код подолу покажува колку е лесно да се чита текст од слика со помош на C#или VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Конфигурирање Здраво на светот

// PM> Install-Package IronOCR.Languages.Macedonian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... можете да додадете кој било број на слики
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Macedonian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... можете да додадете кој било број на слики
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Macedonian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Истиот пристап може слично да се искористи за да се извлече текст од кој било PDF документ.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Ние исто така можеме да избереме броеви на специфични PDF страници во OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 страница за секоја страница од PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Ние исто така можеме да избереме броеви на специфични PDF страници во OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 страница за секоја страница од PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Ние исто така можеме да избереме броеви на специфични PDF страници во OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 страница за секоја страница од PDF
End Using
VB   C#

OCR за повеќе страници TIFF

ОЦЦ читање формат на датотека TIFF, вклучувајќи повеќе страни документи. TIFF исто така може да се претвори директно во PDF-датотека со текст што може да се пребарува.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Баркодови и QR

Единствена карактеристика на Iron OCR е тоа што може да чита баркодови и QR-кодови од документи додека скенира за текст. Инстанци од класата OcrResult.OcrBarcode му даваат на инвеститорот детални информации за секој скениран баркод.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// видот и својствата на локацијата исто така се изложени
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// видот и својствата на локацијата исто така се изложени
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' видот и својствата на локацијата исто така се изложени
Next Barcode
End Using
VB   C#

OCR на специфични области на слики

Сите методи на скенирање и читање на Ironелезниот OCR обезбедуваат можност точно да одредите од кој дел од страницата или страниците сакаме да читаме текст. Ова е многу корисно кога разгледуваме стандардизирани форми и може да заштедиме многу време и да ја подобриме ефикасноста.

За да користиме региони за сечење, ќе треба да додадеме системска референца на System.Drawing за да можеме да го користиме објектот System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Димензиите се во px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Димензиите се во px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Димензиите се во px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR за скенирање со низок квалитет

OcrInput OCR OcrInput класа може да поправи скенирање што нормалното Tesseract не може да ги прочита.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // поправа дигитален шум и слабо скенирање
Input.Deskew(); // ги поправа ротацијата и перспективата
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // поправа дигитален шум и слабо скенирање
Input.Deskew(); // ги поправа ротацијата и перспективата
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' поправа дигитален шум и слабо скенирање
Input.Deskew() ' ги поправа ротацијата и перспективата
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Извоз на резултати од OCR како PDF што може да се пребарува

Слика во PDF со текстуални низи што може да се копираат. Може да се индексира од пребарувачите и базите на податоци.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF конверзија во PDF со пребарување

Свртете документ TIFF (или која било група датотеки со слика) директно во PDF што може да се пребарува, а може да се индексира преку интранет, веб-страница и машини за пребарување на Google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Извоз на резултати од OCR како HTML

Конверзија на слика на OCR во XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Филтри за подобрување на сликата OCR

IronOCR обезбедува уникатни филтри за објектите на OcrInput за подобрување на перформансите на OCR.

Пример за код за подобрување на сликата

Ги прави влезните слики на OCR повисок квалитет за да произведе подобри, побрзи резултати на OCR.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // поправа дигитален шум и слабо скенирање
Input.Deskew(); // ги поправа ротацијата и перспективата
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // поправа дигитален шум и слабо скенирање
Input.Deskew(); // ги поправа ротацијата и перспективата
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' поправа дигитален шум и слабо скенирање
Input.Deskew() ' ги поправа ротацијата и перспективата
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Список на филтри за слики на OCR

Влезните филтри за подобрување на перформансите на OCR кои се вградени во IronOCR вклучуваат:

  • OcrInput. Ротирај (двојни степени) - Ротира слики за голем број степени во насока на стрелките на часовникот. За анти-стрелките на часовникот, користете негативни броеви.
  • OcrInput.Binarize () - Овој филтер за слики го претвора секој пиксел во црно-бело без средно решение. Може да ги подобри случаите на изведба на OCR со многу мал контраст на текстот со позадината.
  • OcrInput.ToGrayScale () - Овој филтер за слики го претвора секој пиксел во нијанса на сива скала. Веројатно нема да ја подобри точноста на OCR, но може да ја подобри брзината
  • OcrInput.Contrast () - автоматски го зголемува контрастот. Овој филтер често ја подобрува брзината и точноста на OCR при скенирање со низок контраст.
  • OcrInput.DeNoise () - го отстранува дигиталниот шум. Овој филтер треба да се користи само таму каде што се очекува бучава.
  • OcrInput.Invert () - Ја превртува секоја боја. На пр. Белата станува црна: црната станува бела.
  • OcrInput.Dilate () - Напредна морфологија. Проширувањето додава пиксели на границите на објектите на сликата. Наспроти Ероде
  • OcrInput.Erode () - Напредна морфологија. Ерозијата ги отстранува пикселите на границите на предметите Спроти Дилататот
  • OcrInput.Deskew () - Ротира слика, така што тоа е вистинскиот пат нагоре и ортогонално. Ова е многу корисно за OCR затоа што толеранцијата на Тесеракт за искривени скенирања може да биде до 5 степени.
  • OcrInput.DeepCleanBackgroundNoise () - Отстранување на бучавата во тешка позадина. Користете го овој филтер само во случај да е познат екстремен шум на позадината на документот, бидејќи овој филтер исто така ризикува да ја намали точноста на OCR на чистите документи и е многу скап за процесорот.
  • OcrInput.EnhanceResolution - Ја подобрува резолуцијата на слики со низок квалитет. Овој филтер не е често потребен затоа што OcrInput.MinimumDPI и OcrInput.TargetDPI автоматски ќе ги фатат и решат влезовите со ниска резолуција.

CleanBackgroundNoise. Ова е поставка што е малку време, сепак, тоа и овозможува на библиотеката автоматски да чисти дигитален шум, трошки од хартија и други несовршености во дигиталната слика што инаку би ја направило неспособна за читање од другите библиотеки на OCR.

EnhanceContrast е поставка што предизвикува железо OCR автоматски да го зголемува контрастот на текстот наспроти позадината на сликата, зголемувајќи ја точноста на OCR и генерално ја зголемува перформансите и брзината на OCR.

EnhanceResolution е поставка што автоматски ќе открива слики со ниска резолуција (кои се под 275 dpi) и автоматски ја зголемуваат сликата, а потоа го изоструваат целиот текст за да може совршено да се чита од библиотеката OCR. Иако оваа операција е само по себе одзема многу време, таа генерално го намалува целокупното време за операција со OCR на слика.

Јазично железо OCR поддржува 22 меѓународни јазични пакети, а поставката за јазик може да се искористи за избор на еден или повеќе повеќе јазици што ќе се применуваат за операција со OCR.

Стратегија Ironелезо OCR поддржува две стратегии. Може да избереме или да бараме брзо и помалку точно скенирање на документ или да користиме напредна стратегија што користи некои модели на вештачка интелигенција за автоматско подобрување на точноста на текстот на OCR со гледање на статистичката врска на зборовите еден со друг во реченица .

ColorSpace е поставка според која можеме да избереме OCR во сиво или во боја. Општо земено, сивата скала е најдобра опција. Сепак, понекогаш кога има текстови или позадини со слична нијанса, но со многу различна боја, просторот во боја во целосна боја ќе обезбеди подобри резултати.

Откријте белиот текст на мрачните позадини. Општо, сите библиотеки на OCR очекуваат да видат црн текст на бела позадина. Оваа поставка му овозможува на Iron OCR автоматски да открива негативни страни или темни страници со бел текст и да ги чита.

InputImageType. Оваа поставка му овозможува на развивачот да ја води библиотеката OCR за тоа дали гледа целосен документ или фрагмент, како што е слика на екранот.

RotateAndStraighten е напредна поставка што му овозможува на железниот OCR единствена можност за читање документи кои не само што се ротираат, туку можеби содржат и перспектива, како што се фотографии на текстуални документи.

ReadBarcodes е корисна карактеристика што му овозможува на железниот OCR автоматски да чита бар-кодови и QR-кодови на страниците бидејќи исто така чита текст, без додавање на голем дополнителен временски товар.

Длабочина на бојата. Оваа поставка одредува колку битови по пиксел библиотеката OCR ќе користи за да ја одреди длабочината на бојата. Поголема длабочина на боја може да го зголеми квалитетот на OCR, но исто така ќе го зголеми времето потребно за завршување на операцијата OCR.

126 јазични пакети

Iron OCR поддржува 126 меѓународни јазици преку јазични пакети кои се дистрибуираат како DLL, кои може да се преземат од оваа веб-страница , или исто така од NuGet Package Manager .

Јазиците вклучуваат германски, француски, англиски, кинески, јапонски и многу повеќе. Постојат специјални пакети за јазици за пасоши MRZ, проверки на MICR, финансиски податоци, регистарски таблички и многу повеќе. Можете исто така да користите која било датотека на tesseract ".traineddata" - вклучувајќи ги и оние што сами ги креирате.

Јазик Пример

Користење на други јазици на OCR.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Додадете филтри за слики ако е потребно
// Во овој случај, дури и влезната мисла е многу низок квалитет
// IronTesseract може да прочита што не може конвенционалниот Tesseract.

var Result = Ocr.Read(input);

// Конзолата не може лесно да печати арапски на Виндоус.
// Наместо тоа, да зачуваме на дискот.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Додадете филтри за слики ако е потребно
// Во овој случај, дури и влезната мисла е многу низок квалитет
// IronTesseract може да прочита што не може конвенционалниот Tesseract.

var Result = Ocr.Read(input);

// Конзолата не може лесно да печати арапски на Виндоус.
// Наместо тоа, да зачуваме на дискот.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Додадете филтри за слики ако е потребно
' Во овој случај, дури и влезната мисла е многу низок квалитет
' IronTesseract може да прочита што не може конвенционалниот Tesseract.

Dim Result = Ocr.Read(input)

' Конзолата не може лесно да печати арапски на Виндоус.
' Наместо тоа, да зачуваме на дискот.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Пример за повеќе јазици

Исто така е можно да OCR користи повеќе јазици истовремено. Ова навистина може да помогне да се добијат метаподатоци и урлови на англиски јазик во документите на Уникод.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Macedonian);

// Можеме да додадеме кој било број на јазици

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Macedonian);

// Можеме да додадеме кој било број на јазици

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Macedonian)

' Можеме да додадеме кој било број на јазици

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Детални објекти на резултатите од OCR

Iron OCR враќа објект со резултат на OCR за секоја операција со OCR. Општо, програмерите користат само својство на текст на овој објект за да го скенираат текстот од сликата. Сепак, резултатите од OCR, ДОМ е многу понапреден од овој.

using IronOcr;
using System.Drawing; //Додадете референца за склопување

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Важно

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Истражете тука за да пронајдете масивен, детален API:
// - Страници, блокови, парафафи, редови, зборови, карактери
// - Извоз на слика, координати на фонтови, статистички податоци
}
using IronOcr;
using System.Drawing; //Додадете референца за склопување

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Macedonian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Важно

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Истражете тука за да пронајдете масивен, детален API:
// - Страници, блокови, парафафи, редови, зборови, карактери
// - Извоз на слика, координати на фонтови, статистички податоци
}
Imports IronOcr
Imports System.Drawing 'Додадете референца за склопување

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Macedonian
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Важно

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Истражете тука за да пронајдете масивен, детален API:
' - Страници, блокови, парафафи, редови, зборови, карактери
' - Извоз на слика, координати на фонтови, статистички податоци
End Using
VB   C#

Изведба

IronOCR работи надвор од кутијата, без потреба за прилагодување на перформансите или силно менување на влезните слики.

Брзината е горлива: IronOcr.2020 + е до 10 пати побрз и прави над 250% помалку грешки од претходните изработки.

Научи повеќе

За да дознаете повеќе за OCR на C #, VB, F # или кој било друг јазик .NET, прочитајте ги упатствата за заедницата , кои даваат примери од реалниот свет за тоа како може да се користи железо OCR и може да покажат нијанси како да го извлечете најдоброто од оваа библиотека.

Исто така, достапна е целосна референца за објектот за .NET развивачите .