Bahasa Sunda OCR dina C#sareng .NET

Versi sanés tina dokumén ieu:

IronOCR mangrupikeun komponén parangkat lunak C#ngamungkinkeun coders .NET maca téks tina gambar sareng dokumén PDF dina 126 basa, kalebet basa Sundana.

Mangrupikeun garpu canggih tina Tesseract, diwangun sacara éksklusif pikeun pamekar .NET sareng sacara rutin ngaleungitkeun mesin Tesseract anu sanés pikeun gancang sareng akurasi.

Eusi IronOcr.Languages.Sundanese

Paket ieu ngandung 52 basa OCR pikeun .NET:

  • Sundanis
  • SundanBest
  • SundanSepat

Unduh

Pakét Basa Sunda [Basa Sunda]
* Download as Zip
* Install with
https://www.nuget.org/packages/IronOcr.Languages.Sundanese/'> NuGet

Pamasangan

Hal kahiji kudu urang pigawé nyaéta install pakét Sunda OCR urang pikeun proyék .NET Anjeun.

PM> Install-Package IronOCR.Languages.Sundanese

Conto Kodeu

Conto kode C#ieu maca téks basa Sundana tina gambar atanapi dokumen PDF.

//PM> Install-Package IronOcr.Languages.Sundanese
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
using (var Input = new OcrInput(@"images\Sundanese.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Sundanese
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
using (var Input = new OcrInput(@"images\Sundanese.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Sundanese
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese
Using Input = New OcrInput("images\Sundanese.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Naha Milih IronOCR?

IronOCR mangrupikeun perpustakaan software NET anu gampang dipasang, lengkep sareng saé didokumentasikeun.

Pilih IronOCR pikeun ngahontal akurasi 99.8% + OCR tanpa nganggo jasa wéb éksternal, biaya anu aya atanapi ngirim dokumén rahasia liwat internét.

Naha pamekar C#milih IronOCR tibatan Vanilla Tesseract:

  • Pasang salaku DLL tunggal atanapi NuGet
  • Ngawengku pikeun Tesseract 5, 4 sareng 3 Mesin kaluar tina kotak.
  • Akurasi 99,8% nyata nguntungkeun Tesseract biasa.
  • Blazing Speed sareng MultiThreading
  • MVC, WebApp, Desktop, Konsol & Aplikasi Server cocog
  • Henteu nganggo Exes atanapi C ++ code
  • Pangrojong PDF OCR lengkep
  • Pikeun ngalaksanakeun OCR ampir sadaya Gambar gambar atanapi PDF
  • Pangrojong .NET Core lengkep, Standar sareng FrameWork
  • Nyebarkeun dina Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Maca barkod sareng kode QR
  • Ékspor OCR kana XHTML
  • Ékspor OCR kana dokumén PDF anu tiasa dipilarian
  • Dukungan multithreading
  • 126 basa internasional sadayana dikelola ngalangkungan file NuGet atanapi OcrData
  • Nimba Gambar, Koordinat, Statistik sareng Font. Henteu ngan ukur téks.
  • Tiasa dianggo ngadistribusikaeun Tesseract OCR di jero aplikasi komérsial & proprietari.

Beusi OCR bersinar nalika damel sareng gambar dunya nyata sareng dokumén henteu sampurna sapertos poto, atanapi scan tina resolusi handap anu tiasa ngagaduhan noise digital atanapi henteu sampurna.

Perpustakaan OCR gratis sanés kanggo platform .NET sapertos. API tesseract net sanés sareng jasa wéb henteu tiasa dilakukeun saé pisan dina kasus panggunaan dunya nyata ieu.

OCR sareng Tesseract 5 - Mimitian Coding di C #

Sampel kode di handap nunjukkeun kumaha gampangna maca téks tina gambar nganggo C#atanapi VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Konpigurasikeun Hello World

// PM> Install-Package IronOCR.Languages.Sundanese
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... anjeun tiasa nambihan sajumlah gambar
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Sundanese
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... anjeun tiasa nambihan sajumlah gambar
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Sundanese
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Pendekatan anu sami tiasa sami dianggo pikeun nimba téks tina dokumén PDF mana waé.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Urang ogé tiasa milih halaman halaman khusus PDF ka OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 halaman pikeun unggal halaman dina PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Urang ogé tiasa milih halaman halaman khusus PDF ka OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 halaman pikeun unggal halaman dina PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Urang ogé tiasa milih halaman halaman khusus PDF ka OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 halaman pikeun unggal halaman dina PDF
End Using
VB   C#

OCR pikeun MultiPage TIFFs

Format file OCR Maca TIFF kalebet sababaraha dokumén halaman. TIFF ogé tiasa dirobih langsung kana file PDF kalayan téks anu tiasa dipilarian.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Kodeu jeung QR

Fitur unik tina IronOCR nyaéta tiasa maca barkod sareng kode QR tina dokumén nalika nyeken téks. Instansi OcrResult.OcrBarcode Class masihan pamekar inpormasi lengkep ngeunaan unggal barkod anu dipindai.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// jinis sareng lokasi lokasi ogé kakeunaan
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// jinis sareng lokasi lokasi ogé kakeunaan
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' jinis sareng lokasi lokasi ogé kakeunaan
Next Barcode
End Using
VB   C#

OCR ngeunaan Daérah Khusus Gambar

Sadaya metode scanning sareng bacaan IronOCR nyayogikeun kamampuan nangtoskeun bagian mana dina hiji halaman atanapi halaman anu urang hoyong baca téks. Ieu kapaké pisan nalika urang ningali bentuk anu distandarkeun sareng tiasa ngahémat seueur waktos sareng ningkatkeun éfisiénsi.

Pikeun nganggo daérah pamotongan, urang kedah nambihan rujukan sistem kana System. System.Drawing supados urang tiasa nganggo obyék System.Drawing.Rectangle . System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Diménsi aya dina px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Diménsi aya dina px

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Diménsi aya dina px

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR pikeun Scan Kualitas Rendah

Kelas IronOCR OcrInput tiasa ngalereskeun scan anu Tesseract normal henteu tiasa maca.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // ngalereskeun noise digital sareng scanning anu goréng
Input.Deskew(); // ngalereskeun rotasi sareng sudut pandang
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // ngalereskeun noise digital sareng scanning anu goréng
Input.Deskew(); // ngalereskeun rotasi sareng sudut pandang
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' ngalereskeun noise digital sareng scanning anu goréng
Input.Deskew() ' ngalereskeun rotasi sareng sudut pandang
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Ékspor hasil OCR salaku PDF Anu Dicari

Gambar kana PDF nganggo senar téks anu tiasa disalin. Tiasa diindeks ku mesin pencari sareng basis data.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF pikeun milarian Konversi PDF

COnvert dokumén TIFF (atanapi kelompok file gambar) langsung kana PDF anu tiasa dipilarian anu tiasa diindéks ku intranet, halaman wéb sareng mesin pencari google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Ékspor hasil OCR salaku HTML

Gambar OCR kana konversi XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Saringan Peningkatan Gambar OCR

IronOCR nyayogikeun saringan unik pikeun objék OcrInput pikeun ningkatkeun kinerja OCR.

Conto Kodeu Paningkatan Gambar

Ngajantenkeun gambar input OCR kualitas langkung saé pikeun ngahasilkeun hasil OCR anu langkung saé, langkung gancang.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // ngalereskeun noise digital sareng scanning anu goréng
Input.Deskew(); // ngalereskeun rotasi sareng sudut pandang
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // ngalereskeun noise digital sareng scanning anu goréng
Input.Deskew(); // ngalereskeun rotasi sareng sudut pandang
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' ngalereskeun noise digital sareng scanning anu goréng
Input.Deskew() ' ngalereskeun rotasi sareng sudut pandang
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Daptar Saringan Gambar OCR

Saringan input pikeun ningkatkeun kinerja OCR anu diwangun kana IronOCR kalebet:

  • OcrInput.Rotate (derajat ganda) - Muterkeun gambar ku sajumlah derajat jarum jam. Pikeun anti jarum jam, anggo angka négatip.
  • OcrInput.Binarize () - Filter gambar ieu ngajantenkeun unggal piksel hideung atanapi bodas teu aya jalan tengah. Bisa Ngaronjatkeun kasus kinerja OCR kontras pisan téks kana latar tukang.
  • OcrInput.ToGrayScale () - Filter gambar ieu ngajantenkeun unggal piksel janten tempat teduh tina warna abu-abu. Teu dipikaresep ningkatkeun akurasi OCR tapi tiasa ningkatkeun kagancangan
  • OcrInput.Contrast () - Ningkatkeun kontras sacara otomatis. Filter ieu sering ningkatkeun kagancangan OCR sareng akurasi dina panyeken kontras rendah.
  • OcrInput.DeNoise () - Ngaleungitkeun noise digital. Saringan ieu kedah dianggo ngan ukur dimana diharepkeun noise.
  • OcrInput. Invert () - Ngarobih unggal warna. Mis Bodas janten hideung: hideung janten bodas.
  • OcrInput.Dilate () - Morfologi Canggih. Dilation nambihan piksel kana wates objék dina gambar. Sabalikna tina Erode
  • OcrInput.Erode () - Advanced Morphology. Érosi ngaleungitkeun piksel dina wates obyék Opposite of Dilate
  • OcrInput.Deskew () - Muterkeun gambar janten jalan anu leres sareng ortogonal. Ieu kalintang saé pikeun OCR sabab Tesseract tolerance pikeun skewed scan tiasa dugi ka 5 derajat.
  • OcrInput.DeepCleanBackgroundNoise () - Ngaleungitkeun noise tukang beurat. Ukur nganggo saringan ieu upami noise background background ekstrem dipikaterang, sabab filter ieu ogé bakal résiko ngirangan akurasi OCR tina dokumen bersih, sareng mahal pisan CPU.
  • OcrInput.EnhanceResolution - Ningkatkeun résolusi gambar kualitas rendah. Saringan ieu henteu sering diperyogikeun kumargi OcrInput.MinimumDPI sareng OcrInput. Target PDI otomatis bakal néwak sareng ngabéréskeun input résolusi rendah.

CleanBackgroundNoise. Ieu mangrupikeun setting anu rada nyéépkeun waktos; Nanging, éta ngamungkinkeun perpustakaan pikeun sacara otomatis ngabersihkeun noise digital, crumples kertas, sareng henteu sampurna dina gambar digital anu sanésna ngajantenkeun henteu sanggup dibaca ku perpustakaan OCR anu sanés.

EnhanceContrast mangrupikeun setting anu nyababkeun IronOCR sacara otomatis ningkatkeun kontras téks sareng latar gambar, ningkatkeun akurasi OCR sareng umumna ningkatkeun kinerja sareng kagancangan OCR.

EnhanceResolution mangrupikeun setting anu sacara otomatis bakal ngadeteksi gambar résolusi handap (anu sahandapeun 275 dpi) sareng otomatis ningkatkeun gambar teras ngasah sadaya téks janten tiasa dibaca sampurna ku perpustakaan OCR. Sanaos operasi ieu nyalira nyéépkeun waktos, sacara umum ngirangan waktos kanggo operasi OCR dina gambar.

Language IronOCR ngadukung 22 bungkus basa internasional, sareng setting basa tiasa dianggo pikeun milih hiji atanapi langkung sababaraha bahasa anu tiasa diterapkeun pikeun operasi OCR.

Strategi Beusi OCR ngadukung dua strategi. Urang tiasa milih pikeun milarian scan anu gancang sareng kirang akurat pikeun dokumén, atanapi nganggo strategi anu maju anu ngagunakeun sababaraha model intél jieunan pikeun sacara otomatis ningkatkeun akurasi téks OCR ku ningali hubungan statistik kecap pikeun hiji sareng anu sanés dina hiji kalimat .

ColorSpace mangrupikeun setting numana urang tiasa milih pikeun OCR dina warna abu atanapi warna. Sacara umum, grayscale mangrupikeun pilihan anu pangsaéna. Nanging, kadang-kadang upami aya téks atanapi latar anu hue mirip tapi warna anu béda pisan, rohangan warna-warna lengkep bakal masihan hasil anu langkung saé.

DetectWhiteTextOnDarkBackgrounds. Sacara umum, sadaya perpustakaan OCR ngarepkeun ningali téks hideung dina latar bodas. Setelan ieu ngamungkinkeun IronOCR pikeun otomatis ngadeteksi négatip, atanapi halaman poék kalayan téks bodas, sareng maca éta.

InputImageType. Setelan ieu ngamungkinkeun pamekar pikeun ngabimbing perpustakaan OCR naha éta ningali dokumén lengkep atanapi potongan, sapertos tangkepan layar.

RotateAndStraighten mangrupikeun setting anu maju anu ngamungkinkeun IronOCR kamampuan unik maca dokumén anu henteu ngan ukur diputer, tapi panginten ngandung sudut pandang, sapertos foto dokumén téks.

ReadBarcodes mangrupikeun fitur anu manpaat anu ngamungkinkeun IronOCR maca sacara otomatis barkod sareng kode QR dina halaman sabab ogé maca téks, tanpa nambihan beban waktos tambahan anu ageung.

WarnaDepth. Setelan ieu nangtoskeun sabaraha bit per piksel anu bakal dianggo perpustakaan OCR pikeun nangtoskeun jero hiji warna. Jero warna anu langkung luhur tiasa ningkatkeun kualitas OCR, tapi ogé bakal ningkatkeun waktos anu diperyogikeun pikeun operasi OCR réngsé.

126 Pakét Basa

IronOCR ngadukung 126 basa internasional liwat bungkus basa anu disebarkeun salaku DLLs, anu tiasa diunduh tina halaman wéb ieu , atanapi ogé ti NuGet Package Manager .

Bahasa kaasup basa Jérman, Perancis, Inggris, Cina, Jepang sareng seueur deui. Paket basa spesialis aya pikeun paspor MRZ, cek MICR, Data Keuangan, Plat lisénsi sareng seueur deui. Anjeun ogé tiasa nganggo file ".traineddata" tesseract naon waé - kalebet file anu anjeun ciptakeun nyalira.

Conto Basa

Ngagunakeun basa OCR sanés.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tambihkeun saringan gambar upami diperyogikeun
// Dina hal ieu, sanajan panginten input kualitasna handap pisan
// IronTesseract tiasa maca naon anu Tesseract konvensional henteu tiasa.

var Result = Ocr.Read(input);

// Konsol henteu tiasa nyetak basa Arab dina Windows kalayan gampang.
// Hayu urang simpen kana disk.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tambihkeun saringan gambar upami diperyogikeun
// Dina hal ieu, sanajan panginten input kualitasna handap pisan
// IronTesseract tiasa maca naon anu Tesseract konvensional henteu tiasa.

var Result = Ocr.Read(input);

// Konsol henteu tiasa nyetak basa Arab dina Windows kalayan gampang.
// Hayu urang simpen kana disk.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Tambihkeun saringan gambar upami diperyogikeun
' Dina hal ieu, sanajan panginten input kualitasna handap pisan
' IronTesseract tiasa maca naon anu Tesseract konvensional henteu tiasa.

Dim Result = Ocr.Read(input)

' Konsol henteu tiasa nyetak basa Arab dina Windows kalayan gampang.
' Hayu urang simpen kana disk.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Conto Multiple Basa

Anjeun tiasa ogé ngagunakeun OCR nganggo sababaraha basa dina waktos anu sami. Ieu leres-leres tiasa ngabantosan metadata basa Inggris sareng url dina dokumén Unicode.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Sundanese);

// Urang tiasa nambihan sajumlah bahasa

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Sundanese);

// Urang tiasa nambihan sajumlah bahasa

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Sundanese)

' Urang tiasa nambihan sajumlah bahasa

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Objék Hasil OCR Detil

Beusi OCR mulihkeun obyék hasil OCR pikeun unggal operasi OCR. Sacara umum, pamekar ngan ukur nganggo sipat téks obyék ieu pikeun nga-scan téksna tina gambarna. Nanging, hasil OCR DOM langkung maju tibatan ieu.

using IronOcr;
using System.Drawing; //Tambahkeun Rujukan Majelis

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Penting

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Jelajah didieu pikeun milari API anu masif sareng lengkep:
// - Halaman, Blok, Paraphaphs, Garis, Kecap, Chars
// - Ékspor Gambar, Koordinat Font, Data Statistik
}
using IronOcr;
using System.Drawing; //Tambahkeun Rujukan Majelis

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Sundanese;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //! Penting

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages[0].Words;
var Barcodes = Result.Barcodes;
// Jelajah didieu pikeun milari API anu masif sareng lengkep:
// - Halaman, Blok, Paraphaphs, Garis, Kecap, Chars
// - Ékspor Gambar, Koordinat Font, Data Statistik
}
Imports IronOcr
Imports System.Drawing 'Tambahkeun Rujukan Majelis

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Sundanese
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '! Penting

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages(0).Words
Dim Barcodes = Result.Barcodes
' Jelajah didieu pikeun milari API anu masif sareng lengkep:
' - Halaman, Blok, Paraphaphs, Garis, Kecap, Chars
' - Ékspor Gambar, Koordinat Font, Data Statistik
End Using
VB   C#

Kinerja

IronOCR jalan kaluar tina kotak kalayan henteu kedah ngepaskeun performa atanapi beurat ngarobih gambar input.

Kacepetan Blazing: IronOcr.2020 + dugi ka 10 kali langkung gancang sareng ngajantenkeun langkung 250% langkung seueur kasalahan tibatan ngawangun tadi.

Diajar deui

Kanggo diajar langkung seueur ngeunaan OCR dina basa C #, VB, F #, atanapi basa anu sanés .NET, punten baca tutorial komunitas urang , anu masihan conto dunya nyata kumaha IronOCR tiasa dianggo sareng tiasa nunjukkeun anuansa kumaha kéngingkeun anu pangsaéna tina perpustakaan ieu.

Rujukan objék lengkep pikeun pamekar .NET ogé sayogi.