OCR Indonesia dalam C#dan .NET

Versi lain dari dokumen ini:

IronOCR adalah komponen perangkat lunak C#yang memungkinkan pembuat kode .NET membaca teks dari gambar dan dokumen PDF dalam 126 bahasa, termasuk bahasa Indonesia.

Ini adalah cabang lanjutan dari Tesseract, dibuat secara eksklusif untuk para pengembang .NET dan secara teratur mengungguli mesin Tesseract lainnya dalam hal kecepatan dan akurasi.

Isi IronOcr.Languages.Indonesian

Paket ini berisi 55 bahasa OCR untuk .NET:

  • bahasa Indonesia
  • IndonesianBest
  • IndonesianFast

Unduh

Paket Bahasa Indonesia [Bahasa Indonesia]
* Download as Zip
* Install with
https://www.nuget.org/packages/IronOcr.Languages.Indonesian/'> NuGet

Instalasi

Hal pertama yang harus kita lakukan adalah menginstal paket OCR Indonesia kita ke proyek .NET Anda.

PM> Install-Package IronOCR.Languages.Indonesian

Contoh Kode

Contoh kode C#ini membaca teks bahasa Indonesia dari dokumen Gambar atau PDF.

//PM> Install-Package IronOcr.Languages.Indonesian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput(@"images\Indonesian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Indonesian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput(@"images\Indonesian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Indonesian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput("images\Indonesian.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
VB   C#

Mengapa Memilih IronOCR?

IronOCR adalah pustaka perangkat lunak .NET yang mudah dipasang, lengkap, dan terdokumentasi dengan baik.

Pilih IronOCR untuk mencapai akurasi 99,8% + OCR tanpa menggunakan layanan web eksternal, biaya berkelanjutan, atau mengirim dokumen rahasia melalui internet.

Mengapa pengembang C#memilih IronOCR daripada Vanilla Tesseract:

  • Pasang sebagai DLL atau NuGet tunggal
  • Termasuk untuk Tesseract 5, 4 dan 3 Engine di luar kotak.
  • Akurasi 99,8% secara signifikan mengungguli Tesseract biasa.
  • Kecepatan Tinggi dan MultiThreading
  • MVC, WebApp, Desktop, Konsol & Aplikasi Server kompatibel
  • Tidak ada kode Exes atau C ++ untuk digunakan
  • Dukungan PDF OCR penuh
  • Untuk melakukan OCR hampir semua file Gambar atau PDF
  • Dukungan penuh .NET Core, Standard dan FrameWork
  • Terapkan di Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Baca kode batang dan kode QR
  • Ekspor OCR sebagai XHTML
  • Ekspor OCR ke dokumen PDF yang dapat dicari
  • Dukungan multithreading
  • 126 bahasa internasional semuanya dikelola melalui file NuGet atau OcrData
  • Ekstrak Gambar, Koordinat, Statistik, dan Font. Bukan hanya teks.
  • Dapat digunakan untuk mendistribusikan ulang Tesseract OCR di dalam aplikasi komersial & eksklusif.

IronOCR bersinar saat bekerja dengan gambar dunia nyata dan dokumen yang tidak sempurna seperti foto, atau pindaian resolusi rendah yang mungkin memiliki gangguan atau ketidaksempurnaan digital.

Pustaka OCR gratis lainnya untuk platform .NET seperti API .net tesseract dan layanan web lainnya tidak bekerja dengan baik pada kasus penggunaan dunia nyata ini.

OCR dengan Tesseract 5 - Mulai Coding di C #

Contoh kode di bawah ini menunjukkan betapa mudahnya membaca teks dari gambar menggunakan C#atau VB .NET.

OneLiner

string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
VB   C#

Hello World yang dapat dikonfigurasi

// PM> Install-Package IronOCR.Languages.Indonesian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... Anda dapat menambahkan sejumlah gambar
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Indonesian
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... Anda dapat menambahkan sejumlah gambar
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Indonesian
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

C#PDF OCR

Pendekatan yang sama juga dapat digunakan untuk mengekstrak teks dari dokumen PDF apa pun.

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Kami juga dapat memilih kolom halaman PDF tertentu ke OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 halaman untuk setiap halaman PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Kami juga dapat memilih kolom halaman PDF tertentu ke OCR

var Result = Ocr.Read(input);

Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 halaman untuk setiap halaman PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Kami juga dapat memilih kolom halaman PDF tertentu ke OCR

Dim Result = Ocr.Read(input)

Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 halaman untuk setiap halaman PDF
End Using
VB   C#

OCR untuk TIFF MultiPage

OCR Membaca format file TIFF termasuk dokumen beberapa halaman. TIFF juga dapat diubah langsung menjadi file PDF dengan teks yang dapat dicari.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian

Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Kode batang dan QR

Fitur unik IronOCR adalah dapat membaca kode batang dan kode QR dari dokumen saat memindai teks. Contoh dari Kelas OcrResult.OcrBarcode memberikan informasi rinci kepada pengembang tentang setiap kode batang yang dipindai.

// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// jenis dan properti lokasi juga diekspos
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// jenis dan properti lokasi juga diekspos
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True

Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' jenis dan properti lokasi juga diekspos
Next Barcode
End Using
VB   C#

OCR pada Area Gambar Tertentu

Semua metode pemindaian dan pembacaan IronOCR menyediakan kemampuan untuk menentukan dengan tepat bagian mana dari suatu halaman atau halaman yang teksnya ingin kita baca. Ini sangat berguna saat kita melihat formulir standar dan dapat menghemat banyak waktu serta meningkatkan efisiensi.

Untuk menggunakan crop region, kita perlu menambahkan referensi sistem ke System.Drawing sehingga kita bisa menggunakan objek System.Drawing.Rectangle .

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Dimensi dalam piksel

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Dimensi dalam piksel

Input.Add("document.png", ContentArea);

var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian

Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
	.X = 215,
	.Y = 1250,
	.Height = 280,
	.Width = 1335
}
' Dimensi dalam piksel

Input.Add("document.png", ContentArea)

Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

OCR untuk Pemindaian Berkualitas Rendah

Kelas IronOCR OcrInput dapat memperbaiki pemindaian yang tidak dapat dibaca oleh Tesseract normal.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew(); // memperbaiki rotasi dan perspektif
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew(); // memperbaiki rotasi dan perspektif
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian

Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew() ' memperbaiki rotasi dan perspektif
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Ekspor hasil OCR sebagai PDF yang Dapat Dicari

Gambar ke PDF dengan string teks yang dapat disalin. Dapat diindeks oleh mesin pencari dan database.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");

var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian

Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")

Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

TIFF ke Konversi PDF yang dapat dicari

Ubah dokumen TIFF (atau grup file gambar apa pun) langsung ke PDF yang dapat dicari yang dapat diindeks oleh intranet, situs web, dan mesin pencari Google.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian

Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

Ekspor hasil OCR sebagai HTML

Konversi Gambar OCR ke XHTML.

using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
VB   C#

Filter Peningkatan Gambar OCR

IronOCR menyediakan filter unik untuk objek OcrInput guna meningkatkan kinerja OCR.

Contoh Kode Peningkatan Gambar

Membuat gambar input OCR berkualitas lebih tinggi untuk menghasilkan hasil OCR yang lebih baik dan lebih cepat.

using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew(); // memperbaiki rotasi dan perspektif
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;

using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew(); // memperbaiki rotasi dan perspektif
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian

Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew() ' memperbaiki rotasi dan perspektif
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
VB   C#

Daftar Filter Gambar OCR

Filter input untuk meningkatkan kinerja OCR yang dibangun di IronOCR meliputi:

  • OcrInput.Rotate (derajat ganda) - Memutar gambar dengan sejumlah derajat searah jarum jam. Untuk berlawanan arah jarum jam, gunakan angka negatif.
  • OcrInput.Binarize () - Filter gambar ini mengubah setiap piksel menjadi hitam atau putih tanpa jalan tengah. Dapat Meningkatkan kasus kinerja OCR dengan kontras sangat rendah dari teks ke latar belakang.
  • OcrInput.ToGrayScale () - Filter gambar ini mengubah setiap piksel menjadi bayangan grayscale. Tidak mungkin meningkatkan akurasi OCR tetapi dapat meningkatkan kecepatan
  • OcrInput.Contrast () - Meningkatkan kontras secara otomatis. Filter ini sering kali meningkatkan kecepatan dan akurasi OCR dalam pemindaian kontras rendah.
  • OcrInput.DeNoise () - Menghilangkan gangguan digital. Filter ini hanya boleh digunakan di tempat yang diperkirakan akan menimbulkan kebisingan.
  • OcrInput.Invert () - Membalik setiap warna. Misal Putih menjadi hitam: hitam menjadi putih.
  • OcrInput.Dilate () - Morfologi Lanjutan. Dilasi menambahkan piksel ke batas objek dalam gambar. Kebalikan dari Erode
  • OcrInput.Erode () - Morfologi Lanjutan. Erosi menghilangkan piksel pada batas objekOpposite of Dilate
  • OcrInput.Deskew () - Memutar gambar sehingga berada pada posisi yang benar dan ortogonal. Ini sangat berguna untuk OCR karena toleransi Tesseract untuk pemindaian miring bisa serendah 5 derajat.
  • OcrInput.DeepCleanBackgroundNoise () - Penghapusan derau latar belakang yang berat. Hanya gunakan filter ini jika kebisingan latar belakang dokumen yang ekstrem diketahui, karena filter ini juga berisiko mengurangi keakuratan OCR dari dokumen yang bersih, dan biaya CPU yang sangat mahal.
  • OcrInput.EnhanceResolution - Meningkatkan resolusi gambar berkualitas rendah. Filter ini tidak sering diperlukan karena OcrInput.MinimumDPI dan OcrInput.TargetDPI akan secara otomatis menangkap dan menyelesaikan input resolusi rendah.

CleanBackgroundNoise. Ini adalah pengaturan yang agak memakan waktu; Namun, ini memungkinkan perpustakaan untuk secara otomatis membersihkan gangguan digital, kertas kusut, dan ketidaksempurnaan lainnya dalam gambar digital yang sebaliknya akan membuatnya tidak dapat dibaca oleh perpustakaan OCR lainnya.

EnhanceContrast adalah pengaturan yang menyebabkan IronOCR secara otomatis meningkatkan kontras teks dengan latar belakang gambar, meningkatkan akurasi OCR dan secara umum meningkatkan kinerja dan kecepatan OCR.

EnhanceResolution adalah pengaturan yang secara otomatis akan mendeteksi gambar beresolusi rendah (yang berada di bawah 275 dpi) dan secara otomatis meningkatkan gambar dan kemudian mempertajam semua teks sehingga dapat dibaca dengan sempurna oleh perpustakaan OCR. Meskipun operasi ini sendiri memakan waktu, umumnya mengurangi waktu keseluruhan untuk operasi OCR pada gambar.

Bahasa IronOCR mendukung 22 paket bahasa internasional, dan pengaturan bahasa dapat digunakan untuk memilih satu atau lebih banyak bahasa yang akan diterapkan untuk operasi OCR.

Strategi Besi OCR mendukung dua strategi. Kami dapat memilih untuk memindai dokumen dengan cepat dan kurang akurat, atau menggunakan strategi lanjutan yang menggunakan beberapa model kecerdasan buatan untuk secara otomatis meningkatkan keakuratan teks OCR dengan melihat hubungan statistik kata satu sama lain dalam sebuah kalimat .

ColorSpace adalah pengaturan di mana kita dapat memilih untuk OCR dalam skala abu-abu atau warna. Secara umum, grayscale adalah pilihan terbaik. Namun, terkadang bila ada teks atau latar belakang dengan corak serupa tetapi warna sangat berbeda, ruang warna penuh akan memberikan hasil yang lebih baik.

DetectWhiteTextOnDarkBackgrounds. Secara umum, semua perpustakaan OCR berharap melihat teks hitam di latar belakang putih. Pengaturan ini memungkinkan IronOCR untuk secara otomatis mendeteksi halaman negatif, atau halaman gelap dengan teks putih, dan membacanya.

InputImageType. Pengaturan ini memungkinkan pengembang untuk memandu perpustakaan OCR, apakah itu melihat dokumen lengkap atau potongan, seperti tangkapan layar.

RotateAndStraighten adalah pengaturan lanjutan yang memungkinkan IronOCR memiliki kemampuan unik untuk membaca dokumen yang tidak hanya diputar, tetapi mungkin berisi perspektif, seperti foto dokumen teks.

ReadBarcodes adalah fitur berguna yang memungkinkan IronOCR untuk secara otomatis membaca kode batang dan kode QR pada halaman karena ia juga membaca teks, tanpa menambah beban waktu tambahan yang besar.

ColorDepth. Pengaturan ini menentukan berapa banyak bit per piksel yang akan digunakan perpustakaan OCR untuk menentukan kedalaman warna. Kedalaman warna yang lebih tinggi dapat meningkatkan kualitas OCR, tetapi juga akan meningkatkan waktu yang diperlukan untuk penyelesaian operasi OCR.

126 Paket Bahasa

IronOCR mendukung 126 bahasa internasional melalui paket bahasa yang didistribusikan sebagai DLL, yang dapat diunduh dari situs web ini , atau juga dari NuGet Package Manager .

Bahasa termasuk Jerman, Prancis, Inggris, Cina, Jepang, dan banyak lagi. Paket bahasa spesialis tersedia untuk paspor MRZ, cek MICR, Data Keuangan, Plat nomor dan banyak lagi. Anda juga dapat menggunakan file ".traineddata" tesseract - termasuk yang Anda buat sendiri.

Contoh Bahasa

Menggunakan bahasa OCR lainnya.

// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tambahkan filter gambar jika perlu
// Dalam hal ini, input pemikiran sekalipun berkualitas sangat rendah
// IronTesseract dapat membaca apa yang tidak bisa dilakukan oleh Tesseract konvensional.

var Result = Ocr.Read(input);

// Konsol tidak dapat mencetak bahasa Arab di Windows dengan mudah.
// Mari simpan ke disk sebagai gantinya.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;

using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tambahkan filter gambar jika perlu
// Dalam hal ini, input pemikiran sekalipun berkualitas sangat rendah
// IronTesseract dapat membaca apa yang tidak bisa dilakukan oleh Tesseract konvensional.

var Result = Ocr.Read(input);

// Konsol tidak dapat mencetak bahasa Arab di Windows dengan mudah.
// Mari simpan ke disk sebagai gantinya.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic

Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Tambahkan filter gambar jika perlu
' Dalam hal ini, input pemikiran sekalipun berkualitas sangat rendah
' IronTesseract dapat membaca apa yang tidak bisa dilakukan oleh Tesseract konvensional.

Dim Result = Ocr.Read(input)

' Konsol tidak dapat mencetak bahasa Arab di Windows dengan mudah.
' Mari simpan ke disk sebagai gantinya.
Result.SaveAsTextFile("arabic.txt")
End Using
VB   C#

Contoh Berbagai Bahasa

Juga dimungkinkan untuk OCR menggunakan beberapa bahasa pada waktu yang bersamaan. Ini benar-benar dapat membantu mendapatkan metadata dan url bahasa Inggris dalam dokumen Unicode.

// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Indonesian);

// Kami dapat menambahkan sejumlah bahasa

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Indonesian);

// Kami dapat menambahkan sejumlah bahasa

using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified

Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Indonesian)

' Kami dapat menambahkan sejumlah bahasa

Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
VB   C#

Objek Hasil OCR Terperinci

Besi OCR mengembalikan objek hasil OCR untuk setiap operasi OCR. Umumnya, pengembang hanya menggunakan properti teks dari objek ini untuk memindai teks dari gambar. Namun, hasil OCR DOM jauh lebih maju dari ini.

using IronOcr;
using System.Drawing; //Tambahkan Referensi Majelis

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Penting

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Jelajahi di sini untuk menemukan API yang sangat besar dan mendetail:
// - Halaman, Blok, Paraphaphs, Lines, Words, Chars
// - Ekspor Gambar, Koordinat Font, Data Statistik
}
using IronOcr;
using System.Drawing; //Tambahkan Referensi Majelis

var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Penting

using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Jelajahi di sini untuk menemukan API yang sangat besar dan mendetail:
// - Halaman, Blok, Paraphaphs, Lines, Words, Chars
// - Ekspor Gambar, Koordinat Font, Data Statistik
}
Imports IronOcr
Imports System.Drawing 'Tambahkan Referensi Majelis

Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Penting

Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Jelajahi di sini untuk menemukan API yang sangat besar dan mendetail:
' - Halaman, Blok, Paraphaphs, Lines, Words, Chars
' - Ekspor Gambar, Koordinat Font, Data Statistik
End Using
VB   C#

Performa

IronOCR bekerja di luar kotak tanpa perlu menyesuaikan kinerja atau banyak memodifikasi gambar input.

Kecepatan Berkobar: IronOcr.2020 + hingga 10 kali lebih cepat dan membuat kesalahan lebih dari 250% lebih sedikit daripada versi sebelumnya.

Belajarlah lagi

Untuk mempelajari lebih lanjut tentang OCR dalam C #, VB, F #, atau bahasa .NET lainnya, silakan baca tutorial komunitas kami , yang memberikan contoh dunia nyata tentang bagaimana IronOCR dapat digunakan dan mungkin menunjukkan nuansa cara mendapatkan yang terbaik dari perpustakaan ini.

Referensi objek lengkap untuk pengembang .NET juga tersedia.