OCR Indonesia dalam C#dan .NET
Versi lain dari dokumen ini:
IronOCR adalah komponen perangkat lunak C#yang memungkinkan pembuat kode .NET membaca teks dari gambar dan dokumen PDF dalam 126 bahasa, termasuk bahasa Indonesia.
Ini adalah cabang lanjutan dari Tesseract, dibuat secara eksklusif untuk para pengembang .NET dan secara teratur mengungguli mesin Tesseract lainnya dalam hal kecepatan dan akurasi.
Isi IronOcr.Languages.Indonesian
Paket ini berisi 55 bahasa OCR untuk .NET:
- bahasa Indonesia
- IndonesianBest
- IndonesianFast
Unduh
Paket Bahasa Indonesia [Bahasa Indonesia]
* Download as Zip
* Install with https://www.nuget.org/packages/IronOcr.Languages.Indonesian/'> NuGet
Instalasi
Hal pertama yang harus kita lakukan adalah menginstal paket OCR Indonesia kita ke proyek .NET Anda.
PM> Install-Package IronOCR.Languages.Indonesian
Contoh Kode
Contoh kode C#ini membaca teks bahasa Indonesia dari dokumen Gambar atau PDF.
//PM> Install-Package IronOcr.Languages.Indonesian
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput(@"images\Indonesian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
//PM> Install-Package IronOcr.Languages.Indonesian
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput(@"images\Indonesian.png"))
{
var Result = Ocr.Read(Input);
Var AllText = Result.Text
}
'PM> Install-Package IronOcr.Languages.Indonesian
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput("images\Indonesian.png")
Dim Result = Ocr.Read(Input)
Dim AllText As Var = Result.Text
End Using
Mengapa Memilih IronOCR?
IronOCR adalah pustaka perangkat lunak .NET yang mudah dipasang, lengkap, dan terdokumentasi dengan baik.
Pilih IronOCR untuk mencapai akurasi 99,8% + OCR tanpa menggunakan layanan web eksternal, biaya berkelanjutan, atau mengirim dokumen rahasia melalui internet.
Mengapa pengembang C#memilih IronOCR daripada Vanilla Tesseract:
- Pasang sebagai DLL atau NuGet tunggal
- Termasuk untuk Tesseract 5, 4 dan 3 Engine di luar kotak.
- Akurasi 99,8% secara signifikan mengungguli Tesseract biasa.
- Kecepatan Tinggi dan MultiThreading
- MVC, WebApp, Desktop, Konsol & Aplikasi Server kompatibel
- Tidak ada kode Exes atau C ++ untuk digunakan
- Dukungan PDF OCR penuh
- Untuk melakukan OCR hampir semua file Gambar atau PDF
- Dukungan penuh .NET Core, Standard dan FrameWork
- Terapkan di Windows, Mac, Linux, Azure, Docker, Lambda, AWS
- Baca kode batang dan kode QR
- Ekspor OCR sebagai XHTML
- Ekspor OCR ke dokumen PDF yang dapat dicari
- Dukungan multithreading
- 126 bahasa internasional semuanya dikelola melalui file NuGet atau OcrData
- Ekstrak Gambar, Koordinat, Statistik, dan Font. Bukan hanya teks.
- Dapat digunakan untuk mendistribusikan ulang Tesseract OCR di dalam aplikasi komersial & eksklusif.
IronOCR bersinar saat bekerja dengan gambar dunia nyata dan dokumen yang tidak sempurna seperti foto, atau pindaian resolusi rendah yang mungkin memiliki gangguan atau ketidaksempurnaan digital.
Pustaka OCR gratis lainnya untuk platform .NET seperti API .net tesseract dan layanan web lainnya tidak bekerja dengan baik pada kasus penggunaan dunia nyata ini.
OCR dengan Tesseract 5 - Mulai Coding di C #
Contoh kode di bawah ini menunjukkan betapa mudahnya membaca teks dari gambar menggunakan C#atau VB .NET.
OneLiner
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Dim Text As String = (New IronTesseract()).Read("img\Screenshot.png").Text
Hello World yang dapat dikonfigurasi
// PM> Install-Package IronOCR.Languages.Indonesian
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... Anda dapat menambahkan sejumlah gambar
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
// PM> Install-Package IronOCR.Languages.Indonesian
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
Input.AddImage("images/sample.jpeg")
//... Anda dapat menambahkan sejumlah gambar
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
' PM> Install-Package IronOCR.Languages.Indonesian
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput()
Input.AddImage("images/sample.jpeg") var Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
C#PDF OCR
Pendekatan yang sama juga dapat digunakan untuk mengekstrak teks dari dokumen PDF apa pun.
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Kami juga dapat memilih kolom halaman PDF tertentu ke OCR
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 halaman untuk setiap halaman PDF
}
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var input = new OcrInput())
{
input.AddPdf("example.pdf", "password");
// Kami juga dapat memilih kolom halaman PDF tertentu ke OCR
var Result = Ocr.Read(input);
Console.WriteLine(Result.Text);
Console.WriteLine($"{Result.Pages.Count()} Pages");
// 1 halaman untuk setiap halaman PDF
}
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using input = New OcrInput()
input.AddPdf("example.pdf", "password")
' Kami juga dapat memilih kolom halaman PDF tertentu ke OCR
Dim Result = Ocr.Read(input)
Console.WriteLine(Result.Text)
Console.WriteLine($"{Result.Pages.Count()} Pages")
' 1 halaman untuk setiap halaman PDF
End Using
OCR untuk TIFF MultiPage
OCR Membaca format file TIFF termasuk dokumen beberapa halaman. TIFF juga dapat diubah langsung menjadi file PDF dengan teks yang dapat dicari.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("multi - frame.tiff");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput()
input.AddMultiFrameTiff("multi - frame.tiff")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Kode batang dan QR
Fitur unik IronOCR adalah dapat membaca kode batang dan kode QR dari dokumen saat memindai teks. Contoh dari Kelas OcrResult.OcrBarcode
memberikan informasi rinci kepada pengembang tentang setiap kode batang yang dipindai.
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// jenis dan properti lokasi juga diekspos
}
}
// using IronOcr;
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;
using (var input = new OcrInput())
{
input.AddImage("img/Barcode.png");
var Result = Ocr.Read(input);
foreach (var Barcode in Result.Barcodes)
{
Console.WriteLine(Barcode.Value);
// jenis dan properti lokasi juga diekspos
}
}
' using IronOcr;
Dim Ocr = New IronTesseract()
Ocr.Configuration.ReadBarCodes = True
Using input = New OcrInput()
input.AddImage("img/Barcode.png")
Dim Result = Ocr.Read(input)
For Each Barcode In Result.Barcodes
Console.WriteLine(Barcode.Value)
' jenis dan properti lokasi juga diekspos
Next Barcode
End Using
OCR pada Area Gambar Tertentu
Semua metode pemindaian dan pembacaan IronOCR menyediakan kemampuan untuk menentukan dengan tepat bagian mana dari suatu halaman atau halaman yang teksnya ingin kita baca. Ini sangat berguna saat kita melihat formulir standar dan dapat menghemat banyak waktu serta meningkatkan efisiensi.
Untuk menggunakan crop region, kita perlu menambahkan referensi sistem ke System.Drawing
sehingga kita bisa menggunakan objek System.Drawing.Rectangle
.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Dimensi dalam piksel
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput())
{
var ContentArea = new System.Drawing.Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
// Dimensi dalam piksel
Input.Add("document.png", ContentArea);
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput()
Dim ContentArea = New System.Drawing.Rectangle() With {
.X = 215,
.Y = 1250,
.Height = 280,
.Width = 1335
}
' Dimensi dalam piksel
Input.Add("document.png", ContentArea)
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
OCR untuk Pemindaian Berkualitas Rendah
Kelas IronOCR OcrInput
dapat memperbaiki pemindaian yang tidak dapat dibaca oleh Tesseract normal.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew(); // memperbaiki rotasi dan perspektif
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
Input.DeNoise(); // memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew(); // memperbaiki rotasi dan perspektif
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput("img\Potter.LowQuality.tiff")
Input.DeNoise() ' memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew() ' memperbaiki rotasi dan perspektif
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Ekspor hasil OCR sebagai PDF yang Dapat Dicari
Gambar ke PDF dengan string teks yang dapat disalin. Dapat diindeks oleh mesin pencari dan database.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.Title = "Quarterly Report"
input.AddImage("image1.jpeg");
input.AddImage("image2.png");
input.AddImage("image3.gif");
var Result = Ocr.Read(input);
Result.SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput()
input.Title = "Quarterly Report" input.AddImage("image1.jpeg")
input.AddImage("image2.png")
input.AddImage("image3.gif")
Dim Result = Ocr.Read(input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
TIFF ke Konversi PDF yang dapat dicari
Ubah dokumen TIFF (atau grup file gambar apa pun) langsung ke PDF yang dapat dicari yang dapat diindeks oleh intranet, situs web, dan mesin pencari Google.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.AddMultiFrameTiff("example.tiff")
var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput()
input.AddMultiFrameTiff("example.tiff") var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf")
End Using
Ekspor hasil OCR sebagai HTML
Konversi Gambar OCR ke XHTML.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput()){
input.Title = "Html Title"
input.AddImage("image1.jpeg");
var Result = Ocr.Read(input);
Result.SaveAsHocrFile("results.html");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput()
input.Title = "Html Title" input.AddImage("image1.jpeg")
Dim Result = Ocr.Read(input)
Result.SaveAsHocrFile("results.html")
End Using
Filter Peningkatan Gambar OCR
IronOCR menyediakan filter unik untuk objek OcrInput
guna meningkatkan kinerja OCR.
Contoh Kode Peningkatan Gambar
Membuat gambar input OCR berkualitas lebih tinggi untuk menghasilkan hasil OCR yang lebih baik dan lebih cepat.
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew(); // memperbaiki rotasi dan perspektif
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
Input.DeNoise(); // memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew(); // memperbaiki rotasi dan perspektif
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Using Input = New OcrInput("LowQuality.jpeg")
Input.DeNoise() ' memperbaiki gangguan digital dan pemindaian yang buruk
Input.Deskew() ' memperbaiki rotasi dan perspektif
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
Daftar Filter Gambar OCR
Filter input untuk meningkatkan kinerja OCR yang dibangun di IronOCR meliputi:
- OcrInput.Rotate (derajat ganda) - Memutar gambar dengan sejumlah derajat searah jarum jam. Untuk berlawanan arah jarum jam, gunakan angka negatif.
- OcrInput.Binarize () - Filter gambar ini mengubah setiap piksel menjadi hitam atau putih tanpa jalan tengah. Dapat Meningkatkan kasus kinerja OCR dengan kontras sangat rendah dari teks ke latar belakang.
- OcrInput.ToGrayScale () - Filter gambar ini mengubah setiap piksel menjadi bayangan grayscale. Tidak mungkin meningkatkan akurasi OCR tetapi dapat meningkatkan kecepatan
- OcrInput.Contrast () - Meningkatkan kontras secara otomatis. Filter ini sering kali meningkatkan kecepatan dan akurasi OCR dalam pemindaian kontras rendah.
- OcrInput.DeNoise () - Menghilangkan gangguan digital. Filter ini hanya boleh digunakan di tempat yang diperkirakan akan menimbulkan kebisingan.
- OcrInput.Invert () - Membalik setiap warna. Misal Putih menjadi hitam: hitam menjadi putih.
- OcrInput.Dilate () - Morfologi Lanjutan. Dilasi menambahkan piksel ke batas objek dalam gambar. Kebalikan dari Erode
- OcrInput.Erode () - Morfologi Lanjutan. Erosi menghilangkan piksel pada batas objekOpposite of Dilate
- OcrInput.Deskew () - Memutar gambar sehingga berada pada posisi yang benar dan ortogonal. Ini sangat berguna untuk OCR karena toleransi Tesseract untuk pemindaian miring bisa serendah 5 derajat.
- OcrInput.DeepCleanBackgroundNoise () - Penghapusan derau latar belakang yang berat. Hanya gunakan filter ini jika kebisingan latar belakang dokumen yang ekstrem diketahui, karena filter ini juga berisiko mengurangi keakuratan OCR dari dokumen yang bersih, dan biaya CPU yang sangat mahal.
- OcrInput.EnhanceResolution - Meningkatkan resolusi gambar berkualitas rendah. Filter ini tidak sering diperlukan karena OcrInput.MinimumDPI dan OcrInput.TargetDPI akan secara otomatis menangkap dan menyelesaikan input resolusi rendah.
CleanBackgroundNoise. Ini adalah pengaturan yang agak memakan waktu; Namun, ini memungkinkan perpustakaan untuk secara otomatis membersihkan gangguan digital, kertas kusut, dan ketidaksempurnaan lainnya dalam gambar digital yang sebaliknya akan membuatnya tidak dapat dibaca oleh perpustakaan OCR lainnya.
EnhanceContrast adalah pengaturan yang menyebabkan IronOCR secara otomatis meningkatkan kontras teks dengan latar belakang gambar, meningkatkan akurasi OCR dan secara umum meningkatkan kinerja dan kecepatan OCR.
EnhanceResolution adalah pengaturan yang secara otomatis akan mendeteksi gambar beresolusi rendah (yang berada di bawah 275 dpi) dan secara otomatis meningkatkan gambar dan kemudian mempertajam semua teks sehingga dapat dibaca dengan sempurna oleh perpustakaan OCR. Meskipun operasi ini sendiri memakan waktu, umumnya mengurangi waktu keseluruhan untuk operasi OCR pada gambar.
Bahasa IronOCR mendukung 22 paket bahasa internasional, dan pengaturan bahasa dapat digunakan untuk memilih satu atau lebih banyak bahasa yang akan diterapkan untuk operasi OCR.
Strategi Besi OCR mendukung dua strategi. Kami dapat memilih untuk memindai dokumen dengan cepat dan kurang akurat, atau menggunakan strategi lanjutan yang menggunakan beberapa model kecerdasan buatan untuk secara otomatis meningkatkan keakuratan teks OCR dengan melihat hubungan statistik kata satu sama lain dalam sebuah kalimat .
ColorSpace adalah pengaturan di mana kita dapat memilih untuk OCR dalam skala abu-abu atau warna. Secara umum, grayscale adalah pilihan terbaik. Namun, terkadang bila ada teks atau latar belakang dengan corak serupa tetapi warna sangat berbeda, ruang warna penuh akan memberikan hasil yang lebih baik.
DetectWhiteTextOnDarkBackgrounds. Secara umum, semua perpustakaan OCR berharap melihat teks hitam di latar belakang putih. Pengaturan ini memungkinkan IronOCR untuk secara otomatis mendeteksi halaman negatif, atau halaman gelap dengan teks putih, dan membacanya.
InputImageType. Pengaturan ini memungkinkan pengembang untuk memandu perpustakaan OCR, apakah itu melihat dokumen lengkap atau potongan, seperti tangkapan layar.
RotateAndStraighten adalah pengaturan lanjutan yang memungkinkan IronOCR memiliki kemampuan unik untuk membaca dokumen yang tidak hanya diputar, tetapi mungkin berisi perspektif, seperti foto dokumen teks.
ReadBarcodes adalah fitur berguna yang memungkinkan IronOCR untuk secara otomatis membaca kode batang dan kode QR pada halaman karena ia juga membaca teks, tanpa menambah beban waktu tambahan yang besar.
ColorDepth. Pengaturan ini menentukan berapa banyak bit per piksel yang akan digunakan perpustakaan OCR untuk menentukan kedalaman warna. Kedalaman warna yang lebih tinggi dapat meningkatkan kualitas OCR, tetapi juga akan meningkatkan waktu yang diperlukan untuk penyelesaian operasi OCR.
126 Paket Bahasa
IronOCR mendukung 126 bahasa internasional melalui paket bahasa yang didistribusikan sebagai DLL, yang dapat diunduh dari situs web ini , atau juga dari NuGet Package Manager .
Bahasa termasuk Jerman, Prancis, Inggris, Cina, Jepang, dan banyak lagi. Paket bahasa spesialis tersedia untuk paspor MRZ, cek MICR, Data Keuangan, Plat nomor dan banyak lagi. Anda juga dapat menggunakan file ".traineddata" tesseract - termasuk yang Anda buat sendiri.
Contoh Bahasa
Menggunakan bahasa OCR lainnya.
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tambahkan filter gambar jika perlu
// Dalam hal ini, input pemikiran sekalipun berkualitas sangat rendah
// IronTesseract dapat membaca apa yang tidak bisa dilakukan oleh Tesseract konvensional.
var Result = Ocr.Read(input);
// Konsol tidak dapat mencetak bahasa Arab di Windows dengan mudah.
// Mari simpan ke disk sebagai gantinya.
Result.SaveAsTextFile("arabic.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.Arabic
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Arabic;
using (var input = new OcrInput())
{
input.AddImage("img/arabic.gif");
// Tambahkan filter gambar jika perlu
// Dalam hal ini, input pemikiran sekalipun berkualitas sangat rendah
// IronTesseract dapat membaca apa yang tidak bisa dilakukan oleh Tesseract konvensional.
var Result = Ocr.Read(input);
// Konsol tidak dapat mencetak bahasa Arab di Windows dengan mudah.
// Mari simpan ke disk sebagai gantinya.
Result.SaveAsTextFile("arabic.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.Arabic
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Arabic
Using input = New OcrInput()
input.AddImage("img/arabic.gif")
' Tambahkan filter gambar jika perlu
' Dalam hal ini, input pemikiran sekalipun berkualitas sangat rendah
' IronTesseract dapat membaca apa yang tidak bisa dilakukan oleh Tesseract konvensional.
Dim Result = Ocr.Read(input)
' Konsol tidak dapat mencetak bahasa Arab di Windows dengan mudah.
' Mari simpan ke disk sebagai gantinya.
Result.SaveAsTextFile("arabic.txt")
End Using
Contoh Berbagai Bahasa
Juga dimungkinkan untuk OCR menggunakan beberapa bahasa pada waktu yang bersamaan. Ini benar-benar dapat membantu mendapatkan metadata dan url bahasa Inggris dalam dokumen Unicode.
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Indonesian);
// Kami dapat menambahkan sejumlah bahasa
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
// using IronOcr;
// PM> Install IronOcr.Languages.ChineseSimplified
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseSimplified;
Ocr.AddSecondaryLanguage(OcrLanguage.Indonesian);
// Kami dapat menambahkan sejumlah bahasa
using (var input = new OcrInput())
{
input.Add("multi - language.pdf");
var Result = Ocr.Read(input);
Result.SaveAsTextFile("results.txt");
}
' using IronOcr;
' PM> Install IronOcr.Languages.ChineseSimplified
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseSimplified
Ocr.AddSecondaryLanguage(OcrLanguage.Indonesian)
' Kami dapat menambahkan sejumlah bahasa
Using input = New OcrInput()
input.Add("multi - language.pdf")
Dim Result = Ocr.Read(input)
Result.SaveAsTextFile("results.txt")
End Using
Objek Hasil OCR Terperinci
Besi OCR mengembalikan objek hasil OCR untuk setiap operasi OCR. Umumnya, pengembang hanya menggunakan properti teks dari objek ini untuk memindai teks dari gambar. Namun, hasil OCR DOM jauh lebih maju dari ini.
using IronOcr;
using System.Drawing; //Tambahkan Referensi Majelis
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Penting
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Jelajahi di sini untuk menemukan API yang sangat besar dan mendetail:
// - Halaman, Blok, Paraphaphs, Lines, Words, Chars
// - Ekspor Gambar, Koordinat Font, Data Statistik
}
using IronOcr;
using System.Drawing; //Tambahkan Referensi Majelis
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.Indonesian;
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; //!Penting
using (var Input = new OcrInput(@"images\sample.tiff"))
{
OcrResult Result = Ocr.Read(Input);
var Pages = Result.Pages;
var Words = Pages [0].Words;
var Barcodes = Result.Barcodes;
// Jelajahi di sini untuk menemukan API yang sangat besar dan mendetail:
// - Halaman, Blok, Paraphaphs, Lines, Words, Chars
// - Ekspor Gambar, Koordinat Font, Data Statistik
}
Imports IronOcr
Imports System.Drawing 'Tambahkan Referensi Majelis
Private Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.Indonesian
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm
Ocr.Configuration.ReadBarCodes = True '!Penting
Using Input = New OcrInput("images\sample.tiff")
Dim Result As OcrResult = Ocr.Read(Input)
Dim Pages = Result.Pages
Dim Words = Pages (0).Words
Dim Barcodes = Result.Barcodes
' Jelajahi di sini untuk menemukan API yang sangat besar dan mendetail:
' - Halaman, Blok, Paraphaphs, Lines, Words, Chars
' - Ekspor Gambar, Koordinat Font, Data Statistik
End Using
Performa
IronOCR bekerja di luar kotak tanpa perlu menyesuaikan kinerja atau banyak memodifikasi gambar input.
Kecepatan Berkobar: IronOcr.2020 + hingga 10 kali lebih cepat dan membuat kesalahan lebih dari 250% lebih sedikit daripada versi sebelumnya.
Belajarlah lagi
Untuk mempelajari lebih lanjut tentang OCR dalam C #, VB, F #, atau bahasa .NET lainnya, silakan baca tutorial komunitas kami , yang memberikan contoh dunia nyata tentang bagaimana IronOCR dapat digunakan dan mungkin menunjukkan nuansa cara mendapatkan yang terbaik dari perpustakaan ini.
Referensi objek lengkap untuk pengembang .NET juga tersedia.