Chinese OCR in C# and .NET
Inne wersje tego dokumentu:
IronOCR to komponent oprogramowania C#, ktory pozwala programistom .NET odczytywac tekst z obrazow i dokumentow PDF w 126 jezykach, w tym po chinsku. Pakiet jezykowy chinski zawiera zarowno znaki chinskie uproszczone, jak i tradycyjne.
Jest to zaawansowana gałąź Tesseract, zbudowana wyłącznie dla programistów .NET i regularnie przewyższa inne silniki Tesseract zarówno pod względem prędkości, jak i dokładności. Biblioteka umozliwia rozpoznawanie obrazow i dokumentow w roznych formatach w wielu jezykach, w tym po chinsku. Obsluguje ponad 125 jezykow i oferuje wysoki poziom dokladnosci rozpoznawania w porownaniu do konkurencji. API IronOCR zostalo zaprojektowane z mysla o rozbudowalnosci i dostosowywaniu. Mozesz pomoc IronOCR osiagac wysoka przepustowosc i dokladnosc, dodajac swoje dane lub funkcje do narzedzia sledzenia. IronOCR korzysta z wielu technik optycznego rozpoznawania znakow. Mozna go uzywac na komputerach z systemem Windows, Linux, macOS i innych popularnych platformach.
Zawartosc IronOcr.Languages.Chinese
Paczka ta zawiera 352 jezyki OCR dla .NET:
- ChineseSimplified
- ChineseSimplifiedBest
- ChineseSimplifiedFast
- ChineseSimplifiedVertical
- ChineseSimplifiedVerticalBest
- ChineseSimplifiedVerticalFast
- ChineseTraditional
- ChineseTraditionalBest
- ChineseTraditionalFast
- ChineseTraditionalVertical
- ChineseTraditionalVerticalBest
- ChineseTraditionalVerticalFast
Pobieranie
Mozemy pobrac pakiet jezykowy chinski [中文 (Zhōngwén)] z ponizszych linkow:
Uzycie IronOCR dla jezyka chinskiego
Stworz lub otworz projekt C
Aby rozpoczac prace z IronOCR, musimy utworzyc projekt C# .NET. Do tego celu uzywamy Visual Studio 2022. Mozesz wybrac wersje zgodna z Twoimi potrzebami. Rekomendowana jest najnowsza wersja Visual Studio dla plynnego dzialania. Utworzymy interfejs GUI do wyboru obrazu. Mozemy rowniez uzyc IronOCR w aplikacji konsolowej, podajac bezposrednia sciezke do obrazu. Zaimplementuj nastepujace kroki, aby utworzyc projekt C# w Visual Studio 2022:
- Otworz Visual Studio 2022.
- Kliknij przycisk "Utwórz nowy projekt".
- Napisz 'Windows' w pasku wyszukiwania, wybierz "Windows Form" z wynikow wyszukiwania i kliknij przycisk "Next".
- Nadaj nazwe projektowi. Przypisuje projektowi nazwe "ChineseOCR". Po nadaniu nazwy kliknij przycisk "Next".
- Wybierz .NET framework na nastepnym ekranie. Wybierz .NET framework wedlug potrzeb Twojego projektu. Na potrzeby tego samouczka wybieramy wersje .NET 5.0.
- Po wyborze kliknij przycisk "Create". Latwo stworzy projekt C# Windows Form w Visual Studio.
Projekt zostal utworzony i teraz jest gotowy do uzycia w bibliotece IronOCR. Mozemy rowniez uzyc juz istniejecego projektu C#. Otworz projekt i rozpocznij instalacje biblioteki IronOCR. W nastepnej sekcji omowimy metody instalacji biblioteki IronOCR w projektach C#.
Instalacja
Użycie Menadżera Pakietów NuGet
Aby zainstalowac biblioteke IronOCR za pomoca Menedzera Pakietow NuGet, musimy otworzyc interfejs Menedzera Pakietow NuGet. Wykonaj nastepujace kroki, aby zainstalowac biblioteke IronOCR:
- Kliknij "Tools" z glownego menu, nastepnie w menu rozwijanym najedz na "NuGet Package Manager" i wybierz "Manage NuGet Package Manager for Solution".
- To otworzy interfejs Menedzera Pakietow NuGet. Przejdz do karty przegladania i wyszukaj IronOCR Chinese. Wybierz odpowiedni pakiet z wynikow wyszukiwania i kliknij przycisk "Install", aby go zainstalowac.
- To rozpocznie instalacje biblioteki. Po zainstalowaniu bedziesz mogl korzystac z biblioteki IronOCR w swoim projekcie.
Uzycie Konsoli Menedzera Pakietow
Uzywanie konsoli jest zawsze latwa opcja. Mozemy zainstalowac biblioteke IronOCR rowniez za pomoca Konsoli Menedzera Pakietow. Wykonaj podane kroki, aby zainstalowac biblioteke IronOCR:
- Otworz Konsole Menedzera Pakietow w Visual Studio. Zwykle znajduje sie na dole Visual Studio.
-
Napisz nastepujace polecenie w konsoli:
Install-Package IronOcr.Languages.Chinese
- Zobaczysz w konsoli postep instalacji biblioteki. Biblioteka zostanie zainstalowana automatycznie. Po instalacji nasz projekt bedzie gotowy do korzystania z biblioteki IronOCR.
Przyklad kodu: OCR dla jezyka chinskiego
Teraz nadszedl czas na napisanie kodu dla implementacji biblioteki IronOCR dla jezyka chinskiego. Najpierw musimy stworzyc warstwe frontendowa do wyboru pliku z obrazem. Zobaczmy, jak mozemy to zrobic.
Tworzenie warstwy frontendowej
Uzyjemy elementow z "Toolboxu" do projektowania frontendu. Utworzymy przycisk, pole obrazkowe, bogaty edytor tekstu i dwie etykiety. Przeciagniemy i upuscimy te elementy z "Toolboxu" i umiescimy je w formularzu okienkowym. Zarzadzimy tymi elementami w stylu.
Przycisk bedzie sluzyc do wyboru pliku z obrazem z PC. Pole obrazkowe zaladuje wybrany plik z obrazem, a bogaty edytor tekstu pokaze tekst wynikowy. Mozesz dostosowac rozmiar kazdego elementu do swoich potrzeb. Koncowy projekt warstwy frontendowej bedzie wygladal tak:
To okno wyskoczy, gdy uruchomisz projekt. Ustawilismy wyrównanie okien do formularza na srodku ekranu. Wiec to okno pojawi sie na srodku.
Nasz frontend jest gotowy. Nastepnie nadszedl czas, aby dodac funkcjonalnosc backendowa do przycisku.
Kod backendowy dla IronOCR
Najpierw musimy zaimportowac przestrzen nazw IronOCR, aby uzyc jej w naszym kodzie. Napisz nastepujaca linie na gorze pliku:
using IronOCR;
using IronOCR;
Imports IronOCR
Uzyjemy przycisku "Select Image" do wyboru obrazu i zaladowania obrazu do pola obrazkowego. IronOCR przetworzy obraz z tekstem chinskim uproszczonym i pokaze tekst wynikowy w bogatym edytorze tekstu. Dodajmy funkcjonalnosc do przycisku, klikajac dwukrotnie na przycisku. Napisz nastepujace linie kodu, aby dodac opisana funkcjonalnosc:
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
var Result = Ocr.Read(Input);
txt_output.Text = Result.Text;
}
}
}
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.ChineseTraditional;
using (var Input = new OcrInput(open.FileName))
{
var Result = Ocr.Read(Input);
txt_output.Text = Result.Text;
}
}
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
Dim open As New OpenFileDialog()
If open.ShowDialog() = DialogResult.OK Then
' display image in picture box
img_image.Image = New Bitmap(open.FileName)
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.ChineseTraditional
Using Input = New OcrInput(open.FileName)
Dim Result = Ocr.Read(Input)
txt_output.Text = Result.Text
End Using
End If
End Sub
Gdy uzytkownik kliknie przycisk, pojawi sie dialog wyboru obrazu. Gdy uzytkownik wybierze obraz, automatycznie zaladuje sie on do pola obrazkowego. Uzywamy Bitmap() do drukowania obrazow w polu obrazkowym. Nastepnie IronOCR przeksztalci obrazy w tekst chinski. Ustawiamy Ocr. Jezyk na ChineseTraditional, aby rozpoznac tekst po chinsku tradycyjnym. Ocr. Funkcja odczytu przeczyta proces i zapisze wynik OCR w zmiennej Result. Jesli potrzebujesz zapisac tekst w formacie PDF, tekstowym lub HTML, uzyjesz funkcji SaveAs, aby zapisac plik w dowolnym formacie wyjsciowym, jaki chcesz - IronOCR obsluguje wiele formatow wyjsciowych.
Uruchom projekt
Teraz nadszedl czas na uruchomienie projektu. Kliknij przycisk Uruchom w Visual Studio. Zobaczymy to okno na naszym ekranie.
Kliknij przycisk "Select Image". Otworzy to okno dialogowe wyboru plikow. Wybierz plik z obrazem i wcisnij Enter.
Zaladuje go do pola obrazkowego, automatycznie zeskanuje obraz i pokaze wynik w polu tekstowym.
To jest wynik z obrazu, ktory wybieramy. IronOCR obsluguje rowniez odczytywanie i skanowanie plikow PDF. Mozemy uzyc edytowalnego formatu plikow PDF do skanowania i rozpoznawania tekstu za pomoca IronOCR. To moze byc rowniez zrobione w roznych jezykach. IronOCR moze uczynic istniejacy dokument PDF dokumentem przeszukiwalnym. IronOCR posiada wiele filtrów obrazów, aby uczynic obrazy przejrzystymi do oglądania i zrozumienia. Oto filtry:
- Input.Binarize()
- Input.Contrast()
- Input.Deskew()
- Input.DeNoise()
- Input.Dilate()
- Input.EnhanceResolution(300)
Wszystkie te funkcje zwiekszaja widocznosc znakow. IronOCR uzywa tych funkcji do czyszczenia i tworzenia przeszukiwalnego PDF. Zobaczmy, jak mozna to zrobic:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
Licencjonowanie
IronOCR jest bezpłatny do celów programistycznych. Mozesz aktywnie korzystac ze wszystkich jego funkcji za darmo. IronOCR oferuje rowniez darmowa wersje probna do produkcji bez potrzeby platnosci. Iron Software obecnie oferuje popularna promocje — pakiet pieciu produktów oprogramowania w cenie tylko dwoch. Po prostu zaplac za dwie aplikacje programowe raz, a otrzymasz wszystkie piec produktow, w tym IronPDF i IronXL. Mozesz znalezc wiecej informacji pod tym linkiem dotyczacym licencjonowania.

