Jak korzystać z wielu języków w Tesseract

Jak korzystać z wielu języków w Tesseract w języku C

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR umożliwia wyodrębnianie tekstu z dokumentów w wielu językach przy użyciu silnika Tesseract poprzez konfigurację języków podstawowych i dodatkowych za pomocą zaledwie jednej linii kodu, obsługując ponad 125 pakietów językowych w celu płynnego przetwarzania wielojęzycznego OCR.

Wprowadzenie

IronOCR umożliwia wyodrębnianie tekstu z różnych języków i alfabetów przy użyciu silnika Tesseract jako niezawodnego narzędzia OCR.

W tym artykule omówiono, w jaki sposób IronOCR przetwarza tekst w wielu językach za pomocą Tesseract. Dowiesz się, jak wdrażać wielojęzyczne rozwiązania OCR oraz poznasz możliwości IronOCR i integracji silnika Tesseract.

Przetwarzanie dokumentów w wielu językach jest niezbędne w nowoczesnych aplikacjach. Międzynarodowe dokumenty biznesowe, wielojęzyczne strony internetowe i globalne platformy komunikacyjne wymagają dokładnego pozyskiwania tekstu ponad barierami językowymi. IronOCR odpowiada na tę potrzebę, integrując się z rozbudowaną obsługą języków Tesseract, umożliwiającą jednoczesne wyodrębnianie tekstu z dokumentów zawierających wiele alfabetów i zestawów znaków.

Szybki start: Wykorzystanie IronOCR do rozpoznawania tekstu w wielu językach

Skonfiguruj IronOCR z językiem podstawowym i dodaj języki dodatkowe w jednym wierszu, aby wyodrębnić tekst z wielojęzycznych dokumentów lub obrazów.

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr
  2. Skopiuj i uruchom ten fragment kodu.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Wdrożenie do testowania w środowisku produkcyjnym

    Rozpocznij używanie IronOCR w swoim projekcie już dziś z darmową wersją próbną

    arrow pointer


Jak odczytywać wielojęzyczne pliki PDF za pomocą IronOCR?

IronOcr oferuje około 125 pakietów językowych; Domyślnie zainstalowany jest tylko język angielski. Dodatkowe wersje językowe można pobrać z NuGet. Zobacz wszystkie dostępne pakiety językowe tutaj.

Pliki PDF zawierające wiele języków wymagają specjalnej konfiguracji silnika OCR. IronOCR pozwala określić język główny i pomocniczy przed przetworzeniem dokumentów, zapewniając optymalną dokładność rozpoznawania w różnych alfabetach i zestawach znaków.

Jakie języki są dostępne do ekstrakcji plików PDF?

Poniższy przykład pokazuje, jak używać wielu języków w IronOcr do wyodrębniania tekstu z pliku PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

W przypadku złożonych scenariuszy przetwarzania plików PDF zapoznaj się z naszym przewodnikiem dotyczącym ekstrakcji tekstu z plików PDF za pomocą OCR, obejmującym zaawansowane techniki dla różnych formatów i struktur plików PDF.

Jak priorytet języka wpływa na wyniki OCR?

Dodaj dowolną liczbę dodatkowych języków, używając metody AddSecondaryLanguage. Należy pamiętać, że dodatkowe języki mogą wpływać na szybkość i wydajność. Priorytet języków zależy od kolejności dodania, przy czym pierwszy z nich ma wyższy priorytet.

Zrozumienie priorytetów językowych ma kluczowe znaczenie podczas przetwarzania dokumentów wielojęzycznych. Podczas ekstrakcji tekstu najwyższy priorytet ma język główny — silnik OCR najpierw próbuje dopasować znaki do zestawu znaków języka głównego. W przypadku napotkania znaków, które nie pasują do wzorców języka głównego, należy odwołać się do języków pomocniczych.

Dla optymalnej wydajności:

  • Ustaw najczęściej używany język w dokumencie jako główny
  • Dodaj języki dodatkowe w kolejności według częstotliwości występowania w dokumencie
  • Ogranicz języki pomocnicze do tych niezbędnych w danym przypadku użycia

W przypadku aplikacji o wysokiej wydajności obsługujących wiele języków zapoznaj się z naszym przewodnikiem po konfiguracji Fast OCR, aby zoptymalizować szybkość przetwarzania.

Jak przetwarzać wielojęzyczne obrazy za pomocą Tesseract?

Językiem domyślnym jest angielski. Aby go zmienić, ustaw właściwość Language na żądany język, a następnie dodaj języki dodatkowe według potrzeb.

Obrazy zawierające tekst wielojęzyczny wymagają starannej konfiguracji. W przeciwieństwie do plików PDF, obrazy mogą zawierać tekst o różnej orientacji, różne czcionki i mieszane skrypty. Integracja IronOCR z Tesseract zapewnia kompleksowe opcje konfiguracji językowej dla takich scenariuszy.

Kiedy należy zmienić domyślne ustawienie języka?

Zmień domyślny język, gdy:

  • Większość dokumentu jest w języku innym niż angielski
  • Przetwarzanie dokumentów z określonego regionu lub kraju
  • Twoja aplikacja jest skierowana do użytkowników korzystających z treści w językach innych niż angielski
  • Optymalizacja dokładności rozpoznawania dla określonych zestawów znaków

Oto kompletny przykład przetwarzania obrazów w wielu językach:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

W przypadku języków niestandardowych lub specjalistycznych czcionek zapoznaj się z naszym samouczkiem dotyczącym korzystania z niestandardowych plików językowych.

Jakich rezultatów mogę oczekiwać od wielojęzycznego OCR?

Prawidłowa konfiguracja daje następujące wyniki:

Aplikacja przetwarzająca tekst w wielu językach, pokazująca treści w języku rosyjskim i japońskim z wyjściem konsoli pokazującym przetwarzanie znaków

Jakość wyników wielojęzycznego OCR zależy od kilku czynników:

  1. Jakość obrazu: Wyższa rozdzielczość (ponad 300 DPI) zapewnia lepsze wyniki. Zobacz nasz przewodnik po ustawieniach DPI.
  2. Przejrzystość tekstu: Jasny, dobrze zdefiniowany tekst bez artefaktów zapewnia dokładniejsze rozpoznawanie
  3. Konfiguracja językowa: Prawidłowe ustawienie języka głównego i dodatkowego zapewnia poprawność wzorców rozpoznawania znaków
  4. Przetwarzanie wstępne: Odpowiednie filtry znacznie poprawiają wyniki. Zapoznaj się z naszym przewodnikiem po filtrach korekcji obrazu, aby poznać techniki poprawiania jakości.

Jakie są najważniejsze wnioski dotyczące wielojęzycznego OCR?

IronOCR, wykorzystując silnik Tesseract, skutecznie wyodrębnia tekst z dokumentów wielojęzycznych. Radzi sobie ze złożonością czytania tekstów w wielu językach, zapewniając wszechstronne rozwiązanie. Niezależnie od tego, czy przetwarzasz pliki PDF w różnych językach, czy pracujesz z wielojęzyczną zawartością graficzną, IronOCR ułatwia rozpoznawanie i wyodrębnianie tekstu w różnych językach.

Kluczowe zalety IronOCR w zakresie wielojęzycznego wyodrębniania tekstu:

  • Obsługa wielu języków: ponad 125 międzynarodowych języków OCR za pośrednictwem pakietów NuGet
  • Elastyczna konfiguracja: proste API do ustawiania języka głównego i dodatkowego
  • Wysoka dokładność: wykorzystuje zaawansowane algorytmy rozpoznawania Tesseract 5
  • Optymalizacja wydajności: wbudowana obsługa wielowątkowości
  • Kompatybilność międzyplatformowa: Działa w systemach Windows, Linux i macOS

IronOCR zapewnia kompleksowe rozwiązanie łączące łatwość obsługi z zaawansowanymi funkcjami do wdrażania wielojęzycznego OCR. Twórz systemy zarządzania dokumentami, narzędzia do tłumaczenia lub dowolne aplikacje wymagające wielojęzycznego pozyskiwania tekstu, korzystając z elastyczności i niezawodności niezbędnych do osiągnięcia sukcesu.

Rozpocznij swój wielojęzyczny projekt OCR, pobierając IronOCR z NuGet oraz zapoznając się z naszą dokumentacją i przykładami. W przypadku konkretnych przypadków użycia lub zaawansowanych scenariuszy nasze przewodniki dotyczące rozwiązywania problemów zawierają wskazówki pozwalające uzyskać optymalne wyniki.

Często Zadawane Pytania

Jak wykonac OCR na dokumentach zawierających wiele jezyków?

IronOCR pozwala skonfigurowac wielojezyczne OCR za pomoca jednego polecenia. Ustaw jezyk glowny przy uzyciu wlasciwosci Language i dodaj jezyki dodatkowe, korzystając z metody AddSecondaryLanguage. Umozliwia to IronOCR dokladne wyodrebnienie tekstu z dokumentow zawierających wiele skryptow i zestawow znakow jednoczesnie.

Które jezyki sa obslugiwane do wyodrebniania tekstu?

IronOCR obsługuje ponad 125 pakietów jezykowych dzieki integracji z silnikiem Tesseract. Chociaz angielski jest instalowany domyslnie, mozna pobrac dodatkowe pakiety jezykowe z NuGet, aby umozliwic funkcje OCR dla jezykow od hiszpanskiego i francuskiego po arabski, chinski, japonski i wiele innych.

Jak dodac jezyki dodatkowe do przetwarzania OCR?

Użyj metody AddSecondaryLanguage w IronOCR, aby wlaczyc dodatkowe jezyki. Na przyklad: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Taka konfiguracja pozwala IronOCR rozpoznawac tekst zarowno w hiszpanskim, jak i francuskim w tym samym dokumencie.

Czy mogę wyodrebnic tekst z wielojezycznych plikow PDF?

Tak, IronOCR moze przetwarzac pliki PDF zawierajace wiele jezykow. Wystarczy skonfigurowac silnik OCR z glownymi i dodatkowymi jezykami przed przetwarzaniem. IronOCR automatycznie obsluguje rozne skrypty i zestawy znakow w pliku PDF, zapewniajac dokladne wyodrebnienie tekstu we wszystkich jezykach obecnych w dokumencie.

Czy musze instalowac pakiety jezykowe osobno?

Tak, chociaz IronOCR zawiera angielski domyslnie, dodatkowe pakiety jezykowe musza byc instalowane za pomocą NuGet. Kazdy pakiet jezykowy zawiera niezbedne dane dla silnika Tesseract IronOCR do rozpoznawania tekstu w konkretnym jezyku. Mozesz przegladac i pobierac wszystkie dostepne pakiety jezykowe na stronie jezykow IronOCR.

Jaki jest minimalny przeplyw pracy dla wielojezycznego OCR?

Minimalny przeplyw pracy obejmuje 5 krokow: 1) Pobranie biblioteki IronOCR, 2) Przygotowanie pliku PDF lub dokumentu obrazowego, 3) Instalacja wymaganych pakietow jezykowych za posrednictwem NuGet, 4) Uzycie metody AddSecondaryLanguage, aby wlaczyc dodatkowe jezyki, oraz 5) Ustawienie wlasciwosci Language dla jezyka glownego. Ta konfiguracja umozliwia dokladne wielojezyczne wyodrebnianie tekstu.

Kannaopat Udonpant
Inżynier oprogramowania
Zanim stał się inżynierem oprogramowania, Kannapat ukończył doktorat z zasobów środowiskowych na Uniwersytecie Hokkaido w Japonii. W czasie studiowania, Kannapat również został członkiem Laboratorium Robotyki Pojazdów, które jest częścią Wydziału Inżynierii Bioprodukcji. W 2022 roku wykorzystał swoje umiejętności w ...
Czytaj więcej
Sprawdzone przez
Jeff Fritz
Jeffrey T. Fritz
Główny Menedżer Programu - Zespół .NET Community
Jeff jest również Głównym Menedżerem Programu dla zespołów .NET i Visual Studio. Jest producentem wykonawczym wirtualnej serii konferencji .NET Conf i prowadzi 'Fritz and Friends', transmisję na żywo dla deweloperów emitowaną dwa razy w tygodniu, gdzie rozmawia o technologii i pisze kod razem z widzami. Jeff pisze warsztaty, prezentacje i planuje treści dla największych wydarzeń Microsoft dla deweloperów, w tym Microsoft Build, Microsoft Ignite, .NET Conf i Microsoft MVP Summit.
Gotowy, aby rozpocząć?
Nuget Pliki do pobrania 5,571,678 | Wersja: 2026.4 just released
Still Scrolling Icon

Wciąż przewijasz?

Czy chcesz szybko dowodu? PM > Install-Package IronOcr
uruchom próbkę obserwuj, jak twój obraz staje się tekstem z możliwością wyszukiwania.