Jak korzystać z wielu języków w Tesseract w języku C

Zaktualizowano:czerwca 28, 2026

Translated

View the article in English

IronOCR umożliwia wyodrębnianie tekstu z dokumentów w wielu językach przy użyciu silnika Tesseract poprzez konfigurację języków podstawowych i dodatkowych za pomocą zaledwie jednej linii kodu, obsługując ponad 125 pakietów językowych w celu płynnego przetwarzania wielojęzycznego OCR.

Wprowadzenie

IronOCR umożliwia wyodrębnianie tekstu z różnych języków i alfabetów przy użyciu silnika Tesseract jako niezawodnego narzędzia OCR.

W tym artykułe omówiono, w jaki sposób IronOCR przetwarza tekst w wielu językach za pomocą Tesseract. Nauczysz się, jak wdrożyć rozwiązania OCR dla wielu języków i poznasz możliwości IronOCR i integracji z silnikiem Tesseract.

Przetwarzanie dokumentów w wielu językach jest niezbędne w nowoczesnych aplikacjach. Międzynarodowe dokumenty biznesowe, wielojęzyczne strony internetowe i globalne platformy komunikacyjne wymagają dokładnego pozyskiwania tekstu ponad barierami językowymi. IronOCR zaspokaja tę potrzebę poprzez integrację z szerokim wsparciem językowym Tesseract, umożliwiając wyciąganie tekstu z dokumentów zawierających wiele skryptów i jednocześnie zestawów znaków.

Szybki start: Wykorzystanie IronOCR do rozpoznawania tekstu w wielu językach

Skonfiguruj IronOCR z językiem podstawowym i dodaj języki dodatkowe w jednym wierszu, aby wyodrębnić tekst z wielojęzycznych dokumentów lub obrazów.

Install IronOCR with NuGet Package Manager
PM > Install-Package IronOcr

Skopiuj i uruchom ten fragment kodu.

string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;

Wdrożenie do testowania w środowisku produkcyjnym

Rozpocznij używanie IronOCR w swoim projekcie już dziś z darmową wersją próbną

Minimalny proces (5 kroków)

Pobierz bibliotekę C# do odczytu wielu języków
Przygotuj dokument PDF i obraz do odczytu
Zainstaluj dodatkowe pakiety językowe za pośrednictwem NuGet
Użyj metody AddSecondaryLanguage, aby włączyć wybrane języki
Ustaw właściwość Language, aby zmienić domyślny język

Jak odczytywać wielojęzyczne pliki PDF za pomocą IronOCR?

IronOCR oferuje około 125 pakietów językowych; Domyślnie zainstalowany jest tylko język angielski. Dodatkowe wersje językowe można pobrać z NuGet. Zobacz wszystkie dostępne pakiety językowe tutaj..

Pliki PDF zawierające wiele języków wymagają specjalnej konfiguracji silnika OCR. IronOCR pozwala określić język główny i pomocniczy przed przetworzeniem dokumentów, zapewniając optymalną dokładność rozpoznawania w różnych alfabetach i zestawach znaków.

Jakie języki są dostępne do ekstrakcji plików PDF?

Poniższy przykład pokazuje, jak używać wielu języków w IronOCR do ekstrakcji tekstu z pliku PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)

$vbLabelText $csharpLabel

W przypadku złożonych scenariuszy przetwarzania plików PDF zapoznaj się z naszym przewodnikiem dotyczącym ekstrakcji tekstu z plików PDF za pomocą OCR, obejmującym zaawansowane techniki dla różnych formatów i struktur plików PDF.

Jak priorytet języka wpływa na wyniki OCR?

Dodaj dowolną liczbę dodatkowych języków za pomocą metody AddSecondaryLanguage. Należy pamiętać, że dodatkowe języki mogą wpływać na szybkość i wydajność. Priorytet języków zależy od kolejności dodania, przy czym pierwszy z nich ma wyższy priorytet.

Zrozumienie priorytetów językowych ma kluczowe znaczenie podczas przetwarzania dokumentów wielojęzycznych. Język główny ma najwyższy priorytet podczas ekstrakcji tekstu — silnik OCR najpierw próbuje dopasować znaki do zestawu znaków języka głównego. Języki drugorzędne są konsultowane, gdy napotkane znaki nie pasują do wzorców języka głównego.

Dla optymalnej wydajności:

Ustaw najczęściej używany język w dokumencie jako główny
Dodaj języki dodatkowe w kolejności według częstotliwości występowania w dokumencie
Ogranicz języki pomocnicze do tych niezbędnych w danym przypadku użycia

W przypadku aplikacji o wysokiej wydajności obsługujących wiele języków zapoznaj się z naszym przewodnikiem po konfiguracji Fast OCR, aby zoptymalizować szybkość przetwarzania.

Jak przetwarzać wielojęzyczne obrazy za pomocą Tesseract?

Językiem domyślnym jest angielski. Aby to zmienić, ustaw właściwość Language na żądany język, a następnie dodaj dodatkowe języki w razie potrzeby.

Obrazy zawierające tekst wielojęzyczny wymagają starannej konfiguracji. W przeciwieństwie do PDF, obrazy mogą zawierać różnorodne orientacje tekstu, różne czcionki i mieszane pisma. Integracja Tesseract w IronOCR zapewnia kompleksowe opcje konfiguracji językowej dla tych scenariuszy.

Kiedy należy zmienić domyślne ustawienie języka?

Zmień domyślny język, gdy:

Większość dokumentu jest w języku innym niż angielski
Przetwarzanie dokumentów z określonego regionu lub kraju
Twoja aplikacja jest skierowana do użytkowników korzystających z treści w językach innych niż angielski
Optymalizacja dokładności rozpoznawania dla określonych zestawów znaków

Oto kompletny przykład przetwarzania obrazów w wielu językach:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);

Imports IronOcr
Imports System

' Initialize IronTesseract OCR engine
Dim Ocr As New IronTesseract()

' Instantiate IronTesseract
Dim ocrTesseract As New IronTesseract()

' Set primary language to Russian
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Using imageInput As New OcrImageInput("example.png")
    ' Perform OCR
    Dim result As OcrResult = ocrTesseract.Read(imageInput)

    ' Output extracted text to console
    Console.WriteLine(result.Text)
End Using

$vbLabelText $csharpLabel

W przypadku języków niestandardowych lub specjalistycznych czcionek zapoznaj się z naszym samouczkiem dotyczącym korzystania z niestandardowych plików językowych.

Jakich rezultatów mogę oczekiwać od wielojęzycznego OCR?

Prawidłowa konfiguracja daje następujące wyniki:

Aplikacja do przetwarzania tekstu w wielu językach pokazująca treść w języku rosyjskim i japońskim z wynikiem konsoli pokazującym przetwarzanie znaków

Jakość wyników wielojęzycznego OCR zależy od kilku czynników:

Jakość obrazu: Wyższa rozdzielczość (ponad 300 DPI) zapewnia lepsze wyniki. Zobacz nasz przewodnik po ustawieniach DPI.
Przejrzystość tekstu: Wyraźny, dobrze zdefiniowany tekst bez artefaktów zapewnia dokładniejszą rozpoznanie
Konfiguracja języka: Właściwa konfiguracja języka głównego i drugorzędnych zapewnia prawidłowe wzorce rozpoznawania znaków
Przetwarzanie wstępne: Odpowiednie filtry znacznie poprawiają wyniki. Zapoznaj się z naszym przewodnikiem po filtrach korekcji obrazu, aby poznać techniki poprawiania jakości.

Jakie są najważniejsze wnioski dotyczące wielojęzycznego OCR?

IronOCR, wykorzystując silnik Tesseract, skutecznie wyodrębnia tekst z dokumentów wielojęzycznych. Radzi sobie ze złożonością czytania tekstów w wielu językach, zapewniając wszechstronne rozwiązanie. Niezależnie od tego, czy przetwarzasz pliki PDF w różnych językach, czy pracujesz z wielojęzyczną zawartością graficzną, IronOCR ułatwia rozpoznawanie i wyodrębnianie tekstu w różnych językach.

Kluczowe zalety IronOCR w zakresie wielojęzycznego wyodrębniania tekstu:

Rozszerzone wsparcie językowe: Ponad 125 międzynarodowych języków OCR za pośrednictwem pakietów NuGet
Elastyczna konfiguracja: Proste API dla ustawień języka głównego i drugorzędnych
Wysoka dokładność: Używa zaawansowanych algorytmów rozpoznawania Tesseract 5
Optymalizacja wydajności: Wbudowane wsparcie dla wielowątkowości
Kompatybilność międzyplatformowa: Działa w systemach Windows, Linux i macOS

IronOCR zapewnia kompleksowe rozwiązanie łączące łatwość obsługi z zaawansowanymi funkcjami do wdrażania wielojęzycznego OCR. Twórz systemy zarządzania dokumentami, narzędzia do tłumaczenia lub dowolne aplikacje wymagające wielojęzycznego pozyskiwania tekstu, korzystając z elastyczności i niezawodności niezbędnych do osiągnięcia sukcesu.

Rozpocznij swój wielojęzyczny projekt OCR, pobierając IronOCR z NuGet oraz zapoznając się z naszą dokumentacją i przykładami. W przypadku konkretnych przypadków użycia lub zaawansowanych scenariuszy nasze przewodniki dotyczące rozwiązywania problemów zawierają wskazówki pozwalające uzyskać optymalne wyniki.

Często Zadawane Pytania

Jak wykonac OCR na dokumentach zawierających wiele języków?

IronOCR pozwala skonfigurowac wielojezyczne OCR za pomoca jednego polecenia. Ustaw język glowny przy uzyciu wlasciwosci Language i dodaj języki dodatkowe, korzystając z metody AddSecondaryLanguage. Umozliwia to IronOCR dokladne wyodrebnienie tekstu z dokumentow zawierających wiele skryptow i zestawow znakow jednoczesnie.

Które języki sa obslugiwane do wyodrebniania tekstu?

IronOCR obsługuje ponad 125 pakietów językowych dzieki integracji z silnikiem Tesseract. Chociaz angielski jest instalowany domyslnie, mozna pobrac dodatkowe pakiety językowe z NuGet, aby umozliwic funkcje OCR dla językow od hiszpanskiego i francuskiego po arabski, chinski, japonski i wiele innych.

Jak dodac języki dodatkowe do przetwarzania OCR?

Użyj metody AddSecondaryLanguage w IronOCR, aby wlaczyc dodatkowe języki. Na przyklad: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Taka konfiguracja pozwala IronOCR rozpoznawac tekst zarowno w hiszpanskim, jak i francuskim w tym samym dokumencie.

Czy mogę wyodrebnic tekst z wielojezycznych plikow PDF?

Tak, IronOCR moze przetwarzac pliki PDF zawierajace wiele językow. Wystarczy skonfigurowac silnik OCR z glownymi i dodatkowymi jezykami przed przetwarzaniem. IronOCR automatycznie obsługuje rozne skrypty i zestawy znakow w pliku PDF, zapewniajac dokladne wyodrebnienie tekstu we wszystkich językach obecnych w dokumencie.

Czy muszę instalować pakiety językowe osobno?

Tak, chociaz IronOCR zawiera angielski domyslnie, dodatkowe pakiety językowe musza byc instalowane za pomocą NuGet. Kazdy pakiet językowy zawiera niezbedne dane dla silnika Tesseract IronOCR do rozpoznawania tekstu w konkretnym jezyku. Mozesz przegladac i pobierac wszystkie dostepne pakiety językowe na stronie językow IronOCR.

Jaki jest minimalny przeplyw pracy dla wielojezycznego OCR?

Minimalny przeplyw pracy obejmuje 5 krokow: 1) Pobranie biblioteki IronOCR, 2) Przygotowanie pliku PDF lub dokumentu obrazowego, 3) Instalacja wymaganych pakietow językowych za posrednictwem NuGet, 4) Uzycie metody AddSecondaryLanguage, aby wlaczyc dodatkowe jezyki, oraz 5) Ustawienie wlasciwosci Language dla języka glownego. Ta konfiguracja umożliwia dokladne wielojezyczne wyodrebnianie tekstu.

Czy IronOCR można zintegrować z istniejącymi aplikacjami?

IronOCR jest zaprojektowany do łatwej integracji z istniejącymi aplikacjami używając C#, co pozwala programistom dodać funkcjonalność OCR do swojego oprogramowania z minimalnym wysiłkiem.

Jakie są korzyści z używania IronOCR do zarządzania dokumentami?

Używanie IronOCR do zarządzania dokumentami upraszcza przepływ pracy przez konwertowanie zeskanowanych dokumentów na przeszukiwalny i edytowalny tekst, redukując konieczność ręcznego wprowadzania danych i poprawiając dostępność dokumentów.

Jak IronOCR może poprawić dokładność danych?

IronOCR poprawia dokładność danych dzięki swoim zaawansowanym algorytmom rozpoznawania i funkcjom korekcji obrazów, zapewniając, że proces ekstrakcji tekstu jest zarówno niezawodny, jak i precyzyjny.

Czy dostępna jest bezpłatna wersja próbna IronOCR?

Tak, Iron Software oferuje bezpłatną wersję próbną IronOCR, umożliwiając użytkownikom przetestowanie jego funkcji i możliwości przed podjęciem decyzji o zakupie.

Kannapat Udonpant

Czat z zespołem inżynierów teraz

Inżynier oprogramowania

Zanim stał się inżynierem oprogramowania, Kannapat ukończył doktorat z zasobów środowiskowych na Uniwersytecie Hokkaido w Japonii. W czasie studiowania, Kannapat również został członkiem Laboratorium Robotyki Pojazdów, które jest częścią Wydziału Inżynierii Bioprodukcji. W 2022 roku wykorzystał swoje umiejętności w ...

Czytaj więcej

Jeffrey T. Fritz

Główny Menedżer Programu - Zespół .NET Community

Jeff jest również Głównym Menedżerem Programu dla zespołów .NET i Visual Studio. Jest producentem wykonawczym wirtualnej serii konferencji .NET Conf i prowadzi 'Fritz and Friends', transmisję na żywo dla deweloperów emitowaną dwa razy w tygodniu, gdzie rozmawia o technologii i pisze kod razem z widzami. Jeff pisze warsztaty, prezentacje i planuje treści dla największych wydarzeń Microsoft dla deweloperów, w tym Microsoft Build, Microsoft Ignite, .NET Conf i Microsoft MVP Summit.

Gotowy, aby rozpocząć?

Nuget Pliki do pobrania 6,151,372 | Wersja: 2026.7 właśnie wydany

Zobacz licencje

Wciąż przewijasz?

Czy chcesz szybko dowodu? PM > Install-Package IronOcr
uruchom próbkę obserwuj, jak twój obraz staje się tekstem z możliwością wyszukiwania.

Zobacz licencje

Zwycięstwo klienta:

Podkreślaj programistę:

Webinary:

Rozpocznij darmowy 30-dniowy okres próbny

Na tej stronie

Jak korzystać z wielu języków w Tesseract w języku C

Wprowadzenie

Install IronOCR with NuGet Package Manager

Skopiuj i uruchom ten fragment kodu.

Wdrożenie do testowania w środowisku produkcyjnym

Minimalny proces (5 kroków)

Jak odczytywać wielojęzyczne pliki PDF za pomocą IronOCR?

Jakie języki są dostępne do ekstrakcji plików PDF?

Jak priorytet języka wpływa na wyniki OCR?

Jak przetwarzać wielojęzyczne obrazy za pomocą Tesseract?

Kiedy należy zmienić domyślne ustawienie języka?

Jakich rezultatów mogę oczekiwać od wielojęzycznego OCR?

Jakie są najważniejsze wnioski dotyczące wielojęzycznego OCR?

Często Zadawane Pytania

Jak wykonac OCR na dokumentach zawierających wiele języków?

Które języki sa obslugiwane do wyodrebniania tekstu?

Jak dodac języki dodatkowe do przetwarzania OCR?

Czy mogę wyodrebnic tekst z wielojezycznych plikow PDF?

Czy muszę instalować pakiety językowe osobno?

Jaki jest minimalny przeplyw pracy dla wielojezycznego OCR?

Czy IronOCR można zintegrować z istniejącymi aplikacjami?

Jakie są korzyści z używania IronOCR do zarządzania dokumentami?

Jak IronOCR może poprawić dokładność danych?

Czy dostępna jest bezpłatna wersja próbna IronOCR?

Wciąż przewijasz?

Twój klucz licencyjny został dostarczony do Twojej skrzynki odbiorczej

Twoje zgłoszenie demo jest przetwarzane.

Zespół wsparcia Iron

Rozpocznij darmowy 30-dniowy okres próbny

Na tej stronie

Jak korzystać z wielu języków w Tesseract w języku C

Wprowadzenie

Install IronOCR with NuGet Package Manager

Skopiuj i uruchom ten fragment kodu.

Wdrożenie do testowania w środowisku produkcyjnym

Minimalny proces (5 kroków)

Jak odczytywać wielojęzyczne pliki PDF za pomocą IronOCR?

Jakie języki są dostępne do ekstrakcji plików PDF?

Jak priorytet języka wpływa na wyniki OCR?

Jak przetwarzać wielojęzyczne obrazy za pomocą Tesseract?

Kiedy należy zmienić domyślne ustawienie języka?

Jakich rezultatów mogę oczekiwać od wielojęzycznego OCR?

Jakie są najważniejsze wnioski dotyczące wielojęzycznego OCR?

Często Zadawane Pytania

Jak wykonac OCR na dokumentach zawierających wiele języków?

Które języki sa obslugiwane do wyodrebniania tekstu?

Jak dodac języki dodatkowe do przetwarzania OCR?

Czy mogę wyodrebnic tekst z wielojezycznych plikow PDF?

Czy muszę instalować pakiety językowe osobno?

Jaki jest minimalny przeplyw pracy dla wielojezycznego OCR?

Czy IronOCR można zintegrować z istniejącymi aplikacjami?

Jakie są korzyści z używania IronOCR do zarządzania dokumentami?

Jak IronOCR może poprawić dokładność danych?

Czy dostępna jest bezpłatna wersja próbna IronOCR?

Wciąż przewijasz?

Odbierz swój BEZPŁATNY

Następny krok: Rozpocznij darmową 30-dniową wersję próbną

Thank You

Następny krok: Rozpocznij darmową 30-dniową wersję próbną

Chcesz BEZPŁATNIE wdrożyć IronSuite w rzeczywistym projekcie?

Co jest w zestawie?

Twój klucz licencyjny został dostarczony do Twojej skrzynki odbiorczej

Twoje zgłoszenie demo jest przetwarzane.

Zaufane przez miliony inżynierów na całym świecie

Zespół wsparcia Iron