Jak korzystać z wielu języków w Tesseract

Jak korzystać z wielu języków w Tesseract w języku C

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCR umożliwia wyodrębnianie tekstu z dokumentów w wielu językach przy użyciu silnika Tesseract poprzez konfigurację języków podstawowych i dodatkowych za pomocą zaledwie jednej linii kodu, obsługując ponad 125 pakietów językowych w celu płynnego przetwarzania wielojęzycznego OCR.

Wprowadzenie

IronOCR umożliwia wyodrębnianie tekstu z różnych języków i alfabetów przy użyciu silnika Tesseract jako niezawodnego narzędzia OCR.

W tym artykułe omówiono, w jaki sposób IronOCR przetwarza tekst w wielu językach za pomocą Tesseract. Nauczysz się, jak wdrożyć rozwiązania OCR dla wielu języków i poznasz możliwości IronOCR i integracji z silnikiem Tesseract.

Przetwarzanie dokumentów w wielu językach jest niezbędne w nowoczesnych aplikacjach. Międzynarodowe dokumenty biznesowe, wielojęzyczne strony internetowe i globalne platformy komunikacyjne wymagają dokładnego pozyskiwania tekstu ponad barierami językowymi. IronOCR zaspokaja tę potrzebę poprzez integrację z szerokim wsparciem językowym Tesseract, umożliwiając wyciąganie tekstu z dokumentów zawierających wiele skryptów i jednocześnie zestawów znaków.

Szybki start: Wykorzystanie IronOCR do rozpoznawania tekstu w wielu językach

Skonfiguruj IronOCR z językiem podstawowym i dodaj języki dodatkowe w jednym wierszu, aby wyodrębnić tekst z wielojęzycznych dokumentów lub obrazów.

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr
  2. Skopiuj i uruchom ten fragment kodu.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Wdrożenie do testowania w środowisku produkcyjnym

    Rozpocznij używanie IronOCR w swoim projekcie już dziś z darmową wersją próbną

    arrow pointer


Jak odczytywać wielojęzyczne pliki PDF za pomocą IronOCR?

IronOCR oferuje około 125 pakietów językowych; Domyślnie zainstalowany jest tylko język angielski. Dodatkowe wersje językowe można pobrać z NuGet. Zobacz wszystkie dostępne pakiety językowe tutaj..

Pliki PDF zawierające wiele języków wymagają specjalnej konfiguracji silnika OCR. IronOCR pozwala określić język główny i pomocniczy przed przetworzeniem dokumentów, zapewniając optymalną dokładność rozpoznawania w różnych alfabetach i zestawach znaków.

Jakie języki są dostępne do ekstrakcji plików PDF?

Poniższy przykład pokazuje, jak używać wielu języków w IronOCR do ekstrakcji tekstu z pliku PDF.

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

W przypadku złożonych scenariuszy przetwarzania plików PDF zapoznaj się z naszym przewodnikiem dotyczącym ekstrakcji tekstu z plików PDF za pomocą OCR, obejmującym zaawansowane techniki dla różnych formatów i struktur plików PDF.

Jak priorytet języka wpływa na wyniki OCR?

Dodaj dowolną liczbę języków dodatkowych, korzystając z metody AddSecondaryLanguage. Należy pamiętać, że dodatkowe języki mogą wpływać na szybkość i wydajność. Priorytet języków zależy od kolejności dodania, przy czym pierwszy z nich ma wyższy priorytet.

Zrozumienie priorytetów językowych ma kluczowe znaczenie podczas przetwarzania dokumentów wielojęzycznych. Język główny ma najwyższy priorytet podczas ekstrakcji tekstu — silnik OCR najpierw próbuje dopasować znaki do zestawu znaków języka głównego. Języki drugorzędne są konsultowane, gdy napotkane znaki nie pasują do wzorców języka głównego.

Dla optymalnej wydajności:

  • Ustaw najczęściej używany język w dokumencie jako główny
  • Dodaj języki dodatkowe w kolejności według częstotliwości występowania w dokumencie
  • Ogranicz języki pomocnicze do tych niezbędnych w danym przypadku użycia

W przypadku aplikacji o wysokiej wydajności obsługujących wiele języków zapoznaj się z naszym przewodnikiem po konfiguracji Fast OCR, aby zoptymalizować szybkość przetwarzania.

Jak przetwarzać wielojęzyczne obrazy za pomocą Tesseract?

Językiem domyślnym jest angielski. Aby to zmienić, ustaw właściwość Language na żądany język, a następnie dodaj języki dodatkowe w razie potrzeby.

Obrazy zawierające tekst wielojęzyczny wymagają starannej konfiguracji. W przeciwieństwie do PDF, obrazy mogą zawierać różnorodne orientacje tekstu, różne czcionki i mieszane pisma. Integracja Tesseract w IronOCR zapewnia kompleksowe opcje konfiguracji językowej dla tych scenariuszy.

Kiedy należy zmienić domyślne ustawienie języka?

Zmień domyślny język, gdy:

  • Większość dokumentu jest w języku innym niż angielski
  • Przetwarzanie dokumentów z określonego regionu lub kraju
  • Twoja aplikacja jest skierowana do użytkowników korzystających z treści w językach innych niż angielski
  • Optymalizacja dokładności rozpoznawania dla określonych zestawów znaków

Oto kompletny przykład przetwarzania obrazów w wielu językach:

// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
// Example code for reading multi-language image with IronOCR
using IronOcr;

// Initialize IronTesseract OCR engine
var Ocr = new IronTesseract();

using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
' Example code for reading multi-language image with IronOCR
Imports IronOcr

' Initialize IronTesseract OCR engine
Private Ocr = New IronTesseract()

Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

W przypadku języków niestandardowych lub specjalistycznych czcionek zapoznaj się z naszym samouczkiem dotyczącym korzystania z niestandardowych plików językowych.

Jakich rezultatów mogę oczekiwać od wielojęzycznego OCR?

Prawidłowa konfiguracja daje następujące wyniki:

Wielojęzyczna aplikacja do przetwarzania tekstu wyświetlająca treści w języku rosyjskim i japońskim wraz z wyjściem konsoli pokazującym przetwarzanie znaków

Jakość wyników wielojęzycznego OCR zależy od kilku czynników:

  1. Jakość obrazu: Wyższa rozdzielczość (ponad 300 DPI) zapewnia lepsze wyniki. Zobacz nasz przewodnik po ustawieniach DPI.
  2. Przejrzystość tekstu: Wyraźny, dobrze zdefiniowany tekst bez artefaktów zapewnia dokładniejszą rozpoznanie
  3. Konfiguracja języka: Właściwa konfiguracja języka głównego i drugorzędnych zapewnia prawidłowe wzorce rozpoznawania znaków
  4. Przetwarzanie wstępne: Odpowiednie filtry znacznie poprawiają wyniki. Zapoznaj się z naszym przewodnikiem po filtrach korekcji obrazu, aby poznać techniki poprawiania jakości.

Jakie są najważniejsze wnioski dotyczące wielojęzycznego OCR?

IronOCR, wykorzystując silnik Tesseract, skutecznie wyodrębnia tekst z dokumentów wielojęzycznych. Radzi sobie ze złożonością czytania tekstów w wielu językach, zapewniając wszechstronne rozwiązanie. Niezależnie od tego, czy przetwarzasz pliki PDF w różnych językach, czy pracujesz z wielojęzyczną zawartością graficzną, IronOCR ułatwia rozpoznawanie i wyodrębnianie tekstu w różnych językach.

Kluczowe zalety IronOCR w zakresie wielojęzycznego wyodrębniania tekstu:

  • Rozszerzone wsparcie językowe: Ponad 125 międzynarodowych języków OCR za pośrednictwem pakietów NuGet
  • Elastyczna konfiguracja: Proste API dla ustawień języka głównego i drugorzędnych
  • Wysoka dokładność: Używa zaawansowanych algorytmów rozpoznawania Tesseract 5
  • Optymalizacja wydajności: Wbudowane wsparcie dla wielowątkowości
  • Kompatybilność międzyplatformowa: Działa w systemach Windows, Linux i macOS

IronOCR zapewnia kompleksowe rozwiązanie łączące łatwość obsługi z zaawansowanymi funkcjami do wdrażania wielojęzycznego OCR. Twórz systemy zarządzania dokumentami, narzędzia do tłumaczenia lub dowolne aplikacje wymagające wielojęzycznego pozyskiwania tekstu, korzystając z elastyczności i niezawodności niezbędnych do osiągnięcia sukcesu.

Rozpocznij swój wielojęzyczny projekt OCR, pobierając IronOCR z NuGet oraz zapoznając się z naszą dokumentacją i przykładami. W przypadku konkretnych przypadków użycia lub zaawansowanych scenariuszy nasze przewodniki dotyczące rozwiązywania problemów zawierają wskazówki pozwalające uzyskać optymalne wyniki.

Często Zadawane Pytania

Jak wykonac OCR na dokumentach zawierających wiele języków?

IronOCR pozwala skonfigurowac wielojezyczne OCR za pomoca jednego polecenia. Ustaw język glowny przy uzyciu wlasciwosci Language i dodaj języki dodatkowe, korzystając z metody AddSecondaryLanguage. Umozliwia to IronOCR dokladne wyodrebnienie tekstu z dokumentow zawierających wiele skryptow i zestawow znakow jednoczesnie.

Które języki sa obslugiwane do wyodrebniania tekstu?

IronOCR obsługuje ponad 125 pakietów językowych dzieki integracji z silnikiem Tesseract. Chociaz angielski jest instalowany domyslnie, mozna pobrac dodatkowe pakiety językowe z NuGet, aby umozliwic funkcje OCR dla językow od hiszpanskiego i francuskiego po arabski, chinski, japonski i wiele innych.

Jak dodac języki dodatkowe do przetwarzania OCR?

Użyj metody AddSecondaryLanguage w IronOCR, aby wlaczyc dodatkowe języki. Na przyklad: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French). Taka konfiguracja pozwala IronOCR rozpoznawac tekst zarowno w hiszpanskim, jak i francuskim w tym samym dokumencie.

Czy mogę wyodrebnic tekst z wielojezycznych plikow PDF?

Tak, IronOCR moze przetwarzac pliki PDF zawierajace wiele językow. Wystarczy skonfigurowac silnik OCR z glownymi i dodatkowymi jezykami przed przetwarzaniem. IronOCR automatycznie obsługuje rozne skrypty i zestawy znakow w pliku PDF, zapewniajac dokladne wyodrebnienie tekstu we wszystkich językach obecnych w dokumencie.

Czy muszę instalować pakiety językowe osobno?

Tak, chociaz IronOCR zawiera angielski domyslnie, dodatkowe pakiety językowe musza byc instalowane za pomocą NuGet. Kazdy pakiet językowy zawiera niezbedne dane dla silnika Tesseract IronOCR do rozpoznawania tekstu w konkretnym jezyku. Mozesz przegladac i pobierac wszystkie dostepne pakiety językowe na stronie językow IronOCR.

Jaki jest minimalny przeplyw pracy dla wielojezycznego OCR?

Minimalny przeplyw pracy obejmuje 5 krokow: 1) Pobranie biblioteki IronOCR, 2) Przygotowanie pliku PDF lub dokumentu obrazowego, 3) Instalacja wymaganych pakietow językowych za posrednictwem NuGet, 4) Uzycie metody AddSecondaryLanguage, aby wlaczyc dodatkowe jezyki, oraz 5) Ustawienie wlasciwosci Language dla języka glownego. Ta konfiguracja umożliwia dokladne wielojezyczne wyodrebnianie tekstu.

Czy IronOCR można zintegrować z istniejącymi aplikacjami?

IronOCR jest zaprojektowany do łatwej integracji z istniejącymi aplikacjami używając C#, co pozwala programistom dodać funkcjonalność OCR do swojego oprogramowania z minimalnym wysiłkiem.

Jakie są korzyści z używania IronOCR do zarządzania dokumentami?

Używanie IronOCR do zarządzania dokumentami upraszcza przepływ pracy przez konwertowanie zeskanowanych dokumentów na przeszukiwalny i edytowalny tekst, redukując konieczność ręcznego wprowadzania danych i poprawiając dostępność dokumentów.

Jak IronOCR może poprawić dokładność danych?

IronOCR poprawia dokładność danych dzięki swoim zaawansowanym algorytmom rozpoznawania i funkcjom korekcji obrazów, zapewniając, że proces ekstrakcji tekstu jest zarówno niezawodny, jak i precyzyjny.

Czy dostępna jest bezpłatna wersja próbna IronOCR?

Tak, Iron Software oferuje bezpłatną wersję próbną IronOCR, umożliwiając użytkownikom przetestowanie jego funkcji i możliwości przed podjęciem decyzji o zakupie.

Kannaopat Udonpant
Inżynier oprogramowania
Zanim stał się inżynierem oprogramowania, Kannapat ukończył doktórat z zasobów środowiskowych na Uniwersytecie Hokkaido w Japonii. W czasie studiowania, Kannapat również został członkiem Laboratorium Robotyki Pojazdów, które jest częścią Wydziału Inżynierii Bioprodukcji. W 2022 roku wykorzystał swoje umiejętności ...
Czytaj więcej
Sprawdzone przez
Jeff Fritz
Jeffrey T. Fritz
Główny Menedżer Programu - Zespół .NET Community
Jeff jest również Głównym Menedżerem Programu dla zespołów .NET i Visual Studio. Jest producentem wykonawczym wirtualnej serii konferencji .NET Conf i prowadzi 'Fritz and Friends', transmisję na żywo dla deweloperów emitowaną dwa razy w tygodniu, gdzie rozmawia o technologii i pisze kod razem z widzami. Jeff pisze warsztaty, prezentacje i planuje treści dla największych wydarzeń Microsoft dla deweloperów, w tym Microsoft Build, Microsoft Ignite, .NET Conf i Microsoft MVP Summit.
Gotowy, aby rozpocząć?
Nuget Pliki do pobrania 5,896,332 | Wersja: 2026.5 just released
Still Scrolling Icon

Wciąż przewijasz?

Czy chcesz szybko dowodu? PM > Install-Package IronOcr
uruchom próbkę obserwuj, jak twój obraz staje się tekstem z możliwością wyszukiwania.