Tesseractを使用して複数の言語を扱う方法

This article was translated from English: Does it need improvement?
Translated
View the article in English

によって チペゴ・カリンダ

光学文字認識の分野では (OCR (光学式文字認識)) テクノロジー、IronOCRは、様々な言語やスクリプトからテキストを抽出する能力で高く評価されているツールです。我々は信頼性が高く使いやすいOCRツールを提供するためにTesseractエンジンを使用しています。

この記事では、IronOCRがTesseractのおかげで複数の言語のテキストをどのように効果的に処理するかを説明します。 経験豊富な開発者で信頼性の高い多言語OCRソリューションを探している場合や、単にその仕組みに興味がある場合でも、この記事はIronOCRとそのTesseractエンジンを理解するのに役立ちます。この貴重なツールの機能を明らかにします。


OCR 用 C# NuGet ライブラリ

でインストール NuGet

Install-Package IronOcr
または
Java PDF JAR(ジャバPDF JAR)

ダウンロード DLL (ディーエルエル)

DLLをダウンロード

プロジェクトに手動でインストールする

OCR 用 C# NuGet ライブラリ

でインストール NuGet

Install-Package IronOcr
または
Java PDF JAR(ジャバPDF JAR)

ダウンロード DLL (ディーエルエル)

DLLをダウンロード

プロジェクトに手動でインストールする

今日からプロジェクトでIronPDFを使い始めましょう。無料のトライアルをお試しください。

最初のステップ:
green arrow pointer

チェックアウト IronOCR オン Nuget 迅速なインストールと展開のために。8百万以上のダウンロード数により、OCRをC#で変革しています。

OCR 用 C# NuGet ライブラリ nuget.org/packages/IronOcr/
Install-Package IronOcr

インストールを検討してください IronOCR DLL 直接。ダウンロードして、プロジェクトまたはGACの形式で手動でインストールしてください。 IronOcr.zip

プロジェクトに手動でインストールする

DLLをダウンロード

マルチランゲージPDFの読み取り例

IronOCRは約125の言語パックを提供していますが、デフォルトでは英語のみがインストールされています。それ以外の言語パックはNuGetからダウンロードできます。 以下のすべての利用可能なオプションをご覧ください: 言語パックはこちら。.

次の例では、IronOCRを使用してPDFファイルからテキストを抽出する際に、複数の言語を使用するコードをお見せします。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);

// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)

' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

AddSecondaryLanguageメソッドを使用して、任意の数の追加言語を追加できます。 ただし、この追加により速度とパフォーマンスに影響を与える可能性がありますので、ご了承ください。 言語の優先順位は、それが追加された順番によって決まります。最初に追加されたものがより高い優先順位を持ちます。

多言語画像の読み取り例

既定では、主な言語は英語に設定されています。 主要言語を変更するには、Languageプロパティを希望する言語に設定します。 その後、セカンダリー言語を追加することもできます。

:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);

// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);

// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)

' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)

' Output extracted text to console
Console.WriteLine(result.Text)
VB   C#

正しく行えば、以下のような結果を期待できます。

ロシア語と日本語

結論

簡単に言えば、IronOCRは強力なTesseractエンジンに支えられており、複数の言語で書かれたドキュメントからテキストを抽出するのに優れています。 これは、多くの言語でテキストを読み取るという複雑さに対処するための不可欠なツールであり、開発者や好奇心旺盛な人々に多用途なソリューションを提供します。 さまざまな言語のテキストを含むPDFを処理する場合や、画像内の多言語コンテンツを扱う場合でも、IronOCRは複数の言語のテキストを認識し抽出する作業を簡素化します。

チペゴ

ソフトウェアエンジニア

チペゴは優れた傾聴能力を持ち、それが顧客の問題を理解し、賢明な解決策を提供する助けとなっています。彼は情報技術の学士号を取得後、2023年にIron Softwareチームに加わりました。現在、彼はIronPDFとIronOCRの2つの製品に注力していますが、顧客をサポートする新しい方法を見つけるにつれて、他の製品に関する知識も日々成長しています。Iron Softwareでの協力的な生活を楽しんでおり、さまざまな経験を持つチームメンバーが集まり、効果的で革新的な解決策を提供することに貢献しています。チペゴがデスクを離れているときは、良い本を楽しんだり、サッカーをしていることが多いです。