Tesseractを使用して複数の言語を扱う方法
光学文字認識の分野では(OCR (光学式文字認識))テクノロジー、IronOCRは、様々な言語やスクリプトからテキストを抽出する能力で高く評価されているツールです。我々は信頼性が高く使いやすいOCRツールを提供するためにTesseractエンジンを使用しています。
この記事では、IronOCRがTesseractのおかげで複数の言語のテキストをどのように効果的に処理するかを説明します。 経験豊富な開発者で信頼性の高い多言語OCRソリューションを探している場合や、単にその仕組みに興味がある場合でも、この記事はIronOCRとそのTesseractエンジンを理解するのに役立ちます。この貴重なツールの機能を明らかにします。
IronOCRを始めましょう
今日から無料トライアルでIronOCRをあなたのプロジェクトで使い始めましょう。
Tesseractを使用して複数の言語を扱う方法
- 複数言語を読み取るためのC#ライブラリをダウンロード
- PDFドキュメントおよび画像を読み取り準備
- NuGetを介して追加の言語パックをインストール
- 以下を使用
AddSecondaryLanguage(セカンダリー言語を追加)
目的の言語を有効にする方法 - 次のようにセットしてください 言語 デフォルト言語を変更するプロパティ
マルチランゲージPDFの読み取り例
IronOCRは約125の言語パックを提供していますが、デフォルトでは英語のみがインストールされています。それ以外の言語パックはNuGetからダウンロードできます。 以下のすべての利用可能なオプションをご覧ください:言語パックはこちら。.
次の例では、IronOCRを使用してPDFファイルからテキストを抽出する際に、複数の言語を使用するコードをお見せします。
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian);
// Add PDF
using var pdfInput = new OcrPdfInput(@"example.pdf");
// Perform OCR
OcrResult result = ocrTesseract.Read(pdfInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set secondary language to Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Russian)
' Add PDF
Dim pdfInput = New OcrPdfInput("example.pdf")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(pdfInput)
' Output extracted text to console
Console.WriteLine(result.Text)
AddSecondaryLanguage
メソッドを使用して、任意の数の追加言語を追加できます。 ただし、この追加により速度とパフォーマンスに影響を与える可能性がありますので、ご了承ください。 言語の優先順位は、それが追加された順番によって決まります。最初に追加されたものがより高い優先順位を持ちます。
多言語画像の読み取り例
既定では、主な言語は英語に設定されています。 主要言語を変更するには、Languageプロパティを希望する言語に設定します。 その後、セカンダリー言語を追加することもできます。
:path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs
using IronOcr;
using System;
// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();
// Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian;
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese);
// Add image
using var imageInput = new OcrImageInput(@"example.png");
// Perform OCR
OcrResult result = ocrTesseract.Read(imageInput);
// Output extracted text to console
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()
' Set primary language to Hindi
ocrTesseract.Language = OcrLanguage.Russian
ocrTesseract.AddSecondaryLanguage(OcrLanguage.Japanese)
' Add image
Dim imageInput = New OcrImageInput("example.png")
' Perform OCR
Dim result As OcrResult = ocrTesseract.Read(imageInput)
' Output extracted text to console
Console.WriteLine(result.Text)
正しく行えば、以下のような結果を期待できます。
結論
簡単に言えば、IronOCRは強力なTesseractエンジンに支えられており、複数の言語で書かれたドキュメントからテキストを抽出するのに優れています。 これは、多くの言語でテキストを読み取るという複雑さに対処するための不可欠なツールであり、開発者や好奇心旺盛な人々に多用途なソリューションを提供します。 さまざまな言語のテキストを含むPDFを処理する場合や、画像内の多言語コンテンツを扱う場合でも、IronOCRは複数の言語のテキストを認識し抽出する作業を簡素化します。