C# と .NET でのラテンアルファベット OCR

This article was translated from English: Does it need improvement?
Translated
View the article in English

他126の言語

IronOCRは、.NETプログラマーがラテンアルファベットを含む126言語で画像やPDF文書からテキストを読み取れるC#のソフトウェアコンポーネントです。

これはTesseractの高度なフォークであり、.NET開発者専用に構築され、速度と精度の両方で他のTesseractエンジンを定期的に上回ります。

IronOcr.Languages.LatinAlphabetの内容

このパッケージには、.NET 用の64のOCR言語が含まれています:

  • LatinAlphabet
  • LatinAlphabetBest
  • LatinAlphabetFast

ダウンロード

ラテンアルファベット言語パック [latine]

  • Zipとしてダウンロード
  • NuGetでインストール

インストール

最初にやるべきことは、ラテンアルファベットOCRパッケージをあなたの.NETプロジェクトにインストールすることです。

Install-Package IronOCR.Languages.LatinAlphabet

Code Example

このC#コード例は、画像またはPDF文書からラテンアルファベットのテキストを読み取ります。

// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;

var Ocr = new IronTesseract(); // Initialize IronTesseract instance

// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;

// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
    // Perform OCR reading on the input
    var Result = Ocr.Read(Input);

    // Extract the recognized text
    var AllText = Result.Text;

    // Output the recognized text
    Console.WriteLine(AllText);
}
// Install the IronOCR.languages.LatinAlphabet package first
using IronOcr;

var Ocr = new IronTesseract(); // Initialize IronTesseract instance

// Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet;

// Define the input image or PDF you want to read
using (var Input = new OcrInput(@"images\LatinAlphabet.png"))
{
    // Perform OCR reading on the input
    var Result = Ocr.Read(Input);

    // Extract the recognized text
    var AllText = Result.Text;

    // Output the recognized text
    Console.WriteLine(AllText);
}
' Install the IronOCR.languages.LatinAlphabet package first
Imports IronOcr

Private Ocr = New IronTesseract() ' Initialize IronTesseract instance

' Set the OCR language to LatinAlphabet
Ocr.Language = OcrLanguage.LatinAlphabet

' Define the input image or PDF you want to read
Using Input = New OcrInput("images\LatinAlphabet.png")
	' Perform OCR reading on the input
	Dim Result = Ocr.Read(Input)

	' Extract the recognized text
	Dim AllText = Result.Text

	' Output the recognized text
	Console.WriteLine(AllText)
End Using
$vbLabelText   $csharpLabel

説明

  1. IronTesseract 初期化: IronTesseract のインスタンスが初期化され、OCRプロセスを処理します。

  2. 言語設定: OCR言語が LatinAlphabet に設定され、これはIronOCRパッケージで利用可能な言語の1つです。

  3. 入力仕様: テキストを抽出する画像またはPDFのパスを指定するOcrInputオブジェクトを作成します。

  4. OCR 実行: IronTesseractインスタンスのReadメソッドが呼び出され、OcrInputを処理します。 これにより、抽出されたテキストを含むResultオブジェクトが返されます。

  5. テキスト抽出: ResultオブジェクトのTextプロパティを使用して認識されたテキストにアクセスします。

  6. 出力: 認識されたテキストは検証のためにコンソールに印刷されます。

ファイルパスがOcrInputで正しくあなたの画像またはPDFファイルを指していることを確認し、ファイルが見つからない例外を回避してください。