C# と .NET でのタミル語 OCR

This article was translated from English: Does it need improvement?
Translated
View the article in English
Other versions of this document:

IronOCR は、.NET コーダーがタミル語を含む 126 の言語で画像や PDF ドキュメントからテキストを読み取ることを可能にする C# ソフトウェア コンポーネントです。

これは、特に.NET開発者向けに構築されたTesseractの高度なフォークであり、速度と精度の両方で他のTesseractエンジンを定期的に上回ります。

IronOcr.Languages.Tamil の内容

このパッケージには、.NET 用の 102 個の OCR 言語が含まれています。

  • タミル語
  • タミルベスト
  • タミルファスト
  • タミル語のアルファベット
  • タミル語アルファベットベスト
  • タミルアルファベット高速

ダウンロード

タミル語言語パック[தமிழ்] *Zip形式でダウンロード

  • NuGetでインストール

インストール

最初に、タミル語OCR パッケージを .NET プロジェクトにインストールする必要があります。

Install-Package IronOCR.Languages.Tamil

Code Example

この C# コード例は、画像または PDF ドキュメントからタミル語のテキストを読み取ります。

// Ensure IronOCR.Languages.Tamil package is installed
using IronOcr;

var Ocr = new IronTesseract();

// Set the language to Tamil for OCR processing
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"images\Tamil.png"))
{
    // Perform OCR on the input image
    var Result = Ocr.Read(Input);

    // Get the recognized text
    var AllText = Result.Text;

    // Display the recognized text (for example purpose)
    Console.WriteLine(AllText);
}
// Ensure IronOCR.Languages.Tamil package is installed
using IronOcr;

var Ocr = new IronTesseract();

// Set the language to Tamil for OCR processing
Ocr.Language = OcrLanguage.Tamil;

using (var Input = new OcrInput(@"images\Tamil.png"))
{
    // Perform OCR on the input image
    var Result = Ocr.Read(Input);

    // Get the recognized text
    var AllText = Result.Text;

    // Display the recognized text (for example purpose)
    Console.WriteLine(AllText);
}
' Ensure IronOCR.Languages.Tamil package is installed
Imports IronOcr

Private Ocr = New IronTesseract()

' Set the language to Tamil for OCR processing
Ocr.Language = OcrLanguage.Tamil

Using Input = New OcrInput("images\Tamil.png")
	' Perform OCR on the input image
	Dim Result = Ocr.Read(Input)

	' Get the recognized text
	Dim AllText = Result.Text

	' Display the recognized text (for example purpose)
	Console.WriteLine(AllText)
End Using
$vbLabelText   $csharpLabel
  • IronTesseractクラスは、OCR エンジンを初期化および設定するために使用されます。
  • Ocr.Languageプロパティは、OCR に使用する言語パックを指定します。
  • OcrInputクラスは、タミル語のテキストを含む画像ファイルへのパスとともに使用されます。
  • Ocr.Read()メソッドは画像を処理してテキストを抽出します。
  • 最後に、認識されたテキストはAllTextに保存され、必要に応じて利用できるようになります。