Han Simplified Alphabet OCR in C# and .NET

This article was translated from English: Does it need improvement?
Translated
View the article in English

另外 126 種語言

IronOCR 是一个C#软件组件,允许.NET程序员从图像和PDF文档中读取包含126种语言的文本,包括汉字简化字母。

它是一個專為 .NET 開發者設計的 Tesseract 高級分支,在速度和準確性方面經常優於其他 Tesseract 引擎。

IronOcr.Languages.Han的内容

此软件包包含400种用于.NET的OCR语言:

  • HanSimplifiedAlphabet
  • HanSimplifiedAlphabetBest
  • HanSimplifiedAlphabetFast
  • HanSimplifiedVerticalAlphabet
  • HanSimplifiedVerticalAlphabetBest
  • HanSimplifiedVerticalAlphabetFast
  • HanTraditionalAlphabet
  • HanTraditionalAlphabetBest
  • HanTraditionalAlphabetFast
  • HanTraditionalVerticalAlphabet
  • HanTraditionalVerticalAlphabetBest
  • HanTraditionalVerticalAlphabetFast

下載

汉字简化字母语言包 [Samhan]

安裝

我们要做的第一件事是将我们的汉字简化字母 OCR软件包安装到您的.NET项目中。

在包管理器控制台中运行以下命令:

Install-Package IronOCR.Languages.Han

代碼示例

此C#代码示例从图像或PDF文档中读取汉字简化字母文本。

// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
// Reference the IronOcr library
using IronOcr;

class Program
{
    static void Main()
    {
        // Create an IronTesseract OCR engine
        var Ocr = new IronTesseract();

        // Load the Han language for OCR processing
        Ocr.Language = OcrLanguage.Han;

        // Using a 'using' statement for resource management
        using (var Input = new OcrInput(@"images\Han.png"))
        {
            // Process the image to extract text
            var Result = Ocr.Read(Input);

            // Retrieve and display the extracted text
            string AllText = Result.Text;
            System.Console.WriteLine(AllText);
        }
    }
}
' Reference the IronOcr library
Imports IronOcr

Friend Class Program
	Shared Sub Main()
		' Create an IronTesseract OCR engine
		Dim Ocr = New IronTesseract()

		' Load the Han language for OCR processing
		Ocr.Language = OcrLanguage.Han

		' Using a 'using' statement for resource management
		Using Input = New OcrInput("images\Han.png")
			' Process the image to extract text
			Dim Result = Ocr.Read(Input)

			' Retrieve and display the extracted text
			Dim AllText As String = Result.Text
			System.Console.WriteLine(AllText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

解釋

  • 我们首先引用IronOcr库以利用其OCR功能。
  • 创建一个IronTesseract实例来处理图像/PDF文档。
  • OCR过程的语言通过Ocr.Language设置为Han
  • 使用OcrInput加载图像,并通过调用Ocr.Read()进行处理。
  • OCR过程的结果存储在Result.Text中,其中包含从文档中提取的文本。
  • 最后,我们将文本打印到控制台。

确保有合适的using指令,并通过using语句有效地管理资源,特别是在处理文件流等非托管资源时。