使用 C# 和 .NET 进行日语 OCR 识别

This article was translated from English: Does it need improvement?
Translated
View the article in English

**本文档的其他版本 *新增 125 种 OCR 语言

IronOCR 是一个 C# 软件组件,允许 .NET 程序员从图像和 PDF 文档中读取 126 种语言(包括日语)的文本。 它是 Tesseract 的一个高级分支,专为 .NET 开发人员构建,在速度和准确性方面通常优于其他 Tesseract 引擎。

它已在多种不同的硬件平台上进行了测试,并且软件库已更新到最新版本的 .NET。 对于需要在应用程序或项目中执行 OCR 的开发人员来说,这是一个不错的选择。 IronOCR 为应用程序开发人员提供了一个易于使用的 API,该 API 可与多种语言配合使用,并可通过各种方式集成到应用程序中。 IronOCR 支持 125 种 OCR 语言。 它是一款非常棒的OCR工具。

IronOcr.Languages.Japanese 的内容

IronOCR 日本软件包可执行多种操作。 此软件包包含多种适用于 .NET 的 OCR 语言:

  • 日语字母
  • 日语字母Best
  • 日语字母Fast
  • 日语竖式字母
  • 日语竖式字母表最佳
  • 日语竖式字母表快速
  • 日本人
  • 日本人Best
  • 日本人Fast
  • 日本垂直
  • 日本垂直Best
  • 日本垂直Fast

下载

您可以从以下链接下载 IronOCR 日语语言包 [日语 (Nihongo)]:

  • 下载为[ Zip ](<a class=)">Zip 文件
  • 使用[ NuGet ](<a target=)">NuGet安装

我们将在以下章节中介绍 IronOCR 的安装。

使用 IronOCR 识别日语

创建或打开 C# 项目

让我们从创建一个 C# 项目开始。 我们使用 Visual Studio 2022 创建一个 C# 项目——您可以根据自己的喜好选择任何版本。 建议使用最新版本的 Visual Studio。 请按照以下步骤创建 C# 项目:

  • 打开 Visual Studio 2022。
  • 点击"创建一个新项目"按钮。
Chinese Ocr 1 related to 创建或打开 C# 项目

在搜索栏中输入"Windows",从搜索结果中选择"Windows Form"*应用程序,然后单击"下一步"按钮。

Chinese Ocr 2 related to 创建或打开 C# 项目
  • 给项目命名。 我已将项目命名为"JapaneseOCR"。命名完成后,点击"下一步"按钮。
Japanese Ocr 1 related to 创建或打开 C# 项目

在下一个屏幕上选择.NET 框架*。 根据项目需求选择 .NET 框架。 本教程选用的是.NET 5.0版本。

Chinese Ocr 4 related to 创建或打开 C# 项目
  • 选择完成后,点击"创建"按钮。 它可以轻松地在 Visual Studio 中创建 C# Windows 窗体项目。

项目已创建! 现在我们可以在我们的 IronOCR 库中使用它了。 我们也可以将其用于现有的 C# 项目。 打开项目并开始安装 IronOCR 库。 以下部分说明如何在 C# 项目中安装 IronOCR 库。

安装

现在是时候在我们的项目中安装 IronOCR 库了。 IronOCR库可以通过两种不同的方式安装。 我们可以使用程序包管理器控制台和 NuGet 程序包管理器安装 IronOCR。 我们来看看这两种方法。

使用 NuGet 包管理器

要使用 NuGet 包管理器安装 IronOCR 库,我们必须打开 NuGet 包管理器界面。 请按照以下步骤安装 IronOCR 库:

  • 从主菜单中单击"工具",从下拉菜单中,将鼠标悬停在"NuGet 程序包管理器"上,然后选择"管理解决方案的 NuGet 程序包"。
Chinese Ocr 5 related to 使用 NuGet 包管理器

这将打开 NuGet 包管理器界面。 转到"浏览"选项卡,然后在搜索栏中输入"IronOCR 日语"。 从搜索结果中选择日语软件包,然后点击"安装"按钮开始安装。

Japanese Ocr 2 related to 使用 NuGet 包管理器
  • 它将开始安装库。 安装完成后,您就可以在项目中使用 IronOCR 库了。

使用包管理器控制台

我们将使用软件包管理器控制台安装 IronOCR 库。 使用控制台安装该库非常简单。 我们来看看如何使用控制台安装 IronOCR 库:

  • 打开项目,然后转到 Visual Studio 中的包管理器控制台。 它通常位于 Visual Studio 的底部。
  • 在控制台中输入以下命令安装 IronOCR 日语 OCR 语言:

    PM> Install-Package IronOCR.Languages.Japanese
    PM> Install-Package IronOCR.Languages.Japanese
    SHELL
  • 安装将开始,您将在控制台中看到进度。 安装完成后,您将在解决方案资源管理器的"依赖项"部分看到 IronOCR 依赖项。

安装完成后,您无需任何第三方软件即可使用该库。 接下来,是时候搭建我们程序的前端了。

代码示例:日语 OCR

现在是时候编写实现日语 IronOCR 库的代码了。 首先,我们需要开发用于选择图像文件的前端界面。让我们来看看如何实现。

前端开发

对于前端开发,我们将利用 Visual Studio 中的"工具箱"。 它包含许多预制元素,我们可以利用这些元素来设计我们的前端。 我们将使用图片框、富文本框、按钮和两个标签进行标识。 我们将根据自身需求,为这些元素赋予合适的形状和良好的用户界面。 您可以根据需要更改元素的大小和属性。我们将输出文本框设置为不可编辑,并将图片框的图片属性设置为"缩放",以便每张图片都能适应图片框的大小。 我们的前端界面将如下所示:

Japanese Ocr 3 related to 前端开发

IronOCR的后端代码

我们的前端已经准备就绪。 现在是时候让它上线了。但首先,我们需要导入 IronOCR 命名空间才能在代码中使用 IronOCR。 在文件顶部写入以下行:

using IronOCR;
using IronOCR;
Imports IronOCR
$vbLabelText   $csharpLabel

"选择图像"按钮用于选择日语图像。 当我们选择图片时,它将自动加载到图片框中并显示出来。 与此同时,IronOCR 将开始识别上传图片中的日语单词。 流程完成后,输出结果将显示在富文本框中。 让我们双击按钮,为它添加这些功能。 以下是按钮功能的代码示例。 它还会将输出文本保存到"txt"文件中。

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();

    // Display the image selection dialog, and upon successful image selection, proceed
    if (open.ShowDialog() == DialogResult.OK)
    {
        // Display selected image in the picture box
        img_image.Image = new Bitmap(open.FileName);

        // Initialize IronTesseract for OCR processing
        var Ocr = new IronTesseract
        {
            // Set the OCR language to JapaneseBest for optimal accuracy
            Language = OcrLanguage.JapaneseBest
        };

        // Using 'OcrInput' to process the selected image file
        using (var Input = new OcrInput(open.FileName))
        {
            // Perform OCR to extract text from the image
            var Result = Ocr.Read(Input);

            // Display recognized text in the rich text box
            txt_output.Text = Result.Text;

            // Save the output as a text file named "JapaneseText.txt"
            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()

	' Display the image selection dialog, and upon successful image selection, proceed
	If open.ShowDialog() = DialogResult.OK Then
		' Display selected image in the picture box
		img_image.Image = New Bitmap(open.FileName)

		' Initialize IronTesseract for OCR processing
		Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}

		' Using 'OcrInput' to process the selected image file
		Using Input = New OcrInput(open.FileName)
			' Perform OCR to extract text from the image
			Dim Result = Ocr.Read(Input)

			' Display recognized text in the rich text box
			txt_output.Text = Result.Text

			' Save the output as a text file named "JapaneseText.txt"
			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub
$vbLabelText   $csharpLabel

在此功能中,当用户点击按钮时,将出现一个选择对话框,提示用户选择包含日文文本的图像。 当用户选择图像时, Bitmap函数会获取图像路径并将其加载到图片框中。 加载完成后,我们初始化 IronOCR 库并将语言设置为日语。 IronOCR 以图像路径作为输入并开始扫描。 扫描完成后,它会将输出文本存储在Result变量中,并将其显示在富文本框中。 最后,它将输出文件保存为名为"JapaneseText"的"txt"文件。

运行项目

我们已经设计了代码并实现了后端。 现在是时候运行程序,检查其功能是否正常了。

  • 点击绿色播放按钮运行项目。 我们将在操作系统屏幕的中间看到这个屏幕。
Japanese Ocr 4 related to 运行项目
  • 点击"选择图像"按钮,选择包含日文文本的图像。
Japanese Ocr 5 related to 运行项目
  • 您将在富文本框中看到输出图像文本。
Japanese Ocr 6 related to 运行项目
  • OCR 结果将以"JapaneseText"为名保存为文本文件。
Japanese Ocr 7 related to 运行项目

IronOCR的OCR识别准确率非常出色。

摘要

在本教程中,我们学习了如何使用 IronOCR 库识别日语文本。 如果您想了解更多关于IronOCR的信息,请点击此链接

有关 Iron Software 的更多信息,请点击此链接。 如果您想试用 IronOCR 库,可以激活免费试用版,无需支付任何费用。 Iron Software 目前推出特别优惠,您可以以两款软件产品的价格购买一套五款软件产品。 欲了解更多信息,请点击此处