在 C# 和 .NET 中进行日语 OCR

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

Translated

View the article in English

本文件的其他版本：

日本語で
125种更多OCR语言
IronOCR 是一个 C# 软件组件，允许 .NET 编程人员从图像和 PDF 文档中读取包括日语在内的 126 种语言的文本。这是Tesseract的一个高级分支，专为.NET开发者设计，无论是速度还是准确性都经常超过其他Tesseract引擎。
它已在许多不同的硬件平台上进行了测试，并且软件库已更新至 .NET 的最新版本。这对于需要在其应用程序或项目中执行OCR的开发者来说是一个不错的选择。 IronOCR为应用程序开发者提供了一个易于使用的API，该API支持多种语言，并且可以通过多种方式集成到应用程序中。 IronOCR支持127种OCR语言。这是一个非常棒的OCR工具。

IronOcr.Languages.Japanese

IronOCR日语包执行多种操作。此包含有针对 .NET 的286种OCR语言。

JapaneseAlphabet
JapaneseAlphabetBest
JapaneseAlphabetFast
JapaneseVerticalAlphabet
JapaneseVerticalAlphabetBest
JapaneseVerticalAlphabetFast
日语
JapaneseBest
JapaneseFast
JapaneseVertical
JapaneseVerticalBest
JapaneseVerticalFast

下载

您可以从以下链接下载IronOCR日语语言包 [日本語 (にほんご)]：

下载为 Zip
通过NuGet 安装
我们将在下文中介绍 IronOCR 的安装。

使用 IronOCR 学习日语

创建或打开一个C#项目

让我们开始创建一个C#项目。我们正在使用 Visual Studio 2022 来创建一个 C# 项目 — 您可以根据自己的喜好选择任何版本。建议使用最新版本的 Visual Studio。按照以下步骤创建一个C#项目：

打开 Visual Studio 2022。
点击“创建新项目”按钮。
在搜索栏中输入“Windows”，从搜索结果中选择“Windows Form”应用程序，然后点击“下一步”按钮。
给项目命名。我已将项目命名为“JapaneseOCR”。命名后，点击“下一步”按钮。
在下一个屏幕上选择.NET framework。根据您项目的需求选择 .NET 框架。我们在本教程中选择使用 .NET 5.0 版本。
选择后，点击“创建”按钮。它将轻松创建Visual Studio中的C# Windows窗体项目。
项目已创建！我们现在可以在我们的IronOCR库中使用它。我们也可以将其用于现有的C#项目。打开项目并开始安装IronOCR库。以下部分说明了如何在C#项目中安装IronOCR库。

安装

现在是时候在我们的项目中安装IronOCR库了。 IronOCR 库可以通过两种不同的方式安装。我们可以使用包管理控制台和NuGet包管理器来安装IronOCR。让我们来看看这两种方法。

使用 NuGet 软件包管理器

要使用 NuGet 包管理器安装 IronOCR 库，我们必须打开 NuGet 包管理器界面。按照以下步骤安装IronOCR库：

点击主菜单中的“工具”，从下拉菜单中悬停在“NuGet 包管理器”上，并选择“管理解决方案的 NuGet 包管理器”。
这将打开 NuGet 包管理器界面。转到浏览选项卡，在搜索栏中输入 IronOCR Japanese。从搜索结果中选择日语包，然后点击“安装”按钮开始安装。
它将开始安装库。安装后，您将能够在项目中使用IronOCR库。

使用包管理器控制台

我们将使用包管理控制台安装IronOCR库。使用控制台安装库很简单。让我们看看如何使用控制台安装IronOCR库：

打开项目并进入Visual Studio中的包管理器控制台。通常在 Visual Studio 的底部找到。
在控制台中输入以下命令来安装IronOCR日语OCR语言：PM> Install-Package IronOCR.Languages.Japanese
安装将开始，您将在控制台中看到进度。安装后，您将在解决方案资源管理器中的“依赖项”部分看到IronOCR依赖项。
安装后，您将能够在不需要任何第三方软件的情况下使用该库。接下来，我们需要开始设置程序的前端。

代码示例：用于OCR的日语

现在是时候编写代码来实现用于日语的IronOCR库了。首先，我们需要开发用于选择图像文件的前端。让我们来看看如何做到这一点。

前端开发

对于前端开发，我们将利用 Visual Studio 中的“工具箱”。它有许多预制元素，我们可以用来设计我们的前端。我们将使用一个图片框、一个富文本框、一个按钮和两个标签进行识别。我们将根据我们的需求，为这些元素赋予适当的形状和良好的用户界面。您可以根据自己的选择更改配料的大小和属性。我们使输出文本框不可编辑，并且图片框的图片属性设置为“缩放”，因此每张图片都会适应图片框。我们的前端将如下所示：

IronOCR的后端代码：

我们的前端已经准备好了。现在是时候让它上线了。但首先，我们需要导入IronOCR命名空间以在我们的代码中使用IronOCR。在文件顶部写下以下内容：

using IronOCR;

using IronOCR;

Imports IronOCR

$vbLabelText $csharpLabel

“选择图片”按钮将用于选择日本图片。当我们选择图像时，它将自动加载到图片框中并显示出来。与此同时，IronOCR将开始识别上传图片中的日语单词。处理完成后，输出将显示在富文本框中。让我们通过双击按钮来添加这些功能。这是按钮功能的代码示例。它还会将输出文本保存到“txt”文件中。

代码示例

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}

private void btn_image_Click(object sender, EventArgs e)
{
    OpenFileDialog open = new OpenFileDialog();
    if (open.ShowDialog() == DialogResult.OK)
    {
        // display image in picture box  
        img_image.Image = new Bitmap(open.FileName);
        // image file path  
        //textBox1.Text = open.FileName;
        var Ocr = new IronTesseract();
        Ocr.Language = OcrLanguage.JapaneseBest;
        using (var Input = new OcrInput(open.FileName))
        {
            var Result = Ocr.Read(Input);

            txt_output.Text = Result.Text;

            Result.SaveAsTextFile("JapaneseText.txt");
        }
    }
}

Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim open As New OpenFileDialog()
	If open.ShowDialog() = DialogResult.OK Then
		' display image in picture box  
		img_image.Image = New Bitmap(open.FileName)
		' image file path  
		'textBox1.Text = open.FileName;
		Dim Ocr = New IronTesseract()
		Ocr.Language = OcrLanguage.JapaneseBest
		Using Input = New OcrInput(open.FileName)
			Dim Result = Ocr.Read(Input)

			txt_output.Text = Result.Text

			Result.SaveAsTextFile("JapaneseText.txt")
		End Using
	End If
End Sub

$vbLabelText $csharpLabel

在此功能中，我们实现了当用户点击按钮时，会出现一个选择对话框，提示用户选择包含日文的图像。当用户选择图像时，Bitmap() 函数会获取图像路径并将其加载到图片框中。加载后，我们初始化IronOCR库并将语言设置为“Japanese”。 IronOCR将以图像路径为输入并开始扫描。扫描后，它将输出文本存储在“Result”变量中，并在富文本框中显示为输出。最后，它将输出文件保存为名为"JapaneseText"的"txt"文件。