使用 C# 和 .NET 进行日语 OCR 识别
**本文档的其他版本: *新增 125 种 OCR 语言
IronOCR 是一个 C# 软件组件,允许 .NET 程序员从图像和 PDF 文档中读取 126 种语言(包括日语)的文本。 它是 Tesseract 的一个高级分支,专为 .NET 开发人员构建,在速度和准确性方面通常优于其他 Tesseract 引擎。
它已在多种不同的硬件平台上进行了测试,并且软件库已更新到最新版本的 .NET。 对于需要在应用程序或项目中执行 OCR 的开发人员来说,这是一个不错的选择。 IronOCR 为应用程序开发人员提供了一个易于使用的 API,该 API 可与多种语言配合使用,并可通过各种方式集成到应用程序中。 IronOCR 支持 125 种 OCR 语言。 它是一款非常棒的OCR工具。
IronOcr.Languages.Japanese 的内容
IronOCR 日本软件包可执行多种操作。 此软件包包含多种适用于 .NET 的 OCR 语言:
- 日语字母
- 日语字母Best
- 日语字母Fast
- 日语竖式字母
- 日语竖式字母表最佳
- 日语竖式字母表快速
- 日本人
- 日本人Best
- 日本人Fast
- 日本垂直
- 日本垂直Best
- 日本垂直Fast
下载
您可以从以下链接下载 IronOCR 日语语言包 [日语 (Nihongo)]:
- 下载为[ Zip ](<a class=)">Zip 文件
- 使用[ NuGet ](<a target=)">NuGet安装
我们将在以下章节中介绍 IronOCR 的安装。
使用 IronOCR 识别日语
创建或打开 C# 项目
让我们从创建一个 C# 项目开始。 我们使用 Visual Studio 2022 创建一个 C# 项目——您可以根据自己的喜好选择任何版本。 建议使用最新版本的 Visual Studio。 请按照以下步骤创建 C# 项目:
- 打开 Visual Studio 2022。
- 点击"创建一个新项目"按钮。

在搜索栏中输入"Windows",从搜索结果中选择"Windows Form"*应用程序,然后单击"下一步"按钮。

- 给项目命名。 我已将项目命名为"JapaneseOCR"。命名完成后,点击"下一步"按钮。

在下一个屏幕上选择.NET 框架*。 根据项目需求选择 .NET 框架。 本教程选用的是.NET 5.0版本。

- 选择完成后,点击"创建"按钮。 它可以轻松地在 Visual Studio 中创建 C# Windows 窗体项目。
项目已创建! 现在我们可以在我们的 IronOCR 库中使用它了。 我们也可以将其用于现有的 C# 项目。 打开项目并开始安装 IronOCR 库。 以下部分说明如何在 C# 项目中安装 IronOCR 库。
安装
现在是时候在我们的项目中安装 IronOCR 库了。 IronOCR库可以通过两种不同的方式安装。 我们可以使用程序包管理器控制台和 NuGet 程序包管理器安装 IronOCR。 我们来看看这两种方法。
使用 NuGet 包管理器
要使用 NuGet 包管理器安装 IronOCR 库,我们必须打开 NuGet 包管理器界面。 请按照以下步骤安装 IronOCR 库:
- 从主菜单中单击"工具",从下拉菜单中,将鼠标悬停在"NuGet 程序包管理器"上,然后选择"管理解决方案的 NuGet 程序包"。

这将打开 NuGet 包管理器界面。 转到"浏览"选项卡,然后在搜索栏中输入"IronOCR 日语"。 从搜索结果中选择日语软件包,然后点击"安装"按钮开始安装。

- 它将开始安装库。 安装完成后,您就可以在项目中使用 IronOCR 库了。
使用包管理器控制台
我们将使用软件包管理器控制台安装 IronOCR 库。 使用控制台安装该库非常简单。 我们来看看如何使用控制台安装 IronOCR 库:
- 打开项目,然后转到 Visual Studio 中的包管理器控制台。 它通常位于 Visual Studio 的底部。
在控制台中输入以下命令安装 IronOCR 日语 OCR 语言:
PM> Install-Package IronOCR.Languages.JapanesePM> Install-Package IronOCR.Languages.JapaneseSHELL- 安装将开始,您将在控制台中看到进度。 安装完成后,您将在解决方案资源管理器的"依赖项"部分看到 IronOCR 依赖项。
安装完成后,您无需任何第三方软件即可使用该库。 接下来,是时候搭建我们程序的前端了。
代码示例:日语 OCR
现在是时候编写实现日语 IronOCR 库的代码了。 首先,我们需要开发用于选择图像文件的前端界面。让我们来看看如何实现。
前端开发
对于前端开发,我们将利用 Visual Studio 中的"工具箱"。 它包含许多预制元素,我们可以利用这些元素来设计我们的前端。 我们将使用图片框、富文本框、按钮和两个标签进行标识。 我们将根据自身需求,为这些元素赋予合适的形状和良好的用户界面。 您可以根据需要更改元素的大小和属性。我们将输出文本框设置为不可编辑,并将图片框的图片属性设置为"缩放",以便每张图片都能适应图片框的大小。 我们的前端界面将如下所示:

IronOCR的后端代码
我们的前端已经准备就绪。 现在是时候让它上线了。但首先,我们需要导入 IronOCR 命名空间才能在代码中使用 IronOCR。 在文件顶部写入以下行:
using IronOCR;using IronOCR;Imports IronOCR"选择图像"按钮用于选择日语图像。 当我们选择图片时,它将自动加载到图片框中并显示出来。 与此同时,IronOCR 将开始识别上传图片中的日语单词。 流程完成后,输出结果将显示在富文本框中。 让我们双击按钮,为它添加这些功能。 以下是按钮功能的代码示例。 它还会将输出文本保存到"txt"文件中。
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
// Display the image selection dialog, and upon successful image selection, proceed
if (open.ShowDialog() == DialogResult.OK)
{
// Display selected image in the picture box
img_image.Image = new Bitmap(open.FileName);
// Initialize IronTesseract for OCR processing
var Ocr = new IronTesseract
{
// Set the OCR language to JapaneseBest for optimal accuracy
Language = OcrLanguage.JapaneseBest
};
// Using 'OcrInput' to process the selected image file
using (var Input = new OcrInput(open.FileName))
{
// Perform OCR to extract text from the image
var Result = Ocr.Read(Input);
// Display recognized text in the rich text box
txt_output.Text = Result.Text;
// Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt");
}
}
}private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
// Display the image selection dialog, and upon successful image selection, proceed
if (open.ShowDialog() == DialogResult.OK)
{
// Display selected image in the picture box
img_image.Image = new Bitmap(open.FileName);
// Initialize IronTesseract for OCR processing
var Ocr = new IronTesseract
{
// Set the OCR language to JapaneseBest for optimal accuracy
Language = OcrLanguage.JapaneseBest
};
// Using 'OcrInput' to process the selected image file
using (var Input = new OcrInput(open.FileName))
{
// Perform OCR to extract text from the image
var Result = Ocr.Read(Input);
// Display recognized text in the rich text box
txt_output.Text = Result.Text;
// Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt");
}
}
}Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
Dim open As New OpenFileDialog()
' Display the image selection dialog, and upon successful image selection, proceed
If open.ShowDialog() = DialogResult.OK Then
' Display selected image in the picture box
img_image.Image = New Bitmap(open.FileName)
' Initialize IronTesseract for OCR processing
Dim Ocr = New IronTesseract With {.Language = OcrLanguage.JapaneseBest}
' Using 'OcrInput' to process the selected image file
Using Input = New OcrInput(open.FileName)
' Perform OCR to extract text from the image
Dim Result = Ocr.Read(Input)
' Display recognized text in the rich text box
txt_output.Text = Result.Text
' Save the output as a text file named "JapaneseText.txt"
Result.SaveAsTextFile("JapaneseText.txt")
End Using
End If
End Sub在此功能中,当用户点击按钮时,将出现一个选择对话框,提示用户选择包含日文文本的图像。 当用户选择图像时, Bitmap函数会获取图像路径并将其加载到图片框中。 加载完成后,我们初始化 IronOCR 库并将语言设置为日语。 IronOCR 以图像路径作为输入并开始扫描。 扫描完成后,它会将输出文本存储在Result变量中,并将其显示在富文本框中。 最后,它将输出文件保存为名为"JapaneseText"的"txt"文件。
运行项目
我们已经设计了代码并实现了后端。 现在是时候运行程序,检查其功能是否正常了。
- 点击绿色播放按钮运行项目。 我们将在操作系统屏幕的中间看到这个屏幕。

- 点击"选择图像"按钮,选择包含日文文本的图像。

- 您将在富文本框中看到输出图像文本。

- OCR 结果将以"JapaneseText"为名保存为文本文件。

IronOCR的OCR识别准确率非常出色。
摘要
在本教程中,我们学习了如何使用 IronOCR 库识别日语文本。 如果您想了解更多关于IronOCR的信息,请点击此链接。
有关 Iron Software 的更多信息,请点击此链接。 如果您想试用 IronOCR 库,可以激活免费试用版,无需支付任何费用。 Iron Software 目前推出特别优惠,您可以以两款软件产品的价格购买一套五款软件产品。 欲了解更多信息,请点击此处。





