在C#和.NET中的日本语OCR
其他版本的此文件:
- 日本語で
IronOCR 是一个 C# 软件组件,允许 .NET 编程人员从图像和 PDF 文档中读取包括日语在内的 126 种语言的文本。 这是Tesseract的一个高级分支,专为.NET开发者设计,无论是速度还是准确性都经常超过其他Tesseract引擎。
它已在许多不同的硬件平台上进行了测试,并且软件库已更新至 .NET 的最新版本。 这对于需要在其应用程序或项目中执行OCR的开发者来说是一个不错的选择。 IronOCR为应用程序开发者提供了一个易于使用的API,该API支持多种语言,并且可以通过多种方式集成到应用程序中。 IronOCR支持127种OCR语言。 这是一个非常棒的OCR工具。
IronOcr.Languages.Japanese
IronOCR日语包执行多种操作。 此包含有针对 .NET 的286种OCR语言。
JapaneseAlphabet
JapaneseAlphabetBest
- JapaneseAlphabetFast
JapaneseVerticalAlphabet
JapaneseVerticalAlphabetBest
JapaneseVerticalAlphabetFast
日语
JapaneseBest
JapaneseFast
JapaneseVertical
JapaneseVerticalBest
JapaneseVerticalFast
下载
您可以下载IronOCR日语语言包。[日本語(にほんご)]从下面的链接:
使用 IronOCR 学习日语
创建或打开一个C#项目
让我们开始创建一个C#项目。 我们正在使用 Visual Studio 2022 来创建一个 C# 项目 — 您可以根据自己的喜好选择任何版本。 建议使用最新版本的 Visual Studio。 按照以下步骤创建一个C#项目:
- 打开 Visual Studio 2022。
点击“创建新项目”按钮。
在搜索栏中输入 "Windows",从搜索结果中选择"Windows 窗体 " 应用程序,然后点击 "下一步 "按钮。
给项目命名。 我已将项目命名为“JapaneseOCR”。命名后,点击“下一步”按钮。
在下一个屏幕上选择 .NET framework。 根据您项目的需求选择 .NET 框架。 我们在本教程中选择使用 .NET 5.0 版本。
选择后,点击“创建”按钮。 它将轻松创建Visual Studio中的C# Windows窗体项目。
项目已创建! 我们现在可以在我们的IronOCR库中使用它。 我们也可以将其用于现有的C#项目。 打开项目并开始安装IronOCR库。 以下部分说明了如何在C#项目中安装IronOCR库。
安装
现在是时候在我们的项目中安装IronOCR库了。 IronOCR 库可以通过两种不同的方式安装。 我们可以使用包管理控制台和NuGet包管理器来安装IronOCR。 让我们来看看这两种方法。
使用 NuGet 软件包管理器
要使用 NuGet 包管理器安装 IronOCR 库,我们必须打开 NuGet 包管理器界面。 按照以下步骤安装IronOCR库:
点击主菜单中的“工具”,从下拉菜单中悬停在“NuGet 包管理器”上,并选择“管理解决方案的 NuGet 包管理器”。
这将打开 NuGet 包管理器界面。 转到浏览选项卡,在搜索栏中输入 IronOCR Japanese。 从搜索结果中选择日语包,然后点击“安装”按钮开始安装。
- 它将开始安装库。 安装后,您将能够在项目中使用IronOCR库。
使用包管理器控制台
我们将使用包管理控制台安装IronOCR库。 使用控制台安装库很简单。 让我们看看如何使用控制台安装IronOCR库:
- 打开项目并进入Visual Studio中的包管理器控制台。 通常在 Visual Studio 的底部找到。
- 在控制台中输入以下命令以安装 IronOCR 日语OCR语言:
PM> Install-Package IronOCR.Languages.Japanese
安装将开始,您将在控制台中看到进度。 安装后,您将在解决方案资源管理器中的“依赖项”部分看到IronOCR依赖项。
安装后,您将能够在不需要任何第三方软件的情况下使用该库。 接下来,我们需要开始设置程序的前端。
代码示例:用于OCR的日语
现在是时候编写代码来实现用于日语的IronOCR库了。 首先,我们需要开发用于选择图像文件的前端。让我们来看看如何做到这一点。
前端开发
对于前端开发,我们将利用 Visual Studio 中的“工具箱”。 它有许多预制元素,我们可以用来设计我们的前端。 我们将使用一个图片框、一个富文本框、一个按钮和两个标签进行识别。 我们将根据我们的需求,为这些元素赋予适当的形状和良好的用户界面。 您可以根据自己的选择更改配料的大小和属性。我们使输出文本框不可编辑,并且图片框的图片属性设置为“缩放”,因此每张图片都会适应图片框。 我们的前端将如下所示:
IronOCR的后端代码:
我们的前端已经准备好了。 现在是时候让它上线了。但首先,我们需要导入IronOCR命名空间以在我们的代码中使用IronOCR。 在文件顶部写下以下内容:
using IronOCR;
using IronOCR;
Imports IronOCR
“选择图片”按钮将用于选择日本图片。 当我们选择图像时,它将自动加载到图片框中并显示出来。 与此同时,IronOCR将开始识别上传图片中的日语单词。 处理完成后,输出将显示在富文本框中。 让我们通过双击按钮来添加这些功能。 这是按钮功能的代码示例。 它还会将输出文本保存到“txt”文件中。
代码示例
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
// image file path
//textBox1.Text = open.FileName;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.JapaneseBest;
using (var Input = new OcrInput(open.FileName))
{
var Result = Ocr.Read(Input);
txt_output.Text = Result.Text;
Result.SaveAsTextFile("JapaneseText.txt");
}
}
}
private void btn_image_Click(object sender, EventArgs e)
{
OpenFileDialog open = new OpenFileDialog();
if (open.ShowDialog() == DialogResult.OK)
{
// display image in picture box
img_image.Image = new Bitmap(open.FileName);
// image file path
//textBox1.Text = open.FileName;
var Ocr = new IronTesseract();
Ocr.Language = OcrLanguage.JapaneseBest;
using (var Input = new OcrInput(open.FileName))
{
var Result = Ocr.Read(Input);
txt_output.Text = Result.Text;
Result.SaveAsTextFile("JapaneseText.txt");
}
}
}
Private Sub btn_image_Click(ByVal sender As Object, ByVal e As EventArgs)
Dim open As New OpenFileDialog()
If open.ShowDialog() = DialogResult.OK Then
' display image in picture box
img_image.Image = New Bitmap(open.FileName)
' image file path
'textBox1.Text = open.FileName;
Dim Ocr = New IronTesseract()
Ocr.Language = OcrLanguage.JapaneseBest
Using Input = New OcrInput(open.FileName)
Dim Result = Ocr.Read(Input)
txt_output.Text = Result.Text
Result.SaveAsTextFile("JapaneseText.txt")
End Using
End If
End Sub
在此功能中,我们实现了当用户点击按钮时,会出现一个选择对话框,提示用户选择包含日文的图像。 当用户选择图像时,Bitmap()该函数取得图像路径并将其加载到图片框中。 加载后,我们初始化 IronOCR 库并将语言设置为“日语”。 IronOCR将以图像路径为输入并开始扫描。 扫描后,它将输出文本存储在“Result”变量中,并在富文本框中显示为输出。 最终,它会将输出文件以“txt”文件格式保存,文件名为“JapaneseText.”**
运行项目
我们已经设计了代码并实现了后端。 现在是运行程序以检查功能是否运行良好的时候了。
点击绿色播放按钮以运行项目。 我们将在操作系统屏幕的中央看到这个界面。
点击 "选择图像 "按钮,选择包含日文文本的图像。
您将在富文本框中看到输出的图像文本。
- OCR 结果的文本文件将以 "JapaneseText "保存。
IronOCR 的 OCR 精确度非常高。
摘要
在本教程中,我们学习了如何使用IronOCR库处理日文文本。 如果您想了解更多关于IronOCR的信息,请点击此处。 链接.
有关Iron Software的更多信息,请点击此处。 链接. 如果您想尝试IronOCR库,则可以无需支付即可激活免费试用。 Iron Software目前提供一项特别优惠,您只需支付两个软件产品的价格就可以购买五个软件产品套装。 有关更多信息,请点击。 这里.