OCR工具

如何将图片转换为文本

发布 2024年十月24日
分享:

在当前的数字时代,将基于图像的内容转换为易于阅读的可编辑、可搜索文本。 这一点在纸质文档归档、从图像中提取关键信息或将手写或印刷材料数字化等情况下尤为重要。 光学字符识别(光学字符识别).NET、Java、Python 或 Node js 的软件开发人员。 要实现这一目标,IronOCR是一款高度可靠且高效的工具,它是.NET的强大OCR库。

本文将介绍如何使用IronOCR在此,我们将与您探讨这种转换如何节省时间、减少错误并简化数据提取、归档和文档处理等流程。

如何将图片转换为文本

  1. 下载用于 ocr 工作的 C# 库

  2. 创建一个新的 `IronTesseract\实例

  3. 使用 ` 加载您的图片OcrImageInput`

  4. 使用 ` 阅读图片内容**阅读***`

  5. 将 OCR 结果导出为文本文件

为什么要将图片转换为文本?

将图片转换成文本的原因有很多,包括

  • 数据提取: 从扫描文件和图像中提取文本,用于存档或数据处理。
  • 编辑扫描内容: 编辑或更新先前扫描文档中的文本,节省手动重新输入内容的时间。
  • 提高可访问性: 将印刷材料转换为数字文本,使其可被屏幕阅读器或文本转语音应用程序访问。
  • 自动化: 通过读取发票、收据或名片中的文本,实现数据录入和处理的自动化。

如何开始将图像转换为文本

在探讨如何利用 IronOCR 强大的图像到文本功能从图像中提取文本之前,让我们先来看看使用在线工具的一般步骤流程、文档摘要. 在线 OCR 工具不需要任何手动设置,因此对于那些希望完成临时甚至一次性 OCR 任务的人来说是一个非常有用的选择。当然,如果你需要经常执行 OCR 任务,那么拥有 IronOCR 这样功能强大的 OCR 工具可能更适合你。

  1. 导航至在线 OCR 工具

  2. 上传图片并开始提取过程

  3. 以文本文档的形式下载结果数据

第一步:导航至在线 OCR 工具

要开始利用 OCR 技术从图像文件中提取文本,我们首先要导航到要使用的在线图像 OCR 工具。

如何将图片转换为文本:图 1 - Docsumo OCR 工具

第二步:上传图片并开始提取过程

现在,通过点击 "上传文件 "按钮,我们可以上传要提取文本的图像文件。 该工具将立即开始处理图像。

如何将图片转换为文本:图 2 - Docsumo - 文件处理

第三步:将结果数据下载为文本文档

图像处理完成后,我们可以将提取的文本下载为新的文本文档,以便进一步使用或处理。

如何将图片转换为文本:图 3 - Docsumo - 图像处理已完成

您还可以查看文件,突出显示各部分以查看其中包含的文本。 如果您只想查看某些部分的文字,这可能会特别有帮助。 然后,您还可以继续将文本下载为文本文档、XLS 或 JSON。

如何将图片转换为文本:图 4

IronOCR 入门

IronOCR是一个多功能 .NET 库,可让您对图像执行 OCR 操作。 它具有多种功能,可以处理各种文件格式(例如 PNG、JPEG、TIFF 和 PDF)在翻译过程中,必须进行图像校正,扫描专业文件。(护照、车牌等)此外,还需要提供扫描文件的高级信息、转换扫描文件并突出显示文本。

安装 IronOCR 库

在开始使用 IronOCR 阅读图像之前,如果您的项目中尚未安装 IronOCR,则需要安装它。 您可以使用 Visual Studio 中的 NuGet 轻松安装 IronOCR。 打开 NuGet 包管理器控制台并运行以下命令:

Install-Package IronOcr
Install-Package IronOcr
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'Install-Package IronOcr
VB   C#

另外,您也可以通过 NuGet Package Manager for Solution 页面搜索 IronOCR 来安装 IronOCR。

如何将图片转换为文本:图 5

要在代码中使用 IronOCR,请确保在代码顶部有正确的导入语句:

using IronOcr;
using IronOcr;
Imports IronOcr
VB   C#

将图像转换为文本:基本示例

首先,让我们来看一个使用 IronOCR 进行图像到文本转换的基本示例。 这是任何 OCR 工具的核心功能,在本示例中,我们将使用在线工具使用的 PNG 文件。 在本例中,我们首先实例化了IronTesseract您可以使用 "ocr"类,并为其分配变量 "ocr"。 然后,我们使用OcrImageInput您可以使用 OcrImageInput 类从提供的图像文件中创建一个新的 OcrImageInput 对象。 最后阅读** 方法用于从图像中读取文本,并返回一个[翻译结果](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html)反对 然后,我们可以访问提取的文本,并将其显示到控制台中,方法是使用[ocrResult.Text**](/csharp/ocr/object-reference/api/IronOcr.OcrResult.html#IronOcr_OcrResult_Text).

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
VB   C#

输出图像

如何将图片转换为文本:图 6

处理不同的图片格式

IronOCR 支持多种图像格式,如 PNG、JPEG、BMP、GIF 和 TIFF。 从不同图像格式中读取文本的过程保持不变,您只需加载具有正确扩展名的文件。

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.bmp");
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
Console.WriteLine(ocrResult.Text)
VB   C#

提高 OCR 精确度

通过优化图像和配置语言、图像分辨率和图像中的噪声水平等选项,可以提高 OCR 性能。 以下是如何对 OCR 进行微调,以提高在质量需要改进的图像上提取文本的准确性。去噪音()锐化()方法:

using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
using IronOcr
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
image.DeNoise();
image.Sharpen();
OcrResult ocrResult = ocr.Read(image);
Console.WriteLine(ocrResult.Text);
Using IronOcr IronTesseract ocr = New IronTesseract()
	Using image As New OcrImageInput("example.png")
		image.DeNoise()
		image.Sharpen()
		Dim ocrResult As OcrResult = ocr.Read(image)
		Console.WriteLine(ocrResult.Text)
	End Using
End Using
VB   C#

导出提取的文本

既然我们已经了解了图像到文本转换过程的基础知识,现在让我们来看看如何导出转换后的文本以供日后使用。 在本例中,我们将使用与之前相同的流程加载图像并进行扫描。 然后,使用 File.WriteAllText("output.txt", ocrResult.Text)我们创建一个名为 "output.txt"的新文本文件,并将提取的文本保存到该文件中。

using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
using IronOcr;
IronTesseract ocr = new IronTesseract();
using OcrImageInput image = new OcrImageInput("example.png");
OcrResult ocrResult = ocr.Read(image);
File.WriteAllText("output.txt", ocrResult.Text);
Imports IronOcr
Private ocr As New IronTesseract()
Private OcrImageInput As using
Private ocrResult As OcrResult = ocr.Read(image)
File.WriteAllText("output.txt", ocrResult.Text)
VB   C#

如何将图片转换为文本:图 7

IronOCR 的主要功能

  1. 高准确性:IronOCR 使用先进的TesseractOCR 算法,包括处理复杂图像的内置工具,确保高准确性。

  2. 支持多种语言支持 125 种以上语言此外,我们还需要翻译.NET、Java、Python 或 Node js 等语言,包括拉丁文、西里尔文、阿拉伯文和亚洲文字等多种文字。 但需要注意的是,IronOCR 只安装了英语,要使用其他语言,需要安装该语言的附加语言包。

  3. PDF OCR:IronOCR 可以从以下文档中提取文本扫描的 PDF此外,译文还必须具有可读性,使其成为文档数字化的重要工具。

  4. 图像清理:它提供预处理工具,如去歪曲, 去噪反转提高图像质量,以提高 OCR 的准确性。

  5. 易于集成:无论是控制台应用程序、网络应用程序还是桌面软件,API 都能与任何 .NET 项目无缝集成。

将图片转换为文本的常见用例

  • 数据录入自动化:企业可以使用 OCR 自动提取表格、收据或名片中的数据。
  • 文件归档:各组织可以将实体文件数字化,使其可搜索且更易于存储。
  • 无障碍:将印刷材料转换为文本,以便在屏幕阅读器或其他辅助技术中使用。
  • 研究与分析:快速将扫描的研究材料转换为文本,以便进行分析或集成到其他软件工具中。
  • 学习: 将扫描的学习笔记转换为可编辑的文本,然后将其保存为 Word 文档,以便在 IronWord、Microsoft Word 或 Google docs 等工具中进一步处理。

结论

使用 IronOCR 转换图像中的文本是处理文档处理任务的一种快速、准确和高效的方法。 无论您是处理扫描文档、数字图像还是 PDF 文档,IronOCR 都能简化处理过程,提供高准确性、多语言支持和强大的图像处理工具。 该工具是希望简化文档管理工作流程、自动提取数据或提高可访问性的企业的理想选择。

使用免费试用现在就试用 IronOCR 的强大功能,只需几分钟就能让它在您的工作区中完全运行,这样您就可以立即开始处理 OCR 任务了!

下一步 >
发票OCR库(开发人员列表)

准备开始了吗? 版本: 2024.11 刚刚发布

免费NuGet下载 总下载量: 2,660,930 查看许可证 >