如何使用IronOCR读取扫描文档
许多PDF包含不可搜索的图像文本。 IronOCR可以将其转换为可搜索的内容,从而更容易定位特定信息并增强文档可访问性,特别是为视力障碍人士。
自动提取确保准确性和效率,而不是手动复制或重新创建文本和图像。 这对研究、法律文件和内容创作尤其有用,在这些领域,重新使用PDF的特定部分是很常见的。
企业可以从PDF中提取关键数据进行分析或系统集成,从而简化工作流程。 设计师和营销人员还可以提取图像进行增强和在各种项目中重复使用。
在本教程中,我们将探讨OcrPdfInput方法,涵盖可用的选项和参数,展示IronOCR如何简化PDF文本和图像提取,以适用于各种应用程序。
如何使用IronOCR读取扫描文档
- 下载用于读取扫描文档的C#库
- 导入扫描文档进行处理
- 使用
加载图像
图像或的方法加载PDF
用于扫描的PDF - 使用提取文本
读取文档
方法 - 根据需要保存或导出提取的文本以供进一步使用
立即在您的项目中开始使用IronOCR,并享受免费试用。
要使用此功能,您还必须安装IronOcr.Extension.AdvancedScan包装
读取扫描文档示例
要从文档中的所有图像提取文本,请使用ReadDocument
方法。 此方法处理文档并返回一个包含提取文本的对象,可以通过 Text 属性访问。 下面的示例演示了如何使用此方法TIFF 样本锉刀
请注意
- 该方法目前仅适用于英语、中文、日语、韩语和拉丁字母。
-
使用高级扫描在 .NET Framework 上需要项目运行在 x64 架构上。
输入
代码
:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;
// Instantiate OCR engine
var ocr = new IronTesseract();
// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");
// Perform OCR
OcrResult result = ocr.ReadDocument(input);
Console.WriteLine(result.Text);
Imports IronOcr
Imports System
' Instantiate OCR engine
Private ocr = New IronTesseract()
' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")
' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)
Console.WriteLine(result.Text)
输出
如果您需要对 PDF 文件进行 OCR,只需将 LoadImage
方法替换为 LoadPdf
。 这使得IronOCR能够以相同的方式处理和提取扫描PDF中的文本。