已更新 2025年2月16日
分享:

如何使用IronOCR讀取掃描文件

This article was translated from English: Does it need improvement?
Translated
View the article in English

由 Curtis Chau

許多 PDF 包含不可搜索的基於圖像的文本。 IronOCR 可以將其轉換為可搜尋的內容,使定位特定資訊變得更加容易,並提升文件的可及性,特別是對視障人士而言。

自動化提取確保了準確性和效率,而非手動複製或重新創建文字和圖像。 這對於研究、法律文件和內容創作特別有用,這些場合常常需要重複使用特定部分的PDF。

企業可以從 PDF 提取關鍵數據進行分析或系統整合,從而簡化工作流程。 設計師和行銷人員也可以提取圖像以進行增強和在各種專案中重複使用。

在本教程中,我們將探討 OcrPdfInput 方法,涵蓋可用的選項和參數,以展示 IronOCR 如何簡化各種應用程式中的 PDF 文字和圖像提取。

立即在您的專案中使用IronOCR,並享受免費試用。

第一步:
green arrow pointer

若要使用此功能,您還需要安裝IronOcr.Extension.AdvancedScan套件。

閱讀掃描文件範例

要從文件中的所有圖片提取文字,使用 ReadDocument 方法。 此方法會處理文件並返回一個包含提取文字的物件,該物件可以透過 Text 屬性訪問。 下面的示例演示了如何使用此方法範例 TIFF文件。

[{我(

  • 該方法目前僅適用於英語、中文、日語、韓語和拉丁字母。
  • 使用高級掃描功能在 .NET Framework 上運行需要項目在 x64 架構上運行。

    )}]

輸入

輸入

代碼

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
VB   C#

輸出

輸出

如果您需要對 PDF 文件執行 OCR,只需將 LoadImage 方法替換為 LoadPdf。 這樣一來,IronOCR 可以以相同的方式處理和從掃描的 PDF 中提取文本。