如何在 C# | IronOCR 中讀取掃描文件

使用 IronOCR 在 C# 中讀取掃描文檔

This article was translated from English: Does it need improvement?
Translated
View the article in English

許多 PDF 文件包含無法搜尋的、基於圖像的文字。 IronOCR 可以將其轉換為可搜尋的內容,從而更容易找到特定資訊並提高文件的可訪問性,尤其對於視力障礙人士而言。

自動提取無需手動複製或重新建立文字和圖像,從而確保準確性和效率。 這對於研究、法律文件和內容創作尤其有用,因為在這些領域重複使用 PDF 的特定部分很常見。

企業可以從 PDF 文件中提取關鍵數據進行分析或系統集成,從而簡化工作流程。 設計師和行銷人員還可以提取圖像,以便在各種項目中進行增強和重複使用。

在本教程中,我們將探索OcrPdfInput方法,介紹可用的選項和參數,以展示 IronOCR 如何簡化 PDF 文字和圖像擷取,從而應用於各種應用程式。

若要使用此功能,您還必須安裝IronOcr.Extensions.AdvancedScan軟體套件。

快速入門:從掃描的 PDF 或圖像中提取文字

只需幾秒鐘即可開始使用——只需一行程式碼,即可使用 IronOCR 的OcrInput.LoadPdfLoadImage載入掃描的 PDF 或影像,並透過ReadDocument立即擷取文字。 非常適合希望快速啟動並運行 OCR 功能的開發人員。

Nuget Icon立即開始使用 NuGet 建立 PDF 檔案:

  1. 使用 NuGet 套件管理器安裝 IronOCR

    PM > Install-Package IronOcr

  2. 複製並運行這段程式碼。

    var text = new IronOcr.IronTesseract().ReadDocument(new IronOcr.OcrInput().LoadPdf("scanned.pdf")).Text;
  3. 部署到您的生產環境進行測試

    立即開始在您的專案中使用 IronOCR,免費試用!
    arrow pointer

讀取掃描文件範例

若要從文件中的所有圖像中提取文本,請使用ReadDocument方法。 此方法處理文件並傳回一個包含提取文字的對象,可以透過 Text 屬性存取該對象。 下面的範例示範如何使用此方法處理範例 TIFF檔案。

[{i:(

  • 目前此方法僅適用於英文、中文、日文、韓文和拉丁字母。
  • 在 .NET Framework 上使用進階掃描功能需要專案在 x64 架構上運作。 @@--括號關閉--@@

輸入

input

程式碼

:path=/static-assets/ocr/content-code-examples/how-to/read-scanned-document-read-scanned-document.cs
using IronOcr;
using System;

// Instantiate OCR engine
var ocr = new IronTesseract();

// Configure OCR engine
using var input = new OcrInput();
input.LoadImage("potter.tiff");

// Perform OCR
OcrResult result = ocr.ReadDocument(input);

Console.WriteLine(result.Text);
Imports IronOcr
Imports System

' Instantiate OCR engine
Private ocr = New IronTesseract()

' Configure OCR engine
Private input = New OcrInput()
input.LoadImage("potter.tiff")

' Perform OCR
Dim result As OcrResult = ocr.ReadDocument(input)

Console.WriteLine(result.Text)
$vbLabelText   $csharpLabel

輸出

output

如果您需要對 PDF 檔案執行 OCR,只需將LoadImage方法替換為LoadPdf即可。 這樣,IronOCR 就可以用同樣的方法處理和擷取掃描 PDF 中的文字。

常見問題解答

如何使用 C# 閱讀掃描的文件?

您可以使用 IronOCR 以 C# 語言閱讀掃描的文件。首先,從 NuGet 下載 C# 函式庫,然後針對影像使用 LoadImage 方法匯入您的掃描文件,或針對 PDF 使用 LoadPdf 方法匯入您的掃描文件。最後,使用 ReadDocument 方法提取文字。

將 PDF 中基於影像的文字轉換為可搜尋內容的目的為何?

使用 IronOcr 將 PDF 中基於圖像的文字轉換為可搜尋的內容,可增強可讀性,讓您更容易找到特定資訊,並協助視障人士。

我可以用 IronOCR 從圖片和 PDF 中提取文字嗎?

是的,IronOCR 允許您從圖片和 PDF 中提取文字。對圖片使用 LoadImage 方法,對 PDF 使用 LoadPdf 方法,然後再使用 ReadDocument 方法來執行萃取。

IronOCR 有哪些語言支援能力?

IronOCR 支援英文、中文、日文、韓文和 LatinAlphabet 的文字擷取,使其成為多語言文件處理的多功能工具。

使用 IronOCR 中的進階掃描功能需要什麼架構?

若要在 .NET Framework 上使用 IronOCR 的進階掃描功能,您的專案必須在 x64 架構上執行。

如何在商業應用程式中使用 IronOCR 進行自動文字擷取?

IronOcr 可在商業應用程式中使用,透過匯入掃描的文件,使用 LoadPdfLoadImage 方法,並使用 ReadDocument 方法抽取文字,以進行自動文字抽取。這可讓企業有效地分析和整合關鍵資料,從而簡化工作流程。

使用 IronOcr 從掃描的 PDF 中提取文字涉及哪些步驟?

要使用 IronOCR 從掃描的 PDF 中提取文字,請下載該函式庫,使用 LoadPdf 方法匯入 PDF,然後用 ReadDocument 方法提取文字。擷取的文字可依需要儲存或匯出。

IronOCR 如何讓設計師和行銷人員獲益?

IronOCR 讓設計師和行銷人員獲益良多,他們可以從 PDF 中萃取圖片和文字進行強化,並在各種專案中重複使用,提高效率和創意的可能性。

使用 IronOCR 的進階功能需要安裝哪些套件?

若要存取 IronOCR 的進階功能,您需要從 NuGet 安裝 IronOcr.Extensions.AdvancedScan 套件。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

準備好開始了嗎?
Nuget 下載 5,167,857 | Version: 2025.11 剛發表