PDF OCR 文字擷取

VB C#

using IronOcr;
using System;

var ocrTesseract = new IronTesseract();

using var ocrInput = new OcrInput();

// OCR entire document
ocrInput.LoadPdf("example.pdf", Password: "password");

int[] pages = { 1, 2, 3, 4, 5 };

// Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password: "password");

var ocrResult = ocrTesseract.Read(ocrInput);
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports System

Private ocrTesseract = New IronTesseract()

Private ocrInput = New OcrInput()

' OCR entire document
ocrInput.LoadPdf("example.pdf", Password:= "password")

Dim pages() As Integer = { 1, 2, 3, 4, 5 }

' Alternatively OCR selected page numbers
ocrInput.LoadPdfPages("example.pdf", pages, Password:= "password")

Dim ocrResult = ocrTesseract.Read(ocrInput)
Console.WriteLine(ocrResult.Text)

Install-Package IronOcr

PDF OCR 文字擷取

Iron Tesseract 能夠讀取多種圖像格式，亦可處理 PDF 文件。此功能無法透過傳統的免費 Tesseract 引擎實現。

OcrInput 提供自動修正 PDF 特性的選項，適用於掃描品質不佳的情況。

開發人員可指定讀取整份 PDF、選定頁面，或單一裁切區域。

如何在 C# 中對 PDF 檔案進行 OCR

下載 C# 函式庫以對 PDF 檔案進行 OCR 處理
請使用 AddPdf 方法來新增 PDF 文件
使用 AddPdfPages 方法
請使用 Read 方法對新增的 PDF 執行 OCR
檢視QR Code值 Barcodes 屬性中。存取 Text 屬性以取得 OCR 結果

C# PDF OCR

許多 OCR 工具在最佳條件下運作良好，但若您需要一款能在任何條件下皆具備更高穩定性與精準度的解決方案，IronOCR 文字擷取方案正是您的最佳選擇。

專為文字擷取而打造的 IronOCR 從頭開始開發，具備將真實世界影像轉換為文字的能力，準確度高達 99%。

IronTesseract，我們的原生 C# OCR 函式庫，能夠以近乎人類的方式，從品質未必優良且有時會傾斜的真實世界影像中識別字元。

若掃描品質不佳，我們的 OCR 功能可自動修正 PDF 或圖像的特徵。

隨著我帶您深入了解目前市面上頂尖的 OCR 解決方案，您將能親眼見證其成效。

為何選擇 IronOCR 進行圖片或 PDF 文字擷取？

若考量 IronOCR 解決方案在 Tesseract 管理方面的獨特能力，選擇它無疑是明智之舉，其優勢包括：

IronOCR 這款用於 PDF 文字擷取的 OCR 引擎，在純 .NET 環境中開箱即用
無需在您的電腦上安裝 Tesseract。
它與最新版本的引擎相容性極佳：Tesseract 5（以及 Tesseract 4 與 3）。
適用於任何 .NET 專案：.NET Framework 4.5 以上、.NET Standard 2 以上，以及 .NET Core 2、3 和 5！
相較於其他開源版 Tesseract，其準確度與速度均有所提升。
IronOCR 支援 Xamarin、Mono、Azure 及 Docker 開發平台。
您可以透過 NuGet 套件管理複雜的 Tesseract 字典系統。
它能從 PDF、多幀 TIFF 以及所有主要圖像檔案中提取文字，無需任何額外操作。
它能修正品質低劣或傾斜的掃描影像，讓您的文字擷取專案獲得最佳成果。

您有品質不佳的掃描檔嗎？沒問題！

在 OCR 任務方面，IronOCR 展現出更卓越的表現。事實上，許多類似產品雖能與機器列印的高解析度完美文字或圖像良好配合，但在實際應用中卻會出現不準確或無法運作的情況。然而，IronOCR 卻並非如此。

IronOCR 在修正品質不佳的文件方面表現出色。它能校正傾斜的掃描圖像並增強低畫質照片，使其轉為可搜尋的 PDF 文件或圖像。這正是我們產品與眾不同的關鍵所在。

調整 IronOCR 的效能以配合您的工作流程

透過 Iron Software 的 OCR 解決方案，您可以調整文字擷取任務的效能，以在工作流程中取得最佳平衡。我們深知這對許多使用者和開發者至關重要，因此我們打造的 OCR 解決方案具備可調整的效能與高度靈活性。

例如，影響 OCR 任務速度的一個非常重要的因素，就是輸入影像的品質。當背景雜訊較少且影像解析度較高（200 dpi 為理想範圍）時，OCR 結果的產出速度會更快，準確度也會更高。然而，透過 IronOCR 的效能調校功能，即使是影像品質較差的任務也能迅速完成。

此外，選用數位雜訊較少的輸入圖像或掃描文字格式（例如 PNG 或 TIFF），其處理速度通常會比 JPEG 等低品質圖像格式更快。

安裝 IronOCR 解決方案輕而易舉

Iron Software 套件非常容易安裝和執行。本工具適用於最主流的開發平台。我們的解決方案具備跨平台支援，涵蓋 Windows、Linux、macOS、Azure、AWS 及 Docker —— 正因如此，C# 才成為開發者最青睞的 Tesseract OCR 引擎。

支援超過 125 種國際語言

針對 OCR 工作，當某款軟體支援多種語言時，其實用性便會大幅提升。 IronOCR 解決方案之所以不可或缺，在於它支援 125 種國際語言。這些語言可透過以 DLL 檔案形式發佈的語言套件進行安裝。您可從本網站或 Visual Studio 的 NuGet 套件管理員下載這些工具。

如何安裝 OCR 語言套件

支援一百二十種語言。您可以透過以下兩種方式下載任何額外的 OCR 語言套件：

安裝 NuGet 套件

在 NuGet 中搜尋 IronOCR 語言。

使用 OCR 資料方法

請下載 ocrdata 檔案，並將其加入您的 .NET 專案或程式檔案中。

輕鬆將掃描檔案或圖片轉為可搜尋的文件

我們引以為傲的一項功能，是我們的 Tesseract 軟體能夠從輸入的圖片或掃描的 PDF 檔案中，建立可搜尋的 PDF 文件或可搜尋的文字。您可以在 C# 和 VB.NET 中，將 OCR 結果匯出為可搜尋的 PDF 文件。這對於企業和政府機構在資料庫建置、搜尋引擎優化（SEO）以及 PDF 處理方面，確實能提供實質協助。