如何對 PDF 進行 OCR 教學(免費線上工具)
OCR(光學字元辨識)是將文字資訊轉換為數位形式的過程。 PDF OCR 是一款流行的應用程序,可用於改善業務流程。 PDF OCR 的優點之一在於它可以用來提高資訊的可訪問性。 這一點對於那些並非以所有人都能使用或閱讀的格式提供的文件來說尤其重要。 PDF OCR 可用於產生一份所有人都能使用的文件副本。
PDF OCR的另一個用途是追蹤文件。 當文件被歸檔、掃描或轉錄時,很難追蹤哪個版本對應哪個文件。借助 PDF OCR 技術,可以追蹤文件的更改,並確定哪些版本對應哪個文件。這對於管理文件檔案和防止重要資訊遺失非常有用。
本文將介紹如何使用 Adobe Acrobat Pro 軟體對任何 PDF 檔案進行 OCR 識別。 本文也將介紹 .NET OCR 函式庫 IronOCR,它是目前最高效、功能最豐富的函式庫之一。 我們先從Adobe Acrobat Pro開始。
使用 Adobe Acrobat Pro DC 對 PDF 檔案進行 OCR 識別

Adobe Acrobat Pro DC 是 Adobe Acrobat Reader DC 的專業版。 它是最受歡迎、功能最強大的PDF處理工具。 使用這款軟體,您可以建立、編輯、簽署和審查任何 PDF 文件。 此外,它還可以將 PDF 文件轉換為 PowerPoint 簡報、Word 文件或 Excel 文件。 它還可以編輯掃描文件。
新版 Acrobat DC 還具備文件掃描功能,可利用 OCR 技術快速將掃描文件轉換為數位檔案。 它具備光學字元辨識功能以及智慧名片掃描功能,可在幾秒鐘內自動偵測並保存名片上的聯絡資訊。
除了能夠從 PDF 檔案中提取文字外,Acrobat Pro DC 還具有許多功能,使其成為 PDF 轉錄的寶貴工具。
讓我們看看如何使用 Adobe Acrobat Pro 對掃描文件進行 OCR 識別。
- 在 Adobe Acrobat 中開啟所需的 PDF 文檔,在本例中為掃描的 PDF 文件。
- 從文件右側窗格中選擇"編輯 PDF"。

這將開啟 Adobe Reader OCR PDF 工具的介面。
- 點選頂部功能區上的"編輯"按鈕。
- 這會將掃描的 PDF 文件轉換為完全可編輯的 PDF 文件。 您將能夠直接在 PDF 文件上編輯文字和圖像文件。

- 您也可以變更文字區塊位置、文字字體等。
修改完成後,儲存文件,即可在文件中看到這些變更。
IronOCR:一個 .NET OCR 庫

IronOCR 是一個 .NET OCR 庫和 OCR 工具,它可以將文字檔案和圖像轉換為機器可讀格式來讀取它們。
此光學字元辨識庫的開發主要考慮了以下幾點:
- 需要一款強大且精確的 OCR 引擎,能夠與不同語言一起使用,而無需任何外部軟體。
- 需要一個易於使用的 API,能夠在 Windows、Linux 和 macOS 等不同平台上運作。
- 需要一款能夠輕鬆整合到各種 .NET 應用程式並同時支援 WPF 和控制台應用程式的 OCR 引擎。
IronOCR 讓開發人員更容易建立支援掃描文件、提取文字和元資料、索引掃描影像檔案、將影像轉換為可搜尋的 PDF 以及將掃描文件轉換為可讀文字的軟體。 IronOCR 在編碼、圖像格式轉換以及文字辨識和擷取方面提供了許多選項。 IronOCR 支援 125 種語言。
IronOCR 提供直覺、強大且準確的 OCR 流程,可識別掃描文件、照片和螢幕截圖中的文本,同時減少頁面分割和佈局分析等耗時任務。 該函式庫是用 C# 開發的,其 API 設計簡潔明了,可讀性良好。
讓我們來看一些使用 IronOCR 的程式碼範例:
程式碼範例
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", new[] { 1, 2, 3 }, "password");
// Read the PDF and output the recognized text
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively, OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
' Read the PDF and output the recognized text
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using本範例示範如何使用 IronOCR 處理整個 PDF 文件或文件中的特定頁面。
PDF 檔案(輸入)

控制台輸出

您可以使用 IronOCR 將 PDF 轉換為可選擇的 PDF。 它非常簡單明了。 請參考下方PDF轉換的程式碼片段:
using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}using IronOcr;
var Ocr = new IronTesseract();
// Initialize OCR input
using (var Input = new OcrInput())
{
// Add PDF for processing
Input.AddPdf("scan.pdf", "password");
// Clean up twisted pages to improve OCR results
Input.Deskew();
// Run OCR and save as a searchable PDF
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}Imports IronOcr
Private Ocr = New IronTesseract()
' Initialize OCR input
Using Input = New OcrInput()
' Add PDF for processing
Input.AddPdf("scan.pdf", "password")
' Clean up twisted pages to improve OCR results
Input.Deskew()
' Run OCR and save as a searchable PDF
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End UsingIronOCR 還提供許多其他工具和功能。 您可以透過造訪以下連結來探索 IronOCR 的功能。
結論
IronOCR庫相比市面上其他庫具有以下幾個優勢。 您只需幾行程式碼即可添加自己的模組,從而修改和擴展其功能。 IronOCR目前可以讀取超過125種語言的文字。 與其他函式庫相比,它的開發目標是在消耗更少的時間和記憶體資源的同時,產生更高品質、更可靠的結果。
IronOCR 可免費用於開發。 IronOCR 也提供免費試用版,供生產環境測試。 有關 IronOCR 的定價和免費試用詳情,請點擊連結。







