OCR 工具

如何 OCR PDF 教學(免費線上工具)

發佈 2023年1月25日
分享:

OCR或光學字符識別是一種將文本信息轉換成數字形式的過程。PDF OCR 是一個流行的應用程序,可以用來改進業務流程。PDF OCR 的好處之一是它可以用來提高信息的可訪問性。這對於那些沒有以每個人都能使用或閱讀的格式提供的文件尤其重要。PDF OCR 可以用來生成一個每個人都能使用的格式的文件副本。

PDF OCR 的另一個用途是文件跟踪。當文件歸檔、掃描或轉錄時,很難跟踪與哪個文件相關的文件版本。使用 PDF OCR,可以跟踪文件的變更並確定哪些版本與哪些文件相關聯。這對於管理文件存檔和防止重要信息丟失非常有用。

在本文中,您將了解如何使用 Adobe Acrobat Pro 軟件對任何 PDF 文件進行 OCR。本文還將介紹 .NET OCR 庫 IronOCR,這是最有效且功能豐富的庫之一。讓我們從 Adobe Acrobat Pro 開始。

使用 Adobe Acrobat Pro DC 進行 PDF 的 OCR

如何對 PDF 進行 OCR - 圖 1

Adobe Acrobat Pro DC 是 Adobe Acrobat Reader DC 的專業版。它是最受歡迎和功能最強大的 PDF 操作工具。有了這款軟體,你可以創建、編輯、簽名和審閱任何 PDF 文件。此外,它還能將 PDF 轉換為 PowerPoint 演示文稿、Word 文件或 Excel 文件。它也可以編輯掃描文件。

新的 Acrobat DC 版本還是一個文件掃描器,可以利用 OCR 技術快速將掃描文件轉換為數字文件。它具備光學字符識別功能以及智能名片掃描,可以在幾秒鐘內自動檢測並保存名片上的聯繫資訊。

除了能夠從 PDF 文件中提取文本之外,Acrobat Pro DC 還具有許多功能,使其成為一個有價值的 PDF 轉錄工具。

讓我們看看如何使用 Adobe Acrobat Pro 對掃描文件進行 OCR 處理。

  • 在 Adobe Acrobat 中打開所需的 PDF 文件,在我們的例子中是一個掃描的 PDF 文件。
  • 從文檔的右側面板中選擇「編輯 PDF」。
如何對 PDF 進行 OCR - 圖 2

  • 這將打開 Adobe Reader OCR PDF 工具的介面。
  • 點擊頂部功能區上的“編輯”按鈕。
  • 這將把掃描的 PDF 文件轉換為完全可編輯的 PDF 文件。你將能夠直接在 PDF 文件上編輯文本和圖像文件。
如何對 PDF 進行 OCR - 圖 3

  • 您還可以變更文字區塊位置、文字字體等。

進行變更後,儲存檔案,您會在文件中看到這些變更。

IronOCR:一個 .NET OCR 庫

如何對PDF進行光學字符識別 - 圖4

IronOCR 是一個 .NET OCR 庫和 OCR 工具,可以通過將文本文件和圖像轉換為機器可讀格式來讀取它們。

這個光學字符識別庫在開發時考慮到以下因素:

  • 需要一個穩健且準確的 OCR 引擎,可以用於不同語言,而不需要任何外部軟體。
  • 需要一個易於使用的 API,能夠跨平台運行,例如 Windows、Linux 和 macOS。
  • 需要一個易於集成到各種 .NET 應用程序並支持 WPF 和控制台應用程序的 OCR 引擎。

IronOCR 使開發人員更容易創建支持掃描文檔、提取文本和元數據、索引掃描圖像文件、將圖像轉換為可搜索 PDF,並將掃描文檔轉換為可讀文本的軟體。IronOCR 在編碼、圖像格式轉換以及文本識別和提取方面提供了很多選擇。IronOCR 支持 125 種語言。

IronOCR 提供了一個直觀、穩健且準確的 OCR 過程,能夠從掃描文檔、照片和截圖中識別文本,同時減少頁面分段和佈局分析等耗時的任務。該庫是用 C# 開發的,其 API 設計簡單,具有良好的可讀性。

讓我們來探索一些使用 IronOCR 的代碼範例:

程式碼範例

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

IronOCR 為您提供將整個 PDF 文件或選定的 PDF 文件頁範圍進行光學字符識別 (OCR) 的選項。

PDF檔案(輸入)

如何對 PDF 進行光學字符識別 - 圖 5

在控制台輸出

如何OCR PDF - 圖6

您可以使用 IronOCR 將 PDF 轉換為可選擇的 PDF;這非常簡單明瞭。請參閱下面的 PDF 轉換代碼片段:

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

IronOCR 提供了許多其他工具和功能。您可以通過訪問以下內容來探索 IronOCR 的功能 連結.

結論

IronOCR 是市面上其他庫無法比擬的,具有多項優勢。您可以通過簡單幾行代碼添加自己的模塊來修改和擴展其功能。IronOCR 目前能夠識別超過 125 種語言的文本。與其他庫相比,其開發旨在產生更高質量、更可靠的結果,同時消耗更少的時間和內存資源。

IronOCR 免費供開發使用。IronOCR 還提供 免費試用 用於生產中的測試。關於 IronOCR 價格和免費試用的更多詳細信息,請跟隨 連結.

如何對 PDF 進行 OCR - 圖 7

< 上一頁
從PDF進行OCR(免費線上工具)
下一個 >
最佳中文OCR(免費和線上工具)

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 2,433,305 查看許可證 >