OCR 工具

如何 OCR PDF 教學(免費線上工具)

發佈 2023年1月25日
分享:

OCR或光學字符識別是一種將文字信息轉換為數位形式的過程。 PDF OCR 是一款受歡迎的應用程式,可用於改善業務流程。 PDF OCR 的其中一個好處是可以用來提升資訊的可及性。 這對於無法以所有人均可使用或閱讀的格式提供的文件尤為重要。 PDF OCR 可用於生成一個文件的副本,以一種每個人都能使用的格式提供。

PDF OCR 的另一個用途是在文件追蹤方面。 當文件被歸檔、掃描或轉錄時,可能會很難追蹤哪個文件版本與哪個文件相關聯。使用 PDF OCR,可以追蹤對文件所做的更改並確定哪些版本與哪些文件相關聯。這對於管理文件檔案和防止重要信息的丟失可能非常有用。

在本文中,您將學習如何使用Adobe Acrobat Pro軟體對任何PDF文件進行OCR。 本文還將介紹 .NET OCR 庫 IronOCR,這是目前最有效且功能豐富的庫之一。 讓我們從 Adobe Acrobat Pro 開始。

使用 Adobe Acrobat Pro DC 進行 PDF 的 OCR

如何對 PDF 進行 OCR - 圖 1

Adobe Acrobat Pro DC 是 Adobe Acrobat Reader DC 的專業版。 這是最受歡迎且功能最強大的 PDF 操作工具。 使用此軟體,您可以建立、編輯、簽署和檢閱任何 PDF 文件。 此外,它還可以讓您將 PDF 轉換為 PowerPoint 簡報、Word 文件或 Excel 文件。 它還可以編輯掃描文件。

Acrobat DC 的新版本也是一款文件掃描器,可以使用 OCR 技術快速將掃描的文件轉換為數字文件。 它具有光學字符識別功能,以及智能名片掃描功能,能夠在幾秒鐘內自動檢測並保存名片上的聯繫信息。

Acrobat Pro DC 除了能從 PDF 文件中提取文字外,還具有許多功能,使其成為 PDF 轉錄的重要工具。

讓我們看看如何使用 Adobe Acrobat Pro 的 OCR 來處理掃描文件。

  • 在 Adobe Acrobat 中打開所需的 PDF 文件,例如我們的例子中的掃描 PDF 文件。
  • 從文件右窗格中選擇「編輯 PDF」。
    如何對 PDF 進行 OCR - 圖 2

  • 這將開啟 Adobe Reader OCR PDF 工具的介面。
  • 點擊頂部功能區的「編輯」按鈕。
  • 這將把掃描的 PDF 文件轉換為可完全編輯的 PDF 文件。 您將能夠直接在 PDF 文件上編輯文字和圖像檔案。

    如何對 PDF 進行 OCR - 圖 3

  • 您也可以更改文本區塊的位置、字體等。

    進行任何更改後,儲存檔案,您會看到這些更改反映在文件中。

IronOCR:一個 .NET OCR 庫

如何對PDF進行光學字符識別 - 圖4

IronOCR 是一個 .NET OCR 庫和 OCR 工具,能夠通過將文字文件和圖像轉換為機器可讀的格式來讀取。

這個光學字符識別庫的開發考慮了以下幾個方面:

  • 需要一個強大且準確的OCR引擎,可以用於不同的語言而無需任何外部軟體。
  • 需要一個可在不同平台(如 Windows、Linux 和 macOS)上運行的易用 API。
  • 需要一個OCR引擎,能夠輕鬆整合到各種.NET應用程式中,並支援WPF和控制台應用程式。

    IronOCR 使開發人員更容易創建支持掃描文檔、提取文本和元數據、索引掃描的圖像文件、將圖像轉換為可搜索的 PDF,並將掃描文檔轉換為可讀文本的軟體。 IronOCR在編碼、圖像格式轉換以及文字識別和提取方面提供了很多選項。 IronOCR 支援 125 種語言。

    IronOCR 提供直觀、穩定且準確的 OCR 進程,以從掃描文件、照片和截圖中識別文本,同時減少如頁面分割和版面分析等耗時任務。 該庫是使用C#開發的,其API設計簡單明瞭且可讀性佳。

    讓我們探索一些使用 IronOCR 的程式碼範例:

程式碼範例

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

IronOCR 為您提供將整個 PDF 文件或選定的 PDF 文件頁範圍進行光學字符識別 (OCR) 的選項。

PDF檔案(輸入)

如何對 PDF 進行光學字符識別 - 圖 5

在控制台輸出

如何OCR PDF - 圖6

您可以使用 IronOCR 將 PDF 轉換為可選擇的 PDF; 這非常簡單明了。 請參閱以下的 PDF 轉換代碼片段:

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf","password");

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	Input.AddPdf("scan.pdf","password")

	' clean up twisted pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

IronOCR 提供許多其他工具和功能。 您可以參觀以下內容來探索IronOCR功能連結.

結論

IronOCR 程式庫相比市場上其他程式庫具有多項優勢。 您可以僅用幾行程式碼就新增自己的模組以修改和擴展其功能。 IronOCR目前可以讀取超過125種語言的文本。 它已被開發為在與其他函式庫相比時,產生更高品質、更可靠的結果,同時消耗更少的時間和記憶體資源。

IronOCR 在開發階段是免費的。 IronOCR 也提供一個免費試用在生產環境中進行測試。 如需獲取有關 IronOCR 價格及免費試用的更多詳情,請按照以下步驟進行連結.

如何對 PDF 進行 OCR - 圖 7

< 上一頁
從PDF進行OCR(免費線上工具)
下一個 >
最佳中文OCR(免費和線上工具)

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 NuGet 下載 總下載次數: 2,698,613 查看許可證 >