跳過到頁腳內容
OCR 工具

從 PDF 中提取 OCR(免費線上工具)

光學字符識別技術(OCR)是一種用於識別圖像中文字的技術。 這項技術是為了掃描印刷文本或圖像文件並在計算機上識別它們而創建的。 這是因為很多東西在現今是數位化的,例如電子郵件或書籍。 然而,OCR 技術已經演變成為一種更為複雜的技術,這些技術採用特殊演算法,可以識別很多不同字體的文本,即使它們因噪音或其他常見的扭曲如 JPEG 壓縮而被扭曲。 OCR 也可以以 98% 的準確率讀取紙張上的手寫字。

通過 OCR 掃描的文本可以被編輯、索引、搜尋、列印及存檔。 OCR 軟體在醫療保健、製藥、保險和法律行業中被廣泛使用。 它幫助將紙質文件轉換成數位文件,這樣它們可以更容易地重複使用和與他人共享。

讓我們看看如何使用不同的工具進行 PDF 文件的 OCR。

Adobe Acrobat Pro

Adobe 是最初開發 PDF 的公司。 他們提供快速、高效的 OCR 引擎,可以編輯任何您交給它的 PDF 文件。 這是市場上功能最強大的 OCR 引擎之一,如果您有大量 PDF 需要編輯,Adobe Acrobat DC 是您應該購買的。 這款軟體設計成可以非常準確地將任何基於文本的文件轉換為 PDF 格式。 它還通過其自定義字體生成器保留原始文件的字體。

讓我們看看如何使用 Adobe Acrobat 執行 PDF 的 OCR:

  • 在 Adobe Acrobat Pro DC 中打開文件。
  • 點擊右窗格中的"編輯 PDF"選項。

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 1

  • 它將使用其 OCR 功能將 PDF 文件轉換為可編輯的 PDF。
  • 現在,您可以輕鬆地編輯文件中的任何文本和更改圖像文件。

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 2

  • 您可以通過選擇"文件 > 另存為"並為新 PDF 文件給予適當名稱來保存文件。

您可以輕鬆執行多個已掃描 PDF 文件的 OCR。

Sejda

Sejda 是支援 OCR 的 PDF 編輯軟體,可以在雲端託管,也可以作為桌面應用程式下載到 macOS、Windows 或 Linux。 Sejda 允許用戶壓縮、編輯、數位簽名、合併和填寫 PDF 文件。 包括 JPEG 和 Excel 在內的多種格式的文件可以轉換成 PDF 文件。 PDF 也可以轉換成其他格式,例如 Word 和 PowerPoint 文件。 讓我們看看如何使用 Sejda OCR 進行 PDF 文件的 OCR。

  • Open Sejda OCR website.
  • 點擊"上傳 PDF 文件"按鈕來上傳文件,或從您的電腦拖放文件。
  • 上傳後,您會看到上傳的文件名。 選擇文件的語言。

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 3

  • 選擇語言後,您需要選擇輸出格式。 您可以選擇"PDF"或"文本"。 設置輸出格式後,點擊"識別所有頁面的文本"按鈕。 它將開始提取文本。

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 4

  • 當過程完成時,您可以下載提取的文本。

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR 是免費的在線 OCR 軟體,可以從圖像中提取文本。 它是一種 PDF OCR 轉換工具,可以把掃描的文件、傳真及其他打印文件轉換為可編輯的文本、PDF 和可搜尋的 PDF。 SodaPDF OCR 最常見的用例是將掃描的文件或傳真轉換為可編輯的文件。 這是免費的在線 OCR 軟體。 所有上傳的文件在特定時間后將自動從服務器中刪除。它具有多個功能,例如將 PDF 轉換為 Word ,然後可以用 Microsoft Word 打開。

讓我們看看如何在 SodaPDF 中對 PDF 進行 OCR:

  • Open the SodaPDF website.
  • 點擊"選擇文件"按鈕並選擇要上傳的 PDF 文件。
  • 上傳後,它將為您提供一個用戶界面來編輯 PDF 文本和圖像。 您可以使用下載按鈕下載文件。

    class="content-img-align-center"> OCR From PDF Free Online Tools - Figure 6

IronOCR: .NET OCR庫

IronOCR 是 .NET Framework 中的強大 OCR 程式庫。 它提供一個強大的 API 用於處理文本和圖像,提供像實時識別、字段檢測和對掃描 PDF 文件的光學字符識別等功能。 IronPDF 也可以編輯掃描的文件。

IronOCR 為開發者在應用程序中提供文本識別的能力。 它可以用於多種用途,例如將掃描的文件轉換為數位格式或辨識圖像上的標題。 IronOCR .NET 程式庫提供了一個易於使用的低階介面給 IronOCR SDK。 除此之外,它包括一個圖像處理流水線,能自動處理低 DPI 圖像並從 PDF 文件中提取文本。

讓我們看看如何使用 OCR 工具對 PDF 文件進行 OCR:

整個 PDF 文件的 OCR

以下代碼可以對整個 PDF 文件進行 OCR。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the entire PDF document for OCR processing
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

選定頁面的 PDF 的 OCR

您可以使用 AddPdfPages 功能對選定的 PDF 頁面進行 OCR。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add specific pages of the PDF document for OCR processing
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

將 PDF 轉換為可搜尋的 PDF

您可以使用 IronOCR 的 SaveAsSearchablePdf 功能將 PDF 文件轉換為可搜尋的 PDF 文件。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the PDF for processing and specify the password if any
	Input.AddPdf("scan.pdf", "password")

	' Correct twisted or skewed pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	' Save the processed result as a searchable PDF
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

結論

我們探討了一些出色的軟體工具來進行光學字符識別。 這些工具允許您程式化地識別文本,並創建可搜尋和可編輯的 PDF。

如果使用 .NET Framework 編寫,我們推薦 IronOCR。 IronOCR 允許您輕鬆在 .NET Framework 中進行 OCR。 它功能強大,即使原始文件已損壞或失真,例如水損,也可以輕鬆使用。

另一種用例是將由手填寫的舊紙張表單,例如發票和銷售收據,轉換成數位版本。 這允許這些文件自動由會計軟體處理,從而提高準確性和效率。

Kannaopat Udonpant
軟體工程師
在成為软件工程師之前,Kannapat 從日本北海道大學完成了環境資源博士學位。在追逐學位期间,Kannapat 還成為了生產工程系一部份——汽車机器人实验室的成員。2022 年,他利用他的 C# 技能加入 Iron Software 的工程團隊, 專注於 IronPDF。Kannapat 珍惜他的工作,因为他直接向编写大部分 IronPDF 使用的代码的开发者学习。除了同行学习,Kannapat 还喜欢在 Iron Software 工作的社交十环。当他不编写代码或文档时,Kannapat 通常在他的 PS5 上打游戏或重看《The Last of Us》。