跳過到頁腳內容
OCR 工具

從 PDF 中提取 OCR(免費線上工具)

光學字元辨識(OCR)是一種用於識別影像中文字的技術。 這項技術旨在掃描印刷文字或圖像文件,並在電腦上識別它們。 這是因為如今很多事物都是數位化的,例如電子郵件或書籍。 然而,OCR 技術已經發展得更複雜,擁有專門的演算法,能夠識別多種不同字體的文本,即使這些文本已被噪音或其他常見失真(如 JPEG 壓縮)所扭曲。 OCR技術還可以以98%的準確率辨識紙上的手寫字跡。

使用 OCR 掃描的文字可以進行編輯、索引、搜尋、列印和存檔。 OCR軟體廣泛應用於醫療保健、製藥、保險和法律行業。 它有助於將紙本文檔轉換為數位文檔,以便更容易重複使用和與他人共享。

讓我們來看看如何使用不同的工具對PDF檔案進行OCR識別。

Adobe Acrobat Pro

Adobe是最初開發PDF的公司。 他們提供快速且有效率的 OCR 引擎,可以編輯任何 PDF 文件。 它是市場上功能最強大的 OCR 引擎之一,如果您有很多 PDF 文件需要編輯,那麼 Adobe Acrobat DC 就是您應該購買的軟體。 該軟體的設計使其能夠非常精確地將任何基於文字的文件轉換為 PDF 格式。 它還使用自訂字體生成器保留了原始文件的字體。

讓我們看看如何使用 Adobe Acrobat 進行 PDF OCR:

  • 在 Adobe Acrobat Pro DC 中開啟檔案。
  • 點選右側窗格中的"編輯 PDF"選項。

    OCR From PDF Free Online Tools - Figure 1

  • 它將利用其 OCR 功能將 PDF 文件轉換為可編輯的 PDF 文件。 現在,您可以輕鬆編輯文件中的任何文字並更改圖像文件。

    OCR From PDF Free Online Tools - Figure 2

  • 您可以透過選擇"檔案 > 儲存為"並為新的 PDF 文件指定一個適當的名稱來儲存檔案。

您可以輕鬆地一次對多個掃描的PDF文件進行OCR識別。

賽達

Sejda 是一款支援 OCR 功能的 PDF 編輯軟體,可以託管在雲端,也可以作為桌面應用程式下載到 macOS、Windows 或 Linux 系統上。 Sejda 允許使用者壓縮、編輯、數位簽章、合併和填寫 PDF 檔案。 各種格式的文件,例如 JPEG 和 Excel 文件,都可以轉換為 PDF 文件。 同樣,PDF 文件也可以轉換成其他格式,例如 Word 和 PowerPoint 文件。 讓我們來看看如何使用 Sejda OCR 對 PDF 文件進行 OCR 識別。

  • Open Sejda OCR website.
  • 點擊"上傳 PDF 文件"按鈕上傳文件,或從您的電腦拖曳文件。 上傳完成後,您將看到上傳的檔案名稱。 選擇文檔語言。

    OCR From PDF Free Online Tools - Figure 3

  • 選擇語言後,您需要選擇輸出格式。 您可以選擇"PDF"或"文字"。 設定輸出格式後,點選"識別所有頁面上的文字"按鈕。 它將開始提取文字。

    OCR From PDF Free Online Tools - Figure 4

  • 處理完成後,您可以下載提取的文字。

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR 是一款免費的線上 OCR 軟體,可從圖片中擷取文字。 它是一款 PDF OCR 轉換工具,可將掃描文件、傳真和其他列印輸出轉換為可編輯文字、PDF 和可搜尋的 PDF。 SodaPDF OCR 最常見的用途是將掃描文件或傳真轉換為可編輯文件。 它是一款免費的線上OCR軟體。 所有上傳的文件都會在特定時間後自動從伺服器刪除。它具有多種功能,例如將 PDF 轉換為 Word,然後可以使用 Microsoft Word 開啟。

讓我們看看如何使用 SodaPDF 對 PDF 檔案進行 OCR 識別:

  • Open the SodaPDF website.
  • 點選"選擇檔案"按鈕,然後選擇要上傳的PDF文件。
  • 上傳後,它會提供一個使用者介面,供您編輯 PDF 文字和圖像。 您可以使用"下載"按鈕下載檔案。

    OCR From PDF Free Online Tools - Figure 6

IronOCR:.NET OCR庫

IronOCR 是一個功能強大的 .NET Framework OCR 函式庫。 它提供了一個強大的 API 來處理文字和圖像,提供即時識別、欄位檢測和掃描 PDF 文件的光學字元辨識等功能。 IronPDF也可以編輯掃描文件。

IronOCR為開發者提供了在其應用程式中進行文字辨識的能力。 它可以用於各種用途,例如將掃描文件轉換為數位格式或識別圖像上的標題。 IronOCR .NET 函式庫為 IronOCR SDK 提供了一個易於使用的底層介面。 除此之外,它還包含一個影像處理流程,可以自動處理低 DPI 影像並從 PDF 文件中提取文字。

讓我們看看如何使用 OCR 工具對 PDF 檔案進行 OCR 識別:

對整個PDF文件進行OCR識別

以下程式碼可以對整個PDF文件執行OCR識別。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the entire PDF document for OCR processing
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

對PDF文件的選定頁面進行OCR識別

您可以使用AddPdfPages功能對選定的 PDF 頁面進行 OCR 識別。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add specific pages of the PDF document for OCR processing
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	' Print the extracted text to the console
	Console.WriteLine(Result.Text)
End Using
$vbLabelText   $csharpLabel

將 PDF 轉換為可搜尋 PDF

您可以使用 IronOCR 的SaveAsSearchablePdf功能將 PDF 檔案轉換為可搜尋的 PDF 檔案。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' Add the PDF for processing and specify the password if any
	Input.AddPdf("scan.pdf", "password")

	' Correct twisted or skewed pages
	Input.Deskew()

	Dim Result = Ocr.Read(Input)
	' Save the processed result as a searchable PDF
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
$vbLabelText   $csharpLabel

結論

我們探索了一些優秀的用於執行光學字元辨識的軟體工具。 這些工具可讓您以程式設計方式識別文字並建立可搜尋和可編輯的 PDF。

如果使用 .NET Framework 進行編程,我們建議使用 IronOCR。 IronOCR 讓您可以輕鬆地在 .NET Framework 中執行 OCR; 它功能強大,即使原始文件已損壞或變形(例如因水漬而損壞),也可以輕鬆使用。

另一個應用場景是將先前手動填寫的紙本表格(如發票和銷售收據)轉換為數位版本。 這樣一來,會計軟體就可以自動處理這些文件,從而提高準確性和效率。

Kannaopat Udonpant
軟體工程師
在成為软件工程師之前,Kannapat 從日本北海道大學完成了環境資源博士學位。在追逐學位期间,Kannapat 還成為了生產工程系一部份——汽車机器人实验室的成員。2022 年,他利用他的 C# 技能加入 Iron Software 的工程團隊, 專注於 IronPDF。Kannapat 珍惜他的工作,因为他直接向编写大部分 IronPDF 使用的代码的开发者学习。除了同行学习,Kannapat 还喜欢在 Iron Software 工作的社交十环。当他不编写代码或文档时,Kannapat 通常在他的 PS5 上打游戏或重看《The Last of Us》。