跳過到頁腳內容
OCR 工具

從 PDF 中提取 OCR(免費線上工具)

光學字元辨識(OCR)是一種用於識別影像中文字的技術。 這項技術旨在掃描印刷文字或圖像文件,並在電腦上識別它們。 這是因為如今很多事物都是數位化的,例如電子郵件或書籍。 然而,OCR 技術已經發展得更複雜,擁有專門的演算法,能夠識別多種不同字體的文本,即使這些文本已被噪音或其他常見失真(如 JPEG 壓縮)所扭曲。 OCR技術還可以以98%的準確率辨識紙上的手寫字跡。

使用 OCR 掃描的文字可以進行編輯、索引、搜尋、列印和存檔。 OCR軟體廣泛應用於醫療保健、製藥、保險和法律行業。 它有助於將紙本文檔轉換為數位文檔,以便更容易重複使用和與他人共享。

讓我們來看看如何使用不同的工具對PDF檔案進行OCR識別。

Adobe Acrobat Pro

Adobe是最初開發PDF的公司。 他們提供快速且有效率的 OCR 引擎,可以編輯任何 PDF 文件。 它是市場上功能最強大的 OCR 引擎之一,如果您有很多 PDF 文件需要編輯,那麼 Adob​​e Acrobat DC 就是您應該購買的軟體。 該軟體的設計使其能夠非常精確地將任何基於文字的文件轉換為 PDF 格式。 它還使用自訂字體生成器保留了原始文件的字體。

讓我們看看如何使用 Adob​​e Acrobat 進行 PDF OCR:

  • 在 Adob​​e Acrobat Pro DC 中開啟檔案。
  • 點選右側窗格中的"編輯 PDF"選項。

    OCR From PDF Free Online Tools - Figure 1

  • 它將利用其 OCR 功能將 PDF 文件轉換為可編輯的 PDF 文件。 現在,您可以輕鬆編輯文件中的任何文字並更改圖像文件。

    OCR From PDF Free Online Tools - Figure 2

  • 您可以透過選擇"檔案 > 儲存為"並為新的 PDF 文件指定一個適當的名稱來儲存檔案。

您可以輕鬆地一次對多個掃描的PDF文件進行OCR識別。

塞伊達

Sejda 是一款支援 OCR 功能的 PDF 編輯軟體,可以託管在雲端,也可以作為桌面應用程式下載到 macOS、Windows 或 Linux 系統上。 Sejda 允許使用者壓縮、編輯、數位簽章、合併和填寫 PDF 檔案。 各種格式的文件,例如 JPEG 和 Excel 文件,都可以轉換為 PDF 文件。 同樣,PDF 文件也可以轉換成其他格式,例如 Word 和 PowerPoint 文件。 讓我們來看看如何使用 Sejda OCR 對 PDF 文件進行 OCR 識別。

  • Open Sejda OCR website.
  • 點擊"上傳 PDF 文件"按鈕上傳文件,或從您的電腦拖曳文件。 上傳完成後,您將看到上傳的檔案名稱。 選擇文檔語言。

    OCR From PDF Free Online Tools - Figure 3

  • 選擇語言後,您需要選擇輸出格式。 您可以選擇"PDF"或"文字"。 設定輸出格式後,點選"識別所有頁面上的文字"按鈕。 它將開始提取文字。

    OCR From PDF Free Online Tools - Figure 4

  • 處理完成後,您可以下載提取的文字。

    OCR From PDF Free Online Tools - Figure 5

SodaPDF

SodaPDF OCR 是一款免費的線上 OCR 軟體,可從圖片中擷取文字。 它是一款 PDF OCR 轉換工具,可將掃描文件、傳真和其他列印輸出轉換為可編輯文字、PDF 和可搜尋的 PDF。 SodaPDF OCR 最常見的用途是將掃描文件或傳真轉換為可編輯文件。 它是一款免費的線上OCR軟體。 所有上傳的文件都會在特定時間後自動從伺服器刪除。它具有多種功能,例如將 PDF 轉換為 Word,然後可以使用 Microsoft Word 開啟。

讓我們看看如何使用 SodaPDF 對 PDF 檔案進行 OCR 識別:

  • Open the SodaPDF website.
  • 點選"選擇檔案"按鈕,然後選擇要上傳的PDF文件。
  • 上傳後,它會提供一個使用者介面,供您編輯 PDF 文字和圖像。 您可以使用"下載"按鈕下載檔案。

    OCR From PDF Free Online Tools - Figure 6

IronOCR: .NET OCR庫

IronOCR是一個功能強大的.NET Framework OCR 函式庫。 它提供了一個強大的 API 來處理文字和圖像,提供即時識別、欄位檢測和掃描 PDF 文件的光學字元辨識等功能。 IronPDF也可以編輯掃描文件。

IronOCR為開發者提供了在其應用程式中進行文字辨識的能力。 它可以用於各種用途,例如將掃描文件轉換為數位格式或識別圖像上的標題。 IronOCR .NET函式庫為IronOCR SDK 提供了一個易於使用的底層介面。 除此之外,它還包含一個影像處理流程,可以自動處理低 DPI 影像並從 PDF 文件中提取文字。

讓我們看看如何使用 OCR 工具對 PDF 檔案進行 OCR 識別:

對整個PDF文件進行OCR識別

以下程式碼可以對整個PDF文件執行OCR識別。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the entire PDF document for OCR processing
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

對PDF文件的選定頁面進行OCR識別

您可以使用 AddPdfPages 功能對選定的 PDF 頁面進行 OCR 識別。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add specific pages of the PDF document for OCR processing
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    // Print the extracted text to the console
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

將 PDF 轉換為可搜尋 PDF

您可以使用IronOCR 的SaveAsSearchablePdf 函數將 PDF 檔案轉換為可搜尋的 PDF 檔案。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // Add the PDF for processing and specify the password if any
    Input.AddPdf("scan.pdf", "password");

    // Correct twisted or skewed pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    // Save the processed result as a searchable PDF
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

結論

我們探索了一些優秀的用於執行光學字元辨識的軟體工具。 這些工具可讓您以程式設計方式識別文字並建立可搜尋和可編輯的 PDF。

如果使用.NET Framework進行編程,我們建議使用IronOCR 。 IronOCR讓您可以輕鬆地在.NET Framework中執行 OCR; 它功能強大,即使原始文件已損壞或變形(例如因水漬而損壞),也可以輕鬆使用。

另一個應用場景是將先前手動填寫的紙本表格(如發票和銷售收據)轉換為數位版本。 這樣一來,會計軟體就可以自動處理這些文件,從而提高準確性和效率。

Kannaopat Udonpant
軟體工程師
在成為軟件工程師之前,Kannapat 從日本北海道大學完成了環境資源博士學位。在追逐學位期间,Kannapat 還成為了生產工程系一部份——汽車机器人實验室的成員。2022 年,他利用他的 C# 技能加入 Iron Software 的工程團隊, 專注於 IronPDF。Kannapat 珍惜他的工作,因為他直接向编写大部分 IronPDF 使用的代碼的開發者学习。除了同行学习,Kannapat 还喜欢在 Iron Software 工作的社交十环。当他不编写代碼或文檔時,Kannapat 通常在他的 PS5 上打游戏或重看《The Last of Us》。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me