OCR 工具

從PDF進行OCR(免費線上工具)

發佈 2023年1月15日
分享:

光學字符識別(OCR)是一種技術,用於識別圖像中的文字。 這項技術已被開發出來,用於掃描印刷文本或圖像文件並在電腦上識別它們。 這是因為現今許多事物都是數位化的,例如電子郵件或書籍。 然而,OCR 技術已經演變成一種更為先進的技術,具有專門的演算法能夠識別多種不同字體的文本,即使它們被噪聲或其他常見的失真(如 JPEG 壓縮)所扭曲。 OCR 還能以 98% 的準確率辨識紙上的手寫字。

使用 OCR 掃描的文本可以進行編輯、索引、搜索、列印和歸檔。 OCR 軟體在醫療、製藥、保險和法律行業廣泛使用。 它有助於將紙質文件轉換成數位文件,這樣可以更輕鬆地重複使用並與他人共享。

讓我們看看如何使用不同的工具來對 PDF 文件進行光學字符識別 (OCR)。

Adobe Acrobat Pro

Adobe 是最初開發 PDF 的公司。 他們提供一個快速、高效的OCR引擎,可以編輯任何你提交的PDF文件。 這是市場上最強大的光學字符識別引擎之一,如果您有大量 PDF 需要編輯,您應該購買 Adobe Acrobat DC。 該軟體被設計成可以將任何文字型文件高精準地轉換為PDF格式。 它還使用自訂字體生成器保留原始文件的字體。

讓我們看看如何使用 Adobe Acrobat 進行 PDF OCR:

  • 在 Adobe Acrobat Pro DC 中打開檔案。
  • 點擊右側窗格中的“編輯 PDF”選項。
    從 PDF 提取 OCR 免費線上工具 - 圖 1

  • 它將利用其 OCR 功能將 PDF 文件轉換為可編輯的 PDF。
  • 現在,您可以輕鬆地編輯任何文本並更改文件中的圖像文件。

    從 PDF 提取 OCR 免費線上工具 - 圖 2

  • 您可以選擇「檔案 > 另存新檔」,並為新的PDF文件命名來儲存該檔案。

    您可以輕鬆地同時對多個掃描的 PDF 文檔進行 OCR。

Sejda

Sejda 是一款啟用了 OCR 的 PDF 編輯軟體,可以在雲端托管或作為桌面應用程式下載到 macOS、Windows 或 Linux。 Sejda 允許用戶壓縮、編輯、數位簽名、合併和填寫 PDF 文件。 各種格式的文件,包括 JPEG 和 Excel 等,可以轉換為 PDF 文件。 PDF 可以同樣轉換成其他格式,例如 Word 和 PowerPoint 文件。 讓我們看看如何使用 Sejda OCR 對 PDF 文件進行光學字符識別 (OCR)。

  • 打開 Sejda OCR 網站.
  • 點擊「上傳 PDF 文件」按鈕上傳文件,或從您的電腦拖放文件。
  • 上傳後,您將看到上傳的文件名稱。 選擇文件的語言。

    免費的 PDF 光學字符識別 (OCR) 線上工具 - 圖 3

  • 選擇語言後,您必須選擇輸出格式。 您可以選擇「PDF」或「文字」。 設定輸出格式後,點擊「識別所有頁面的文本」按鈕。 它將開始提取文字。

    PDF OCR 免費線上工具 - 圖 4

  • 當過程完成後,您可以下載提取的文本。
    PDF OCR 免費線上工具 - 圖 5

SodaPDF

SodaPDF OCR 是一款免費的在線 OCR 軟體,可以從圖像中提取文本。 這是一款 PDF OCR 轉換工具,可以將掃描的文件、傳真及其他打印件轉換為可編輯的文本、PDF 和可搜索的 PDF。 SodaPDF OCR 最常見的使用案例是將掃描文件或傳真轉換為可編輯檔案。 這是免費的線上OCR軟體。 所有上傳的文件均會在指定時間後自動從伺服器中刪除。它有多種功能,例如將 PDF 轉換為 Word,然後可以使用 Microsoft Word 開啟。

讓我們看看如何使用SodaPDF對PDF進行OCR:

  • 打開這個 SodaPDF 網站。
  • 按一下「選擇檔案」按鈕,然後選取要上傳的 PDF 文件。
  • 上傳後,您將獲得一個用於編輯 PDF 文本和圖像的用戶介面。 您可以使用下載按鈕下載該文件。
    從 PDF 中提取 OCR 免費線上工具 - 圖 6

IronOCR:.NET OCR 程式庫

IronOCR 是 .NET Framework 中最好的 OCR 函式庫。 它提供了一個強大的 API 來處理文字和圖像,以及許多功能,如即時識別、欄位檢測、掃描 PDF 文件的光學字符識別等。 IronPDF 也可以編輯掃描文件。

IronOCR為開發人員提供在其應用程式中進行文字識別的能力。 它可以用於多種用途,例如將掃描的文件轉換為數位格式或識別圖像上的字幕。 IronOCR .NET 庫為 IronOCR SDK 提供了一個易於使用的低階介面。 除此之外,它還具有一些功能,使開發人員能夠更便捷地使用IronOCR。 例如,此程式庫包含一個圖像處理管線,可以自動處理低 DPI 圖像並從 PDF 文件中提取文本。

讓我們看看如何使用OCR工具對PDF文件進行光學字符識別:

完整 PDF 文件的 OCR

以下代碼可以對整個 PDF 文件執行 OCR。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

PDF 選定頁面的 OCR(光學文字識別)

您可以使用 AddPdfPages 函數對選定的 PDF 頁面進行 OCR。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

將 PDF 轉換為可搜索的 PDF

您可以使用 IronOCR 的 SaveAsSearchablePdf 功能將 PDF 文件轉換為可搜索的 PDF 文件。

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

結論

我們已經探索了一些出色的軟體工具來執行光學字符識別。 這些工具允許您以程式化方式識別文字並建立可搜尋和可編輯的 PDF。

如果使用 .NET Framework,我們推薦使用 IronOCR。 IronOCR 讓您能夠在 .NET Framework 中輕鬆執行 OCR; 它功能強大,因此即使原始文件受到損壞或扭曲(例如受水損)時也能輕鬆使用。

另一個使用情境是將手寫的舊紙質表單,如發票和銷售收據,轉換為數位版本。 這使得會計軟體能自動處理這些文件,從而提高準確性和效率。

< 上一頁
安裝 Tesseract(帶圖片的逐步教學)
下一個 >
如何 OCR PDF 教學(免費線上工具)