OCR 工具

從PDF進行OCR(免費線上工具)

發佈 2023年1月15日
分享:

光学字符识别(OCR)是一种用于识别图像中文本的技术。這项技术可以扫描印刷文本或图像文件,并在计算机上识别它们。因为现在很多东西都是数字化的,比如电子邮件或书籍。然而,OCR 技术已经发展成更为复杂的系统,使用专业算法能够识别许多不同字体的文本,即使它们被噪音或其他常见失真(如 JPEG 压缩)所扭曲。OCR 还可以以98%的准确率读取纸上的手写体。

使用 OCR 扫描的文本可以编辑、索引、搜索、打印和归档。OCR 软件广泛应用于医疗、制药、保险和法律行业。它有助于将纸质文档转换为数字文档,使其更容易重复使用并与他人共享。

让我们来看看如何使用不同的工具对 PDF 文件进行 OCR。

Adobe Acrobat Pro

Adobe 是最早開發 PDF 的公司。他們提供了一個快速、高效的 OCR 引擎,可以編輯您提供的任何 PDF 文件。這是市場上最強大的 OCR 引擎之一,如果您有大量的 PDF 需要編輯,Adobe Acrobat DC 就是您應該購買的軟體。此軟體設計得如此精確,可以將任何基於文本的文件轉換成 PDF 格式,並且非常準確。它還通過其自訂字體生成器保留原始文件的字體。

讓我們看看如何使用 Adobe Acrobat 進行 PDF OCR:

  • 在 Adobe Acrobat Pro DC 中打開文件。
  • 點擊右側窗格中的「編輯 PDF」選項。
從 PDF 提取 OCR 免費線上工具 - 圖 1

  • 它將使用其OCR功能將PDF文件轉換為可編輯的PDF。
  • 現在,您可以輕鬆地編輯任何文本並更改文件中的圖片文件。
從 PDF 提取 OCR 免費線上工具 - 圖 2

  • 您可以透過選擇“文件 > 另存新檔”並給新PDF文檔命名來保存文件。

您可以輕鬆地一次對多個掃描的PDF文檔進行OCR。

Sejda

Sejda 是具備 OCR 功能的 PDF 編輯軟體,可以在雲端主機上運行或下載為 macOS、Windows 或 Linux 的桌面應用程式。Sejda 允許使用者壓縮、編輯、數位簽名、合併以及填寫 PDF 檔案。各種格式的檔案,例如 JPEG 和 Excel,可以轉換成 PDF 檔案。同樣地,PDF 也可以轉換為其它格式,例如 Word 和 PowerPoint 文件。我們來看看如何使用 Sejda OCR 對 PDF 文件進行光學字符識別 (OCR)。

  • 打開 Sejda OCR 網站.
  • 點擊「上傳PDF文件」按鈕來上傳文件,或從電腦中拖放文件。
  • 上傳後,您將看到上傳的文件名稱。請選擇文件的語言。
免費的 PDF 光學字符識別 (OCR) 線上工具 - 圖 3

  • 選擇語言後,您需要選擇輸出格式。您可以選擇「PDF」或「文字」。設定輸出格式後,點擊「識別所有頁面的文字」按鈕。它將開始提取文字。
PDF OCR 免費線上工具 - 圖 4

  • 當過程完成後,您可以下載提取的文本。
PDF OCR 免費線上工具 - 圖 5

SodaPDF

SodaPDF OCR 是一款免費的線上 OCR 軟體,可以從圖片中提取文字。它是一個 PDF OCR 轉換工具,可以將掃描的文件、傳真和其他列印品轉換成可編輯的文字、PDF 和可搜尋的 PDF。SodaPDF OCR 最常見的使用情況是將掃描文件或傳真轉換成可編輯的文件。它是免費的線上 OCR 軟體。所有上傳的文件在特定時間後會自動從伺服器中刪除。它有多種功能,比如將 PDF 轉換成 Word,然後可以用 Microsoft Word 打開。

讓我們看看如何使用 SodaPDF 進行 PDF 的 OCR:

  • 打開 SodaPDF 網站。
  • 點擊「選擇文件」按鈕並選擇要上傳的 PDF 文件。
  • 上傳後,它會為您提供一個用於編輯 PDF 文本和圖像的用戶界面。您可以使用下載按鈕下載文件。
從 PDF 中提取 OCR 免費線上工具 - 圖 6

IronOCR: .NET OCR 資料庫

IronOCR 是 .NET Framework 中最佳的 OCR 資料庫。它提供了一個強大的 API 用來處理文字和圖像,並且具有許多功能,例如即時識別、欄位檢測、掃描 PDF 檔案的光學字符識別等等。IronPDF 也可以編輯掃描的文檔。

IronOCR 賦予開發人員在其應用程式中使用文字識別的能力。它可以用於各種目的,如將掃描文件轉換為數字格式或識別圖像上的字幕。IronOCR .NET Library 提供了一個易於使用的低級別介面,用於操作 IronOCR SDK。此外,它還具備一些功能,使開發人員更方便地使用 IronOCR。例如,該庫包含一個影像處理管線,可以自動處理低DPI影像並從 PDF 文件中提取文字。

讓我們來看看如何使用 OCR 工具對 PDF 文件進行 OCR:

對整個 PDF 文件進行 OCR

以下代碼可以對整個 PDF 文件進行 OCR。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

PDF 選擇頁面的光學字符識別

您可以使用 AddPdfPages 函數對選定的 PDF 頁面進行光學字符識別(OCR)。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

將 PDF 轉換為可搜索的 PDF

您可以使用 IronOCR 的 SaveAsSearchablePdf 函數將 PDF 文件轉換為可搜索的 PDF 文件。

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using
VB   C#

結論

我們已經探討了幾個優秀的軟體工具來進行光學字符識別。這些工具允許您以程式的方式識別文本並創建可搜索和可編輯的 PDF。

如果使用 .NET Framework 進行編寫,我們推薦 IronOCR。IronOCR 允許您在 .NET Framework 中輕鬆執行 OCR;它功能強大,即使原始文件受損或變形,例如因水損壞,也能輕鬆使用。

另一個用例是將手工填寫的舊紙質表單,例如發票和銷售收據,轉換為數字版本。這使得這些文件可以被會計軟體自動處理,從而提高準確性和效率。

< 上一頁
安裝 Tesseract(帶圖片的逐步教學)
下一個 >
如何 OCR PDF 教學(免費線上工具)

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 2,433,305 查看許可證 >