OCR 工具

從PDF進行OCR（免費線上工具）

Name: IronOCR
Brand: Iron Software
Availability: InStock
Rating: 4.86 (101 reviews)

坎納帕特·烏頓潘

2023年1月15日

光學字符識別（OCR）是一種技術，用於識別圖像中的文字。這項技術已被開發出來，用於掃描印刷文本或圖像文件並在電腦上識別它們。這是因為現今許多事物都是數位化的，例如電子郵件或書籍。然而，OCR 技術已經演變成一種更為先進的技術，具有專門的演算法能夠識別多種不同字體的文本，即使它們被噪聲或其他常見的失真（如 JPEG 壓縮）所扭曲。 OCR 還能以 98% 的準確率辨識紙上的手寫字。

使用 OCR 掃描的文本可以進行編輯、索引、搜索、列印和歸檔。 OCR 軟體在醫療、製藥、保險和法律行業廣泛使用。它有助於將紙質文件轉換成數位文件，這樣可以更輕鬆地重複使用並與他人共享。

讓我們看看如何使用不同的工具來對 PDF 文件進行光學字符識別 (OCR)。

Adobe Acrobat Pro

Adobe 是最初開發 PDF 的公司。他們提供一個快速、高效的OCR引擎，可以編輯任何你提交的PDF文件。這是市場上最強大的光學字符識別引擎之一，如果您有大量 PDF 需要編輯，您應該購買 Adobe Acrobat DC。該軟體被設計成可以將任何文字型文件高精準地轉換為PDF格式。它還使用自訂字體生成器保留原始文件的字體。

讓我們看看如何使用 Adobe Acrobat 進行 PDF OCR：

在 Adobe Acrobat Pro DC 中打開檔案。
點擊右側窗格中的“編輯 PDF”選項。
它將利用其 OCR 功能將 PDF 文件轉換為可編輯的 PDF。
現在，您可以輕鬆地編輯任何文本並更改文件中的圖像文件。
您可以選擇「檔案 > 另存新檔」，並為新的PDF文件命名來儲存該檔案。
您可以輕鬆地同時對多個掃描的 PDF 文檔進行 OCR。

Sejda

Sejda 是一款啟用了 OCR 的 PDF 編輯軟體，可以在雲端托管或作為桌面應用程式下載到 macOS、Windows 或 Linux。 Sejda 允許用戶壓縮、編輯、數位簽名、合併和填寫 PDF 文件。各種格式的文件，包括 JPEG 和 Excel 等，可以轉換為 PDF 文件。 PDF 可以同樣轉換成其他格式，例如 Word 和 PowerPoint 文件。讓我們看看如何使用 Sejda OCR 對 PDF 文件進行光學字符識別 (OCR)。

開啟Sejda OCR 網站。
點擊「上傳 PDF 文件」按鈕上傳文件，或從您的電腦拖放文件。
上傳後，您將看到上傳的文件名稱。選擇文件的語言。
選擇語言後，您必須選擇輸出格式。您可以選擇「PDF」或「文字」。設定輸出格式後，點擊「識別所有頁面的文本」按鈕。它將開始提取文字。
當過程完成後，您可以下載提取的文本。

SodaPDF

SodaPDF OCR 是一款免費的在線 OCR 軟體，可以從圖像中提取文本。這是一款 PDF OCR 轉換工具，可以將掃描的文件、傳真及其他打印件轉換為可編輯的文本、PDF 和可搜索的 PDF。 SodaPDF OCR 最常見的使用案例是將掃描文件或傳真轉換為可編輯檔案。這是免費的線上OCR軟體。所有上傳的文件均會在指定時間後自動從伺服器中刪除。它有多種功能，例如將 PDF 轉換為 Word，然後可以使用 Microsoft Word 開啟。

讓我們看看如何使用SodaPDF對PDF進行OCR：

打開[SodaPDF](https://www.sodapdf.com/ocr-pdf/" target="_blank" rel="nofollow noopener noreferrer)網站。
按一下「選擇檔案」按鈕，然後選取要上傳的 PDF 文件。
上傳後，您將獲得一個用於編輯 PDF 文本和圖像的用戶介面。您可以使用下載按鈕下載該文件。

IronOCR：.NET OCR 程式庫

IronOCR 是 .NET Framework 中最好的 OCR 函式庫。它提供了一個強大的 API 來處理文字和圖像，以及許多功能，如即時識別、欄位檢測、掃描 PDF 文件的光學字符識別等。 IronPDF 也可以編輯掃描文件。

IronOCR 為開發者提供其應用程式中的文字識別功能。它可以用於多種用途，例如將掃描的文件轉換為數位格式或識別圖像上的字幕。 IronOCR .NET 庫為 IronOCR SDK 提供了一個易於使用的低階介面。除此之外，它還具有一些功能，使開發人員能夠更便捷地使用IronOCR。例如，此程式庫包含一個圖像處理管線，可以自動處理低 DPI 圖像並從 PDF 文件中提取文本。

讓我們看看如何使用OCR工具對PDF文件進行光學字符識別：

完整 PDF 文件的 OCR

以下代碼可以對整個 PDF 文件執行 OCR。

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;

var Ocr = new IronTesseract();

using (var Input = new OcrInput())
{
    // OCR entire document
    Input.AddPdf("example.pdf", "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr

Private Ocr = New IronTesseract()

Using Input = New OcrInput()
	' OCR entire document
	Input.AddPdf("example.pdf", "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

PDF 選定頁面的 OCR（光學文字識別）

您可以使用AddPdfPages函數對選擇的 PDF 頁面進行 OCR。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    // Alternatively OCR selected page numbers
    Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");

    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}

Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	' Alternatively OCR selected page numbers
	Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")

	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using

$vbLabelText $csharpLabel

將 PDF 轉換為可搜索的 PDF

您可以使用IronOCR的SaveAsSearchablePdf函數將PDF檔案轉換為可搜尋的PDF檔案。

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

using IronOcr;

var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("scan.pdf", "password")

    // clean up twisted pages
    Input.Deskew();

    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}

Imports IronOcr

Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("scan.pdf", "password") Input.Deskew()

	Dim Result = Ocr.Read(Input)
	Result.SaveAsSearchablePdf("searchable.pdf")
End Using

$vbLabelText $csharpLabel

結論

我們已經探索了一些出色的軟體工具來執行光學字符識別。這些工具允許您以程式化方式識別文字並建立可搜尋和可編輯的 PDF。

如果使用 .NET Framework，我們推薦使用 IronOCR。 IronOCR 讓您能夠在 .NET Framework 中輕鬆執行 OCR；它功能強大，因此即使原始文件受到損壞或扭曲（例如受水損）時也能輕鬆使用。

另一個使用情境是將手寫的舊紙質表單，如發票和銷售收據，轉換為數位版本。這使得會計軟體能自動處理這些文件，從而提高準確性和效率。

坎納帕特·烏頓潘

立即與工程團隊聊天

軟體工程師

在成為軟體工程師之前，Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間，Kannapat 也成為了車輛機器人實驗室的成員，該實驗室隸屬於生物生產工程學系。2022 年，他利用自己的 C# 技能，加入了 Iron Software 的工程團隊，專注於 IronPDF 的開發。Kannapat 珍視這份工作，因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外，Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時，Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。

< 上一頁
安裝 Tesseract（帶圖片的逐步教學）

下一個 >
如何 OCR PDF 教學（免費線上工具）