在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
OCR或光學字符識別是一種將文本信息轉換成數字形式的過程。PDF OCR 是一個流行的應用程序,可以用來改進業務流程。PDF OCR 的好處之一是它可以用來提高信息的可訪問性。這對於那些沒有以每個人都能使用或閱讀的格式提供的文件尤其重要。PDF OCR 可以用來生成一個每個人都能使用的格式的文件副本。
PDF OCR 的另一個用途是文件跟踪。當文件歸檔、掃描或轉錄時,很難跟踪與哪個文件相關的文件版本。使用 PDF OCR,可以跟踪文件的變更並確定哪些版本與哪些文件相關聯。這對於管理文件存檔和防止重要信息丟失非常有用。
在本文中,您將了解如何使用 Adobe Acrobat Pro 軟件對任何 PDF 文件進行 OCR。本文還將介紹 .NET OCR 庫 IronOCR,這是最有效且功能豐富的庫之一。讓我們從 Adobe Acrobat Pro 開始。
Adobe Acrobat Pro DC 是 Adobe Acrobat Reader DC 的專業版。它是最受歡迎和功能最強大的 PDF 操作工具。有了這款軟體,你可以創建、編輯、簽名和審閱任何 PDF 文件。此外,它還能將 PDF 轉換為 PowerPoint 演示文稿、Word 文件或 Excel 文件。它也可以編輯掃描文件。
新的 Acrobat DC 版本還是一個文件掃描器,可以利用 OCR 技術快速將掃描文件轉換為數字文件。它具備光學字符識別功能以及智能名片掃描,可以在幾秒鐘內自動檢測並保存名片上的聯繫資訊。
除了能夠從 PDF 文件中提取文本之外,Acrobat Pro DC 還具有許多功能,使其成為一個有價值的 PDF 轉錄工具。
讓我們看看如何使用 Adobe Acrobat Pro 對掃描文件進行 OCR 處理。
進行變更後,儲存檔案,您會在文件中看到這些變更。
IronOCR 是一個 .NET OCR 庫和 OCR 工具,可以通過將文本文件和圖像轉換為機器可讀格式來讀取它們。
這個光學字符識別庫在開發時考慮到以下因素:
IronOCR 使開發人員更容易創建支持掃描文檔、提取文本和元數據、索引掃描圖像文件、將圖像轉換為可搜索 PDF,並將掃描文檔轉換為可讀文本的軟體。IronOCR 在編碼、圖像格式轉換以及文本識別和提取方面提供了很多選擇。IronOCR 支持 125 種語言。
IronOCR 提供了一個直觀、穩健且準確的 OCR 過程,能夠從掃描文檔、照片和截圖中識別文本,同時減少頁面分段和佈局分析等耗時的任務。該庫是用 C# 開發的,其 API 設計簡單,具有良好的可讀性。
讓我們來探索一些使用 IronOCR 的代碼範例:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
IronOCR 為您提供將整個 PDF 文件或選定的 PDF 文件頁範圍進行光學字符識別 (OCR) 的選項。
您可以使用 IronOCR 將 PDF 轉換為可選擇的 PDF;這非常簡單明瞭。請參閱下面的 PDF 轉換代碼片段:
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf","password");
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf","password")
' clean up twisted pages
Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
IronOCR 提供了許多其他工具和功能。您可以通過訪問以下內容來探索 IronOCR 的功能 連結.
IronOCR 是市面上其他庫無法比擬的,具有多項優勢。您可以通過簡單幾行代碼添加自己的模塊來修改和擴展其功能。IronOCR 目前能夠識別超過 125 種語言的文本。與其他庫相比,其開發旨在產生更高質量、更可靠的結果,同時消耗更少的時間和內存資源。
IronOCR 免費供開發使用。IronOCR 還提供 免費試用 用於生產中的測試。關於 IronOCR 價格和免費試用的更多詳細信息,請跟隨 連結.