在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
光學字符識別(OCR)是一種技術,用於識別圖像中的文字。 這項技術已被開發出來,用於掃描印刷文本或圖像文件並在電腦上識別它們。 這是因為現今許多事物都是數位化的,例如電子郵件或書籍。 然而,OCR 技術已經演變成一種更為先進的技術,具有專門的演算法能夠識別多種不同字體的文本,即使它們被噪聲或其他常見的失真(如 JPEG 壓縮)所扭曲。 OCR 還能以 98% 的準確率辨識紙上的手寫字。
使用 OCR 掃描的文本可以進行編輯、索引、搜索、列印和歸檔。 OCR 軟體在醫療、製藥、保險和法律行業廣泛使用。 它有助於將紙質文件轉換成數位文件,這樣可以更輕鬆地重複使用並與他人共享。
讓我們看看如何使用不同的工具來對 PDF 文件進行光學字符識別 (OCR)。
Adobe 是最初開發 PDF 的公司。 他們提供一個快速、高效的OCR引擎,可以編輯任何你提交的PDF文件。 這是市場上最強大的光學字符識別引擎之一,如果您有大量 PDF 需要編輯,您應該購買 Adobe Acrobat DC。 該軟體被設計成可以將任何文字型文件高精準地轉換為PDF格式。 它還使用自訂字體生成器保留原始文件的字體。
讓我們看看如何使用 Adobe Acrobat 進行 PDF OCR:
現在,您可以輕鬆地編輯任何文本並更改文件中的圖像文件。
您可以選擇「檔案 > 另存新檔」,並為新的PDF文件命名來儲存該檔案。
您可以輕鬆地同時對多個掃描的 PDF 文檔進行 OCR。
Sejda 是一款啟用了 OCR 的 PDF 編輯軟體,可以在雲端托管或作為桌面應用程式下載到 macOS、Windows 或 Linux。 Sejda 允許用戶壓縮、編輯、數位簽名、合併和填寫 PDF 文件。 各種格式的文件,包括 JPEG 和 Excel 等,可以轉換為 PDF 文件。 PDF 可以同樣轉換成其他格式,例如 Word 和 PowerPoint 文件。 讓我們看看如何使用 Sejda OCR 對 PDF 文件進行光學字符識別 (OCR)。
上傳後,您將看到上傳的文件名稱。 選擇文件的語言。
選擇語言後,您必須選擇輸出格式。 您可以選擇「PDF」或「文字」。 設定輸出格式後,點擊「識別所有頁面的文本」按鈕。 它將開始提取文字。
SodaPDF OCR 是一款免費的在線 OCR 軟體,可以從圖像中提取文本。 這是一款 PDF OCR 轉換工具,可以將掃描的文件、傳真及其他打印件轉換為可編輯的文本、PDF 和可搜索的 PDF。 SodaPDF OCR 最常見的使用案例是將掃描文件或傳真轉換為可編輯檔案。 這是免費的線上OCR軟體。 所有上傳的文件均會在指定時間後自動從伺服器中刪除。它有多種功能,例如將 PDF 轉換為 Word,然後可以使用 Microsoft Word 開啟。
讓我們看看如何使用SodaPDF對PDF進行OCR:
IronOCR 是 .NET Framework 中最好的 OCR 函式庫。 它提供了一個強大的 API 來處理文字和圖像,以及許多功能,如即時識別、欄位檢測、掃描 PDF 文件的光學字符識別等。 IronPDF 也可以編輯掃描文件。
IronOCR為開發人員提供在其應用程式中進行文字識別的能力。 它可以用於多種用途,例如將掃描的文件轉換為數位格式或識別圖像上的字幕。 IronOCR .NET 庫為 IronOCR SDK 提供了一個易於使用的低階介面。 除此之外,它還具有一些功能,使開發人員能夠更便捷地使用IronOCR。 例如,此程式庫包含一個圖像處理管線,可以自動處理低 DPI 圖像並從 PDF 文件中提取文本。
讓我們看看如何使用OCR工具對PDF文件進行光學字符識別:
以下代碼可以對整個 PDF 文件執行 OCR。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 AddPdfPages
函數對選定的 PDF 頁面進行 OCR。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 IronOCR 的 SaveAsSearchablePdf
功能將 PDF 文件轉換為可搜索的 PDF 文件。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf", "password") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
我們已經探索了一些出色的軟體工具來執行光學字符識別。 這些工具允許您以程式化方式識別文字並建立可搜尋和可編輯的 PDF。
如果使用 .NET Framework,我們推薦使用 IronOCR。 IronOCR 讓您能夠在 .NET Framework 中輕鬆執行 OCR; 它功能強大,因此即使原始文件受到損壞或扭曲(例如受水損)時也能輕鬆使用。
另一個使用情境是將手寫的舊紙質表單,如發票和銷售收據,轉換為數位版本。 這使得會計軟體能自動處理這些文件,從而提高準確性和效率。