在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
光学字符识别(OCR)是一种用于识别图像中文本的技术。這项技术可以扫描印刷文本或图像文件,并在计算机上识别它们。因为现在很多东西都是数字化的,比如电子邮件或书籍。然而,OCR 技术已经发展成更为复杂的系统,使用专业算法能够识别许多不同字体的文本,即使它们被噪音或其他常见失真(如 JPEG 压缩)所扭曲。OCR 还可以以98%的准确率读取纸上的手写体。
使用 OCR 扫描的文本可以编辑、索引、搜索、打印和归档。OCR 软件广泛应用于医疗、制药、保险和法律行业。它有助于将纸质文档转换为数字文档,使其更容易重复使用并与他人共享。
让我们来看看如何使用不同的工具对 PDF 文件进行 OCR。
Adobe 是最早開發 PDF 的公司。他們提供了一個快速、高效的 OCR 引擎,可以編輯您提供的任何 PDF 文件。這是市場上最強大的 OCR 引擎之一,如果您有大量的 PDF 需要編輯,Adobe Acrobat DC 就是您應該購買的軟體。此軟體設計得如此精確,可以將任何基於文本的文件轉換成 PDF 格式,並且非常準確。它還通過其自訂字體生成器保留原始文件的字體。
讓我們看看如何使用 Adobe Acrobat 進行 PDF OCR:
您可以輕鬆地一次對多個掃描的PDF文檔進行OCR。
Sejda 是具備 OCR 功能的 PDF 編輯軟體,可以在雲端主機上運行或下載為 macOS、Windows 或 Linux 的桌面應用程式。Sejda 允許使用者壓縮、編輯、數位簽名、合併以及填寫 PDF 檔案。各種格式的檔案,例如 JPEG 和 Excel,可以轉換成 PDF 檔案。同樣地,PDF 也可以轉換為其它格式,例如 Word 和 PowerPoint 文件。我們來看看如何使用 Sejda OCR 對 PDF 文件進行光學字符識別 (OCR)。
SodaPDF OCR 是一款免費的線上 OCR 軟體,可以從圖片中提取文字。它是一個 PDF OCR 轉換工具,可以將掃描的文件、傳真和其他列印品轉換成可編輯的文字、PDF 和可搜尋的 PDF。SodaPDF OCR 最常見的使用情況是將掃描文件或傳真轉換成可編輯的文件。它是免費的線上 OCR 軟體。所有上傳的文件在特定時間後會自動從伺服器中刪除。它有多種功能,比如將 PDF 轉換成 Word,然後可以用 Microsoft Word 打開。
讓我們看看如何使用 SodaPDF 進行 PDF 的 OCR:
IronOCR 是 .NET Framework 中最佳的 OCR 資料庫。它提供了一個強大的 API 用來處理文字和圖像,並且具有許多功能,例如即時識別、欄位檢測、掃描 PDF 檔案的光學字符識別等等。IronPDF 也可以編輯掃描的文檔。
IronOCR 賦予開發人員在其應用程式中使用文字識別的能力。它可以用於各種目的,如將掃描文件轉換為數字格式或識別圖像上的字幕。IronOCR .NET Library 提供了一個易於使用的低級別介面,用於操作 IronOCR SDK。此外,它還具備一些功能,使開發人員更方便地使用 IronOCR。例如,該庫包含一個影像處理管線,可以自動處理低DPI影像並從 PDF 文件中提取文字。
讓我們來看看如何使用 OCR 工具對 PDF 文件進行 OCR:
以下代碼可以對整個 PDF 文件進行 OCR。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// OCR entire document
Input.AddPdf("example.pdf", "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' OCR entire document
Input.AddPdf("example.pdf", "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 AddPdfPages
函數對選定的 PDF 頁面進行光學字符識別(OCR)。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
// Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", new [] { 1, 2, 3 }, "password");
var Result = Ocr.Read(Input);
Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
' Alternatively OCR selected page numbers
Input.AddPdfPages("example.pdf", { 1, 2, 3 }, "password")
Dim Result = Ocr.Read(Input)
Console.WriteLine(Result.Text)
End Using
您可以使用 IronOCR 的 SaveAsSearchablePdf
函數將 PDF 文件轉換為可搜索的 PDF 文件。
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
Input.AddPdf("scan.pdf", "password")
// clean up twisted pages
Input.Deskew();
var Result = Ocr.Read(Input);
Result.SaveAsSearchablePdf("searchable.pdf");
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
Input.AddPdf("scan.pdf", "password") Input.Deskew()
Dim Result = Ocr.Read(Input)
Result.SaveAsSearchablePdf("searchable.pdf")
End Using
我們已經探討了幾個優秀的軟體工具來進行光學字符識別。這些工具允許您以程式的方式識別文本並創建可搜索和可編輯的 PDF。
如果使用 .NET Framework 進行編寫,我們推薦 IronOCR。IronOCR 允許您在 .NET Framework 中輕鬆執行 OCR;它功能強大,即使原始文件受損或變形,例如因水損壞,也能輕鬆使用。
另一個用例是將手工填寫的舊紙質表單,例如發票和銷售收據,轉換為數字版本。這使得這些文件可以被會計軟體自動處理,從而提高準確性和效率。