與其他組件比較

IronOCR 與 Syncfusion OCR 之間的比較

發佈 2022年11月14日
分享:

本文將比較兩個使用光學字元識別的軟體庫 (光學字符識別) 自動化檢測和提取圖片和掃描文件中的打印或手寫文本。首先,我們將討論這兩個庫的功能。接下來,我們將使用兩個庫生成的示例源代碼來檢查並比較它們的文本識別和提取能力。最後,我們將比較這些庫的授權和定價。

我們在這篇文章中比較的庫是:

  • IronOCR
  • Syncfusion Essential PDF

1. Syncfusion OCR

Syncfusion 的 Essential PDF 庫包含 OCR 功能,以便在 PDF 文件中的掃描圖像上進行圖像文字處理。

Syncfusion 的 OCR 處理器可以與 Tesseract 版本 3 一起工作。 (3.02和3.05) 以及 4. 該庫可以包含在 .NET Core 和 ASP.NET 應用程式中。

SyncFusion Essential PDF 的 OCR 功能特點包括:

  • 執行 PDF 文件上的 OCR 任務。 該庫的 OCRProcessor class 可用於對 PDF 文件進行 OCR。它基於 Tesseract 資料處理器,這是世界上最好的 OCR 處理器之一。
  • 對 PDF 文檔的部分進行 OCR 任務。 使用者可以對 PDF 文檔的特定頁面或區域進行 OCR。
  • 對圖像進行 OCR 任務。 使用者可以從圖像中提取文本資料以導入到其他應用程式。
  • 多語言支持。 使用 Google Tesseract 引擎。 (同步服務擴展) 目前支援超過 60 種語言,並且正在嘗試更多語言。
  • 良好的準確性。 採用 Google 的 Tesseract 開源引擎,Syncfusion Essential PDF 能夠實現非常好的文字準確性,在合理的時間內執行 OCR。

2. IronOCR

IronOCR 是一個 C# 軟體庫,允許 .NET 平台開發人員從圖片和 PDF 文件中識別和讀取文字。它是一個僅適用於 .NET 的 OCR 庫,使用強大的 Tesseract 引擎。Tesseract 版本 3 - 5 可在 Windows、macOS、Linux、Azure、AWS、Lambda、Mono 和 Xamarin Mac 上開箱即用。

IronOCR 覆蓋的語言比其他所有的 OCR 引擎都多,支持 125 種語言, (僅預設安裝英文).NET開發人員完全控制其文件,能夠隨其需要進行修改。

2.1. IronOCR 功能

IronOCR 提供了一種獨特的功能組合,用於整合、簽名、匯出、閱讀視覺效果及提取照片細節,無論使用者的技術背景或硬體先進程度如何。

2.1.1. 準確性

IronOCR SDK 在準確性方面超越其他 OCR 庫,達到了 99.8% 的準確率。

2.1.2. 修復低質量掃描和圖像

IronOCR 類為 C# 開發人員提供了廣泛的控制。他們為開發人員提供了 OCR (圖片和PDF轉換為文本) 在每個特定實例中功能和調整精細的性能。

IronOCR包括配置選項,使庫能夠處理質量不理想的圖像。其中一些可用的配置包括:清除背景噪音、增強對比度、提高分辨率、語言、策略、旋轉和校正、色彩空間、檢測黑暗背景上的白色文本以及輸入圖像類型。

2.1.3. 語言

IronOCR 支援 125 多種國際語言。

2.1.4. OCR 文本提取

Iron Tesseract 可以读取多种图像格式以及 PDF 文件。这一功能在标准的免费 Tesseract 引擎中无法使用。如果您的扫描件质量较差,OCR 输入可以让您自动修复所需的属性。

2.1.5. 圖像優化濾鏡

OCRInput 類為 C# 程式設計師提供了精細的輸入控制。接著,開發人員可以對圖像輸入進行預處理,以提高速度和準確性。這樣就不需要使用 Photoshop 批次腳本或 ImageMagick 來準備圖像進行 OCR 處理。

2.1.6. 圖像的OCR區域

IronOCR允許其最終用戶對圖像的特定區域進行光學字符識別 (OCR)。

2.1.7. OCRResult Class

IronOCR 使用 Tesseract 3、4 或 5 扫描每个页面时,会返回一个高级结果对象。该对象包含位置数据、图像、文本、统计置信度、替代符号选择、字体名称、字体大小、修饰、字体粗细以及以下每项的位置信息:

  • 页面
  • 段落
  • 文本行
  • 单词
  • 单个字符
  • 条码

2.1.8. 單個文件中使用多種語言

IronOCR 允許開發人員在單個文件中使用多種語言。這種功能對 .NET 服務提供商來說非常有利。

3. 在 Visual Studio 中開始一個新專案

在本文中,我們將使用新的 Visual Studio 控制台應用程式來演示 IronOCR 和 Syncfusion Essential PDF 的 OCR 處理功能。

打開 Visual Studio 軟體,到檔案選單並選擇 New Project。然後,選擇 Console Application

在適當的文字框中輸入專案名稱並選擇路徑。接下來,點擊建立按鈕,然後選擇所需的 .NET 框架,如下圖所示:

IronOCR 與 SyncFusion Essential PDF OCR 的比較,圖 1

Visual Studio 專案現在將生成新的控制台應用程式的結構。完成後將會打開 program.cs 文件。

IronOCR與SyncFusion Essential PDF OCR之間的比較,圖2

我們現在將這兩個庫添加到項目中。

4. 安裝 IronOCR 函式庫

IronOCR 函式庫可以通過四種方式下載並安裝。這些方法是:

  1. 使用 Visual Studio NuGet 套件管理器
  2. 從 NuGet 網頁直接下載。
  3. 從 IronOCR 網頁直接下載。
  4. 使用 Visual Studio 命令行。

4.1. 使用 Visual Studio NuGet 管理器

您可以使用 Visual Studio NuGet 套件管理器在 C# 專案中整合 IronOCR。

點擊 工具 > NuGet 套件管理器 > 管理方案的 NuGet 套件... 進入 NuGet 套件管理器 GUI。

IronOCR與SyncFusion Essential PDF OCR的比較,圖3

接著會出現一個新視窗。搜尋 IronOCR 並在專案中安裝這個套件。

IronOCR 與 SyncFusion Essential PDF OCR 的比較,圖 4

可以使用上述相同的方法安裝IronOCR的其他語言包。

4.2. 從 NuGet 網頁直接下載

IronOCR 可以按照以下說明從 NuGet 網站直接下載:

  1. 導航至 IronPDF NuGet 資源庫頁面

  2. 從右側選單中選擇下載套件選項。

  3. 雙擊下載的套件。它將自動安裝。

4.3. 直接從IronOCR網頁下載

開發人員可以 下載 從IronOCR網站下載該庫並將其添加為項目引用。

按照以下說明在Visual Studio中添加庫作為引用。

  1. 右鍵單擊解決方案窗口中的項目。
  2. 然後,選擇添加項目引用並瀏覽下載引用的位置。
  3. 接下來,點擊確定以添加引用。

4.4. 使用 Visual Studio 命令列

  1. 在 Visual Studio 中,前往 工具 > NuGet 套件管理員 > 套件管理員主控台
  2. 在套件管理員主控台標籤中輸入以下行:
  3. Install-Package IronOCR
IronOCR與SyncFusion Essential PDF OCR之比較,圖5

該套件現在將下載/安裝到當前項目,並準備使用。

IronOCR 與 SyncFusion Essential PDF OCR 比較,第六圖

5. 安裝 Syncfusion Essential PDF OCR 庫

Syncfusion Essential PDF 可以通過三種不同的方式安裝。

  1. 使用 Visual Studio NuGet 套件管理器
  2. 從 NuGet 網頁直接下載
  3. 使用 Visual Studio 命令行

5.1. 使用 Visual Studio NuGet 管理器

就像 IronOCR 一样,開發人員也可以使用 Visual Studio 的 NuGet 套件管理器安裝 SyncFusion 的 OCR 庫。

像之前一樣,通過點擊 工具 > NuGet 套件管理器 > 為方案管理 NuGet 套件... 來訪問套件管理器。

IronOCR與SyncFusion Essential PDF OCR比較,第7圖

搜索SyncFusion OCR並安裝相應的套件 (應該是 Syncfusion.PDF.OCR.Net.Core)

IronOCR與SyncFusion Essential PDF OCR的比較,圖8

SyncFusion Essential PDF OCR 的額外語言包可以從以下位置下載 GitHub.

5.2. 從 NuGet 網頁直接下載

Syncfusion Essential PDF OCR 可以按照以下說明從 NuGet 網站直接下載:

  1. 瀏覽該套件的 NuGet Gallery 頁面2. 從右側菜單中選擇下載套件選項。

  2. 雙擊下載的套件,將自動安裝。

  3. 接下來,重新加載解決方案並在專案中開始使用它。

5.3. 使用 Visual Studio 命令行工具

  1. 在 Visual Studio 中,前往 工具 > NuGet 套件管理器 > 套件管理器控制台

  2. 在套件管理器控制台標籤頁中輸入以下行:
Install-Package Syncfusion.PDF.OCR.Net.Core -Version 20.2.0.38
IronOCR 與 SyncFusion Essential PDF OCR 之間的比較,圖 9

該套件現在將下載/安裝到當前項目,並準備使用。

6. 在 PDF 文件上執行光學字符識別 (OCR)

IronOCR 和 Syncfusion OCR 都能在 PDF 文件上執行 OCR。這裡,我們將討論如何在 Visual Studio 中使用它們。

6.1. 使用 IronOCR 提取 PDF OCR 文字

只需几行代码,开发人员即可对整个 PDF 或特定页/部分执行 OCR。请参考下面的代码片段。

using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;
var Ocr = new IronTesseract();
using (var Input = new OcrInput())
{
    Input.AddPdf("example.pdf", "password");
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
Imports IronOcr
Private Ocr = New IronTesseract()
Using Input = New OcrInput()
	Input.AddPdf("example.pdf", "password")
	Dim Result = Ocr.Read(Input)
	Console.WriteLine(Result.Text)
End Using
VB   C#

6.2. 使用 Syncfusion Essential PDF OCR 進行 PDF 光學字符識別文本提取

您可以使用 OCRProcessor 類對 PDF 文件以及文件的某些區域進行 OCR。以下代碼示例提供了相關上下文。

using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
//initialize the ocr processor
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
{
PdfLoadedDocument lDoc = new PdfLoadedDocument("Input.pdf");
processor.Settings.Language = Languages.English;
processor.PerformOCR(lDoc, @"TessData\");
lDoc.Save("Sample.pdf");
lDoc.Close(true);
}
Imports Syncfusion.OCRProcessor
Imports Syncfusion.Pdf.Graphics
Imports Syncfusion.Pdf.Parsing
'initialize the ocr processor
Using processor As New OCRProcessor("TesseractBinaries\")
Dim lDoc As New PdfLoadedDocument("Input.pdf")
processor.Settings.Language = Languages.English
processor.PerformOCR(lDoc, "TessData\")
lDoc.Save("Sample.pdf")
lDoc.Close(True)
End Using
VB   C#

7. 對圖像執行 OCR

這兩個庫都可以在 C#.NET 和 .NET Core 應用中對圖像執行 OCR。

7.1. 使用 IronOCR 對圖像進行 OCR

IronOCR 在自動檢測和讀取不完美掃描圖像的文字的能力上是獨一無二的,僅需兩行代碼即可。

using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
using IronOcr;
var Result = new IronTesseract().Read(@"images\11111.png").Text;
Imports IronOcr
Private Result = (New IronTesseract()).Read("images\11111.png").Text
VB   C#

OCR輸入圖像

IronOCR 與 SyncFusion Essential PDF OCR 的比較,圖 10

OCR OUTPUT form IMAGE
OCR Output
Simple Data Outputs:
» NET Text Strings
» Barcode & QR Data & Images
Structured Data Outputs:
» Pages
» Blocks
» Paragraphs
» Lines
» words
» Characters
Export Documents:
» Searchable PDFs
» hOCR / HTML Export
» Images of any Page, Text
Element or Barcode

7.2. 使用Syncfusion Essential PDF OCR Processor在圖像上進行OCR

Syncfusion Essential PDF能夠非常準確地從圖像中提取文本。

using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
using (OCRProcessor processor = new OCRProcessor(@"TesseractBinaries\"))
using Syncfusion.OCRProcessor;
using Syncfusion.Pdf.Graphics;
using Syncfusion.Pdf.Parsing;
{
//loading the input image
Bitmap image = new Bitmap("11111.jpeg");
//Set OCR language to process
processor.Settings.Language = Languages.English;
//Process OCR by providing the bitmap image, data dictionary and language
string ocrText= processor.PerformOCR(image, @"TessData\");
}
Using processor As New OCRProcessor("TesseractBinaries\")
Using Syncfusion.OCRProcessor
End Using
End Using
Using Syncfusion.Pdf.Graphics
	Using Syncfusion.Pdf.Parsing
	'loading the input image
	Dim image As New Bitmap("11111.jpeg")
	'Set OCR language to process
	processor.Settings.Language = Languages.English
	'Process OCR by providing the bitmap image, data dictionary and language
	Dim ocrText As String= processor.PerformOCR(image, "TessData\")
	End Using
End Using
VB   C#

OCR 輸入圖像

IronOCR 和 SyncFusion Essential PDF OCR 的比較,圖11



OCR 輸出來自圖像

OCR 輸出

簡單數據輸出:

+ NET 文字字串

Dee eT Nd

tC eke ass

Biren
```)

大豆

秒

奥尔斯

海

播種

TLC

伊雷斯

Smt d

見 amr'

在 ieot

請提供內容以進行翻譯。

## 8. 授權

使用 IronOCR 和 Syncfusion Essential PDF 都需要軟體授權。

### 8.1. IronOCR 授權

IronOCR 為個人、非商業專案提供免費開發授權。

IronOCR 為商業授權提供獨特的價格結構。Lite 套裝方案從 $749 開始且無其他額外費用。所有授權均包含 30 天退款保證、一年的軟件支援和升級、開發、測試、分階段、和生產的有效性,以及永久授權。 (一次性購買)了解更多有關IronOCR完整的定價結構和授權資訊,請訪問 [此頁面](/csharp/ocr/licensing/)一次性付款 $1599,即可獲得 SaaS 和 OEM 產品的免版稅再分配權。

<div class="content-img-align-center">
    <img src="/static-assets/ocr/blog/syncfusion-ocr-alternatives/syncfusion-ocr-alternatives-12.webp" alt="IronOCR 與 SyncFusion Essential PDF OCR 的比較,圖12" class="img-responsive add-shadow" />
    <p class="content__image-caption"></p>
</div>
### 8.2. Syncfusion Essential PDF 許可證

Syncfusion Essential PDF 提供三種類型的開發人員許可證,但不提供 SaaS 和 OEM 覆蓋範圍。
- **社區許可證。** 社區許可證對於最多5名開發人員的開發者和小型公司免費,還包括在線支持。
- **零售許可證。** 零售許可證是一年期的許可證,必須單獨為組織中的每位開發人員購買。零售許可證的起價為每位開發人員每年 $995。
- **無限制許可證。** 這個選項為整個組織提供年度許可證,但價格較低。

查看 Syncfusion Essential PDF 的完整許可證結構。 (以及其他 Syncfusion 元件) 之上 <a href="https://www.syncfusion.com/sales/products" target="_blank" rel="nofollow noopener noreferrer">產品授權頁面</a>.

<div class="content-img-align-center">
    <img src="/static-assets/ocr/blog/syncfusion-ocr-alternatives/syncfusion-ocr-alternatives-13.webp" alt="IronOCR 和 SyncFusion Essential PDF OCR 的比較,圖 13" class="img-responsive add-shadow" />
    <p class="content__image-caption"></p>
</div>
## 9. 結論

IronOCR 支援約 125 種全球語言。其處理能力包括:對 PDF 文件或圖像的部分進行 OCR,從 PDF 和照片中提取文本,以及校正劣質圖像,等等。IronOCR 優先考慮速度和準確性。其準確率達到 99.8%,比市場上任何其他基於 Tesseract 的 OCR 庫都要高。IronOCR 開箱即用,無需進行性能調整或圖像預處理。

Syncfusion Essential PDF OCR 也使用 Google 開源的 tesseract 引擎。它可以在整個文件或文件的特定部分進行 OCR。Syncfusion 的 OCR 庫支援超過 60 種國際語言。

IronOCR 授權具有終身有效性,並提供無限支持和 SaaS 及 OEM 覆蓋。另一方面,Syncfusion Essential PDF OCR 提供按年收費的授權。IronOCR 計價從 $749 開始,而 Syncfusion 的定價從每年 $995 起。

通過購買完整的 Iron Suite,可以以折扣價格獲得 IronOCR 及其他四款 Iron Software 產品。 [IronSuite](/suite/). Iron Suite 內包含的產品有:

1. IronPDF

2. IronOCR

3. IronXL

4. IronBarcode

5. IronWebscraper

Iron Software [授權頁面](/csharp/ocr/licensing/) 包含上述五種產品的價格和授權的詳細信息。
< 上一頁
IronOCR與Aspose.OCR的比較
下一個 >
IronOCR與AWS Textract OCR的比較

準備開始了嗎? 版本: 2024.10 剛剛發布

免費 NuGet 下載 總下載次數: 2,433,305 查看許可證 >