PDF OCR文字提取
Iron Tesseract 可以讀取多種影像格式,還有 PDF 文件。這項功能在傳統的免費 Tesseract 引擎上是無法實現的。
OcrInput
提供選項,可以自動修正 PDF 的特性,如果掃描質量較差。
開發者可以指定讀取整個 PDF、一部分頁面或單一裁剪區域。
如何使用 C# 進行 PDF 文件 OCR
- 下載C#程式庫以進行PDF檔案的光學字符辨識 (OCR)
- 使用
添加PDF
添加 PDF 文件的方法 - 新增特定的 PDF 文檔頁面至
添加PDFPages
方法 - 利用
讀取
方法 to perform OCR on added PDF - 查看所有 QR Code 值
條碼
屬性存取 文本 屬性來檢索OCR結果
C# PDF OCR
許多光學字符辨識(OCR)工具在最佳狀況下工作良好,但當您需要一個在任何情況下都能改進穩定性和準確性的工具時,IronOCR 的文字擷取解決方案正是您所需的。
IronOCR 的文字擷取從頭開始構建,具備將真實世界圖像轉換成 99% 準確度的能力。
IronTesseract
,我們的原生 C# OCR 庫,能夠以幾乎像人類的方式從真實世界圖像中識別字符,即使這些圖像質量不佳,有時還會歪斜。
我們的 OCR 允許自動校正 PDF 或圖像特性,假如掃描品質不佳的話。
當我帶領您了解目前最頂尖的 OCR 解決方案時,您將能夠親眼見證它的效果。
為什麼選擇IronOCR來進行圖像或PDF OCR文本提取?
選擇IronOCR解決方案進行Tesseract管理是顯而易見的選擇,如果我們考慮到其獨特的能力,包括以下幾點:
IronOCR for PDF OCR文本提取引擎在純.NET環境中即插即用
它不需要在您的機器上安裝Tesseract。
它與最新的引擎(Tesseract 5)配合使用時效果出色 (以及 Tesseract 4 和 3)。
它適用於任何 .NET 專案:.NET Framework 4.5 +、.NET Standard 2 + 和 .NET Core 2、3 & 5!
它在精度和速度方面優於其他開源的 Tesseract。
IronOCR 支援 Xamarin、Mono、Azure 和 Docker 開發平台。
您可以使用 NuGet 套件管理複雜的 Tesseract 字典系統。
它可以從 PDF、多幀 Tiff 和所有主要圖像文件中提取文本,而不需要任何額外的處理。
- 它能夠校正低質量和傾斜的圖像掃描,以獲得最佳的文本提取效果。
請查看我們關於 IronOCR 解決方案的完整教程 這裡。
您有質量差的掃描件嗎?沒問題!
IronOCR 在 OCR 任務中表現得更上一層樓。實際上,許多類似產品是為了與機器打印、高解析度和完美的文字或圖像協同運作,因此在實際應用中會變得不準確或無法工作。然而,IronOCR 並非如此。
IronOCR 擅長修正不完美的文件。它可以校正歪斜的掃描圖像並增強低質量的照片,使之成為可搜索的 PDF 文件或圖像。這就是我們產品與眾不同之處。
調整 IronOCR 性能以適應您的工作流程
利用 Iron Software OCR 解決方案,您可以調整文本提取任務的性能,以獲得適合您工作流程的平衡。我們知道這對許多用戶和開發者來說非常重要,所以我們將我們的 OCR 解決方案設計為可調節性能且靈活的。
例如,影響 OCR 工作速度的一個非常重要的因素是輸入圖像的質量。當背景噪音較少且同時具備較高的 dpi ( 200 dpi 是一個不錯的範圍), 產能越高且 OCR 結果越準確。然而,使用 IronOCR 的效能調整功能,甚至低品質影像的任務也能迅速完成。
此外,選擇數位雜訊較少的輸入影像或掃描文本格式,如 PNG 或 TIFF,比低品質的影像格式如 JPEG 也能有更快速的結果。
安裝 IronOCR 解決方案非常簡單
Iron Software 套件非常容易安裝和運行。它可用於最受歡迎的開發平台。我們的解決方案具有跨平台支持,包括 Windows、Linux、macOS、Azure、AWS 和 Docker——這就是 C# 成為開發者中最受歡迎的 Tesseract OCR 引擎的原因。
支援超過125種國際語言
對於OCR工作,當軟體支援多種語言時,將變得更加實用。IronOCR解決方案因支援125種國際語言而使自己變得不可或缺。這些語言可以通過分發的語言包以DLL文件的形式安裝。可以從此網站或Visual Studio的NuGet Package Manager下載。
如何安裝 OCR 語言包
支援一百二十種語言。您可以下載任何 額外的OCR語言包 使用兩種方法:
安裝 NuGet 套件
在 NuGet 中搜尋 IronOCR Languages。
使用 OCR 數據方法
下載「ocrdata」文件並將其添加到您的 .NET 專案或程式文件中。
Set CopyToOutputDirectory = CopyIfNewer
Set CopyToOutputDirectory = CopyIfNewer
輕鬆地從掃描文件或圖像中建立可搜索的文件
我們非常自豪的其中一個功能是,我們的 Tesseract 軟體能夠從輸入圖像或掃描的 PDF 文件中建立可搜索的 PDF 文件或可搜索的文字。您可以將 OCR 的結果匯出為 PDF,在 C# 和 VB.NET 中這將是一個可搜索的 PDF 文件。這對於企業和政府在資料庫填充、SEO 和 PDF 文檔方面有很大的幫助。
利用最佳OCR工具的強大功能
IronOCR是同類中最優秀的工具,用於從圖片和文件中擷取文字。它擁有許多功能、特性和解決方案,可以讓你在完成OCR任務時獲得輕鬆順暢的體驗。
我們的OCR Tesseract C#庫可以幫助你在如C#和.NET應用等開發環境中從圖片和掃描文件中擷取文字。
使用IronOCR,你甚至可以輕鬆打開受密碼保護的PDF文件,並流暢地擷取文字。
它還具備以下特點:
- 不需要exes或C++代碼
- 完全的PDF OCR支持
- 與MVC、Web應用、桌面、控制台和服務器應用程式相兼容
- 完全支持.NET Core、Standard和Framework
- 使用C#和VB .NET進行讀取
- 讀取QR和條形碼
- 將OCR導出為XHTML或可搜尋的PDF文檔
- 支持多線程
- 擷取圖片、坐標、統計數據、字體等更多內容
走向 IronOCR 的大膽步伐
考慮到這款令人難以置信的 OCR 解決方案的功能,如果您決定嘗試 IronOCR 絕對不會出錯。
使用我們的軟體只需點幾下。首先安裝 IronOCR —— 這是一個非常簡單的任務。此外,還有非常有幫助和 詳細的分步指南 使用我們的任何工具 操作指南,更不用說我們的資源豐富支援中心會盡快回應查詢 (幾乎立刻)不要猶豫 — 今天就選擇 IronOCR。這是學習如何在 C# 中讀取 PDF 文件的第一步,也是最重要的一步。
如果你還有任何疑慮,我們的免費試用授權碼是你的最佳選擇。它可以幫助你在沒有財務條件的情況下探索最新版本的 IronOCR 的全部潛力。它可以幫助你決定哪種軟體授權是最適合你的。如果你不確定,請不要猶豫,無論你身在何處,請聯繫我們的專家團隊。