在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
本教程提供了一個完整的指南,教導如何結合使用Tesseract與IronOCR,從PDF和圖片中識別多種語言的文本。 首先,確保在您的專案中使用 Nouget 套件管理器安裝了 IronOCR 和必要的語言套件。 首先,匯入所需的命名空間並使用有效的許可證金鑰設置IronOCR,以解鎖其全部功能。 實例化 IronOCR Tesseract 物件以執行光學字符識別,最初使用英文作為預設語言。 若要新增對其他語言的支援,例如俄文,請利用「add secondary language」方法。
使用 OCR PDF 輸入類別載入名為 'example.PDF' 並包含多種語言文字的 PDF 檔案。 執行 OCR 以提取文本內容,將結果存儲在指定的對象中。 為確保多語言字元的正確顯示,在將提取的文字打印到控制台之前,請將控制台輸出編碼設置為 Unicode。
此外,將主要語言調整為俄語,並添加日語作為第二語言。 此修改便利了對俄文和日文文本的識別。 使用 OCR 圖像輸入類別加載包含多語文字的圖像文件「example.png」,並使用配置的語言設置執行 OCR。 將結果存儲並將從圖像中提取的文本打印到控制台。
按照這些步驟,您可以無縫地從各種文件類型中提取並識別英語、俄語和日語文本。本教程強調了使用多種語言與Tesseract和IronOCR的有效性,使得處理PDF和圖片中的多語言文本變得簡單明瞭。 欲了解更多教程並開始使用IronOCR,請訂閱Iron Software並考慮註冊試用。
進一步閱讀:如何使用多種語言與 Tesseract
30天試用密鑰立即獲取。
15天試用金鑰 立即可用。
不需要信用卡
您的試用金鑰應已發送至您的電子郵件。
成功提交。
如果沒有收到,請聯絡
support@ironsoftware.com
免費開始
不需要信用卡
在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
預約30分鐘的個人演示。
無合約,無卡片信息,無承諾。
10 .NET API 產品適用於您的辦公文檔