影片

如何使用多種語言與Tesseract

Kannaopat Udonpant
坎納帕特·烏頓潘
2025年3月17日
分享:


本教程提供了一個完整的指南,教導如何結合使用Tesseract與IronOCR,從PDF和圖片中識別多種語言的文本。 首先,確保在您的專案中使用 Nouget 套件管理器安裝了 IronOCR 和必要的語言套件。 首先,匯入所需的命名空間並使用有效的許可證金鑰設置IronOCR,以解鎖其全部功能。 實例化 IronOCR Tesseract 物件以執行光學字符識別,最初使用英文作為預設語言。 若要新增對其他語言的支援,例如俄文,請利用「add secondary language」方法。

使用 OCR PDF 輸入類別載入名為 'example.PDF' 並包含多種語言文字的 PDF 檔案。 執行 OCR 以提取文本內容,將結果存儲在指定的對象中。 為確保多語言字元的正確顯示,在將提取的文字打印到控制台之前,請將控制台輸出編碼設置為 Unicode。

此外,將主要語言調整為俄語,並添加日語作為第二語言。 此修改便利了對俄文和日文文本的識別。 使用 OCR 圖像輸入類別加載包含多語文字的圖像文件「example.png」,並使用配置的語言設置執行 OCR。 將結果存儲並將從圖像中提取的文本打印到控制台。

按照這些步驟,您可以無縫地從各種文件類型中提取並識別英語、俄語和日語文本。本教程強調了使用多種語言與Tesseract和IronOCR的有效性,使得處理PDF和圖片中的多語言文本變得簡單明瞭。 欲了解更多教程並開始使用IronOCR,請訂閱Iron Software並考慮註冊試用。

進一步閱讀如何使用多種語言與 Tesseract

現在開始使用IronOCR。
green arrow pointer

Kannaopat Udonpant
坎納帕特·烏頓潘
軟體工程師
在成為軟體工程師之前,Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間,Kannapat 也成為了車輛機器人實驗室的成員,該實驗室隸屬於生物生產工程學系。2022 年,他利用自己的 C# 技能,加入了 Iron Software 的工程團隊,專注於 IronPDF 的開發。Kannapat 珍視這份工作,因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外,Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時,Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。
< 上一頁
在 IronOCR 中如何使用 OCR 語言包
下一個 >
如何從圖像檔案中提取文本