ビデオ

Tesseractを使用して複数の言語を扱う方法

Kannaopat Udonpant
カンナパット・ウドンパント
2025年3月17日
共有:


このチュートリアルは、IronOCRと組み合わせてTesseractを使用し、PDFや画像から複数の言語でテキストを認識するための包括的なガイドを提供します。 まず、Nougetパッケージマネージャーを使用して、プロジェクトにIR OCRと必要な言語パックがインストールされていることを確認します。 必要な名前空間をインポートし、有効なライセンスキーを使ってIronOCRをセットアップし、その機能を最大限に活用します。 IronOCR Tesseract オブジェクトをインスタンス化して光学式文字認識を実行し、最初に英語をデフォルトの言語として使用します。 追加の言語、例えばロシア語をサポートするには、「add secondary language」メソッドを利用してください。

OCR PDF入力クラスを使用して、さまざまな言語のテキストを含む「example.PDF」という名前のPDFファイルを読み込みます。 OCRを実行してテキストコンテンツを抽出し、その結果を指定されたオブジェクトに保存します。 多言語文字の正確な表示を保証するために、コンソール出力エンコーディングをUnicodeに設定してから、抽出されたテキストをコンソールに出力してください。

さらに、主要言語をロシア語に調整し、日本語を第二言語として追加してください。 この変更により、ロシア語と日本語のテキスト両方の認識が容易になります。 OCR画像入力クラスを使用して多言語テキストを含む画像ファイル「example.png」を読み込み、設定された言語設定でOCRを実行します。 結果を保存し、画像から抽出したテキストをコンソールに出力します。

これらの手順に従うことで、さまざまなファイル形式から英語、ロシア語、日本語のテキストをシームレスに抽出して認識できます。このチュートリアルは、TesseractとIronOCRを使用して複数の言語を効果的に活用し、PDFや画像内の多言語テキストを簡単に処理できることを強調しています。 チュートリアルをさらに見るには、IronOCRを使い始めるには、Iron Softwareを購読し、トライアルに登録することを検討してください。

さらに読む: Tesseractを使用して複数の言語を使用する方法

ライブラリ_製品のお試し版_拡張ブロック

Kannaopat Udonpant
カンナパット・ウドンパント
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、カンナパットは日本の北海道大学から環境資源学の博士号を取得しました。学位を取得する過程で、カンナパットはバイオプロダクション工学部に所属する車両ロボティクス研究所のメンバーにもなりました。2022年には、C#のスキルを活かしてIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。カンナパットは、IronPDFで使用されているコードの大部分を作成した開発者から直接学べることに価値を見いだしています。同僚との学び合いに加えて、Iron Softwareで働くことの社会的側面も楽しんでいます。コードやドキュメントを書いていない時には、カンナパットは通常、PS5でゲームをしたり、『The Last of Us』を再視聴したりしています。
< 以前
IronOCRでOCR言語パックを使用する方法
次へ >
画像ファイルからテキストを抽出する方法