如何使用 Tesseract 的多种语言

How to use Multiple Languages with Tesseract

This article was translated from English: Does it need improvement?
Translated
View the article in English

在光学字符识别 (OCR) 技术领域,IronOCR 是一款广受赞誉的工具,以能够从各种语言和脚本中提取文本而著称。我们使用 Tesseract 引擎提供可靠易用的 OCR 工具。

在本文中,我们将探讨 IronOCR 如何借助 Tesseract 有效处理多语言文本。 无论您是正在寻找可靠的多语言 OCR 解决方案的资深开发人员,还是仅仅对其工作原理感到好奇,本文都将帮助您了解 IronOCR 及其 Tesseract 引擎,阐明这一宝贵工具的功能。

as-heading:2(快速入门:使用 IronOCR 识别多语言文本)</em

只需一行代码,您就可以用一种主要语言配置 IronOCR,并添加辅助语言,从文档或图像中提取多种语言的文本。 这种设置使开发人员能够快速、轻松地使用多语言 OCR。

Nuget IconGet started making PDFs with NuGet now:

  1. Install IronOCR with NuGet Package Manager

    PM > Install-Package IronOcr

  2. Copy and run this code snippet.

    string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text;
  3. Deploy to test on your live environment

    Start using IronOCR in your project today with a free trial
    arrow pointer