如何使用 IronOCR 在 C# 中读取图像

已更新:2026年3月1日

Translated

View the article in English

IronOCR 利用光学字符识别技术，从 TIFF 和 BMP 格式的图像中提取文本。安装 NuGet 软件包后，只需一行代码即可完成基本的文本提取。

OCR（光学字符识别）技术可识别和提取图像中的文本。它通过从扫描页面、照片或其他图像文件中提取文本内容，将印刷文件数字化。 IronOCR 使用Tesseract 5的先进机器学习算法，并结合专有的图像预处理技术，实现了业界领先的准确度。

该库支持 tiff 和 bmp 格式。图像过滤器通过自动纠正常见的质量问题来提高阅读能力。 IronOCR 将Tesseract 5与先进的预处理技术相结合，可对不同图像质量和格式（从高分辨率扫描到压缩的 Web 图像）提供准确的结果。

快速入门：使用 IronOCR 读取图像文件

用一行代码从图像中提取文本。此示例通过 Read 方法在 IronTesseract 上加载图片并读取其文本。该库可自动处理图像预处理和文本提取。

使用 NuGet 包管理器安装 https://www.nuget.org/packages/IronOcr
PM > Install-Package IronOcr

复制并运行这段代码。

var result = new IronTesseract().Read(new OcrImageInput("Potter.png"));

部署到您的生产环境中进行测试

通过免费试用立即在您的项目中开始使用IronOCR

最小工作流程（5 个步骤）

下载用于读取图像的 C# 库
支持 jpg、png、gif、tiff 和 bmp 格式的图像
实例化OcrImageInput类以输入图像
使用Read方法对输入图像执行 OCR 操作
指定作物区域以定义读取区域

如何使用 IronOCR 阅读图像？

首先实例化 IronTesseract 类。使用 'using' 语句，通过图像文件路径创建一个 OcrImageInput 对象。这样才能确保资源的妥善处理。 IronOCR 支持 jpg、png、gif、tiff 和 bmp 格式。使用 Read 方法执行 OCR。该库可自动检测图像格式并进行适当的预处理。

对于新用户，请参阅Windows 安装指南或探索NuGet 软件包选项。有关跨平台开发，请查看 Linux 安装或 macOS 安装。

[{我：（
从 2025.6 版开始：

现在加载 TIFF 图像的性能稳定提升。
阅读 TIFF 图像时，性能的提高取决于机器的 GPU。部分用户可能会体验到速度提升两倍，而其他用户则可能发现性能与之前的版本类似。 )}]

/* :path=/static-assets/ocr/content-code-examples/how-to/input-images-read.cs */
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add image
using var imageInput = new OcrImageInput("Potter.png");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Display the extracted text
Console.WriteLine(ocrResult.Text);

// Get confidence level
double confidence = ocrResult.Confidence;
Console.WriteLine($"Confidence: {confidence}%");

/* :path=/static-assets/ocr/content-code-examples/how-to/input-images-read.cs */
using IronOcr;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Add image
using var imageInput = new OcrImageInput("Potter.png");

// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Display the extracted text
Console.WriteLine(ocrResult.Text);

// Get confidence level
double confidence = ocrResult.Confidence;
Console.WriteLine($"Confidence: {confidence}%");

Imports IronOcr

' Instantiate IronTesseract
Dim ocrTesseract As New IronTesseract()

' Add image
Using imageInput As New OcrImageInput("Potter.png")
    ' Perform OCR
    Dim ocrResult As OcrResult = ocrTesseract.Read(imageInput)

    ' Display the extracted text
    Console.WriteLine(ocrResult.Text)

    ' Get confidence level
    Dim confidence As Double = ocrResult.Confidence
    Console.WriteLine($"Confidence: {confidence}%")
End Using

$vbLabelText $csharpLabel

请访问如何读取多帧/页 GIF 和 TIFF 以读取 TIFF 和 GIF 图像。对于多页面，请参阅多页面 TIFF 处理示例。

置信度为何重要？

置信度表示 IronOCR 对提取文本准确性的把握。 85% 以上的数值通常表示结果可靠。分数较低的译文可能需要进行图像预处理或人工审核。使用置信度分数自动标记文档以供人工验证，或触发额外的图像优化过滤器。

何时应使用不同的图像格式？

由于采用无损压缩，PNG 和 TIFF 格式可提供最佳 OCR 效果。单页文件使用 PNG，多页扫描文件使用 TIFF。 JPEG 可以很好地处理照片，但可能会产生压缩伪影。 BMP 可提供未压缩的质量，但文件大小较大。 GIF 适合色彩有限的简单图形。了解更多关于特定格式优化的信息。

常见的图像阅读错误有哪些？

常见错误包括图像分辨率低（低于 200 DPI）、文本歪斜、对比度差或不支持的语言。 IronOCR 可自动纠正许多问题，但严重问题可能需要人工预处理。有关解决方案，请参见我们的故障排除指南。

如何以字节形式导入图像？

OcrImageInput 类接受以文件路径、字节数组、Stream 或 Image 对象形式提供的图像。 AnyBitmap 是 IronSoftware.Drawing.AnyBitmap 中的一个位图对象。这种灵活性可实现与数据库、网络 API 和云存储等各种数据源的无缝集成。

这种灵活性有助于处理数据库、网络服务或内存流中的图像。有关高级流处理，请参阅使用输入流的OCR。 System.Drawing集成指南提供了更多示例，以实现传统代码的兼容性。

:path=/static-assets/ocr/content-code-examples/how-to/input-images-import-byte.cs

using IronOcr;
using System.IO;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Read byte from file
byte[] data = File.ReadAllBytes("Potter.tiff");

// Import image byte
using var imageInput = new OcrImageInput(data);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

Imports IronOcr
Imports System.IO

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Read byte from file
Private data() As Byte = File.ReadAllBytes("Potter.tiff")

' Import image byte
Private imageInput = New OcrImageInput(data)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(imageInput)

$vbLabelText $csharpLabel

什么情况下应使用字节数组而不是文件路径？

当图片来自数据库、网络服务或加密来源时，字节数组的效果最佳。它们提供了更好的安全性，因为文件不需要临时磁盘存储。在云应用程序、微服务或处理敏感文档时使用字节数组。文件路径对于本地批量处理大型图像集仍然更有效率。

using IronOcr;
using IronSoftware.Drawing;
using System.IO;

// Method 1: From URL
var imageFromUrl = AnyBitmap.FromUri("https://example.com/document.jpg");
using var urlInput = new OcrImageInput(imageFromUrl);

// Method 2: From Stream
using var fileStream = File.OpenRead("document.png");
using var streamInput = new OcrImageInput(fileStream);

// Method 3: From System.Drawing (with IronSoftware.Drawing)
var bitmap = AnyBitmap.FromFile("scan.bmp");
using var bitmapInput = new OcrImageInput(bitmap);

// Process any of these inputs
IronTesseract ocr = new IronTesseract();
OcrResult result = ocr.Read(bitmapInput);

using IronOcr;
using IronSoftware.Drawing;
using System.IO;

// Method 1: From URL
var imageFromUrl = AnyBitmap.FromUri("https://example.com/document.jpg");
using var urlInput = new OcrImageInput(imageFromUrl);

// Method 2: From Stream
using var fileStream = File.OpenRead("document.png");
using var streamInput = new OcrImageInput(fileStream);

// Method 3: From System.Drawing (with IronSoftware.Drawing)
var bitmap = AnyBitmap.FromFile("scan.bmp");
using var bitmapInput = new OcrImageInput(bitmap);

// Process any of these inputs
IronTesseract ocr = new IronTesseract();
OcrResult result = ocr.Read(bitmapInput);

Imports IronOcr
Imports IronSoftware.Drawing
Imports System.IO

' Method 1: From URL
Dim imageFromUrl = AnyBitmap.FromUri("https://example.com/document.jpg")
Using urlInput As New OcrImageInput(imageFromUrl)

    ' Method 2: From Stream
    Using fileStream As FileStream = File.OpenRead("document.png")
        Using streamInput As New OcrImageInput(fileStream)

            ' Method 3: From System.Drawing (with IronSoftware.Drawing)
            Dim bitmap = AnyBitmap.FromFile("scan.bmp")
            Using bitmapInput As New OcrImageInput(bitmap)

                ' Process any of these inputs
                Dim ocr As New IronTesseract()
                Dim result As OcrResult = ocr.Read(bitmapInput)

            End Using
        End Using
    End Using
End Using

$vbLabelText $csharpLabel

为什么内存管理对图像字节很重要？

大图像会消耗大量内存，尤其是在同时处理多个文档时。使用 "using "语句可确保适当的资源处理。对于批处理，可考虑实施一个队列系统，限制并发操作。多线程指南展示了高效的内存管理技术。

不同输入类型对性能有何影响？

文件路径可为本地文件提供最快的性能，因为 IronOCR 可直接读取数据。字节阵列需要将整个图像加载到内存中，但具有灵活性。流通过增量读取数据来平衡内存使用和性能。要获得大批量运行时的最佳性能，请参阅我们的性能调优指南。

如何指定扫描区域？

在实例化 OcrImageInput 时，传递 CropRectangle 参数以指定要处理的图像区域。限制扫描区域可显著提高性能。下面的示例只翻译了章节号和标题。在针对特定文档区域进行翻译时，这项技术最多可将处理时间缩短 90%。

对于复杂布局或多个区域，请参阅图像的OCR 区域。内容区域指南解释了高级区域选择技术。

:path=/static-assets/ocr/content-code-examples/how-to/input-images-read-specific-region.cs

using IronOcr;
using IronSoftware.Drawing;
using System;

// Instantiate IronTesseract
IronTesseract ocrTesseract = new IronTesseract();

// Specify crop region
Rectangle scanRegion = new Rectangle(800, 200, 900, 400);

// Add image
using var imageInput = new OcrImageInput("Potter.tiff", ContentArea: scanRegion);
// Perform OCR
OcrResult ocrResult = ocrTesseract.Read(imageInput);

// Output the result to console
Console.WriteLine(ocrResult.Text);

Imports IronOcr
Imports IronSoftware.Drawing
Imports System

' Instantiate IronTesseract
Private ocrTesseract As New IronTesseract()

' Specify crop region
Private scanRegion As New Rectangle(800, 200, 900, 400)

' Add image
Private imageInput = New OcrImageInput("Potter.tiff", ContentArea:= scanRegion)
' Perform OCR
Private ocrResult As OcrResult = ocrTesseract.Read(imageInput)

' Output the result to console
Console.WriteLine(ocrResult.Text)

$vbLabelText $csharpLabel

为什么指定区域可以提高性能？

只处理相关图像区域可减少 60-90% 的计算开销。 OCR 引擎会分析输入区域的每个像素，因此区域越小，处理速度越快。这种方法还可以消除目标文本区域之外的页眉、页脚或装饰元素的潜在干扰，从而提高准确性。

何时应使用多个扫描区域？

对于具有不同文本区域的文档，如表单、发票或多栏布局，可使用多个区域。对每个区域进行单独处理，以保持合理的文本流。这种方法适用于提取表格数据或从结构化文档中读取特定字段。

坐标系有哪些约定？

IronOCR 使用标准像素坐标，原点（0,0）位于左上角。 X 向右增加，Y 向下增加。矩形参数为（X、Y、宽度、高度）。要精确选择区域，可使用图像编辑工具来识别像素坐标，或在应用程序中实施可视化区域选择器。

如何应用高级图像处理？

IronOCR 提供全面的图像预处理功能，以提高 OCR 的准确性。在处理低质量图像、扫描文件或具有挑战性的条件时应用过滤器。滤镜向导可帮助确定特定图像的最佳滤镜组合。

using IronOcr;

IronTesseract ocr = new IronTesseract();

using var input = new OcrImageInput("low-quality-scan.jpg");

// Apply image enhancement filters
input.Deskew();  // Correct image rotation
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
input.EnhanceResolution(300); // Adjust DPI for better accuracy

// Configure for better accuracy
ocr.Configuration.WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";
ocr.Configuration.Language = OcrLanguage.English;

OcrResult result = ocr.Read(input);

using IronOcr;

IronTesseract ocr = new IronTesseract();

using var input = new OcrImageInput("low-quality-scan.jpg");

// Apply image enhancement filters
input.Deskew();  // Correct image rotation
input.DeNoise(); // Remove background noise
input.Binarize(); // Convert to black and white
input.EnhanceResolution(300); // Adjust DPI for better accuracy

// Configure for better accuracy
ocr.Configuration.WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";
ocr.Configuration.Language = OcrLanguage.English;

OcrResult result = ocr.Read(input);

Imports IronOcr

Dim ocr As New IronTesseract()

Using input As New OcrImageInput("low-quality-scan.jpg")
    ' Apply image enhancement filters
    input.Deskew()  ' Correct image rotation
    input.DeNoise() ' Remove background noise
    input.Binarize() ' Convert to black and white
    input.EnhanceResolution(300) ' Adjust DPI for better accuracy

    ' Configure for better accuracy
    ocr.Configuration.WhiteListCharacters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
    ocr.Configuration.Language = OcrLanguage.English

    Dim result As OcrResult = ocr.Read(input)
End Using

$vbLabelText $csharpLabel

了解图像优化过滤器和修复低质量扫描。有关色彩校正需求，请参阅图像色彩校正指南。

何时应用图像预处理过滤器？

在处理扫描文件、文本照片或存在质量问题的图像时，应用过滤器。常见的情况包括修复倾斜的页面、去除复印件中的背景噪音或增强褪色文本。 DPI设置指南有助于优化分辨率相关问题。

为什么过滤器顺序很重要？

筛选序列对结果有很大影响。首先应用旋转校正（Deskew），随后进行降噪处理，最后进行对比度增强。二值化通常应放在最后。不正确的排序会放大问题，例如，先锐化再去噪会增加噪点的可见度。测试不同的序列，以获得最佳效果。

常见的预处理错误有哪些？

过度处理是最常见的错误。过度锐化会产生伪影，激进的去噪会去除文本细节，而不恰当的二值化阈值则会丢失信息。从最少的预处理开始，只在需要时添加过滤器。图像质量校正指南提供了详细的最佳实践。

如何优化性能？

在处理多张图片或大批量图片时，请考虑这些优化措施：

重用 IronTesseract 实例：创建一个实例以执行多项操作
指定扫描区域：将OCR限制在相关图像区域以提高60-90%的效率
使用合适的图像格式：PNG和TIFF比JPEG提供更好的结果
选择性应用预处理：仅在必要时使用过滤器
实现并行处理：利用多核CPU进行批量操作

有关高性能应用场景，请参阅多线程指南和快速 OCR 配置。进度跟踪功能有助于监控长期运行的操作。

为什么实例重用可以提高性能？

IronTesseract 初始化过程会加载语言数据并配置 OCR 引擎，耗时 200-500 毫秒。重复使用实例可以消除后续操作的开销。为网络应用程序创建单例实例，或为批处理创建共享实例，以最大限度地提高效率。

何时应使用并行处理？

并行处理有利于使用多个独立图像的场景。同时处理不同的页面或文档，但避免对同一图像进行并行操作。现代 CPU 可有效处理 4-8 次并发 OCR 操作。监控内存使用情况，因为每次操作需要 100-500MB 的内存，具体取决于图像大小。

内存使用注意事项有哪些？

OCR 操作在 RAM 中通常需要 10-20 倍的图像文件大小。一张 5MB 的图片在处理过程中可能会占用 50-100MB 的空间。对于大批量生产，采用生产者-消费者模式，限制并发操作。 abort 标记示例演示了取消内存密集型操作。

下一步是什么？

使用这些资源从更复杂的场景中提取文本：

从PDF读取文本 – 使用OCR处理PDF文档
从截图中提取数据 – 捕获并读取屏幕内容
处理扫描文档 – 处理多页扫描文件
使用System.Drawing对象 – 与现有.NET图像代码集成
读取多种语言 – 提取125+种语言的文本
处理特定文档类型 - 优化护照、发票等文档类型

常见问题解答

哪些图像格式可以读取 C# 中的文本提取？

IronOCR 支持从 JPG、PNG、GIF、TIFF 和 BMP 图像格式中读取文本。该库可自动检测图像格式，并应用适当的预处理以获得最佳文本提取效果。

如何用一行代码从图像文件中提取文本？

您可以使用 IronOCR 一行提取文本：`var result = new IronTesseract().Read(new OcrImageInput("image.png"));`.这将使用 Tesseract 5 OCR 技术自动处理图像预处理和文本提取。

什么 OCR 技术用于读取图像？

IronOCR 将 Tesseract 5 先进的机器学习算法与专有的图像预处理技术相结合。从高分辨率扫描图像到压缩网络图像，IronOCR 在不同质量和格式的图像上都能提供业界领先的准确性。

阅读图片时如何正确处理资源？

在创建 OcrImageInput 对象时使用 "using "语句，以确保适当的资源处置。该模式会自动管理内存和文件句柄：`using var ocrInput = new OcrImageInput("image.jpg");`

我能否读取图像的特定区域而不是整个文件？

是的，IronOCR 允许您指定裁剪区域，以定义图像中的特定阅读区域。该功能有助于将 OCR 处理集中在图像的相关部分，从而提高性能和准确性。

自动对图像进行了哪些预处理？

IronOCR 可自动应用图像过滤器，通过纠正常见的质量问题来增强阅读能力。该库可处理格式检测和预处理，基本用例无需手动配置。

TIFF 图像处理的性能是否有提高？

从 IronOCR 2025.6 版开始，加载 TIFF 图像的性能持续提高。读取 TIFF 图像的性能提高取决于机器的 GPU，有些用户的读取速度是以前版本的两倍。

使用IronOCR进行文档管理有什么好处？

使用IronOCR进行文档管理可以通过将扫描的文档转换为可搜索和可编辑文本来简化工作流程，减少手动数据输入的需要，提高文档可访问性。

IronOCR如何提高数据准确性？

IronOCR通过其高级识别算法和图像校正功能提高数据准确性，确保文本提取过程既可靠又精确。

IronOCR 有免费试用版吗？

是的，Iron Software 提供IronOCR 的免费试用，使用户在做出购买决定之前可以测试其功能和能力。

Curtis Chau

立即与工程团队聊天

技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位，专注于前端开发，精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面，喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外，Curtis 对物联网 (IoT) 有浓厚的兴趣，探索将硬件和软件集成的新方法。在空闲时间，他喜欢玩游戏和构建 Discord 机器人，将他对技术的热爱与创造力相结合。

Jeffrey T. Fritz

首席项目经理 - .NET 社区团队

Jeff 也是 .NET 和 Visual Studio 团队的首席项目经理。他是 .NET Conf 虚拟会议系列的执行制片人，并主持“Fritz and Friends”直播节目，每周两次与观众一起谈论技术并编写代码。Jeff 撰写研讨会、演示文稿并计划包括 Microsoft Build、Microsoft Ignite、.NET Conf 和 Microsoft MVP 峰会在内的最大型微软开发者活动的内容。

准备开始了吗？

Nuget 下载 5,896,332 | 版本: 2026.5 just released

查看许可证

还在滚动吗？

想快速获得证据？ PM > Install-Package IronOcr
运行示例观看您的图像变成可搜索文本。

查看许可证

开始免费 30 天试用

本页内容

如何使用 IronOCR 在 C# 中读取图像

使用 NuGet 包管理器安装 https://www.nuget.org/packages/IronOcr

复制并运行这段代码。

部署到您的生产环境中进行测试

最小工作流程（5 个步骤）

如何使用 IronOCR 阅读图像？

置信度为何重要？

何时应使用不同的图像格式？

常见的图像阅读错误有哪些？

如何以字节形式导入图像？

什么情况下应使用字节数组而不是文件路径？

为什么内存管理对图像字节很重要？

不同输入类型对性能有何影响？

如何指定扫描区域？

为什么指定区域可以提高性能？

何时应使用多个扫描区域？

坐标系有哪些约定？

如何应用高级图像处理？

何时应用图像预处理过滤器？

为什么过滤器顺序很重要？

常见的预处理错误有哪些？

如何优化性能？

为什么实例重用可以提高性能？

何时应使用并行处理？

内存使用注意事项有哪些？

下一步是什么？

常见问题解答

哪些图像格式可以读取 C# 中的文本提取？

如何用一行代码从图像文件中提取文本？

什么 OCR 技术用于读取图像？

阅读图片时如何正确处理资源？

我能否读取图像的特定区域而不是整个文件？

自动对图像进行了哪些预处理？

TIFF 图像处理的性能是否有提高？

使用IronOCR进行文档管理有什么好处？

IronOCR如何提高数据准确性？

IronOCR 有免费试用版吗？

还在滚动吗？

免费获取

下一步：开始免费 30 天试用

Thank You

下一步：开始免费 30 天试用

Want to deploy IronSuite to a live project for FREE?

What’s included?

深受全球数百万工程师信赖

钢铁支援团队